वीडियो के संदर्भ को समझने वाले एआई के लिए ट्वेल्व लैब्स ने $12 मिलियन दिए

वीडियो के संदर्भ को समझने वाले एआई के लिए ट्वेल्व लैब्स ने $12 मिलियन दिए

प्रशिक्षण से डेटा वैज्ञानिक जे ली के लिए, यह कभी समझ में नहीं आया कि वीडियो – जो हमारे जीवन का एक बड़ा हिस्सा बन गया है, टिकटॉक, वीमियो और यूट्यूब जैसे प्लेटफार्मों के उदय के साथ – तकनीकी बाधाओं के कारण खोज करना मुश्किल था संदर्भ समझ द्वारा प्रस्तुत किया गया। वीडियो के शीर्षक, विवरण और टैग खोजना हमेशा काफी आसान था, इसके लिए एक बुनियादी एल्गोरिद्म से अधिक की आवश्यकता नहीं थी। लेकिन खोज रहे हैं अंदर विशिष्ट क्षणों और दृश्यों के वीडियो तकनीक की क्षमताओं से परे थे, खासकर अगर उन क्षणों और दृश्यों को स्पष्ट तरीके से लेबल नहीं किया गया था।

इस समस्या को हल करने के लिए, ली ने तकनीकी उद्योग के मित्रों के साथ वीडियो खोज और समझने के लिए एक क्लाउड सेवा का निर्माण किया। यह ट्वेल्व लैब्स बन गया, जिसने वेंचर कैपिटल में $17 मिलियन जुटाए – जिनमें से $12 मिलियन सीड एक्सटेंशन राउंड से आए जो आज बंद हो गए। रेडिकल वेंचर्स ने इंडेक्स वेंचर्स, WndrCo, स्प्रिंग वेंचर्स, वेट्स एंड बायसेस के सीईओ लुकास बिवाल्ड और अन्य से भागीदारी के साथ विस्तार का नेतृत्व किया, ली ने एक ईमेल में टेकक्रंच को बताया।

ली ने कहा, “ट्वेल्व लैब्स का विजन डेवलपर्स को ऐसे प्रोग्राम बनाने में मदद करना है जो दुनिया को देख, सुन और समझ सकें, जैसा कि हम उन्हें सबसे शक्तिशाली वीडियो अंडरस्टैंडिंग इंफ्रास्ट्रक्चर देकर करते हैं।”

ट्वेल्व लैब्स प्लेटफॉर्म की क्षमताओं का डेमो। छवि क्रेडिट: बारह लैब्स

ट्वेल्व लैब्स, जो वर्तमान में बंद बीटा में है, एआई का उपयोग आंदोलन और कार्यों, वस्तुओं और लोगों, ध्वनि, स्क्रीन पर पाठ, और उनके बीच संबंधों की पहचान करने के लिए भाषण जैसे वीडियो से “समृद्ध जानकारी” निकालने का प्रयास करने के लिए करती है। प्लेटफ़ॉर्म इन विभिन्न तत्वों को “वैक्टर” कहे जाने वाले गणितीय प्रतिनिधित्व में परिवर्तित करता है और फ़्रेम के बीच “टेम्पोरल कनेक्शन” बनाता है, जिससे वीडियो दृश्य खोज जैसे एप्लिकेशन सक्षम होते हैं।

ली ने कहा, “डेवलपर्स को बुद्धिमान वीडियो एप्लिकेशन बनाने में मदद करने के लिए कंपनी के दृष्टिकोण को प्राप्त करने के एक हिस्से के रूप में, ट्वेल्व लैब्स टीम मल्टीमॉडल वीडियो समझ के लिए ‘फाउंडेशन मॉडल’ बना रही है।” “डेवलपर्स इन मॉडलों को एपीआई के एक सूट के माध्यम से एक्सेस करने में सक्षम होंगे, न केवल सिमेंटिक खोज बल्कि अन्य कार्यों जैसे कि लंबे समय तक वीडियो ‘अध्यायीकरण’, सारांश पीढ़ी और वीडियो प्रश्न और उत्तर देने वाले अन्य कार्य भी करते हैं।”

Google अपने MUM AI सिस्टम के साथ वीडियो को समझने के लिए एक समान दृष्टिकोण अपनाता है, जिसका उपयोग कंपनी ऑडियो, टेक्स्ट और विज़ुअल के आधार पर वीडियो में विषयों (जैसे, “एक्रिलिक पेंटिंग सामग्री”) को चुनकर Google खोज और YouTube पर वीडियो अनुशंसाओं के लिए करती है। विषय। लेकिन जबकि तकनीक तुलनीय हो सकती है, बारह लैब्स इसके साथ बाजार में आने वाले पहले विक्रेताओं में से एक हैं; Google ने एमयूएम को आंतरिक रखने का विकल्प चुना है, इसे सार्वजनिक-सामना करने वाले एपीआई के माध्यम से उपलब्ध कराने से इंकार कर दिया है।

कहा जा रहा है कि, Google, साथ ही साथ Microsoft और Amazon, सेवाओं की पेशकश करते हैं (यानी, Google क्लाउड वीडियो एआई, एज़्योर वीडियो इंडेक्सर और एडब्ल्यूएस रिकॉग्निशन) जो वीडियो में वस्तुओं, स्थानों और कार्यों को पहचानते हैं और फ्रेम स्तर पर समृद्ध मेटाडेटा निकालते हैं। रेमिनिज़, एक फ्रांसीसी कंप्यूटर विज़न स्टार्टअप भी है जो किसी भी प्रकार के वीडियो को अनुक्रमित करने और रिकॉर्ड की गई और लाइव-स्ट्रीम की गई सामग्री दोनों में टैग जोड़ने में सक्षम होने का दावा करता है। लेकिन ली का दावा है कि बारह लैब्स पर्याप्त रूप से विभेदित हैं – आंशिक रूप से क्योंकि इसका प्लेटफॉर्म ग्राहकों को वीडियो सामग्री की विशिष्ट श्रेणियों के लिए एआई को ठीक करने की अनुमति देता है।

1670249169 740 वीडियो के संदर्भ को समझने वाले एआई के लिए ट्वेल्व

सलाद से संबंधित सामग्री के साथ बेहतर काम करने के लिए मॉडल को ठीक करने के लिए एपीआई का मॉकअप। छवि क्रेडिट: बारह लैब्स

“हमने पाया है कि विशिष्ट समस्याओं का पता लगाने के लिए बनाए गए संकीर्ण एआई उत्पाद नियंत्रित सेटिंग में अपने आदर्श परिदृश्यों में उच्च सटीकता दिखाते हैं, लेकिन वास्तविक दुनिया के डेटा को गड़बड़ाने के लिए इतनी अच्छी तरह से स्केल नहीं करते हैं,” ली ने कहा। “वे नियम-आधारित प्रणाली के रूप में अधिक कार्य करते हैं, और इसलिए भिन्नता होने पर सामान्यीकरण करने की क्षमता की कमी होती है। हम इसे संदर्भ की समझ के अभाव में निहित सीमा के रूप में भी देखते हैं। संदर्भ की समझ ही मनुष्य को वास्तविक दुनिया में प्रतीत होने वाली विभिन्न स्थितियों में सामान्यीकरण करने की अद्वितीय क्षमता प्रदान करती है, और यहीं पर ट्वेल्व लैब्स अकेली हैं।

खोज से परे, ली का कहना है कि बारह लैब्स की तकनीक विज्ञापन प्रविष्टि और सामग्री मॉडरेशन जैसी चीजों को संचालित कर सकती है, उदाहरण के लिए, बुद्धिमानी से यह पता लगाना कि चाकू दिखाने वाले वीडियो हिंसक बनाम निर्देशात्मक हैं। उनका कहना है कि इसका उपयोग मीडिया एनालिटिक्स और रीयल-टाइम फीडबैक के लिए भी किया जा सकता है, और स्वचालित रूप से वीडियो से हाइलाइट रील उत्पन्न करने के लिए भी किया जा सकता है।

इसकी स्थापना (मार्च 2021) के एक साल से थोड़ा अधिक समय बाद, बारह लैब्स ने ग्राहकों को भुगतान किया है – ली कितने सटीक रूप से प्रकट नहीं करेगा – और ओरेकल के क्लाउड इंफ्रास्ट्रक्चर का उपयोग करके एआई मॉडल को प्रशिक्षित करने के लिए ओरेकल के साथ एक बहु-वर्षीय अनुबंध। आगे देखते हुए, स्टार्टअप अपनी तकनीक के निर्माण और अपनी टीम का विस्तार करने के लिए निवेश करने की योजना बना रहा है। (ली ने बारह लैब्स के कार्यबल के वर्तमान आकार को प्रकट करने से मना कर दिया, लेकिन लिंक्डइन डेटा से पता चलता है कि यह लगभग 18 लोग हैं।)

“ज्यादातर कंपनियों के लिए, बड़े मॉडलों के माध्यम से प्राप्त किए जा सकने वाले विशाल मूल्य के बावजूद, वास्तव में उनके लिए इन मॉडलों को प्रशिक्षित करने, संचालित करने और बनाए रखने का कोई मतलब नहीं है। बारह लैब्स प्लेटफॉर्म का लाभ उठाकर, कोई भी संगठन केवल कुछ सहज एपीआई कॉल के साथ शक्तिशाली वीडियो समझने की क्षमताओं का लाभ उठा सकता है,” ली ने कहा। “एआई नवाचार की भविष्य की दिशा सीधे मल्टीमॉडल वीडियो समझ की ओर बढ़ रही है, और ट्वेल्व लैब्स 2023 में सीमाओं को आगे बढ़ाने के लिए अच्छी स्थिति में है।”

#वडय #क #सदरभ #क #समझन #वल #एआई #क #लए #टवलव #लबस #न #मलयन #दए

Yash Studio Keep Listening

yash studio

Connect With Us

Watch New Movies And Songs

shiva music

Read Hindi eBooks

ebook-shiva

Amar Bangla Potrika

Amar-Bangla-Patrika

Your Search for Property ends here

suneja realtors

Get Our App On Your Phone

X