- विश्व की अधिक वास्तविक समझ पर आधारित मशीन इंटेलिजेंस को आगे बढ़ाने के लिए Meta ने Video Joint Embedding Predictive Architecture (V-JEPA) मॉडल जारी किया।
- इस भौतिक विश्व मॉडल का प्रारंभिक उदाहरण वस्तुओं के बीच की सूक्ष्म अंतःक्रियाओं को पहचानने और समझने में उत्कृष्ट है।
- जिम्मेदार ओपन साइंस के दृष्टिकोण से, शोधकर्ताओं को आगे खोज करने देने के लिए इस मॉडल को Creative Commons NonCommercial लाइसेंस के तहत सार्वजनिक किया गया।
Video JEPA
- V-JEPA एक non-generative मॉडल है जो वीडियो के हटाए गए या ओझल भागों की भविष्यवाणी abstract representation space में करके सीखता है।
- यह मॉडल गैर-पूर्वानुमेय जानकारी को छोड़ने की flexibility रखता है, जिससे प्रशिक्षण और sample efficiency 1.5x से 6x तक बेहतर हो सकती है।
- V-JEPA केवल बिना लेबल वाले डेटा पर pre-training से गुजरता है, और लेबल केवल pre-training के बाद मॉडल को किसी विशेष कार्य पर लागू करते समय उपयोग होते हैं।
मास्किंग पद्धति
- V-JEPA किसी खास प्रकार की गति/एक्शन को समझने के लिए प्रशिक्षित नहीं है; यह विविध वीडियो पर self-supervised learning के जरिए दुनिया के काम करने के तरीके के बारे में कई चीजें सीखता है।
- masking strategy में वीडियो के बड़े क्षेत्रों को ब्लॉक करने या यादृच्छिक रूप से patches sample करने के बजाय, space और time दोनों में वीडियो के हिस्सों को mask करके मॉडल को scene को समझने और सीखने दिया जाता है।
कुशल पूर्वानुमान
- abstract representation space में पूर्वानुमान करने से मॉडल वीडियो में मौजूद high-dimensional conceptual जानकारी पर केंद्रित रह सकता है और अधिकांश downstream कार्यों में महत्वपूर्ण न होने वाले fine-grained details की चिंता नहीं करनी पड़ती।
- V-JEPA पहला वीडियो मॉडल है जो "फ्रीज़्ड इवैल्यूएशन" (frozen evaluation) में मजबूत प्रदर्शन दिखाता है; इसमें self-supervised pre-trained encoder और predictor को छुए बिना नए कौशल सीखते समय specialized layers या छोटे नेटवर्क को तेज़ और कुशलता से ट्रेन किया जा सकता है।
भविष्य के शोध की दिशा
- यहाँ "V" का अर्थ video है, लेकिन वर्तमान V-JEPA मॉडल अभी केवल दृश्य (visual) content पर विचार करता है।
- अगले चरण में, दृश्य कंटेंट के साथ audio को जोड़ने वाला अधिक multimodal दृष्टिकोण लागू करने पर काम चल रहा है।
- V-JEPA सूक्ष्म वस्तु अंतःक्रियाओं को अलग करने और समय के साथ उत्पन्न होने वाली विस्तृत object interactions को पहचानने में सक्षम है।
AMI की ओर
- अब तक V-JEPA से जुड़े काम मुख्यतः perception पर केंद्रित रहे हैं, यानी अलग-अलग वीडियो streams की सामग्री समझकर आसपास की दुनिया पर कुछ context प्राप्त करना।
- अगला चरण यह दिखाना है कि ऐसे predictor या world model का इस्तेमाल planning और sequential decision-making के लिए कैसे किया जाए।
- V-JEPA एक research model है और भविष्य के उपयोग मामलों की खोज जारी है। उदाहरण के लिए, V-JEPA से मिलने वाला संदर्भ वास्तविक AI tasks और भविष्य के AR glasses के लिए Contextual AI assistant बनाने में उपयोगी हो सकता है।
- जिम्मेदार ओपन साइंस के महत्व में विश्वास रखते हुए, अन्य शोधकर्ताओं को यह काम आगे बढ़ाने के लिए V-JEPA मॉडल CC BY-NC लाइसेंस पर उपलब्ध कराया गया।
1 टिप्पणियां
OpenAI Sora भी ऐसा ही है... वीडियो AI भी अचानक एकदम तेज़ी से आगे बढ़ रही है।
जब भाषा मॉडल भी विकसित हो रहे थे, किसी न किसी समय ChatGPT आ गया जैसा,
वीडियो AI में भी ऐसा ही कोई पल आए तो मज़ेदार लगेगा।