• वीडियो लर्निंग और मल्टीमॉडल perception रिसर्च को सपोर्ट करने के लिए एक आधारभूत डेटासेट और benchmark
  • प्रतिभागियों के wearable camera के जरिए first-person "Egocentric(स्व-केंद्रित)" दृष्टिकोण और प्रतिभागियों के आसपास लगे कैमरों के कई "Exocentric(बाह्य-केंद्रित)" दृष्टिकोणों को एक साथ कैप्चर किया गया
  • दोनों दृष्टिकोण एक-दूसरे के पूरक हैं: Ego प्रतिभागी जो देखते और सुनते हैं उसे दिखाता है, और Exo आसपास के दृश्य और context को उजागर करता है
    • इन दोनों दृष्टिकोणों का साथ में उपयोग AI मॉडल्स को जटिल मानव कौशलों पर एक नया नजरिया दे सकता है
  • Meta के FAIR (Fundamental Artificial Intelligence Research), Project Aria और 15 विश्वविद्यालयी साझेदारों की 2 साल की मेहनत
    • अमेरिका, जापान, कोलंबिया, सिंगापुर, भारत और कनाडा में 800 से अधिक कुशल प्रतिभागियों की मदद से इसे कैप्चर किया गया
  • 1,400 घंटे से अधिक वीडियो सहित डेटा और नए benchmark tasks के annotations को open source के रूप में जारी किया गया
  • Ego-Exo4D खेल, संगीत, खाना बनाना, नृत्य, साइकिल मरम्मत जैसी कुशल मानव गतिविधियों पर केंद्रित है
    • वीडियो में मानव दक्षता को समझने की AI की क्षमता में प्रगति कई applications को संभव बना सकती है
    • उदाहरण के लिए, AR systems में smart glasses पहनने वाला व्यक्ति virtual AI coach के मार्गदर्शन से नए कौशल जल्दी सीख सकता है
  • Ego-Exo4D समय-सिंक किए गए first-person और third-person वीडियो का सबसे बड़ा सार्वजनिक डेटासेट है
    • इस डेटासेट को बनाने के लिए विभिन्न क्षेत्रों के विशेषज्ञों को जुटाया गया और वास्तविक दुनिया के पेशेवरों ने इसमें भाग लिया
    • Ego-Exo4D सिर्फ multi-view ही नहीं बल्कि multi-modal डेटासेट भी है, और Meta के Aria glasses से कैप्चर किए गए सभी ego वीडियो में time-aligned 7-channel audio, inertial measurement unit (IMU), दो wide-angle monochrome cameras आदि शामिल हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.