मल्टीमोडल AI इमेज जनरेशन के अलावा अधूरी इमेज पूरी करना, वीडियो में अगला कथन predict करना, टेक्स्ट+इमेज linked search, कॉमिक अनुवाद, कैंसर होने के जोखिम का अनुमान, और hate speech की पहचान जैसे काम भी कर सकता है

1.अधूरी इमेज पूरी करना

  • Microsoft Research Asia और Peking University द्वारा विकसित Nuwa ने इस तरह की क्षमता दिखाई
  • इसमें अधूरी इमेज देने पर वह बाकी हिस्सा भरकर उसे पूरा कर देता है
  • स्केच देने पर उसके अनुरूप इमेज या वीडियो जनरेट करता है
  • वीडियो के अगले सीन का अनुमान लगाकर दिखाता है

2.वीडियो में अगला कथन predict करना

  • Google Research द्वारा विकसित मॉडल को यदि वीडियो सीन और वक्ता की कही बात का लिप्यंतरण दिया जाए, तो वह अगला कथन predict करता है
  • वीडियो और टेक्स्ट, वक्ता के कथन का अनुमान लगाने के लिए ‘context’ के रूप में उपयोग होते हैं

3.टेक्स्ट+इमेज search

  • Google द्वारा विकसित MUM में उपयोगकर्ता search box में ट्रेकिंग शूज़ की फोटो अपलोड करके, “क्या मैं Mount Fuji पर चढ़ाई करने के लिए इन जूतों का उपयोग कर सकता हूँ?” लिखे, तो यह इमेज को समझकर उसे उपयोगकर्ता के सवाल से जोड़ सकता है और बता सकता है कि ‘ये ट्रेकिंग शूज़ ठीक से काम करेंगे’
  • यह recommended gear list वाले ब्लॉग भी दिखा सकता है

4.कॉमिक अनुवाद

  • University of Tokyo और जापानी मशीन अनुवाद कंपनी Mantra के शोधकर्ताओं द्वारा प्रस्तुत ‘multimodal context-aware translation framework’ चित्रों और संवादों को साथ में ध्यान में रखकर कॉमिक्स का दूसरी भाषा में अनुवाद कर सकता है
  • यह जापानी कॉमिक ‘manga’ इमेज से सीन, संवाद पढ़ने का क्रम, visual information जैसी context जानकारी निकालता है
  • उस जानकारी का उपयोग करके speech bubble के भीतर के संवादों का जापानी से अंग्रेज़ी में अनुवाद करता है

5.कैंसर होने के जोखिम का अनुमान

  • Harvard Medical School Brigham and Women’s Hospital के शोधकर्ताओं द्वारा विकसित multimodal AI, कोशिका ऊतक की तस्वीरों और टेक्स्ट-आधारित genomics data के आधार पर कैंसर होने की संभावना का अनुमान लगा सकता है
  • शोधकर्ताओं ने कोशिका ऊतक की सूक्ष्म तस्वीरों और टेक्स्ट-आधारित genomics data से दो अलग-अलग मॉडल train किए
  • उसके बाद दोनों मॉडल एक single system में एकीकृत होकर यह predict करते हैं कि ‘रोगी को कई प्रकार के कैंसर होने का जोखिम अधिक है या कम’

6.किसी खास वस्तु की ‘इमेज’ सीखकर उसी वस्तु के ‘3D डेटा’ या ‘वीडियो’ को पहचानना

  • Meta द्वारा प्रस्तुत Omnivore ने केवल कद्दू की इमेज सीखने के बाद भी कद्दू का 3D मॉडल पहचान लिया
  • इसी तरह, केवल यॉट की इमेज सीखने के बाद भी वह यॉट का वीडियो पहचान सकता है

7.hate speech की पहचान

  • multimodal AI सोशल मीडिया पर पोस्ट की गई सामग्री में इमेज और टेक्स्ट, दोनों को साथ देखकर hate speech की पहचान में मदद कर सकता है
  • hate speech इमेज और टेक्स्ट को मिलाकर बने meme के रूप में भी हो सकती है
  • Meta ने समझाया कि “(AI को) यह पहचानने के लिए कि ‘meme घृणास्पद है या नहीं’, meme की इमेज और टेक्स्ट, दोनों पर विचार करना होगा”
  • खाली रेगिस्तान की फोटो पर “देखो, कितने लोग तुमसे प्यार करते हैं” लिखा हुआ meme सूक्ष्म रूप से आक्रामक होता है
  • AI को hate speech वाले meme का वास्तविक अर्थ समझने के लिए meme का समग्र विश्लेषण करना होगा
  • उसे इमेज और टेक्स्ट को जोड़ना होगा, और यह समझना होगा कि साथ आने पर अर्थ किस तरह बदलता है
  • माना जाता है कि multimodal AI इमेज और टेक्स्ट को एक साथ प्रोसेस करके यह क्षमता दिखाएगा
  • Meta का मानना है कि hate speech को पहचानने के लिए सोशल मीडिया पोस्ट की सामग्री को व्यापक रूप से समझने की उसकी क्षमता multimodal AI के रूप में विकसित होगी
  • Meta ने multimodal hate speech की पहचान करने वाली प्रणाली के विकास में मदद के लिए ‘Hateful Memes’ नाम का dataset बनाया और साझा किया

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.