Google के Gemini AI मॉडल डेमो में हेरफेर पर विवाद
- Google के नए Gemini AI मॉडल को जनता के सामने पहली बार पेश किए जाने के बाद मिली-जुली प्रतिक्रियाएँ मिलीं
- यह खुलासा होने के बाद कि सबसे प्रभावशाली डेमो दरअसल काफी हद तक बनावटी था, उपयोगकर्ताओं के भरोसे को झटका लगा
- "Hands-on with Gemini: Interacting with multimodal AI" नामक वीडियो ने 10 लाख views हासिल किए और विभिन्न inputs पर लचीले तथा responsive multimodal मॉडल की क्षमता दिखाई
हकीकत से अलग डेमो
- वीडियो ऐसा लगता है मानो सब कुछ real-time में हो रहा हो, लेकिन वास्तव में Gemini की क्षमताओं को image frames और text prompts के ज़रिये टेस्ट किया गया था
- वास्तविक interaction से अलग, वीडियो में ऐसी प्रस्तुति है जो response speed, accuracy, और मॉडल के साथ interaction के तरीके को लेकर गलतफहमी पैदा कर सकती है
- हालांकि इसमें "Latency कम करने के लिए, और Gemini के output को छोटा किया गया है." जैसी चेतावनी दी गई है, फिर भी यह बहुत आकर्षक दिखाई देता है
दस्तावेज़ित क्षमताओं से अंतर
- वीडियो में यह intuitive और बिना शब्दों वाले evaluation जैसा दिखता है, जबकि documented capabilities बताती हैं कि मॉडल अलग-अलग gestures के आधार पर तर्क नहीं करता; उसे सभी gestures एक साथ दिखाने और hint देने की ज़रूरत होती है
- उदाहरण के लिए, वीडियो में ऐसा लगता है कि मॉडल तुरंत पहचान लेता है कि कागज़ की गेंद कप के नीचे बदल गई है, लेकिन वास्तव में activity को समझाना पड़ता है और मॉडल को प्रशिक्षित करना पड़ता है
- Google का यह कहना सही है कि यह वीडियो "Gemini के वास्तविक output दिखाता है", लेकिन यह कहना सही नहीं है कि उन्होंने "डेमो को कुछ जगह edit किया (और इस तथ्य को पारदर्शी रूप से बताया)". यह वीडियो डेमो नहीं है; वास्तव में यह उस तरह के interaction को दिखाता है जो डेमो के रूप में प्रचारित चीज़ से काफी अलग है
GN⁺ की राय
- Google के Gemini AI मॉडल का डेमो वीडियो वास्तविक मॉडल की क्षमताओं को बढ़ा-चढ़ाकर दिखाने के लिए बनाया गया था, जिससे इस तकनीक की विश्वसनीयता पर सवाल उठते हैं.
- यह एक ऐसा उदाहरण है जो multimodal AI की प्रगति की संभावना और मौजूदा तकनीक की सीमाओं, दोनों को एक साथ दिखाता है, और AI तकनीक की वास्तविक स्थिति को समझने के लिए महत्वपूर्ण सबक देता है.
- यह घटना AI तकनीक की घोषणाओं और डेमो के वास्तविक user experience से मेल खाने के सवाल पर transparency और honesty के महत्व को रेखांकित करती है, और इसी वजह से तकनीकी क्षेत्र के लोगों के लिए दिलचस्प चर्चा पेश करती है.
5 टिप्पणियां
Bard ने भी शुरुआत में काफ़ी उम्मीदें जगाई थीं।
Google Glass याद आ गया... उस समय भी लगा था कि दुनिया बदलने वाली है
फाइटिंग!
वीडियो वाकई चौंकाने वाला था, लेकिन मुझे लगता है कि कम समय में एडिट करके पेश करने पर ऐसे मुद्दे सामने आना लगभग तय ही है।
इससे यह भी लगता है कि Google काफी दबाव में है, और साथ ही यह सोच भी आती है कि असल में जब यह सामने आएगा तब ही सही तस्वीर पता चलेगी।
जो भी हो, OpenAI का अकेले आगे भागने से बेहतर है कि मुकाबला हो, इसलिए Google को भी शुभकामनाएँ।
यह दुखद था.
मुझे लगता है कि vision और values ऐसी चीजें हैं जिन्हें मुश्किल समय में और भी ज़्यादा निभाना चाहिए।