2 पॉइंट द्वारा GN⁺ 2023-12-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

GPT-4 का उपयोग करके Google Gemini के नकली डेमो का रीमेक, और इस बार यह असली है

  • Google Gemini के नकली डेमो को GPT-4 का उपयोग करके फिर से बनाने वाला एक प्रोजेक्ट.
  • वास्तव में काम करने वाला डेमो उपलब्ध है, और संबंधित कोड GitHub repository में देखा जा सकता है.
  • यह प्रोजेक्ट Greg Technology द्वारा बनाया गया है.

GN⁺ की राय

  • इस लेख का सबसे महत्वपूर्ण बिंदु यह है कि GPT-4 का उपयोग करके पिछले नकली डेमो को वास्तव में लागू करने वाला एक प्रोजेक्ट मौजूद है.
  • यह एक दिलचस्प उदाहरण है जो दिखाता है कि AI तकनीक की प्रगति कैसे वास्तव में उपयोग योग्य और नवोन्मेषी परिणाम बना रही है.

1 टिप्पणियां

 
GN⁺ 2023-12-12
Hacker News की राय
  • "नकली Gemini डेमो का 'जादू'" यह था कि LLM लगातार audio और video input ले रहा है, यूज़र की बातचीत या ड्रॉइंग कब खत्म हुई यह पहचान लेता है, और सही समय पर जवाब देता है—ऐसा दिखाया गया था।
  • source code की समीक्षा से पता चला कि डेमो video feed के screenshots हर 800ms पर कैप्चर करता था, और यूज़र के ड्रॉइंग पूरा करने तक इंतज़ार करने के बाद आख़िरी तीन screenshots भेजता था। इससे साबित होता है कि लगातार audio-video input के बिना इस तरह LLM के साथ इंटरैक्ट करना स्वाभाविक नहीं लगता।
  • समझ नहीं आता कि कंपनियाँ इस तरह झूठ क्यों बोलती हैं। वे वास्तव में बहुत कुछ खो सकती हैं; ऐसी बढ़ा-चढ़ाकर की गई publicity अल्पकाल में मदद कर सकती है, लेकिन दीर्घकाल में नहीं।
  • पूरा यक़ीन है कि Google DeepMind के पास वास्तव में state-of-the-art LLM नहीं था। जब ChatGPT लॉन्च हुआ था, तब Google ने कहा था कि AI safety की वजह से उसने बेहतर model जारी नहीं किया, लेकिन असलियत में ऐसा नहीं था।
  • GPT-4V बहुत प्रभावशाली है, और जिन्हें vision या multimodality में रुचि है उन्हें LLaVA आज़माने की सिफारिश की जाती है। व्यक्तिगत रूप से 7B q5_k variant इस्तेमाल करके देखा और यह बहुत प्रभावशाली लगा।
  • GPT-4V का इस्तेमाल करके ऐसा ही एक डेमो बनाया जा सकता था। अगर Google ने ईमानदार marketing की होती, तो सभी उचित रूप से प्रभावित होते, लेकिन इसके बजाय उसने आम जनता के लिए भ्रामक marketing video बनाया, जिससे तकनीकी विशेषज्ञ निराश हुए।
  • Google के AI conversation translation app को वास्तव में इस्तेमाल करने की कोशिश की थी, लेकिन यह वास्तविक बातचीत में बिल्कुल उपयोगी नहीं है। डेमो में यह स्वाभाविक दिखता था, लेकिन असल में काम नहीं करता—यह पक्का हो गया।
  • मुझे लगता है कि केवल JPEG images को GPT-4 के साथ एकमात्र interface के रूप में इस्तेमाल करना बर्बादी है। इंसानी आँखें खुद 'frames' से ज़्यादा frames के बीच के अंतर को पहचानती हैं। video codec की तरह, जहाँ internal state key frames और delta पर काम करती है, ऐसा model real-time video processing का अगला बड़ा कदम हो सकता है।
  • पूरा यक़ीन है कि Google DeepMind के पास वास्तव में state-of-the-art language model नहीं था। ChatGPT के लॉन्च के समय Google ने कहा था कि AI safety की वजह से उसने बेहतर model जारी नहीं किया, लेकिन असल में ऐसा नहीं था।
  • इस डेमो की latency API के माध्यम से होने के कारण माफ़ की जा सकती है। local infrastructure पर inference लगभग तुरंत होता है, इसलिए यदि इस infrastructure तक पहुँच हो, तो यह डेमो बाकी सब पर भारी पड़ेगा।
  • Sagittarius नाम चुनना मज़ेदार है, क्योंकि यह राशिचक्र में Gemini के ठीक विपरीत स्थित है।