Show HN: नकली Google Gemini डेमो को GPT-4 से फिर से बनाया, और इस बार यह सच में काम करता है

(sagittarius.greg.technology)

2 पॉइंट द्वारा GN⁺ 2023-12-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

GPT-4 का उपयोग करके Google Gemini के नकली डेमो का रीमेक, और इस बार यह असली है

Google Gemini के नकली डेमो को GPT-4 का उपयोग करके फिर से बनाने वाला एक प्रोजेक्ट.
वास्तव में काम करने वाला डेमो उपलब्ध है, और संबंधित कोड GitHub repository में देखा जा सकता है.
यह प्रोजेक्ट Greg Technology द्वारा बनाया गया है.

GN⁺ की राय

इस लेख का सबसे महत्वपूर्ण बिंदु यह है कि GPT-4 का उपयोग करके पिछले नकली डेमो को वास्तव में लागू करने वाला एक प्रोजेक्ट मौजूद है.
यह एक दिलचस्प उदाहरण है जो दिखाता है कि AI तकनीक की प्रगति कैसे वास्तव में उपयोग योग्य और नवोन्मेषी परिणाम बना रही है.

1 टिप्पणियां

GN⁺ 2023-12-12

Hacker News की रायें

नकली Gemini डेमो का जादू जैसा दिखने वाला हिस्सा यह था कि LLM लगातार audio और video input ले रहा है और यह जानता है कि कब बीच में आकर जवाब देना है
ऐसा लगता था कि वह user के drawing पूरी करने तक इंतज़ार कर रहा है, या खत्म होने से ठीक पहले बीच में बोल रहा है; और जवाब के बीच में जब user ने बतख को नीला रंग दिया, तो उसने कहा कि यह नीली बतख जैसी दिख रही है
ऐसा भी लगता था कि जब user सिर्फ सहमति जता रहा हो, तो उसे पता है कि response की जरूरत नहीं है
source code देखने पर पता चला कि demo video feed से हर 800ms में screenshot लेता है, user के बोलना खत्म करने तक इंतज़ार करता है, और फिर आखिरी 3 screenshots भेजता है
यह demo अपने-आप में प्रभावशाली है, लेकिन यह भी दिखाता है कि continuous audio/video input न होने पर इस तरीके से LLM के साथ interact करना कितना अप्राकृतिक है
तकनीकी रूप से यह कुछ समय से संभव था, लेकिन किसी ने इसे product की तरह पेश नहीं किया, इसकी वजह है
- यह demo 2–3 घंटे में बनाया गया था, और “dictation result final होने तक इंतज़ार करने” की technique इस्तेमाल की गई थी
  यह तरीका सुरक्षित है क्योंकि dictation transcription ज्यादा stable होती है, लेकिन धीमा है
  दूसरे demo https://www.youtube.com/watch?v=fxS7OKh_4vc में “in-progress” transcription results लगातार GPT में डाले गए थे, और वह वाकई तेज और शानदार था
  हालांकि इंसान की वास्तविक speech, transcription time, GPT request भेजना, और उस समय user की बात व सोच की स्थिति से GPT के जवाब देने के timing को sync करना—इन सब timings को संभालने के लिए और काम चाहिए
  फिर भी real-time, continuous conversation साफ तौर पर core है, और लगता है कि GPT websockets के जरिए मिले तो अच्छा होगा
- एक deaf व्यक्ति के तौर पर मैंने real-time speech recognition demos 20–30 साल से देखे हैं, और वे सभी demo में अच्छे लगते हैं
  लेकिन रोजमर्रा में इस्तेमाल करने पर 10 शब्दों में 1 गलती भी समय के साथ बेहद चिड़चिड़ाहट पैदा करने वाली बनकर जमा हो जाती है
- एक दोस्त से भी continuous stream input लेने वाले multimodal LLMs के बारे में बात की थी
  उदाहरण के लिए, वह guitar practice सुन रहा हो और किसी खास बिंदु पर पहुंचने पर कहे, “ठीक है, उस हिस्से पर वापस चलते हैं और फिर से practice करते हैं”
  जब continuous token stream आ रही हो और output सिर्फ कभी-कभी चाहिए हो, तो सामान्य next-token prediction तरीका बहुत फिट नहीं बैठता लगता
  literature में ऐसे input को क्या कहा जाता है, और इस पर किस तरह की research हुई है, यह जानने की उत्सुकता है
- ऐसे cases में pause token जैसी चीजों से training करना key हो सकता है
  शायद यह जरूरी भी न हो
  अगर GPT-4 को यह instruction दी जाए कि जब भी उसे लगे कि response का इंतज़ार करना चाहिए, वह .... जैसा कुछ output करे, तो user के खत्म होने तक इंतज़ार करने की जरूरत नहीं रहेगी और experience कहीं ज्यादा smooth हो सकता है
- मैं GPT-4 chatbot को group chat में जोड़कर लोगों की बातों पर react करवाना चाहता था, लेकिन यह तय करना बहुत मुश्किल था कि कब बोलना है और कब लोगों को आपस में बात करने देना है, इसलिए आखिरकार छोड़ दिया
समझ नहीं आता कंपनियां इस तरह झूठ क्यों बोलती हैं
इससे मिलने वाला फायदा कितना बड़ा होगा, यह समझ नहीं आता; उल्टा खोने के लिए ज्यादा दिखता है
और भी अजीब बात यह है कि ये tools बिना hype के भी पहले से ही बेहद impressive हैं
एक machine learning researcher के तौर पर मुझे लगता है कि बहुत सारी शानदार उपलब्धियां हैं, लेकिन papers से लेकर products तक लगभग हर चीज बेहद बढ़ा-चढ़ाकर पेश की जाती है
short term में यह कुछ लोगों की मदद कर सकता है, लेकिन लगता है कि इसने सबके लिए खराब downward race बना दी है
खासकर Google जैसी कंपनी का short-term game खेलना समझदारी नहीं है, और शायद मैं ही हमारे रहने वाले माहौल को पूरी तरह गलत समझ रहा हूं
इस thread[0] की चर्चा देखकर लगता है कि कई लोग ethical तौर पर इतने बिगड़ चुके हैं कि उन्हें यह भी नहीं पता कि वे जो कर रहे हैं वह deceptive है, और यह एक अलग, और भी खराब समस्या है
[0] https://news.ycombinator.com/item?id=38559582
- उसी दिन video आने पर CEO ने message भेजा कि Google की नई technology GPT-4 से कहीं बेहतर है और हमें भी इसे तुरंत इस्तेमाल करना चाहिए
  मैंने जवाब दिया कि demos को skepticism से देखता हूं, लेकिन इस field की हर progress की तरह release होने पर खुद इस्तेमाल करके देखूंगा
- “Google जैसी कंपनी का short-term game खेलना समझदारी नहीं है” यह principal-agent problem हो सकता है
  agents यानी employees और management short-term career benefits को optimize करते हैं, और Google shareholders के प्रति loyal नहीं होते
  वे 3 साल बाद leave कर सकते हैं, इसलिए Google की reputation damage उनके लिए उतना important नहीं हो सकता
  दूसरी तरफ shareholders reputation जैसे long-term factors को optimize करना चाहते हैं
  अच्छी governance और stock price से जुड़े vesting compensation से alignment करने की कोशिश होती है, लेकिन कुछ mismatch हमेशा बना रहता है
  इस बिंदु पर mission के प्रति cult जैसी alignment culture value दे सकती है
  अगर employees को सचमुच mission पर विश्वास करने के लिए convince किया जाए या ऐसे लोगों को hire किया जाए, तो alignment साथ आती है
- अगर जानना है कि companies ऐसा क्यों करती हैं, तो Business Today का सिर्फ title देख लेना काफी है
  “Google Gemini Outperforms Most Human Experts & GPT-4 I Artificial intelligence I Google’s DeepMind”
  सब marketing है
  यह उसी वजह से है जैसे Satya ने publicly post किया था कि अगर OpenAI वाली बात ठीक नहीं होती, तो sama और बाकी लोग MSFT की नई team में शामिल होकर काम जारी रखेंगे
- demo के बाद Google का stock तुरंत नहीं हिला, लेकिन लगभग 5% बढ़ा, और manipulation की खबर आने के बाद करीब 1% वापस दे दिया
- इस घटना ने पहले से कहीं ज्यादा यह एहसास कराया कि Google अब technology समझने वाले लोगों द्वारा नहीं, बल्कि non-technical business people द्वारा चलाया जा रहा है
  जो लोग थोड़ा भी जानते हैं कि यह technology कैसे काम करती है—यानी वे लोग जो इस technology और दूसरे Google products इस्तेमाल करने का फैसला करने की process में शामिल होने की संभावना रखते हैं—वे manipulation तुरंत पहचान सकते हैं
  ऐसे लोग अक्सर इस तरह के deceptive व्यवहार पर बहुत negative reaction देने वाले भी होते हैं
Gemini लॉन्च के समय जो बात कहनी चाहिए थी, वही यह डेमो था
वह पूरा हंगामा बिल्कुल अनावश्यक था
GPT-4V वाकई शक्तिशाली है, और vision या multimodal में दिलचस्पी रखने वालों को LLaVA भी गंभीरता से आज़माना चाहिए(https://github.com/haotian-liu/LLaVA)
पिछले कुछ दिनों में मैंने 7B q5_k variant इस्तेमाल किया, और यह काफी प्रभावशाली लगा; कंपनी के लिए demo app या proof-of-concept तक बनाने लायक अच्छा था
हालांकि पहले license देखना होगा, वरना इसे सिर्फ internal demo के तौर पर इस्तेमाल करके बात समझाने का सोच रहा हूं
- मैं https://github.com/Mozilla-Ocho/llamafile के जरिए llava इस्तेमाल कर रहा हूं, और यह किसी भी नए system पर कहीं भी चल जाता है
- LLaVA के commercial use को लेकर जिन्हें जिज्ञासा है, उनके लिए update: यह Apache 2.0 license के तहत है, इसलिए attribution देने पर commercial use किया जा सकता है: https://github.com/haotian-liu/LLaVA/blob/main/LICENSE
यह काम GPT-4V से पूरी तरह संभव था
सचमुच बस screenshot लेकर image और text को chat format में, यानी interleaved तरीके में डालना था
हाल ही में एक hackathon में मैंने कुछ ऐसा ही बनाया था(https://x.com/swyx/status/1722662234680340823)
अजीब बात यह है कि Google भी ऐसा कर सकता था, और तब सब लोग उचित रूप से प्रभावित होते; लेकिन इसके बजाय उन्होंने आम जनता के लिए गुमराह करने वाला marketing video बना दिया
नतीजा यह हुआ कि बाकी झुंझलाए हुए nerds पर यह गंदा काम आ गया कि वे समझाएं, “यह अभी वैसी technology नहीं है जैसी आपने TV पर देखी,” और लगे जैसे गलती हमारी हो
इसे चलाने की लागत भी जानने की उत्सुकता है
- इसे develop और demo करते समय GPT-vision API पर 77 requests कीं, और बिल 0.47 डॉलर आया
  काफी reasonable है
अब मुझे यकीन होने लगा है कि Google DeepMind के पास state-of-the-art LLM के मामले में असल में कुछ था ही नहीं, और वह बस bluff कर रहा था
याद है, जब ChatGPT लॉन्च हुआ था तो Google ने कहा था कि उनके पास कहीं बेहतर model है जिसे वे AI safety की वजह से release नहीं कर रहे
इसके बाद PaLM और PaLM 2 निकाले और कहा कि ChatGPT को हराने के लिए इन्हें release करने का समय आ गया है, लेकिन वे अच्छे model नहीं थे
फिर उन्होंने Gemini को बहुत hype किया, और अगर Gemini Ultra ही उनके पास सबसे अच्छा है, तो यह मानना मुश्किल है कि उनके पास कोई बेहतर model है
एक साल पहले मुझे लगता था कि Google के पास best model है, बस वे उसे release नहीं कर रहे; बाद में उम्मीद थी कि उनके पास infrastructure, data और talent है, इसलिए वे best model बना सकते हैं
लेकिन असल में उनके पास कुछ खास था ही नहीं
हाल में मैंने Google की वह AI conversational translation app सच में इस्तेमाल करने की कोशिश की, जिसे उन्होंने पहले release किया था और बाद में कई updates और iterations दिए थे
वास्तविक बातचीत के लिए यह पूरी तरह बेकार स्तर की है
मैं उत्साहित था क्योंकि यह एक ऐसे हालात में वाकई मददगार हो सकती थी; याद था कि पुराने demo में यह बेहद natural दिखी थी, लेकिन मैंने खुद कभी इस्तेमाल नहीं किया था
अब इसे इस्तेमाल करके और original demo दोबारा देखकर, मुझे 100% यकीन हो गया कि वह पूरा या आंशिक रूप से staged था
यह असल में काम कर ही नहीं सकती थी
अगर वे बतख की drawing बनाने से कहीं ज्यादा उपयोगी real-time conversation translation भी ठीक से नहीं बना सकते, तो इस नए AI पर भी गंभीर शक होता है
यह बिल्कुल वही स्थिति लगती है, और समझ नहीं आता कि ऐसी चीज़ पूरी तरह fake करने के लिए कितना बेशर्म होना पड़ता है
- उस app का नाम क्या था?
इस शानदार demo से थोड़ा अलग, सिर्फ JPEG images GPT-4 में डाल सकने वाला interface कुछ waste जैसा लगता है
इंसानी आंख image खुद से ज्यादा frames के बीच के differences process करती है
high-resolution real-time video processing को संभव बनाने वाला अगला बड़ा कदम शायद यह हो सकता है कि model की internal state, MPEG जैसे video codec की तरह keyframes और deltas संभाले
- जब Google Gemini की multimodal क्षमता की बात करता है, तो modes की list में “video” भी शामिल करता है
  यह जरूरी नहीं कि सचमुच video हो; इस demo की तरह frames का मतलब होने की भी पूरी संभावना है
  मैंने जितना देखा है, कहीं भी इसे विस्तार से explain नहीं किया गया
नाम Sagittarius चुनना मजेदार है
Zodiac में यह Gemini के ठीक opposite है
- एक speculation था कि Facebook ने पहले अपनी बिना वास्तविकता वाली cryptocurrency Libra, और बाद में “Diem”, का नाम इसलिए ऐसा रखा था ताकि वह पुराने rival Winklevoss twins द्वारा बनाए गए Gemini नाम के cryptocurrency exchange पर पलटवार हो
  Astrological रूप से यह कितना witty है, पता नहीं
Code के हिसाब से speech-to-text conversion और text-to-speech conversion browser के built-in features इस्तेमाल करते दिखते हैं
मैं बार-बार भूल जाता हूं कि ऐसे features मौजूद हैं
यह API से होकर जाता है, इसलिए latency समझ में आती है
Local infrastructure पर inference लगभग instant होगा, इसलिए अगर इस व्यक्ति के पास access होता, तो यह demo बाकी चीजों को पछाड़ देता

Show HN: नकली Google Gemini डेमो को GPT-4 से फिर से बनाया, और इस बार यह सच में काम करता है

GPT-4 का उपयोग करके Google Gemini के नकली डेमो का रीमेक, और इस बार यह असली है

GN⁺ की राय

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की रायें