GPT-3 से Gemini 3 तक के 3 साल

(oneusefulthing.org)

5 पॉइंट द्वारा GN⁺ 2025-11-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google का Gemini 3 अब सिर्फ़ एक conversational chatbot नहीं है, बल्कि code writing, web browsing, file manipulation जैसे वास्तविक काम करने वाला digital colleague-शैली AI बन चुका है
इसके साथ पेश किया गया Antigravity उपयोगकर्ता के कंप्यूटर तक पहुँचकर स्वायत्त रूप से प्रोग्राम लिखता है, और Inbox system के ज़रिए approval या मदद माँगने वाला agent-based tool है
Gemini 3 उपयोगकर्ता के निर्देशों के अनुसार website बनाना, data analysis करना, research paper लिखना तक कर सकता है, और PhD-स्तर की research capability दिखाता है
गलतियाँ अभी भी मौजूद हैं, लेकिन वे अब भी ज़्यादातर judgment या understanding gap के स्तर की हैं, इसलिए यह इंसानों के साथ काम करने वाले ‘AI team member’ के ज़्यादा क़रीब है
लेख इस बात पर ज़ोर देता है कि “chatbot के युग से digital colleague के युग में बदलाव” हो रहा है, और इंसान अब AI की गलतियाँ ठीक करने वाले नहीं बल्कि AI के काम को निर्देशित करने वाले manager बनते जा रहे हैं

Gemini 3 का आगमन और 3 साल का बदलाव

ChatGPT के लॉन्च के लगभग 3 साल बाद आया Google Gemini 3 AI प्रगति की रफ़्तार का एक उदाहरण है
- 2022 के GPT-3.5 दौर में AI सिर्फ़ paragraph या poem generate करने के स्तर पर था
- 2025 का Gemini 3 अब interactive game को ख़ुद code और design करने के स्तर तक पहुँच गया है
Gemini 3 उपयोगकर्ता के अनुरोध पर “Candy-Powered FTL Starship Simulator” नाम का वास्तव में खेला जा सकने वाला game बनाता है
- यह दिखाता है कि AI पहले जहाँ सिर्फ़ text समझाता था, अब वह code और interface को सीधे implement करने के चरण में पहुँच चुका है

Antigravity और agent-शैली AI

Google ने Gemini 3 के साथ Antigravity नाम का एक developer tool भी पेश किया
- यह Claude Code या OpenAI Codex की तरह उपयोगकर्ता के कंप्यूटर तक पहुँचकर स्वायत्त रूप से code लिखने वाला system है
Antigravity Inbox concept लाता है, जिसमें AI को काम के दौरान approval या मदद चाहिए होने पर वह उपयोगकर्ता को notification भेजता है
उपयोगकर्ता अंग्रेज़ी में निर्देश देता है और AI उसे code के रूप में execute करता है
- उदाहरण के तौर पर, लेखक की newsletter files का analysis करके AI predictions को व्यवस्थित करने वाली website अपने-आप तैयार की गई
- AI web search, code execution, browser testing करता है और नतीजे को Netlify पर deploy किए जा सकने वाले रूप में package करता है

सहयोगी AI के रूप में Gemini 3

Gemini 3 काम के दौरान user approval request के ज़रिए प्रगति को पारदर्शी ढंग से साझा करता है
- उपयोगकर्ता AI के सुझावों की समीक्षा और संशोधन करते हुए उसके साथ सहयोग करता है
- यह प्रक्रिया काफ़ी हद तक “AI management” जैसे अनुभव के क़रीब है
AI परफ़ेक्ट नहीं है, लेकिन इसकी गलतियाँ ज़्यादातर judgment difference या intent interpretation में गलतफ़हमी के स्तर की हैं, और पारंपरिक hallucination समस्या लगभग नहीं के बराबर है
Gemini 3 के साथ सहयोग का अनुभव “team member management” जैसा बताया गया है, जो सिर्फ़ prompt देने से कहीं आगे की interaction को दिखाता है

research capability और ‘PhD-स्तर’ का आकलन

Gemini 3 ने research dataset analysis और paper writing जैसे कार्य किए
- पुराने crowdfunding data files को recover और organize किया गया, और उन पर नया analysis किया गया
- “startup·business strategy” विषय पर 14-पेज का paper लिखा गया
AI ने स्वतंत्र hypothesis बनाई, statistical analysis किया, और अपना metric (idea originality measurement) भी तैयार किया
नतीजा graduate student स्तर का लगा, हालाँकि कुछ statistical techniques और theoretical development कमज़ोर थे
- अतिरिक्त निर्देश देने पर गुणवत्ता में बड़ा सुधार हुआ
- लेखक का आकलन था कि “PhD-स्तर की intelligence अब दूर नहीं है”

digital colleague की ओर बदलाव

Gemini 3 एक सोचने और execute करने वाला partner-style AI है, जिसे दुनिया भर के अरबों लोग access कर सकते हैं
AI प्रगति में धीमापन आने के कोई संकेत नहीं हैं, और agent-based models के उभार के साथ AI management skill की अहमियत बढ़ रही है
लेखक इसे “chatbot के युग से digital colleague के युग में संक्रमण” बताते हैं
- अब इंसान AI की गलतियाँ ठीक करने वाले नहीं, बल्कि AI के काम को निर्देशित करने वाले manager बनते जा रहे हैं
अंत में Gemini 3 ने सिर्फ़ code के ज़रिए blog cover image बनाकर text से आगे की creative क्षमता भी दिखाई
लेकिन AI को कंप्यूटर access देने पर security risk मौजूद रहता है, इसलिए सावधानी ज़रूरी है

1 टिप्पणियां

GN⁺ 2025-11-26

Hacker News राय

ऐसे लेखों को देखते समय मुझे हमेशा लगता है कि एक बात छूट जाती है — सवाल यह है: "क्या यह अच्छा है, क्या यह सही है"
- ये सिर्फ़ प्रभावशाली हिस्से दिखाते हैं, लेकिन कई बार असल में quality validation हुआ ही नहीं होता
- जिस code को मैं समझता हूँ उसमें मुझे security issues या errors दिख जाते हैं, लेकिन किसी अनजान क्षेत्र का 14-पेज का paper देखकर मन में सवाल आता है: "क्या मुझे बस मान लेना चाहिए कि यह अच्छा है?"
- आख़िरकार, जो चीज़ें मैं जानता हूँ वे तो shipping के लायक नहीं लगतीं, और जो नहीं जानता वे मुझे शानदार लगती हैं
- यह विरोधाभास सहज नहीं लगता
- एक तरीका है expert evaluation पर भरोसा करना, या फिर ऐसे जटिल tasks करवाना जिन्हें आप ख़ुद verify कर सकें
  - उदाहरण के लिए, पहले अगर edgeDetect(image) जैसा Sobel filter code लिखने को कहते, तो अलग-अलग models में सफलता अलग होती थी
  - हाल में मैंने WebGL glow shader बनवाया, और उसने एक सचमुच काम करने वाला demo बनाया जो मेरे module के साथ compatible था
  - ऐसी चीज़ें performance और visual accuracy से तुरंत verify की जा सकती हैं
  - लेकिन अगर model कहे कि "यह कर सकता है", तो इसका मतलब यह नहीं कि हर बार करेगा; इसका मतलब बस यह है कि कम से कम एक बार सफल हुआ है
- नई पीढ़ी के models (Codex 5.1, Sonnet 4.5, Opus 4.5) धीरे-धीरे shipping-quality level तक पहुँच रहे हैं
  - मेरा metric है "wtfs per line", और यह संख्या तेज़ी से घट रही है
  - मैंने Codex 5.1 के साथ कई projects बिना समस्या deploy किए हैं (जैसे: pine.town)
- लेख के बाद के हिस्से में paper की strengths and weaknesses का वास्तव में ज़िक्र है
- models में user को satisfy करने की प्रवृत्ति होती है, इसलिए वे कभी-कभी झूठे आत्मविश्वास के साथ ग़लत जवाब दे देते हैं
  - अगर user verify न करे, तो वह धोखा खा सकता है
यह दिलचस्प है कि अब तक AI के साथ हमारा interaction ज़्यादातर text box-केंद्रित रहा है
- Claude Code और OpenAI Codex जैसे tools का आना एक बड़ा बदलाव था
- लगता है कि भविष्य की AI interfaces को जो सही ढंग से बनाएगा, उसके लिए बहुत बड़ी value बनेगी
- text की information density बहुत ज़्यादा है, इसलिए यह अब भी efficient है
  - कुछ ही सेकंड में scroll करके पढ़ा जा सकता है, और keyboard अब भी सबसे productive input tool है
- Unix CLI के 50 साल से ज़्यादा समय तक text-based बने रहने की वजह भी यही है
  - PowerShell जैसे structured data approaches की कोशिशों के बावजूद आख़िरकार उनकी generality कम हो जाती है
  - AI को इंसानों के मौजूदा interfaces समझने देना ज़्यादा शक्तिशाली approach है
- AI UI के लिए किसी बिल्कुल नए रूप की खोज को लेकर जो जुनून है, वह कुछ ज़्यादा लगता है
  - मूल रूप से इंसानों के लिए अब भी सबसे संभालने योग्य चीज़ें text, tables, graphs ही हैं
- दुनिया मूल रूप से multimodal है
  - मेरा मानना है कि text और अलग-अलग data types को साथ संभालने वाला integrated interface अगला चरण होगा
  - ख़ासकर robotics के बढ़ने के साथ 3D elements भी महत्वपूर्ण हो सकते हैं
- ChatGPT का voice interface इतना स्वाभाविक है कि brainstorming के लिए शायद और भी उपयुक्त है
Hallucination की समस्या अब भी बनी हुई है
- सूक्ष्म और मानवीय तरह की ग़लतियाँ बढ़ी हैं, लेकिन साथ ही घातक errors भी अब भी मौजूद हैं
- मैंने Claude से 20-पेज की short story लिखवाई, और वह मूलभूत time order या character consistency भी बनाए नहीं रख सका
- हाल के models साधारण ग़लतियों की जगह आत्मविश्वास से ग़लत दावे करते हैं, यहाँ तक कि ऐसी references भी गढ़ लेते हैं जो मौजूद ही नहीं हैं
"क्या यह PhD-level intelligence है?" इस सवाल पर, एक graduate student होने के नाते मुझे कुछ वैसा ही एहसास होता है
- नए models से बात करने पर ऐसा impression मिलता है जैसे किसी विशेषज्ञ शोधकर्ता से बात हो रही हो
- फिर भी मुझे लगता है कि इंसानी natural intelligence और motivation अब भी महत्वपूर्ण हैं
- coding में यह वैसा लगता है जैसे दो developers के साथ काम कर रहे हों — एक सक्षम mid-level developer, और दूसरा पूरी तरह अजीब व्यक्ति
  - समस्या यह है कि दोनों एक जैसे दिखते हैं, इसलिए फ़र्क समझ नहीं आता
- मैं अक्सर दो SOTA models को आपस में बातचीत करवाने के प्रयोग करता हूँ
  - हाल में मैंने Gemini-3 और ChatGPT-5.1 को साथ चलाया, तो वे इस पर चर्चा करने लगे कि जब इंसान सोचना छोड़ देता है तब neural atrophy की समस्या कैसे पैदा हो सकती है
  - यह देखना प्रभावशाली था कि AI इस पर विचार कर रहा था कि क्या इंसानों को जानबूझकर "सोचने के लिए मजबूर" करना चाहिए
- अफ़सोस की बात है कि HN पर ऐसी रायों को अक्सर बिना वजह downvote मिल जाता है
Google की प्रगति सिर्फ़ software ही नहीं, hardware में भी हो रही है
- वह training और inference दोनों अपने खुद के hardware पर करता है
- पहले Google की ताकत general-purpose hardware के उपयोग में थी, लेकिन अब वह बिल्कुल दूसरी दिशा में विकसित हो चुका है
Gemini 3 प्रभावशाली है, लेकिन फिर भी लगता है कि यह मौजूदा literature की सीमाओं के भीतर ही रहता है
- अगर आप math problems में नए ideas माँगें, तो यह मौजूदा results ही दोहराता है
- Terrence Tao ने भी इसे math problem-solving में इस्तेमाल किया, लेकिन यह पूरी तरह नए नतीजे देने के बजाय ज़्यादा idea support tool जैसा लगता है
- मैंने भी Thinking with 3 Pro के साथ प्रयोग किया, लेकिन मुझे hints इतने spoon-feeding स्तर पर देने पड़े कि तब जाकर यह मेरे idea के आसपास पहुँचा
- आख़िर में, जो हैरानी होती है वह शायद model की क्षमता से ज़्यादा user की expectations की सीमा के कारण हो
- ऐसे models मूल रूप से knowledge librarian की भूमिका के क़रीब हैं, नए ideas के स्रोत नहीं
- असली creative exploration के लिए probabilistically कम खोजे गए क्षेत्रों में जाना, और goals को ख़ुद set व evaluate करना ज़रूरी है
  - मौजूदा Transformer architecture को सबसे संभावित token चुनने के लिए डिज़ाइन किया गया है, इसलिए यह मूल रूप से नवीनता से ज़्यादा consistency की ओर झुकता है
  - इसी वजह से high temperature देने पर creativity बढ़ने के बजाय अक्सर text consistency कम हो जाती है
  - इसे हल करने के लिए adaptive goal generation और simulation-based evaluation चाहिए, लेकिन इसकी computational cost बहुत अधिक है
  - आख़िरकार, मुझे नहीं लगता कि मौजूदा LLM architecture से सच्ची intelligence तक पहुँचना आसान है
- अगर आप real-time web search का उपयोग करो जैसी एक custom instruction जोड़ दें, तो ताज़ा जानकारी खोजने में मदद मिलती है
GPT-3 की release date जून 2020 थी, और ChatGPT वास्तव में version 3.5 था
- यह छोटी-सी ग़लती है, लेकिन मैं इसे ठीक-ठीक दर्ज करना चाहता हूँ
यह बात काफ़ी समय से कही जा रही है कि Human in the loop अब AI की ग़लतियाँ सुधारने वाले इंसान से AI को निर्देशित करने वाले इंसान की तरफ़ विकसित हो रहा है
- मुझे जिज्ञासा है कि यह कब स्पष्ट रूप से वास्तविकता बनेगा
- शायद इसका कोई पूरी तरह स्पष्ट क्षण नहीं होगा
  - जैसे कोई manager सिर्फ़ "निर्देश देने वाला व्यक्ति" बनकर नहीं रह सकता, वैसे ही हमेशा correction ratio बना रहेगा
- अगर आप CLI tools और agents को सीधे जोड़कर देखें, तो लगता है कि हम पहले ही उस turning point को पार कर चुके हैं
- व्यक्तिगत रूप से मुझे लगता है कि मैं पहले ही AI को निर्देशित करने वाले चरण में पहुँच चुका हूँ
मुझे संदेह है कि Claude Code या Antigrav जैसे tools को सीधे local system पर चलाना कितना सुरक्षित है
- VS Code-आधारित products में workspace access restrictions होते हैं, इसलिए वे अपेक्षाकृत सुरक्षित हैं, जबकि Warp जैसे terminals command allow/block lists से नियंत्रित होते हैं
- कुछ मामलों में flags के ज़रिए restrictions हटाई जा सकती हैं, लेकिन यह जानबूझकर ही करना पड़ता है
- मैं ऐसे काम हमेशा Podman development container के अंदर ही चलाता हूँ
- इसी समस्या को हल करने के लिए बना tool है Leash — security controls के लिए एक open source project
- कुछ लोग बस "Yolo" कहकर जोखिम उठाते हुए चला देते हैं
- वास्तव में ज़्यादातर users इन्हें सीधे local पर ही चलाते हैं

GPT-3 से Gemini 3 तक के 3 साल

Gemini 3 का आगमन और 3 साल का बदलाव

Antigravity और agent-शैली AI

सहयोगी AI के रूप में Gemini 3

research capability और ‘PhD-स्तर’ का आकलन

digital colleague की ओर बदलाव

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय