7 पॉइंट द्वारा GN⁺ 2026-02-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • विज्ञान·रिसर्च·इंजीनियरिंग समस्याओं के समाधान को लक्ष्य बनाकर बनाया गया Google का AI मॉडल Gemini 3 Deep Think बड़े पैमाने पर अपग्रेड किया गया है
  • नया वर्ज़न वैज्ञानिकों और शोधकर्ताओं के साथ सहयोग के जरिए अधूरे डेटा या स्पष्ट सही उत्तर के बिना मौजूद जटिल समस्याओं को संभालने के लिए डिज़ाइन किया गया है
  • गणित·प्रोग्रामिंग·भौतिकी·रसायन विज्ञान सहित विभिन्न क्षेत्रों की अंतरराष्ट्रीय ओलंपियाड और बेंचमार्क में गोल्ड मेडल-स्तर का प्रदर्शन हासिल किया गया
  • यह वास्तविक रिसर्च और इंजीनियरिंग अनुप्रयोगों को सपोर्ट करता है और स्केच से 3D प्रिंट किए जा सकने वाले मॉडल बनाना जैसी व्यावहारिक क्षमताएँ देता है
  • Google AI Ultra सब्सक्राइबर और Gemini API early access program के माध्यम से उपलब्ध, और आगे चलकर शोधकर्ताओं व कंपनियों तक विस्तार की योजना

Gemini 3 Deep Think का मुख्य अवलोकन

  • Gemini 3 Deep Think विज्ञान·रिसर्च·इंजीनियरिंग क्षेत्रों की आधुनिक चुनौतियों को हल करने के लिए डिज़ाइन किया गया एक विशेषized reasoning mode है
    • Google ने वैज्ञानिकों और शोधकर्ताओं के साथ करीबी सहयोग में ऐसे फीचर्स को मजबूत किया है जो स्पष्ट उत्तर न होने या अधूरे डेटा वाली समस्याओं को संभाल सकें
    • सैद्धांतिक ज्ञान और व्यावहारिक इंजीनियरिंग उपयोगिता को जोड़कर इसे वास्तविक अनुप्रयोग-केंद्रित मॉडल के रूप में विकसित किया गया है
  • यह अपग्रेड Gemini app के जरिए Google AI Ultra सब्सक्राइबर को दिया जा रहा है, और Gemini API के माध्यम से शोधकर्ता·इंजीनियर·कंपनियाँ early access के लिए आवेदन कर सकती हैं

शुरुआती उपयोग के उदाहरण

  • Rutgers University की गणितज्ञ Lisa Carbone ने हाई-एनर्जी फिजिक्स से जुड़े गणितीय पेपर की समीक्षा में Deep Think का उपयोग किया और ऐसी तार्किक त्रुटियाँ पकड़ीं जो मानव समीक्षा से भी निकल गई थीं
  • Duke University की Wang Lab ने सेमीकंडक्टर सामग्री खोज के लिए जटिल crystal growth process को optimize किया और 100μm से अधिक thin-film growth recipe डिज़ाइन की
  • Google Platforms & Devices डिवीज़न के Anupam Pathak ने भौतिक पुर्जों के डिज़ाइन को तेज़ करने के लिए Deep Think का परीक्षण किया

गणितीय और एल्गोरिदमिक सटीकता में सुधार

  • Deep Think ने International Mathematical Olympiad और International Collegiate Programming Contest में गोल्ड मेडल-स्तर के परिणाम दर्ज किए
  • नवीनतम वर्ज़न ने निम्नलिखित शैक्षणिक बेंचमार्क में शीर्ष स्कोर हासिल किए
    • Humanity’s Last Exam: 48.4% (बिना टूल के)
    • ARC-AGI-2: 84.6% (ARC Prize Foundation द्वारा सत्यापित)
    • Codeforces: Elo 3455
    • International Math Olympiad 2025: गोल्ड मेडल-स्तर का प्रदर्शन
  • Deep Think का उपयोग गणितीय खोजबीन करने वाले विशेष एजेंट विकसित करने में भी किया जा रहा है

जटिल वैज्ञानिक क्षेत्रों की पड़ताल

  • गणित और प्रोग्रामिंग से आगे बढ़कर रसायन विज्ञान·भौतिकी सहित व्यापक विज्ञान क्षेत्रों में भी प्रदर्शन बेहतर हुआ है
    • 2025 के International Physics Olympiad और International Chemistry Olympiad के लिखित भाग में गोल्ड मेडल-स्तर के नतीजे हासिल किए गए
    • सैद्धांतिक भौतिकी बेंचमार्क CMT-Benchmark में 50.5% स्कोर दर्ज किया गया
  • यह प्रदर्शन Deep Think की वैज्ञानिक reasoning क्षमता के विस्तार को साबित करता है

वास्तविक इंजीनियरिंग में तेजी

  • Deep Think जटिल डेटा की व्याख्या और भौतिक प्रणालियों की मॉडलिंग को सपोर्ट करता है, ताकि शोधकर्ता और इंजीनियर इसे व्यावहारिक काम में इस्तेमाल कर सकें
  • Gemini API के जरिए वास्तविक रिसर्च वातावरण में इसकी पहुँच बढ़ाई जा रही है
  • उदाहरण के तौर पर, उपयोगकर्ता स्केच इनपुट करके 3D प्रिंट किए जा सकने वाले मॉडल बना सकते हैं, और Deep Think उनका विश्लेषण, मॉडलिंग और फ़ाइल निर्माण तक कर सकता है

पहुँच और उपयोग

  • Google AI Ultra सब्सक्राइबर अभी Gemini app में तुरंत Deep Think का उपयोग कर सकते हैं
  • शोधकर्ता·इंजीनियर·कंपनियाँ Gemini API के early access program में भाग लेने के लिए आवेदन कर सकती हैं
  • Google को उम्मीद है कि Deep Think के जरिए नए वैज्ञानिक खोज और अनुप्रयोगों का विस्तार होगा

1 टिप्पणियां

 
GN⁺ 2026-02-13
Hacker News की राय
  • Arc-AGI-2 का 84.6% स्कोर काफ़ी चौंकाने वाला है
    आधिकारिक ब्लॉग पोस्ट में Gemini 3 Deep Think के बारे में काफ़ी विवरण है

    • मुझे पहले से ही Gemini 3 अविश्वसनीय रूप से general-purpose लगा था
      यह सिर्फ़ टेक्स्ट विवरण के आधार पर Balatro(ante 8) जीत सका। इंसानों के लिए यह बहुत मुश्किल नहीं है, लेकिन बिना किसी खास training के LLM का ऐसा कर पाना हैरान करने वाला है
      मैंने इसे Balatro Bench पर टेस्ट किया, और Deepseek यह गेम बिल्कुल नहीं खेल पाता
    • सिर्फ़ एक साल पहले तक इस benchmark पर स्कोर 1~10% के स्तर पर था, और अब यह लगभग AGI-स्तर तक पहुँच गया है, यह यक़ीन करना मुश्किल है
    • ARC-AGI स्कोर में बढ़ोतरी दिलचस्प है, लेकिन इसे ‘general intelligence’ की छलांग मानना ज़्यादा होगा
      मैं मज़ाक में कहता हूँ कि ARC-AGI का G शायद ‘graphical’ है। अब तक मॉडल spatial reasoning में कमज़ोर रहे थे, और लगता है इस बार वही हल हुआ है
      उम्मीद है ARC-AGI 3 में trial-and-error आधारित game-type tasks जोड़े जाएँगे
    • ARC Prize leaderboard देखें तो अभी प्रति task लगभग $13.62 लागत आती है
      व्यवहारिक रूप से देखें तो execution cost के वाजिब स्तर तक आने में शायद 5~10 साल और लगेंगे
      फिर भी यह सवाल है कि कहीं मॉडल benchmark पर overfitting तो नहीं हो गया
    • निष्पक्ष तुलना के लिए इसकी तुलना GPT-5.x Pro जैसे समान श्रेणी के मॉडल से करनी चाहिए
  • मॉडल रिलीज़ की रफ़्तार असामान्य रूप से तेज़ होती लग रही है
    सिर्फ़ आज ही Gemini 3 Deep Think और GPT 5.3 Codex Spark आए हैं, और कुछ दिन पहले Opus 4.6, GLM5, MiniMax M2.5 आए थे

    • लगता है Chinese New Year season का असर है
      चीन की research labs इस समय मॉडल जारी करती दिखती हैं, और अमेरिकी labs शायद DeepSeek R1 (20 जनवरी 2025) जैसी impact situation से बचने के लिए जल्दी ज़्यादा ताकतवर मॉडल जारी कर रही हैं
    • आजकल मॉडल इतने ज़्यादा हैं कि उनमें फर्क करना भी मुश्किल हो गया है
      Gemini 3 Deep Think पूरी तरह नया मॉडल कम और Gemini 3 Pro के ऊपर reasoning feature (subagent) जोड़ा गया संस्करण ज़्यादा लगता है
      यह OpenClaw जैसे external agent framework से भी जुड़ सकता है, इसलिए ‘agent workflow’ वाली बहस कुछ बढ़ा-चढ़ाकर कही गई लगती है
    • पिछले कुछ हफ्ते सच में explosive release cycle जैसे रहे हैं
    • एक वाक्य में कहें तो यह Fast takeoff है
  • Google पूरी तरह आगे निकलता हुआ दिख रहा है
    लोग सोचते थे कि वह पीछे है, लेकिन शायद वही उसकी सबसे अच्छी रणनीति थी

    • मॉडल प्रभावशाली है, लेकिन product quality बहुत खराब है
      मैंने Gemini web/CLI दो महीने इस्तेमाल किया, और यह बातचीत के बीच context खो देता है; अगर आप indoor air quality सुधारने के बारे में पूछें, तो यह बिना संदर्भ के सिर्फ़ air purifier की सूची दे देता है
      यहाँ तक कि यह रूसी propaganda sites को cite करता है या बीच वाक्य में चीनी में बदल जाता है
      ऐसी quality के लिए 20 euro प्रति माह समझ नहीं आता
    • सामान्य समय का Google धीमा और bureaucratic होता है, लेकिन wartime mode का Google हैरान कर देने वाली तेज़ी से काम करता है
    • OpenAI कुछ घंटों में फिर कुछ नया निकाल देगा, इसलिए यह प्रतिस्पर्धा मज़ेदार है
      जो लोग ARC-AGI-2 को LLM की सीमा कहते थे, वे अब फिर मानक बदल देंगे
      लगता है इंसानी मेहनत का बड़ा हिस्सा अब यह साबित करने में जाएगा कि “AI अभी AGI नहीं है”
    • फिर भी असली real-world usability में Google अभी पीछे है
      Gemini 3 Pro में अब भी काफ़ी समस्याएँ हैं
  • मैं Gemini 3 Pro का इस्तेमाल करके ऐतिहासिक दस्तावेज़ों का digitization project चला रहा हूँ
    1885~1974 के बीच की जर्मन हस्तलिखित बैठक कार्यवाहियों को scan करके, एक-एक पेज transcribe और फिर translate करता हूँ
    लगभग 2,370 पेज प्रोसेस हो चुके हैं, accuracy 95% है, और API cost लगभग $50 है
    manual review की ज़रूरत होती है, लेकिन समय बचत का असर बहुत बड़ा है

    • हो सकता है एक ही pass काफ़ी हो, इसलिए review के बाद कुल efficiency का फिर से आकलन करना चाहिए
  • मेरी intuition के हिसाब से मॉडल तीन तरह के spectrum में आते हैं
    non-thinking, thinking, और best-of-N type (Deep Think, GPT Pro)
    इनमें computation complexity लगभग linear, quadratic, और cubic की तरह बढ़ती है
    thinking मॉडल वे समस्याएँ हल कर सकते हैं जिनमें scratchpad लिखना ज़रूरी होता है

    • अगला चरण शायद agent swarm होगा
      एक manager model prompt लेकर कई sub-agents बनाएगा, उन्हें parallel में चलाएगा, और फिर परिणामों का मूल्यांकन व redistribution करेगा
    • best-of-N मॉडल में long context का उपयोग सबसे अहम है
      Google 2.5 version से लंबे context को व्यावहारिक रूप से अच्छी तरह संभाल रहा है
      pass@N की अवधारणा भी दिलचस्प है, और security vulnerability खोज या optimization problems जैसे search-heavy tasks जहाँ समय को पैसे में बदला जाता है के लिए उपयुक्त लगती है
    • इस सवाल पर कि क्या बड़ा non-thinking model छोटे thinking model जितना प्रदर्शन दे सकता है, Anthropic के मॉडल अच्छे उदाहरण हैं
      इस इमेज में Opus 4.6 बिना thinking के भी ऊँचा प्रदर्शन दिखाता है
  • सभी benchmarks की evaluation methodology PDF यहाँ है
    ARC-AGI-2 का 84.6% स्कोर semi-private set पर आधारित है,
    और private set में 85% पार करने पर इसे “solved” माना जाता है और $700K का इनाम दिया जाता है
    ARC Prize guide देखें

    • दस्तावेज़ का शीर्षक “Gemini 3.1 Pro” है, इससे लगता है कि जल्द नया version आ सकता है
    • लेकिन private set में 85% पार करना मुश्किल लग रहा है। उसका मतलब data leakage भी हो सकता है
  • आजकल मॉडल बहुत तेज़ी से आगे बढ़ रहे हैं, और मुझे लगने लगा है कि 3~5 साल में मेरी नौकरी गायब हो सकती है
    अब लगता है LLM उस चरण में पहुँच गए हैं जहाँ वे खुद को सुधारने लगे हैं

  • यह OpenRouter पर नहीं है, यह थोड़ा अफ़सोसजनक है
    आजकल शीर्ष श्रेणी के Deep Think मॉडल अक्सर सिर्फ़ अपनी ही platforms पर उपलब्ध रखे जा रहे हैं

    • OpenRouter अच्छा है, लेकिन litellm एक simple Python library है, इसलिए ज़्यादा साफ़-सुथरा लगता है
      litellm docs देखें
    • लेकिन अब ऐसा लगने लगा है कि golden age ख़त्म हो चुका है
  • Gemini हमेशा मुझे बहुत ज्ञानवान लेकिन कम लचीला मॉडल लगा है
    script के बाहर की requests पर यह जल्दी टूट जाता है

    • सच कहें तो ऐसा अनुभव user adaptation का मामला भी हो सकता है
      मैंने Google मॉडल लंबे समय तक इस्तेमाल किए हैं, इसलिए मुझे OpenAI मॉडल कहीं कमज़ोर लगे
      उल्टा OpenAI users भी शायद इसी वजह से अपने मॉडल को सबसे बेहतर मानते होंगे
    • कुछ मायनों में Gemini अपने ही तरीके से सोचने वाला मॉडल लगता है
      मैंने अभी टेस्ट नहीं किया, लेकिन संभव है कि instruction following बेहतर हुई हो
  • मॉडल विकास की रफ़्तार देखकर हैरानी होती है
    लगा था कि अब ये दीवार से टकराएँगे, लेकिन नए मॉडल पुराने benchmarks को पूरी तरह तोड़ रहे हैं

    • लेकिन कंपनियाँ benchmark score optimization पर इतना ध्यान दे रही हैं कि वास्तविक प्रदर्शन के साथ उसका संबंध धीरे-धीरे कम होता जा रहा है