- विज्ञान·रिसर्च·इंजीनियरिंग समस्याओं के समाधान को लक्ष्य बनाकर बनाया गया Google का AI मॉडल Gemini 3 Deep Think बड़े पैमाने पर अपग्रेड किया गया है
- नया वर्ज़न वैज्ञानिकों और शोधकर्ताओं के साथ सहयोग के जरिए अधूरे डेटा या स्पष्ट सही उत्तर के बिना मौजूद जटिल समस्याओं को संभालने के लिए डिज़ाइन किया गया है
- गणित·प्रोग्रामिंग·भौतिकी·रसायन विज्ञान सहित विभिन्न क्षेत्रों की अंतरराष्ट्रीय ओलंपियाड और बेंचमार्क में गोल्ड मेडल-स्तर का प्रदर्शन हासिल किया गया
- यह वास्तविक रिसर्च और इंजीनियरिंग अनुप्रयोगों को सपोर्ट करता है और स्केच से 3D प्रिंट किए जा सकने वाले मॉडल बनाना जैसी व्यावहारिक क्षमताएँ देता है
- Google AI Ultra सब्सक्राइबर और Gemini API early access program के माध्यम से उपलब्ध, और आगे चलकर शोधकर्ताओं व कंपनियों तक विस्तार की योजना
Gemini 3 Deep Think का मुख्य अवलोकन
- Gemini 3 Deep Think विज्ञान·रिसर्च·इंजीनियरिंग क्षेत्रों की आधुनिक चुनौतियों को हल करने के लिए डिज़ाइन किया गया एक विशेषized reasoning mode है
- Google ने वैज्ञानिकों और शोधकर्ताओं के साथ करीबी सहयोग में ऐसे फीचर्स को मजबूत किया है जो स्पष्ट उत्तर न होने या अधूरे डेटा वाली समस्याओं को संभाल सकें
- सैद्धांतिक ज्ञान और व्यावहारिक इंजीनियरिंग उपयोगिता को जोड़कर इसे वास्तविक अनुप्रयोग-केंद्रित मॉडल के रूप में विकसित किया गया है
- यह अपग्रेड Gemini app के जरिए Google AI Ultra सब्सक्राइबर को दिया जा रहा है, और Gemini API के माध्यम से शोधकर्ता·इंजीनियर·कंपनियाँ early access के लिए आवेदन कर सकती हैं
शुरुआती उपयोग के उदाहरण
- Rutgers University की गणितज्ञ Lisa Carbone ने हाई-एनर्जी फिजिक्स से जुड़े गणितीय पेपर की समीक्षा में Deep Think का उपयोग किया और ऐसी तार्किक त्रुटियाँ पकड़ीं जो मानव समीक्षा से भी निकल गई थीं
- Duke University की Wang Lab ने सेमीकंडक्टर सामग्री खोज के लिए जटिल crystal growth process को optimize किया और 100μm से अधिक thin-film growth recipe डिज़ाइन की
- Google Platforms & Devices डिवीज़न के Anupam Pathak ने भौतिक पुर्जों के डिज़ाइन को तेज़ करने के लिए Deep Think का परीक्षण किया
गणितीय और एल्गोरिदमिक सटीकता में सुधार
- Deep Think ने International Mathematical Olympiad और International Collegiate Programming Contest में गोल्ड मेडल-स्तर के परिणाम दर्ज किए
- नवीनतम वर्ज़न ने निम्नलिखित शैक्षणिक बेंचमार्क में शीर्ष स्कोर हासिल किए
- Humanity’s Last Exam: 48.4% (बिना टूल के)
- ARC-AGI-2: 84.6% (ARC Prize Foundation द्वारा सत्यापित)
- Codeforces: Elo 3455
- International Math Olympiad 2025: गोल्ड मेडल-स्तर का प्रदर्शन
- Deep Think का उपयोग गणितीय खोजबीन करने वाले विशेष एजेंट विकसित करने में भी किया जा रहा है
जटिल वैज्ञानिक क्षेत्रों की पड़ताल
- गणित और प्रोग्रामिंग से आगे बढ़कर रसायन विज्ञान·भौतिकी सहित व्यापक विज्ञान क्षेत्रों में भी प्रदर्शन बेहतर हुआ है
- 2025 के International Physics Olympiad और International Chemistry Olympiad के लिखित भाग में गोल्ड मेडल-स्तर के नतीजे हासिल किए गए
- सैद्धांतिक भौतिकी बेंचमार्क CMT-Benchmark में 50.5% स्कोर दर्ज किया गया
- यह प्रदर्शन Deep Think की वैज्ञानिक reasoning क्षमता के विस्तार को साबित करता है
वास्तविक इंजीनियरिंग में तेजी
- Deep Think जटिल डेटा की व्याख्या और भौतिक प्रणालियों की मॉडलिंग को सपोर्ट करता है, ताकि शोधकर्ता और इंजीनियर इसे व्यावहारिक काम में इस्तेमाल कर सकें
- Gemini API के जरिए वास्तविक रिसर्च वातावरण में इसकी पहुँच बढ़ाई जा रही है
- उदाहरण के तौर पर, उपयोगकर्ता स्केच इनपुट करके 3D प्रिंट किए जा सकने वाले मॉडल बना सकते हैं, और Deep Think उनका विश्लेषण, मॉडलिंग और फ़ाइल निर्माण तक कर सकता है
पहुँच और उपयोग
- Google AI Ultra सब्सक्राइबर अभी Gemini app में तुरंत Deep Think का उपयोग कर सकते हैं
- शोधकर्ता·इंजीनियर·कंपनियाँ Gemini API के early access program में भाग लेने के लिए आवेदन कर सकती हैं
- Google को उम्मीद है कि Deep Think के जरिए नए वैज्ञानिक खोज और अनुप्रयोगों का विस्तार होगा
1 टिप्पणियां
Hacker News की राय
Arc-AGI-2 का 84.6% स्कोर काफ़ी चौंकाने वाला है
आधिकारिक ब्लॉग पोस्ट में Gemini 3 Deep Think के बारे में काफ़ी विवरण है
यह सिर्फ़ टेक्स्ट विवरण के आधार पर Balatro(ante 8) जीत सका। इंसानों के लिए यह बहुत मुश्किल नहीं है, लेकिन बिना किसी खास training के LLM का ऐसा कर पाना हैरान करने वाला है
मैंने इसे Balatro Bench पर टेस्ट किया, और Deepseek यह गेम बिल्कुल नहीं खेल पाता
मैं मज़ाक में कहता हूँ कि ARC-AGI का G शायद ‘graphical’ है। अब तक मॉडल spatial reasoning में कमज़ोर रहे थे, और लगता है इस बार वही हल हुआ है
उम्मीद है ARC-AGI 3 में trial-and-error आधारित game-type tasks जोड़े जाएँगे
व्यवहारिक रूप से देखें तो execution cost के वाजिब स्तर तक आने में शायद 5~10 साल और लगेंगे
फिर भी यह सवाल है कि कहीं मॉडल benchmark पर overfitting तो नहीं हो गया
मॉडल रिलीज़ की रफ़्तार असामान्य रूप से तेज़ होती लग रही है
सिर्फ़ आज ही Gemini 3 Deep Think और GPT 5.3 Codex Spark आए हैं, और कुछ दिन पहले Opus 4.6, GLM5, MiniMax M2.5 आए थे
चीन की research labs इस समय मॉडल जारी करती दिखती हैं, और अमेरिकी labs शायद DeepSeek R1 (20 जनवरी 2025) जैसी impact situation से बचने के लिए जल्दी ज़्यादा ताकतवर मॉडल जारी कर रही हैं
Gemini 3 Deep Think पूरी तरह नया मॉडल कम और Gemini 3 Pro के ऊपर reasoning feature (subagent) जोड़ा गया संस्करण ज़्यादा लगता है
यह OpenClaw जैसे external agent framework से भी जुड़ सकता है, इसलिए ‘agent workflow’ वाली बहस कुछ बढ़ा-चढ़ाकर कही गई लगती है
Google पूरी तरह आगे निकलता हुआ दिख रहा है
लोग सोचते थे कि वह पीछे है, लेकिन शायद वही उसकी सबसे अच्छी रणनीति थी
मैंने Gemini web/CLI दो महीने इस्तेमाल किया, और यह बातचीत के बीच context खो देता है; अगर आप indoor air quality सुधारने के बारे में पूछें, तो यह बिना संदर्भ के सिर्फ़ air purifier की सूची दे देता है
यहाँ तक कि यह रूसी propaganda sites को cite करता है या बीच वाक्य में चीनी में बदल जाता है
ऐसी quality के लिए 20 euro प्रति माह समझ नहीं आता
जो लोग ARC-AGI-2 को LLM की सीमा कहते थे, वे अब फिर मानक बदल देंगे
लगता है इंसानी मेहनत का बड़ा हिस्सा अब यह साबित करने में जाएगा कि “AI अभी AGI नहीं है”
Gemini 3 Pro में अब भी काफ़ी समस्याएँ हैं
मैं Gemini 3 Pro का इस्तेमाल करके ऐतिहासिक दस्तावेज़ों का digitization project चला रहा हूँ
1885~1974 के बीच की जर्मन हस्तलिखित बैठक कार्यवाहियों को scan करके, एक-एक पेज transcribe और फिर translate करता हूँ
लगभग 2,370 पेज प्रोसेस हो चुके हैं, accuracy 95% है, और API cost लगभग $50 है
manual review की ज़रूरत होती है, लेकिन समय बचत का असर बहुत बड़ा है
मेरी intuition के हिसाब से मॉडल तीन तरह के spectrum में आते हैं
non-thinking, thinking, और best-of-N type (Deep Think, GPT Pro)
इनमें computation complexity लगभग linear, quadratic, और cubic की तरह बढ़ती है
thinking मॉडल वे समस्याएँ हल कर सकते हैं जिनमें scratchpad लिखना ज़रूरी होता है
एक manager model prompt लेकर कई sub-agents बनाएगा, उन्हें parallel में चलाएगा, और फिर परिणामों का मूल्यांकन व redistribution करेगा
Google 2.5 version से लंबे context को व्यावहारिक रूप से अच्छी तरह संभाल रहा है
pass@N की अवधारणा भी दिलचस्प है, और security vulnerability खोज या optimization problems जैसे search-heavy tasks जहाँ समय को पैसे में बदला जाता है के लिए उपयुक्त लगती है
इस इमेज में Opus 4.6 बिना thinking के भी ऊँचा प्रदर्शन दिखाता है
सभी benchmarks की evaluation methodology PDF यहाँ है
ARC-AGI-2 का 84.6% स्कोर semi-private set पर आधारित है,
और private set में 85% पार करने पर इसे “solved” माना जाता है और $700K का इनाम दिया जाता है
ARC Prize guide देखें
आजकल मॉडल बहुत तेज़ी से आगे बढ़ रहे हैं, और मुझे लगने लगा है कि 3~5 साल में मेरी नौकरी गायब हो सकती है
अब लगता है LLM उस चरण में पहुँच गए हैं जहाँ वे खुद को सुधारने लगे हैं
यह OpenRouter पर नहीं है, यह थोड़ा अफ़सोसजनक है
आजकल शीर्ष श्रेणी के Deep Think मॉडल अक्सर सिर्फ़ अपनी ही platforms पर उपलब्ध रखे जा रहे हैं
litellm docs देखें
Gemini हमेशा मुझे बहुत ज्ञानवान लेकिन कम लचीला मॉडल लगा है
script के बाहर की requests पर यह जल्दी टूट जाता है
मैंने Google मॉडल लंबे समय तक इस्तेमाल किए हैं, इसलिए मुझे OpenAI मॉडल कहीं कमज़ोर लगे
उल्टा OpenAI users भी शायद इसी वजह से अपने मॉडल को सबसे बेहतर मानते होंगे
मैंने अभी टेस्ट नहीं किया, लेकिन संभव है कि instruction following बेहतर हुई हो
मॉडल विकास की रफ़्तार देखकर हैरानी होती है
लगा था कि अब ये दीवार से टकराएँगे, लेकिन नए मॉडल पुराने benchmarks को पूरी तरह तोड़ रहे हैं