Gemini 3.1 Pro

(blog.google)

4 पॉइंट द्वारा GN⁺ 2026-02-20 | 4 टिप्पणियां | WhatsApp पर शेयर करें

जटिल कार्यों को संभालने के लिए उन्नत multimodal AI मॉडल, जिसका लक्ष्य सिर्फ साधारण जवाबों से आगे बढ़कर समस्या-समाधान करना है
ARC-AGI-2 benchmark में 77.1% validation score दर्ज कर, पिछले 3 Pro की तुलना में दोगुने से अधिक reasoning performance हासिल की
data integration, visual explanation, creative coding जैसे उच्च-कठिनाई वाले कार्यों में बेहतर reasoning क्षमता दिखाता है
text, audio, image, video, code repository जैसी विविध input forms को संभालता है, और अधिकतम 1 million token context तथा 64K token output को support करता है
Google इस preview के माध्यम से agentic workflow को और उन्नत करने तथा भविष्य की general availability के लिए validation कर रहा है

Gemini 3.1 Pro का अवलोकन

Gemini 3.1 Pro जटिल कार्यों को संभालने के लिए उन्नत multimodal AI मॉडल है, जिसका लक्ष्य सिर्फ साधारण जवाबों से आगे बढ़कर समस्या-समाधान करना है
- Google के अनुसार, यह वही मुख्य intelligence upgrade है जिसने Gemini 3 Deep Think की उपलब्धियों को संभव बनाया
- text, audio, image, video, code repository जैसे multimodal input को संभालता है
- अधिकतम 1 million token context window और 64K token output को support करता है
- इस version को consumer, developer, enterprise products में क्रमिक रूप से rollout किया जा रहा है
rollout path इस प्रकार है
- developer: Gemini API in Google AI Studio, Gemini CLI, Antigravity, Android Studio
- enterprise: Vertex AI, Gemini Enterprise
- consumer: Gemini app, NotebookLM

प्रदर्शन और benchmark

Gemini 3.1 Pro को reasoning क्षमता पर केंद्रित सुधारों के साथ जटिल समस्या-समाधान के लिए optimize किया गया है
- ARC-AGI-2 benchmark में 77.1% validation score दर्ज किया, जो पिछले 3 Pro की तुलना में दोगुने से अधिक performance improvement है
- प्रमुख प्रदर्शन तुलना परिणाम (Gemini 3 Pro की तुलना में):
  - ARC-AGI-2: 77.1% (vs 31.1%)
  - GPQA Diamond: 94.3% (vs 91.9%)
  - Terminal-Bench 2.0: 68.5% (vs 56.9%)
  - LiveCodeBench Pro: Elo 2887 (vs 2439)
  - BrowseComp: 85.9% (vs 59.2%)
- ये benchmark पूरी तरह नए logical patterns को हल करने की मॉडल की क्षमता का आकलन करते हैं
Google इसे “और अधिक स्मार्ट तथा सक्षम base model” के रूप में परिभाषित करता है, और जटिल समस्या-समाधान की नींव के रूप में प्रस्तुत करता है

वास्तविक उपयोग के उदाहरण

Gemini 3.1 Pro advanced reasoning को व्यावहारिक रूप में लागू करके विभिन्न application possibilities दिखाता है
- visual explanation generation: जटिल विषयों को स्पष्ट और दृश्य रूप में समझाने की क्षमता
- data integration: कई data sources को एक unified view में synthesize करना
- creative project implementation: कलात्मक और design ideas को code के रूप में लागू करना
ठोस उदाहरण
- code-based animation: text prompt से website के लिए SVG animation बनाना, resolution loss के बिना file size को न्यूनतम रखना
- complex system integration: International Space Station (ISS) की कक्षा को real time में visualize करने वाला dashboard बनाना
- interactive design: 3D starling flock simulation को code करके hand tracking और music-responsive interface लागू करना
- creative coding: 『Wuthering Heights』 के साहित्यिक माहौल को दर्शाने वाली आधुनिक portfolio website design करना

rollout और access

Gemini 3.1 Pro को preview रूप में जारी किया गया है और user feedback एकत्र किया जा रहा है
- Google AI Pro और Ultra plan users Gemini app में अधिक usage limits का लाभ ले सकते हैं
- NotebookLM में यह केवल Pro और Ultra users के लिए उपलब्ध है
- developer और enterprise उपयोगकर्ता AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio के माध्यम से access कर सकते हैं

आगे की योजना

Gemini 3 Pro के लॉन्च के बाद Google ने तेज सुधार की गति बनाए रखी है, और इस 3.1 Pro preview के माध्यम से updates का validation और agentic workflow का विस्तार आगे बढ़ा रहा है
general availability (GA) validation पूरा होने के बाद की जाएगी, और Google ने कहा कि वह “यह देखने को उत्साहित है कि उपयोगकर्ता इस मॉडल से क्या बनाएंगे और क्या खोजेंगे”

4 टिप्पणियां

jwh926 2026-02-20

उम्मीद है कि यह जल्दी ही coding performance में Claude Opus के बराबर पहुँच जाएगा।

ifmkl 2026-02-20

सही बात है। 3.0 preview मॉडल जब CLI पर आया था और मैंने उसे पहले ही दिन इस्तेमाल किया, तो वह इतना अच्छा लगा कि मैंने उस पर ब्लॉग में अपने इंप्रेशन भी लिखे थे,, लेकिन फिर बहुत तेज़ी से ... उसकी वजह से अभी मैं ज़्यादातर codex और claude code इस्तेमाल कर रहा हूँ। लेकिन claude भी थोड़ा... 4.6 opus या sonnet ठीक हैं या नहीं, यह देखकर, नहीं तो सोच रहा हूँ कि कोड के लिए codex और बाकी दूसरे कामों के लिए gemini पर ही टिक जाऊँ..

GN⁺ 2026-02-20

Hacker News की राय

Gemini 3.1 Pro का सच में इंतज़ार है
अब तक मैं लगभग हमेशा Claude की तरफ झुकता रहा हूँ, लेकिन Claude Opus खासकर coding में बेहतरीन है
Gemini भी लगभग शानदार है, लेकिन अभी Claude के स्तर तक नहीं पहुँचा है
मैं हर महीने ChatGPT Plus ↔ Gemini Pro ↔ Claude की subscription बदल-बदलकर लेता हूँ ताकि हर model की ताकत का फायदा न छूटे
एक पूर्व Googler के तौर पर मैं चाहता हूँ कि Gemini 3.1 Pro, 3.0 से बेहतर हो
लेकिन development के लिए Gemini सबसे frustrating model था
Claude Opus, VS Code Copilot में सोच की धारा और जवाब के बीच अच्छा संतुलन रखता है, जबकि Gemini सिर्फ thinking token खर्च करता है और नतीजे समझाता नहीं
यह अक्सर loop में फँस जाता है, tools का इस्तेमाल भी ठीक से नहीं करता, और files को गलत जगह modify कर देता है
इसलिए मैंने ‘planning के लिए Gemini, execution के लिए Claude’ वाली strategy अपनाई, लेकिन आखिर में सिर्फ Claude ही इस्तेमाल करने लगा
Anthropic जहाँ असली projects को केंद्र में रखकर models को polish करता दिखता है, वहीं Google में real-world usage testing की कमी लगती है
- मेरे project में color space math बहुत है, और Gemini 3 Pro अक्सर basic type errors कर देता था
  int8 को float समझ लेना, या normalization हुआ है या नहीं यह भूल जाना
  यह किसी कमज़ोर याददाश्त वाले इंसान जैसा लगता था
  फिर भी architecture design पर चर्चा में यह काफ़ी मददगार है
- Gemini 3 को Openclaw में इस्तेमाल करते समय प्रति घंटा 10~20 डॉलर, और प्रति prompt 1.5~3 डॉलर खर्च हुए
  यह अत्यधिक अक्षम था
- model की performance आखिरकार tuning और tool integration पर निर्भर करती है
  Claude को देखकर लगता है कि उसने ‘coding process’ को ही सीखा है, और Anthropic ने user feedback को tuning में शामिल किया है
  Google शायद general-purpose model बनाना चाहता है, इसलिए वह ‘सब कुछ थोड़ा-थोड़ा करता है, लेकिन किसी में भी पूरी तरह श्रेष्ठ नहीं’ जैसी स्थिति में दिखता है
- Gemini 3.0 मेरे लिए इस्तेमाल लायक नहीं था
  Claude या Codex समस्या को हल करने का तरीका समझाते हैं, लेकिन Gemini बस सीधे चल पड़ता है
  यह edit requests को नज़रअंदाज़ करता है और workspace को गड़बड़ कर देता है
  मुफ़्त में उपलब्ध होने के बावजूद मैं इसे लगभग इस्तेमाल नहीं करता
  लगता है Anthropic ने बहुत पहले ही समझ लिया था कि ‘user के पास control होना चाहिए’
- Gemini agentic tasks में कमज़ोर है
  OpenAI, Claude के स्तर तक पहुँच गया है, लेकिन Google अभी बहुत पीछे है
लोग Google की cost efficiency को कम आँकते हैं
Opus की आधी कीमत पर भी इसकी performance काफ़ी अच्छी है
Artificial Analysis metrics के मुताबिक 3.1, Opus से 40% सस्ता और 30% तेज़ है
- लेकिन यह नज़रिया भी है कि “1 cent के साधारण जवाब से 2 cent का शानदार जवाब बेहतर है”
  अगर बात development की है, तो महीने के 300 डॉलर देकर भी सबसे अच्छा model इस्तेमाल करना क़ीमती हो सकता है
  consumer AI में यह हिसाब अलग होगा
- बेशक अगर काम ही ठीक से न हो, तो आधी कीमत भी बेकार है
  फिर भी अगर performance बराबरी पर आ जाए, तो pricing advantage आकर्षक है
- अगर Opus 20% बेहतर code बनाता है, तो असली projects में वह फ़र्क बहुत मायने रखता है
  लेकिन अगर performance मिलती-जुलती हो, तो 50% cost saving बड़ा फ़ायदा है
- Gemini के benchmark scores भी अच्छे हैं, और DeepMind के engineers भी शानदार हैं
  मेरी नज़र में यह काम और hobby coding दोनों में अच्छा चलता है
  फिर भी community में इसे इतनी आलोचना क्यों मिलती है, यह हैरान करता है
- Deepseek, Opus की कीमत का 2% है, लेकिन coding के लिए ज़्यादातर लोग फिर भी उसे नहीं चुनते
आजकल के models बहुत ज़्यादा शक्तिशाली हो गए हैं
पहले की तुलना में बहुत कम समय में पूरा software बनाया जा सकता है
लेकिन versions के बीच behavior difference इतना बड़ा है कि हर महीने नई team manage करने जैसा लगता है
model बिना सूचना बदला जा सकता है या हल्का-सा अलग हो सकता है, इसलिए यह unstable foundation जैसा लगता है
- Opus 4.6 ने वह problem हल की जिसे पहले o4-mini नहीं सुलझा पाया था
  इसे sqlite-chronicle issue में देखा जा सकता है
  इसके बाद इसने कई projects की अटकी हुई समस्याएँ भी हल कीं
- मैंने Anthropic, Google और OpenAI के models सभी इस्तेमाल किए हैं, लेकिन पूरा product बनाने के लिए अभी भी कमी है
  फिर भी ideas निकालने और codebase शुरू करने के लिए ये काफ़ी हैं
- GPT 5.1 codex max से बनाया गया app अभी भी अच्छी तरह काम करता है
  लगता है कि वही model अपने बनाए code को दोबारा संभालने में आसान पाता है, यानी एक तरह की self-consistency है
- व्यवहार में यह ‘प्रतिभाशाली लेकिन अजीब engineer’ को manage करने जैसा लगता है
  फिर भी यह अब भी चौंका देने वाली technology है
- “एक sushi meal की क़ीमत में एक genius engineer को एक महीने hire करना” वाली बात पर किसी ने मज़ाक किया, “क्या उससे calculator ही बनवाओगे?”
Gemini 3.1 Pro की कीमत में कोई बदलाव नहीं है
input $2/M, output $12/M है, जैसा official docs में लिखा है
knowledge cutoff जनवरी 2025 है, और “medium thinking” mode नया जोड़ा गया है
Opus 4.6 के $5/$25 की तुलना में क़ीमत का अंतर बड़ा है
- enterprise CLI agent इस्तेमाल करने के लिए Google की जटिल प्रक्रिया समस्या बनती है
  IAM rules सेट करना, billing, product names समझना — इन सबमें अटकना पड़ता है
  OpenAI और Anthropic काफ़ी सरल हैं
  फिर भी monthly cost लगभग समान है
- अगर Vendor-Bench 2 में long-term reasoning performance बेहतर नहीं हुई, तो मैं CC से migrate करने का नहीं सोच रहा
  Anthropic full-stack optimization के कारण आगे दिख रहा है
- अब भी minimal reasoning नहीं है
  Opus 4.6 की तरह thinking बंद करके भी तेज़ और smart रहने वाला model अभी नहीं है
- Codex से सस्ता लगता है, इसलिए दिलचस्प है
- knowledge cutoff जनवरी 2025 होने से थोड़ा पुराना-सा महसूस होता है
Gemini 3 अभी भी preview state में है, और 2.5 जल्द deprecate होने वाला है
official deprecation schedule देखें तो कुछ models बिना replacement के भी बंद हो रहे हैं
समझ नहीं आता कि Google असली production model कब जारी करेगा
- मैं भी सहमत हूँ। deprecate हो चुके या release ही न हुए models पर निर्भर रहना जोखिम भरा है
  मेरे पास चलती हुई production systems हैं, इसलिए यह काफ़ी चिंता पैदा करता है
- लगता है आपने link गलत पढ़ा। सिर्फ 2.5-preview deprecate हो रहा है, 2.5 stable version 2026 की autumn तक रहेगा
- Google कभी ऐसा software बंद नहीं करेगा जिस पर इतने लोग निर्भर हों, है न?
  Killed by Google देखकर समझ आता है कि यह बात कितनी खोखली है
- ऐसे समय पर ही लगता है, “हाँ, यही तो पूरी तरह Google जैसा है”
- 2.5 deprecation की घोषणा अभी नहीं हुई है
  अगर 3.0 preview में है, तो 2.5 कम से कम एक साल तो रहेगा
  official docs में भी साफ़ लिखा है कि “सटीक end-of-life date पहले से notice देकर बताई जाएगी”
Gemini ने UI और data sync race condition की समस्या एक ही बार में हल कर दी
Opus 4.6 भी इसे तीन कोशिशों के बाद ही सुलझा पाया था, इसलिए यह चौंकाने वाला था
अब यह पहले से कम verbose है और सीधे मुख्य बात पर आता है
आगे शायद मैं R&D के लिए Gemini और finishing के लिए Opus/Sonnet 4.6 वाली strategy अपनाऊँगा
- मेरा combo है: Opus 4.6 से code research, GPT 5.3 codex से code writing, Gemini से science·math algorithms, और Grok से security-related queries
  कई models को support करने वाला unified wrapper इस्तेमाल करने से model चुनने की चिंता कम होती है
  आखिरकार अहम बात यही है: “मेरी समस्या के लिए सबसे सही model कौन-सा है”
Gemini ने “car wash question” का बिल्कुल सही जवाब दिया
जवाब का तर्क था, “अगर पैदल जाओगे तो धुलने के लिए कार ही नहीं होगी, इसलिए कार चलाकर जाना होगा”
- हो सकता है यह सवाल training data में रहा हो, इसलिए मैंने इसे बदलकर elephant car wash question कर दिया
  Gemini ने तर्कसंगत ढंग से समझाया कि “हाथी को साथ ले जाना होगा”, और विस्तार से कारण भी दिए
  इसकी reasoning ability काफ़ी प्रभावशाली लगी
- GPT-OSS-120b ने भी उसी सवाल का सही जवाब दिया
  बस Gemini की “बारिश वाले दिन car wash forecast” वाली बात प्यारी तो लगी, मगर थोड़ी ज़्यादा आत्मविश्वासी भी
- असली बात सिर्फ सही जवाब होना नहीं है, बल्कि क्या उसने कारण सही तरह से सोचा यह है
- सच तो यह है कि Gemini 3 Pro और Flash भी पहले से इस सवाल का सही जवाब दे चुके थे
- लेकिन जवाब बहुत लंबा-चौड़ा होने से उल्टा थकान होती है
“pelican riding a bicycle SVG” test में Gemini ने अच्छा result दिया
result link देखें
शायद ARC-AGI benchmark में बढ़त की वजह से इसकी visual generation ability बेहतर हुई है
- animated SVG अब default examples में शामिल है
  benchmark खुद ही अब अर्थ खो चुका है, और अब यह personal taste की चीज़ लगती है
  किसी नए ‘vibe check’ benchmark की ज़रूरत है
- मुझे जो result मिला उसमें pelican से ज़्यादा 3D style का प्रभाव था
  यह दिलचस्प बदलाव है
- लेकिन यह अब भी मेरे personal SVG benchmark, यानी human heart cross-section, में fail हो जाता है
  आख़िरकार human designer के हाथ की ज़रूरत रहती है
- model और बेहतर हुए तो SVG-based real-time UI या interactive media बनाना भी संभव लगने लगेगा
- दूसरी ओर PostScript जैसे दूसरे vector formats में लगभग कोई प्रगति नहीं है
  शायद यह Google के SVG पर focused optimization का नतीजा है
Simon Willison के blog पर आया pelican SVG काफ़ी शानदार था, लेकिन उसे generate होने में 5 मिनट से ज़्यादा लगे
यह launch के शुरुआती performance issues जैसा लगता है
- Gemini की समस्या हमेशा यह रही है कि उसका रवैया “ज़रूरत से ज़्यादा मदद करने” वाला होता है
  मुझे सिर्फ pelican और bicycle चाहिए थे, लेकिन इसने clouds, sun और hat भी जोड़ दिए
  coding में भी यही करता है: अनचाहा refactoring और comments जोड़ना बंद नहीं करता
- मज़ेदार बात यह है कि ऐसे tests की वजह से Google सचमुच animal+vehicle SVG generation पर बहुत मेहनत कर रहा होगा
  Jeff Dean का tweet भी उसी का संकेत देता है
- यह सोचने वाली बात है कि LLMs SVG में इतने मज़बूत क्यों हैं
  दूसरी तरह की spatial understanding में ये कमज़ोर होते हैं, लेकिन precise shape generation में कमाल के हैं
- जल्द ही शायद models ‘pelican bicycle SVG generation’ पर benchmark competition करने लगें
- Google blog की official post देखें तो SVG generation को एक प्रमुख use case के रूप में बताया गया है
  यानी यह सामान्य क्षमता में सुधार नहीं, बल्कि explicit training का नतीजा भी हो सकता है

clumsily 2026-02-20

शायद ज़्यादा समय नहीं लगेगा और इसकी performance चुपचाप nerf कर दी जाएगी; सबसे अहम बात यही होगी कि nerf कितना होता है। (वैसे ज़्यादातर AI models समय के साथ थोड़े बेवकूफ होते लगते हैं, लेकिन Google इस मामले में ख़ासतौर पर ज़्यादा गंभीर लगता है।)
मुझे याद है कि 3 Pro भी पहली बार आने के तुरंत बाद अच्छा था, लेकिन करीब एक हफ़्ते बाद यह अचानक काफ़ी बेवकूफ हो गया, और आखिरकार मैंने इसका इस्तेमाल छोड़ दिया।