Gemini 3 Pro: विज़न AI की फ्रंटियर

(blog.google)

3 पॉइंट द्वारा GN⁺ 2025-12-06 | 3 टिप्पणियां | WhatsApp पर शेयर करें

Gemini 3 Pro केवल साधारण पहचान चरण से आगे बढ़कर दृश्य और स्थानिक reasoning करने वाला अगली पीढ़ी का multimodal मॉडल
दस्तावेज़, स्थान, स्क्रीन और वीडियो समझ जैसे कई क्षेत्रों में यह state-of-the-art performance दर्ज करते हुए जटिल visual reasoning benchmarks में शीर्ष स्तर हासिल करता है
दस्तावेज़ समझ में यह सटीक OCR और स्ट्रक्चर रिकंस्ट्रक्शन (derendering) के साथ multi-step table/chart विश्लेषण जैसी उन्नत reasoning क्षमताएँ प्रदान करता है
स्थान, स्क्रीन और वीडियो समझ में coordinates आधारित pointिंग, high-speed frame analysis, और video cause tracking जैसी क्षमताओं से वास्तविक वातावरण के साथ इंटरैक्शन को मजबूत बनाता है
शिक्षा, चिकित्सा, कानून, वित्त जैसे कई उद्योगों में यह सटीक visual understanding और automation को सपोर्ट करता है, जबकि डेवलपर media_resolution parameter से performance और cost का संतुलन सेट कर सकता है

Gemini 3 Pro अवलोकन

Gemini 3 Pro पहचान से आगे बढ़कर visual और spatial reasoning में विकसित हुआ मॉडल है, और Google द्वारा विकसित सबसे शक्तिशाली multimodal मॉडल है
- दस्तावेज़, स्थान, स्क्रीन और वीडियो समझ के सभी हिस्सों में नवीनतम benchmarks में शीर्ष स्कोर दर्ज हुए हैं
- MMMU Pro और Video MMMU जैसे जटिल visual reasoning टेस्ट में नई सर्वोच्च performance हासिल की गई है

1. दस्तावेज़ समझ

वास्तविक दस्तावेज़ में image, hand-written text, तालिका, समीकरण आदि unstructured घटकों का मिश्रण होता है और Gemini 3 Pro इन्हें सही तरीके से पहचानकर संरचित करता है
- OCR सटीकता और visual reasoning क्षमता में उल्लेखनीय सुधार
Derendering फीचर के माध्यम से दृश्य दस्तावेजों को HTML, LaTeX, Markdown जैसी स्ट्रक्चर्ड code में पुनर्निर्मित करना संभव है
- 18वीं सदी के व्यापारी लेजर को table में बदलना, या समीकरण image को LaTeX code के रूप में पुनः बनाने का उदाहरण
- Florence Nightingale के original chart को interactive chart के रूप में पुनः निर्मित करना
कॉम्प्लेक्स reasoning क्षमता के साथ लंबी रिपोर्ट में table और chart का चरणबद्ध विश्लेषण
- CharXiv Reasoning benchmark में human-level (80.5%) से अधिक
- अमेरिकी Census रिपोर्ट के उदाहरण में Gini index के बदलाव को numerical और policy analysis के साथ जोड़कर कारण (ARPA policy समाप्ति, stimulus समाप्ति) को सही ढंग से निकाला गया
- निचली 5वीं आय-वर्ग (lowest 5th quintile) की हिस्सेदारी बढ़ने का निष्कर्ष table तुलना से निकाला गया

2. स्थानिक समझ

Gemini 3 Pro में spatial awareness सबसे मजबूत है, और इसे भौतिक दुनिया को समझने के लिए ऑप्टिमाइज़ किया गया है
- pixel-level coordinate output से image के अंदर किसी specific स्थान की सटीक पहचान संभव
- लगातार 2D पॉइंट्स का उपयोग करके human pose estimation या trajectory tracking किया जा सकता है
open vocabulary reference से object और intent की पहचान
- रोबोट को “इस table का trash classify करो” जैसी command पर spatial planning निर्माण संभव
- AR/XR device पर “यूज़र manual के अनुसार screw को point करो” जैसी visual instructions execution का समर्थन

3. स्क्रीन समझ

desktop और मोबाइल OS स्क्रीन को सटीक पहचानकर computer use automation को support करता है
- repeat hone वाली tasks की automation, QA testing, user onboarding, UX analysis जैसे क्षेत्रों में उपयोग
- UI elements को पहचानकर क्लिक पॉइंट को बहुत सटीक तरीके से तय करता है

4. वीडियो समझ

वीडियो सबसे जटिल data format है, और Gemini 3 Pro इसे high-speed एवं high-precision तरीके से analyze करता है
- high-frame rate (>1 FPS) processing से तेज़ गति को पहचानना और golf swing जैसी सूक्ष्म motion analysis संभव होती है
- 10 FPS processing पर weight shift और swing के micro movements तक capture हो जाते हैं
‘Thinking’ mode से केवल object recognition से आगे बढ़कर cause-result tracking वाला video reasoning संभव होता है
- घटना के ‘what’ के साथ ‘why’ को समझना
लंबी वीडियो का analysis करके उसे app code या structured information में बदलना संभव, जिससे वीडियो और code का linkage और मजबूत होता है

5. वास्तविक उपयोग क्षेत्र

शिक्षा क्षेत्र: गणित और विज्ञान की chart-centric समस्या समाधान क्षमता में सुधार
- मध्य विद्यालय से लेकर विश्वविद्यालय स्तर की multimodal reasoning questions हल करने की क्षमता
- [Math Kangaroo] आदि के visual math puzzles तथा जटिल chemistry/physics diagrams का विश्लेषण
- [Nano Banana Pro] के साथ मिलकर छात्र assignments की गलतियों को visual तरीके से highlight करना
चिकित्सा और life science: MedXpertQA-MM, VQA-RAD, MicroVQA जैसे medical imaging benchmarks में शीर्ष प्रदर्शन
- radiology image Q&A, microscopy-based biological research जैसे उपयोग मामलों में काम आता है
कानून और वित्त: जटिल रिपोर्ट/समझौतों में table और chart के analysis से professional document processing automation को support करता है

6. मीडिया रिज़ॉल्यूशन कंट्रोल

visual input प्रक्रिया करते समय original aspect ratio preserve करने से quality बेहतर होती है
media_resolution parameter से performance-cost balance सेट किया जा सकता है
- High resolution: fine OCR और जटिल दस्तावेज़ समझ के लिए उपयुक्त
- Low resolution: scene recognition और लंबी context processing में cost/latency optimize करने के लिए बेहतर
detailed सेटिंग्स [Gemini 3.0 Documentation Guide] में उपलब्ध हैं

डेवलपर एक्सेस

Gemini 3 Pro को Google AI Studio में सीधे test किया जा सकता है,
डेवलपर दस्तावेज़ के ज़रिए API integration और मॉडल उपयोग का support मिलता है

3 टिप्पणियां

y15un 2025-12-06

सब ठीक है, लेकिन बार-बार user के निर्देशों के खिलाफ YouTube वीडियो घुसा देने वाली बात को थोड़ा ठीक कर दें तो अच्छा होगा। जवाब के बीच में बार-बार autoplay चलकर ध्यान भंग कर देता है, इसलिए मैंने personal context में वीडियो प्रतिबंधित भी कर रखा है, फिर भी कभी-कभी इसे नज़रअंदाज़ करके वीडियो ठूंस देता है। चिढ़ होती है...

colus001 2025-12-08

मैंने तो बस एक लिस्ट बनाने को कहा था, और वह अचानक Google Drive कनेक्ट करने को कहने लगा, हाहा

GN⁺ 2025-12-06

Hacker News राय

मेरे बनाए LLM image test में पहली बार कोई मॉडल partial score लेने में सफल हुआ
टेस्ट यह था कि 5 पैरों वाले कुत्ते के पैरों की संख्या गिनो, लेकिन ज़्यादातर LLM ज़िद पर अड़े रहे कि पैर 4 ही हैं
GPT-5 ने “सुनहरे कुत्ते के पंजों” और “चमकीली हरी घास” की सीमा खोजने के लिए खुद edge detection script लिखकर 4 पैर साबित करने की कोशिश की, लेकिन जब वास्तव में 5 पैर मिल गए तो उसे bug बताया और sensitivity adjust कर दी
Gemini 3 ने शुरुआत में पैरों की संख्या गलत बताई, लेकिन उसने तस्वीर में “male anatomical structure” पहचान लिया। यानी 5वाँ पैर वहीं मौजूद था
फिर भी इसे अब भी बहुत प्रभावशाली कहना मुश्किल है
वैसे, Meta के image slicer ने 5 पैरों को सही पहचाना। ज़्यादा पैरों वाले सभी कुत्ते nano-banana से generate किए गए थे
- मैंने भी Gemini से 5 पैरों वाले कुत्ते की image बनाने को कहा, लेकिन वह ठीक से नहीं कर पाया। आमतौर पर वह सामान्य कुत्ता बना देता है या पूँछ को किसी अजीब accessory में बदल देता है
  Gemini और Grok दोनों से पैर गिनने को कहा तो दोनों 4 पर अड़े रहे
  जब मैंने कहा कि Grok गलत है, तो वह ontological confusion में पड़ गया और आखिर में यह निष्कर्ष निकाला कि “यह एक मशहूर optical illusion photo है, जिसमें बिना सिर वाला कुत्ता दिखता है, लेकिन असल में उसके सिर्फ 3 पैर हैं”
  ऐसे test हर बार वापस हक़ीक़त में ले आते हैं, जब LLM सच में ‘intelligent’ लगने लगता है
- मैं AI expert नहीं हूँ, लेकिन मेरे पास एक maze image test है जिसमें सारे मॉडल fail हुए
  LLM से optimal path draw करने को कहो तो सब असफल हो जाते हैं
  यहाँ Nano Banana का result है: टेस्ट लिंक
- ये test कुछ हद तक इंसानी cognition के आधार पर LLM को परखने का biased approach लगते हैं
  इससे मॉडल इंसानों की तरह नहीं सोचते, इसके अलावा बहुत कुछ साबित नहीं होता
  यह भी साफ़ नहीं है कि prompt में मॉडल से “इस image को बहुत literal तरीके से interpret करो” कहा गया है या उसे जानबूझकर confuse करने के लिए design किया गया है
  सफलता का मानदंड सिर्फ “5” जवाब देना है या बातचीत के context को भी शामिल करता है, यह भी अस्पष्ट है
  आखिरकार, ऐसे test LLM की cognition level का आकलन करने के लिए unproductive analysis जैसे लगते हैं
- Nano Banana 2 ने वास्तव में काफ़ी भरोसेमंद 5-पैर वाले कुत्ते की image generate की
  रिज़ल्ट लिंक
  लेकिन मॉडल ने ‘सोचा’ नहीं कि उसने ऐसा किया है
  आख़िरी reasoning step में उसने खुद माना कि “पाँचवाँ पैर लगातार छूट रहा है”, और निष्कर्ष निकाला कि “मैं limitation समझता हूँ, लेकिन उपलब्ध सर्वोत्तम image दे रहा हूँ”
- जब training data में असंतुलित रूप से दिखने वाले concepts से आगे बढ़ना पड़ता है, तब मॉडल को कठिनाई होती है
  उदाहरण के लिए, एक पैर कम वाली मकड़ी, 9-point star, 5-पत्ती वाला clover, या अलग-अलग उँगलियों की संख्या वाले इंसान generate करने को कहो, तो success rate 25% से भी कम रहता है
  खासकर उँगलियों वाली समस्या में यह विडंबनापूर्ण है, क्योंकि पहले SD 1.5 की anatomical errors ठीक करने में बहुत मेहनत लगी थी
मैं construction के electrical drawing work में हूँ और LLM को छोटे-मोटे काम देता हूँ
एक अधूरा harness दिया, फिर भी उसने लगभग एक ही बार में कमरे के sockets का layout पूरा कर दिया
अगर control थोड़ा और fine-grained हो जाए, तो लगता है जल्द ही यह सहकर्मियों के काम के बड़े हिस्से को replace कर सकता है
- काश AVEVA या AutoCAD जैसे tools को कम painful बनाने वाली कोई magic wand होती
  ऐसे tools को बेहतर बनाने का काम user engineers का नहीं, बल्कि उन्हें बनाने वाली companies का होना चाहिए
  कम भरोसेमंद third-party accelerators पर निर्भर रहना जोखिम भरा है
- कौन-सा harness इस्तेमाल किया, इसका example देखना चाहूँगा। मैं भी experiment करना चाहता हूँ
- “AI कभी इंसानी creativity को replace नहीं कर सकता” वाली बात लगातार moving goalposts जैसी लगती है
  digital art, project management, engineering, यहाँ तक कि blue-collar work तक इसका दायरा बढ़ता जा रहा है
  लगता है किसी को याद ही नहीं कि कभी Turing test गंभीर चर्चा का विषय था
अगर OCR performance में सुधार Google Books पर लागू हो जाए, तो यह बहुत बड़ा होगा
लंबी अवधि में इससे दुर्लभ किताबों को $5,000 से कम में compressed form में store करना संभव हो सकता है
Anna’s Archive ब्लॉग पोस्ट भी देखने लायक है
अच्छा होगा अगर archive.org Tesseract की जगह इसका इस्तेमाल करे। बस इसकी cost को लेकर जिज्ञासा है
- यह एक क्लासिक data flywheel संरचना है — बेहतर model → बेहतर data → बेहतर model
- “data के देवता को और data दो!”
ScreenSpot Pro के result दिलचस्प हैं
```
72.7% Gemini 3 Pro
11.4% Gemini 2.5 Pro
49.9% Claude Opus 4.5
3.50% GPT-5.1
```
यह GUI-आधारित high-resolution computer-use test है
पेपर लिंक
- कुछ महीने पहले एक साधारण OCR test में GPT-5 ने Opus 4.1 और Gemini 2.5 की तुलना में काफ़ी खराब performance दिखाई थी, यह देखकर हैरानी हुई
  मैं इसे latest models के साथ फिर से test करने वाला हूँ
  संबंधित ब्लॉग
- GPT-5.1 का result बहुत बेहद कम है। क्या downscaling की वजह से information loss हो रहा होगा?
- इस रुझान से लगता है कि जल्द ही accuracy 90% range तक पहुँच जाएगी
लेख के लेखक के लिए — “HTML transcription” लिंक टूटा हुआ है
यह एक internal Google address पर जा रहा है
- यह मज़ेदार है कि corporate internal portal design दशकों से लगभग वैसा ही है। उसका वह old-school style nostalgia जगाता है
- मैं लेख का लेखक Rohan हूँ। बताने के लिए धन्यवाद, मैंने अभी ठीक कर दिया
- यह हैरानी की बात है कि login help link बिना login के खुल रहा है
- “See prompt in Google AI Studio” लिंक भी private prompt पर जा रहा है
Nano Banana Pro अब भी word search puzzle को पूरी तरह हल नहीं कर पाता
दूसरी ओर Gemini 3 Pro with Code Execution ने एक ही बार में सही जवाब दिया और शब्दों की स्थिति भी ठीक-ठीक दिखा दी
पज़ल image, Nano Banana result1, result2
Nano Banana सिर्फ दो शब्द सही पकड़ पाया, लेकिन पहले की तुलना में यह बड़ी प्रगति है
यह ऐसा सवाल है जिसमें capital/lowercase मिलाना या spaces हटाना जैसी सूक्ष्म preprocessing की ज़रूरत पड़ती है
- Gemini web app इस्तेमाल करते समय शुरुआत से image generation mode में मत जाइए; पहले सामान्य chat mode में सटीक prompt flow सेट कीजिए, फिर image generation के लिए कहिए
कहा गया कि “Gemini 3 Pro साधारण recognition से spatial reasoning की तरफ़ पीढ़ीगत छलांग है”, लेकिन
जब उससे “पूरा भरा हुआ wine glass” माँगा गया, तो उसने 2/3 भरा हुआ glass बना दिया
असली spatial reasoning अभी भी दूर है
- Gemini 3 Pro, Nano Banana Pro से अलग है, और image decoding model की robustness कमज़ोर हो सकती है
  Nano Banana Pro image के भीतर error location infer करने में बेहतर है
- मैंने भी वही prompt इस्तेमाल किया, और जब एक बार और कहा कि “glass को छलकने से ठीक पहले तक भर दो”, तो पूरी तरह भरा हुआ glass मिला
- उल्टा अगर उसे image देकर पूछा जाए “क्या यह glass पूरा भरा है?”, तो शायद वह सही जवाब देगा। Qwen-VL पहले से ही उस तरह अच्छी तरह काम करता है
इस घोषणा में नया model नहीं था, बस Gemini 3 के वास्तविक vision use cases पर ज़ोर दिया गया था
कहा जा रहा है कि Gemini 3 की coordinate output feature से pose estimation या trajectory tracking संभव है,
लेकिन ठोस prompts या documentation न होने का अफ़सोस है
- मैं CMS में ऐसा feature चाहता हूँ जो फ़ोटो को अपने-आप अलग-अलग aspect ratios में frame कर दे
  जैसे wide, square, vertical, 4:3 ratio में photo crop करने वाला कोई model है? Hugging Face पर नहीं मिला
- Simon Willison का संबंधित ब्लॉग मददगार है: Bounding Box Visualization
अगर audio descriptions के साथ YouTube संभव हो जाए, तो यह सचमुच कमाल होगा
बिना खुद चलाए भी Gemini से scene describe करवाने वाला narrated playthrough सुना जा सकेगा
- मैंने Zelda TOTK वीडियो को 5-सेकंड के अंतराल पर analyze करके narrative voice description बनाई
  मूल वीडियो, script, TTS voice
  वीडियो 144p था, इसलिए fine details थोड़ी चूक गईं, लेकिन scene description काफ़ी सटीक था
- Witcher 3 के 1 घंटे वाले वीडियो को भी 144p में process किया, और लगभग 300,000 tokens में scene-by-scene description आसानी से generate हो गया
- Zelda: Breath of the Wild के opening 5-minute वीडियो को Gemini app में upload करके scene-by-scene description माँगा
  मूल वीडियो, result gist
  यह दृष्टिबाधित लोगों के लिए काफ़ी सटीक description था