Gemini 3 Pro: विज़न AI की फ्रंटियर
(blog.google)- Gemini 3 Pro केवल साधारण पहचान चरण से आगे बढ़कर दृश्य और स्थानिक reasoning करने वाला अगली पीढ़ी का multimodal मॉडल
- दस्तावेज़, स्थान, स्क्रीन और वीडियो समझ जैसे कई क्षेत्रों में यह state-of-the-art performance दर्ज करते हुए जटिल visual reasoning benchmarks में शीर्ष स्तर हासिल करता है
- दस्तावेज़ समझ में यह सटीक OCR और स्ट्रक्चर रिकंस्ट्रक्शन (derendering) के साथ multi-step table/chart विश्लेषण जैसी उन्नत reasoning क्षमताएँ प्रदान करता है
- स्थान, स्क्रीन और वीडियो समझ में coordinates आधारित pointिंग, high-speed frame analysis, और video cause tracking जैसी क्षमताओं से वास्तविक वातावरण के साथ इंटरैक्शन को मजबूत बनाता है
- शिक्षा, चिकित्सा, कानून, वित्त जैसे कई उद्योगों में यह सटीक visual understanding और automation को सपोर्ट करता है, जबकि डेवलपर media_resolution parameter से performance और cost का संतुलन सेट कर सकता है
Gemini 3 Pro अवलोकन
- Gemini 3 Pro पहचान से आगे बढ़कर visual और spatial reasoning में विकसित हुआ मॉडल है, और Google द्वारा विकसित सबसे शक्तिशाली multimodal मॉडल है
- दस्तावेज़, स्थान, स्क्रीन और वीडियो समझ के सभी हिस्सों में नवीनतम benchmarks में शीर्ष स्कोर दर्ज हुए हैं
- MMMU Pro और Video MMMU जैसे जटिल visual reasoning टेस्ट में नई सर्वोच्च performance हासिल की गई है
1. दस्तावेज़ समझ
- वास्तविक दस्तावेज़ में image, hand-written text, तालिका, समीकरण आदि unstructured घटकों का मिश्रण होता है और Gemini 3 Pro इन्हें सही तरीके से पहचानकर संरचित करता है
- OCR सटीकता और visual reasoning क्षमता में उल्लेखनीय सुधार
- Derendering फीचर के माध्यम से दृश्य दस्तावेजों को HTML, LaTeX, Markdown जैसी स्ट्रक्चर्ड code में पुनर्निर्मित करना संभव है
- 18वीं सदी के व्यापारी लेजर को table में बदलना, या समीकरण image को LaTeX code के रूप में पुनः बनाने का उदाहरण
- Florence Nightingale के original chart को interactive chart के रूप में पुनः निर्मित करना
- कॉम्प्लेक्स reasoning क्षमता के साथ लंबी रिपोर्ट में table और chart का चरणबद्ध विश्लेषण
- CharXiv Reasoning benchmark में human-level (80.5%) से अधिक
- अमेरिकी Census रिपोर्ट के उदाहरण में Gini index के बदलाव को numerical और policy analysis के साथ जोड़कर कारण (ARPA policy समाप्ति, stimulus समाप्ति) को सही ढंग से निकाला गया
- निचली 5वीं आय-वर्ग (lowest 5th quintile) की हिस्सेदारी बढ़ने का निष्कर्ष table तुलना से निकाला गया
2. स्थानिक समझ
- Gemini 3 Pro में spatial awareness सबसे मजबूत है, और इसे भौतिक दुनिया को समझने के लिए ऑप्टिमाइज़ किया गया है
- pixel-level coordinate output से image के अंदर किसी specific स्थान की सटीक पहचान संभव
- लगातार 2D पॉइंट्स का उपयोग करके human pose estimation या trajectory tracking किया जा सकता है
- open vocabulary reference से object और intent की पहचान
- रोबोट को “इस table का trash classify करो” जैसी command पर spatial planning निर्माण संभव
- AR/XR device पर “यूज़र manual के अनुसार screw को point करो” जैसी visual instructions execution का समर्थन
3. स्क्रीन समझ
- desktop और मोबाइल OS स्क्रीन को सटीक पहचानकर computer use automation को support करता है
- repeat hone वाली tasks की automation, QA testing, user onboarding, UX analysis जैसे क्षेत्रों में उपयोग
- UI elements को पहचानकर क्लिक पॉइंट को बहुत सटीक तरीके से तय करता है
4. वीडियो समझ
- वीडियो सबसे जटिल data format है, और Gemini 3 Pro इसे high-speed एवं high-precision तरीके से analyze करता है
- high-frame rate (>1 FPS) processing से तेज़ गति को पहचानना और golf swing जैसी सूक्ष्म motion analysis संभव होती है
- 10 FPS processing पर weight shift और swing के micro movements तक capture हो जाते हैं
- ‘Thinking’ mode से केवल object recognition से आगे बढ़कर cause-result tracking वाला video reasoning संभव होता है
- घटना के ‘what’ के साथ ‘why’ को समझना
- लंबी वीडियो का analysis करके उसे app code या structured information में बदलना संभव, जिससे वीडियो और code का linkage और मजबूत होता है
5. वास्तविक उपयोग क्षेत्र
- शिक्षा क्षेत्र: गणित और विज्ञान की chart-centric समस्या समाधान क्षमता में सुधार
- मध्य विद्यालय से लेकर विश्वविद्यालय स्तर की multimodal reasoning questions हल करने की क्षमता
- [Math Kangaroo] आदि के visual math puzzles तथा जटिल chemistry/physics diagrams का विश्लेषण
- [Nano Banana Pro] के साथ मिलकर छात्र assignments की गलतियों को visual तरीके से highlight करना
- चिकित्सा और life science: MedXpertQA-MM, VQA-RAD, MicroVQA जैसे medical imaging benchmarks में शीर्ष प्रदर्शन
- radiology image Q&A, microscopy-based biological research जैसे उपयोग मामलों में काम आता है
- कानून और वित्त: जटिल रिपोर्ट/समझौतों में table और chart के analysis से professional document processing automation को support करता है
6. मीडिया रिज़ॉल्यूशन कंट्रोल
- visual input प्रक्रिया करते समय original aspect ratio preserve करने से quality बेहतर होती है
- media_resolution parameter से performance-cost balance सेट किया जा सकता है
- High resolution: fine OCR और जटिल दस्तावेज़ समझ के लिए उपयुक्त
- Low resolution: scene recognition और लंबी context processing में cost/latency optimize करने के लिए बेहतर
- detailed सेटिंग्स [Gemini 3.0 Documentation Guide] में उपलब्ध हैं
डेवलपर एक्सेस
- Gemini 3 Pro को Google AI Studio में सीधे test किया जा सकता है,
डेवलपर दस्तावेज़ के ज़रिए API integration और मॉडल उपयोग का support मिलता है
3 टिप्पणियां
सब ठीक है, लेकिन बार-बार user के निर्देशों के खिलाफ YouTube वीडियो घुसा देने वाली बात को थोड़ा ठीक कर दें तो अच्छा होगा। जवाब के बीच में बार-बार autoplay चलकर ध्यान भंग कर देता है, इसलिए मैंने personal context में वीडियो प्रतिबंधित भी कर रखा है, फिर भी कभी-कभी इसे नज़रअंदाज़ करके वीडियो ठूंस देता है। चिढ़ होती है...
मैंने तो बस एक लिस्ट बनाने को कहा था, और वह अचानक Google Drive कनेक्ट करने को कहने लगा, हाहा
Hacker News राय
मेरे बनाए LLM image test में पहली बार कोई मॉडल partial score लेने में सफल हुआ
टेस्ट यह था कि 5 पैरों वाले कुत्ते के पैरों की संख्या गिनो, लेकिन ज़्यादातर LLM ज़िद पर अड़े रहे कि पैर 4 ही हैं
GPT-5 ने “सुनहरे कुत्ते के पंजों” और “चमकीली हरी घास” की सीमा खोजने के लिए खुद edge detection script लिखकर 4 पैर साबित करने की कोशिश की, लेकिन जब वास्तव में 5 पैर मिल गए तो उसे bug बताया और sensitivity adjust कर दी
Gemini 3 ने शुरुआत में पैरों की संख्या गलत बताई, लेकिन उसने तस्वीर में “male anatomical structure” पहचान लिया। यानी 5वाँ पैर वहीं मौजूद था
फिर भी इसे अब भी बहुत प्रभावशाली कहना मुश्किल है
वैसे, Meta के image slicer ने 5 पैरों को सही पहचाना। ज़्यादा पैरों वाले सभी कुत्ते nano-banana से generate किए गए थे
Gemini और Grok दोनों से पैर गिनने को कहा तो दोनों 4 पर अड़े रहे
जब मैंने कहा कि Grok गलत है, तो वह ontological confusion में पड़ गया और आखिर में यह निष्कर्ष निकाला कि “यह एक मशहूर optical illusion photo है, जिसमें बिना सिर वाला कुत्ता दिखता है, लेकिन असल में उसके सिर्फ 3 पैर हैं”
ऐसे test हर बार वापस हक़ीक़त में ले आते हैं, जब LLM सच में ‘intelligent’ लगने लगता है
LLM से optimal path draw करने को कहो तो सब असफल हो जाते हैं
यहाँ Nano Banana का result है: टेस्ट लिंक
इससे मॉडल इंसानों की तरह नहीं सोचते, इसके अलावा बहुत कुछ साबित नहीं होता
यह भी साफ़ नहीं है कि prompt में मॉडल से “इस image को बहुत literal तरीके से interpret करो” कहा गया है या उसे जानबूझकर confuse करने के लिए design किया गया है
सफलता का मानदंड सिर्फ “5” जवाब देना है या बातचीत के context को भी शामिल करता है, यह भी अस्पष्ट है
आखिरकार, ऐसे test LLM की cognition level का आकलन करने के लिए unproductive analysis जैसे लगते हैं
रिज़ल्ट लिंक
लेकिन मॉडल ने ‘सोचा’ नहीं कि उसने ऐसा किया है
आख़िरी reasoning step में उसने खुद माना कि “पाँचवाँ पैर लगातार छूट रहा है”, और निष्कर्ष निकाला कि “मैं limitation समझता हूँ, लेकिन उपलब्ध सर्वोत्तम image दे रहा हूँ”
उदाहरण के लिए, एक पैर कम वाली मकड़ी, 9-point star, 5-पत्ती वाला clover, या अलग-अलग उँगलियों की संख्या वाले इंसान generate करने को कहो, तो success rate 25% से भी कम रहता है
खासकर उँगलियों वाली समस्या में यह विडंबनापूर्ण है, क्योंकि पहले SD 1.5 की anatomical errors ठीक करने में बहुत मेहनत लगी थी
मैं construction के electrical drawing work में हूँ और LLM को छोटे-मोटे काम देता हूँ
एक अधूरा harness दिया, फिर भी उसने लगभग एक ही बार में कमरे के sockets का layout पूरा कर दिया
अगर control थोड़ा और fine-grained हो जाए, तो लगता है जल्द ही यह सहकर्मियों के काम के बड़े हिस्से को replace कर सकता है
ऐसे tools को बेहतर बनाने का काम user engineers का नहीं, बल्कि उन्हें बनाने वाली companies का होना चाहिए
कम भरोसेमंद third-party accelerators पर निर्भर रहना जोखिम भरा है
digital art, project management, engineering, यहाँ तक कि blue-collar work तक इसका दायरा बढ़ता जा रहा है
लगता है किसी को याद ही नहीं कि कभी Turing test गंभीर चर्चा का विषय था
अगर OCR performance में सुधार Google Books पर लागू हो जाए, तो यह बहुत बड़ा होगा
लंबी अवधि में इससे दुर्लभ किताबों को $5,000 से कम में compressed form में store करना संभव हो सकता है
Anna’s Archive ब्लॉग पोस्ट भी देखने लायक है
अच्छा होगा अगर archive.org Tesseract की जगह इसका इस्तेमाल करे। बस इसकी cost को लेकर जिज्ञासा है
ScreenSpot Pro के result दिलचस्प हैं
यह GUI-आधारित high-resolution computer-use test है
पेपर लिंक
मैं इसे latest models के साथ फिर से test करने वाला हूँ
संबंधित ब्लॉग
लेख के लेखक के लिए — “HTML transcription” लिंक टूटा हुआ है
यह एक internal Google address पर जा रहा है
Nano Banana Pro अब भी word search puzzle को पूरी तरह हल नहीं कर पाता
दूसरी ओर Gemini 3 Pro with Code Execution ने एक ही बार में सही जवाब दिया और शब्दों की स्थिति भी ठीक-ठीक दिखा दी
पज़ल image, Nano Banana result1, result2
Nano Banana सिर्फ दो शब्द सही पकड़ पाया, लेकिन पहले की तुलना में यह बड़ी प्रगति है
यह ऐसा सवाल है जिसमें capital/lowercase मिलाना या spaces हटाना जैसी सूक्ष्म preprocessing की ज़रूरत पड़ती है
कहा गया कि “Gemini 3 Pro साधारण recognition से spatial reasoning की तरफ़ पीढ़ीगत छलांग है”, लेकिन
जब उससे “पूरा भरा हुआ wine glass” माँगा गया, तो उसने 2/3 भरा हुआ glass बना दिया
असली spatial reasoning अभी भी दूर है
Nano Banana Pro image के भीतर error location infer करने में बेहतर है
इस घोषणा में नया model नहीं था, बस Gemini 3 के वास्तविक vision use cases पर ज़ोर दिया गया था
कहा जा रहा है कि Gemini 3 की coordinate output feature से pose estimation या trajectory tracking संभव है,
लेकिन ठोस prompts या documentation न होने का अफ़सोस है
जैसे wide, square, vertical, 4:3 ratio में photo crop करने वाला कोई model है? Hugging Face पर नहीं मिला
अगर audio descriptions के साथ YouTube संभव हो जाए, तो यह सचमुच कमाल होगा
बिना खुद चलाए भी Gemini से scene describe करवाने वाला narrated playthrough सुना जा सकेगा
मूल वीडियो, script, TTS voice
वीडियो 144p था, इसलिए fine details थोड़ी चूक गईं, लेकिन scene description काफ़ी सटीक था
मूल वीडियो, result gist
यह दृष्टिबाधित लोगों के लिए काफ़ी सटीक description था