2 पॉइंट द्वारा GN⁺ 2025-08-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Gemini 2.5 Deep Think फीचर Google AI Ultra सब्सक्राइबर के लिए Gemini ऐप में जोड़ा गया है
  • नए पैरलल थिंकिंग (parallel thinking) और शोध परिणाम के साथ, IMO में गोल्ड मेडल हासिल करने वाले मॉडल पर आधारित होकर इसे वास्तविक उपयोग के लिए और बेहतर बनाया गया है
  • रचनात्मक समस्या समाधान, गणित व वैज्ञानिक तर्क, एल्गोरिथ्म डेवलपमेंट जैसे जटिल कार्यों में बेहतर प्रदर्शन दिखाया
  • बेहतर प्रदर्शन के लिए थिंकिंग टाइम (Thinking Time) बढ़ाया गया है ताकि कई आइडिया और समाधान एक साथ खोजे जा सकें, और इससे अधिक गहरी सोच व रचनात्मक आउटपुट बन सके
  • सुरक्षित और जिम्मेदार AI विकास को मजबूत करने के लिए उन्नत मूल्यांकन और उपाय लागू किए गए हैं, तथा भविष्य में API और एंटरप्राइज़ उपयोग बढ़ाने की योजना है

Gemini 2.5 Deep Think का लॉन्च

  • Gemini 2.5 Deep Think फीचर Google AI Ultra सब्सक्राइबरों को Gemini ऐप के जरिए उपलब्ध कराया गया है
  • विश्वसनीय टेस्टर्स और शोधकर्ताओं की फीडबैक तथा नवीनतम शोध निष्कर्षों को इसमें शामिल किया गया है
  • हाल ही में इंटरनेशनल मैथेमैटिक्स ओलंपियाड (IMO) में गोल्ड मेडल लेवल वाला मॉडल लेकर, वास्तविक उपयोग अनुभव के हिसाब से speed और practicality बेहतर की गई है
  • इस रिलीज़ के साथ इसे एक रचनात्मक समस्या-समाधान टूल के रूप में और व्यापक बनाया जा रहा है, और गणितज्ञों/शोधकर्ताओं से मिलने वाले फीडबैक के आधार पर फीचर को और बेहतर करने की योजना है

Deep Think का काम करने का तरीका

  • पैरलल थिंकिंग तकनीक अपनाकर, Gemini जटिल समस्याओं पर कई आइडिया और समाधानों को एक साथ खोजता, तुलना करता और मर्ज करता है
  • मॉडल का थिंकिंग टाइम (Thinking Time) बढ़ाकर कई हाइपोथीसिस को गहराई से खोजा जाता है ताकि अधिक रचनात्मक समाधान मिल सकें
  • रीइन्फोर्समेंट लर्निंग के जरिए Gemini को इन एक्सटेंडेड रीजनिंग पाथ का बेहतर उपयोग करने के लिए ट्रेन किया गया है, जिससे अधिक intuitive और गहरा समस्या समाधान कौशल मजबूत होता है

Deep Think के मुख्य प्रदर्शन और उपयोग क्षेत्र

  • इटरेटिव डेवलपमेंट और डिजाइन: जटिल सिस्टम या डिजाइन को चरण-दर-चरण आगे बढ़ाने के काम में उच्च प्रदर्शन
  • विज्ञान और गणितीय खोज: गणितीय reasoning या वैज्ञानिक शोध-पत्र की व्याख्या जैसे कठिन, रचनात्मक खोज कार्यों में मजबूत क्षमता दिखती है
  • एल्गोरिद्म और कोड डेवलपमेंट: समस्या की संरचना, time complexity और trade-offs जैसे पहलुओं को ध्यान में रखना पड़ने वाली मुश्किल coding problems में सिटी-एज प्रदर्शन हासिल करना
  • नवीनतम benchmarks (जैसे: LiveCodeBench V6, Humanity’s Last Exam) में पुराने मॉडल्स की तुलना में टॉप टियर कोड/नॉलेज/रीजनिंग प्रदर्शन दिखाया गया है

Gemini का जिम्मेदार विकास और सुरक्षा

  • Gemini 2.5 Deep Think में सुरक्षा मूल्यांकन के दौरान पुराने Pro मॉडल से बेहतर content safety और अधिक objective tone दिखा
  • जटिलता बढ़ने के साथ risk भी बढ़ता है, इसलिए Frontier Safety मूल्यांकन और आवश्यक responses को मजबूत बनाया गया है
  • विस्तृत सुरक्षा परिणाम मॉडल कार्ड में देखे जा सकते हैं

Deep Think का उपयोग कैसे करें

  • Google AI Ultra सब्सक्राइबर Google ऐप में मॉडल dropdown से 2.5 Pro चुनकर, prompt bar में Deep Think टॉगल से दिन में तय की गई संख्या में इसका उपयोग कर सकते हैं
  • कोड रन, Google सर्च आदि tools के साथ auto integration होता है और काफी लंबा उत्तर जनरेट करना संभव है
  • जल्द ही Gemini API और एंटरप्राइज़ के लिए अतिरिक्त परीक्षण भी किए जाने हैं

1 टिप्पणियां

 
GN⁺ 2025-08-02
Hacker News की राय
  • मैंने नया Deep Think agent टेस्ट किया, लेकिन सिर्फ़ पाँच prompts डालते ही daily usage limit पर पहुँच गया। महीने के $250 देने पर इस स्तर की service काफ़ी निराशाजनक लगती है। o3-pro या Grok 4 Heavy की तुलना में इसकी price competitiveness साफ़ तौर पर कमज़ोर है। AI community में इस feature को ही वह एकमात्र चीज़ माना जा रहा था जो शायद Google Ultra subscription की कीमत को justify कर सके। लेकिन Google एक तरफ़ AI Studio में top model मुफ़्त दे रहा है, और दूसरी तरफ़ असल में पैसे देने वाले Ultra subscribers पर ऐसी billing policy लगा रहा है, यह बिल्कुल समझ नहीं आता। performance के लिहाज़ से, मैंने business से जुड़ी high-difficulty problem situation दी तो इसने साफ़ और persuasive solution दिया, जो हमारी internal meeting के नतीजों से मेल खाता था। लेकिन आखिर में o3 ने भी काफ़ी कम दाम में लगभग वही निष्कर्ष दे दिया। बस o3 की report थोड़ी कम व्यवस्थित लगी। शायद थोड़ा और इस्तेमाल करने पर बेहतर समझ आए

    • यह पूरी तरह commercial launch/optimization के लिए तैयार नहीं है, लेकिन 2 अगस्त से लागू होने वाले European Union AI law (EU AI Act) से पहले इसे launch करके 2 साल तक standards के हिसाब से ढालने की strategy भी हो सकती है। इसलिए संभव है कि पहले limited public release के लिए कुछ चुनिंदा users पर कड़ी usage limits लगाई गई हों
    • मैं जानना चाहता हूँ कि large-context वाले tasks में Deep Think कैसा perform करता है। Parallel thinking कुछ problem types में बहुत उपयोगी हो सकती है, इसलिए मैं देखना चाहूँगा कि क्या यह traditional chain of thought से ज़्यादा context संभाल सकता है
    • कई साल पहले coding skill का एक पैमाना यह था कि बिना internet search के, या StackOverflow जैसी जगह पर अच्छी तरह structured सवाल पोस्ट करके बाद में खुद ही उसका जवाब लिखने की आदत हो। कभी-कभी “3 दिन भटकता रहा, इस जवाब ने मेरी ज़िंदगी बचा ली” जैसी comments मिलती थीं और बड़ा अच्छा लगता था। इस हफ़्ते मैं एक मुश्किल problem हल कर रहा हूँ, लेकिन Copilot जैसे AI models लगभग कोई मदद नहीं कर पा रहे। coding में असली skill तब महसूस होती है जब कोई भी मदद न करे—यहाँ तक कि AI भी नहीं—और आपको खुद generalize, synthesize और creative thinking करनी पड़े। (इसीलिए मैं खुद को तसल्ली दे रहा हूँ कि AI coding agents से पूरी तरह replace होने में अभी थोड़ा समय है)
    • मैंने Grok 4 और 4 Heavy दोनों इस्तेमाल किए हैं, और मेरे अनुभव में ये सचमुच बहुत ख़राब हैं। चाहे आप कितने भी ज़्यादा queries डाल सकें, अगर जवाब ही घटिया हों तो उसका कोई मतलब नहीं। इस साल LLMs पर जो पैसा खर्च किया, उनमें यह सबसे खराब खर्च था। मैंने कई AI services पर काफ़ी invest किया है, लेकिन Grok पर खर्च किया पैसा सबसे ज़्यादा बेकार लगा
    • Google का top-tier model AI Studio में free देना और actual customers को नाममात्र का benefit देना कई बार चौंकाने वाला लगता है। लेकिन साथ ही यह बिल्कुल आश्चर्यजनक भी नहीं है। शायद Google AI Ultra customers से बहुत बड़ा profit नहीं कमा रहा, और AI Studio के free tier से मिलने वाला large-scale user data उसके लिए ज़्यादा महत्वपूर्ण है। top model को free खोल देने से high-demand users का market share जल्दी मिल जाता है। बाद में इन्हीं users पर monetization policy लगाई जा सकती है, और अभी Google के पास जो idle servers हैं, उनका इस्तेमाल करने के लिहाज़ से भी यह अच्छी strategy है
  • दोस्तों, मैंने Gemini Deep Think को prompt दिया: “जरा साइकिल चलाते pelican की SVG image बनाओ”, और यह उसका result है https://www.svgviewer.dev/s/5R5iTexQ Simon Willison से पहले मैंने कर दिखाया!

    • HN पर जो भी meme बनता है, उसकी training data में जाने की किस्मत लगभग तय है। हर AI company में एक intern शानदार pelican SVG बनाने के लिए पसीना बहा रहा होगा—यह सोचकर मज़ा आता है
    • अभी result देखा, और यह सच में pelican जैसा लग रहा है, यह देखकर हैरानी हुई। काफ़ी अच्छा है
    • ऐसे meme benchmarks (जैसे strawberry drawing वगैरह) मज़ेदार तो हैं, लेकिन आजकल model training में इनका बहुत ज़्यादा इस्तेमाल हो चुका है, इसलिए इन्हें मापने का तरीक़ा आसानी से mislead कर सकता है
    • इसमें सचमुच भविष्य में जीने जैसा एहसास है
    • ईमानदारी से कहूँ तो पहली बार ऐसा result लग रहा है जिसे prompt देखे बिना सिर्फ़ SVG देखकर भी “हाँ, यह साइकिल चलाता pelican है” कहा जा सकता है। यहाँ vocal tower वाला case भी प्रभावशाली है। visual/spatial cognition के लिहाज़ से यह काफ़ी उपलब्धि लगती है
  • अगर आप खुद चलाकर देखना चाहते हैं, तो simonw की LLM cli और llm-consortium plugin इस्तेमाल कर सकते हैंफायदा 1: कई models को मनचाहे ढंग से मिलाकर इस्तेमाल कर सकते हैं। किसी एक lab तक सीमित नहीं, अपनी पसंद का setup बना सकते हैंफायदा 2: llm-model-gateway plugin से एक बार local API के ज़रिए अपने app या coding collaboration tool से जोड़ सकते हैं https://x.com/karpathy/status/1870692546969735361
    installation और example commands, और यहाँ तक कि consortium of consortium भी बनाया जा सकता है—ऐसे examples भी खुद लिखे गए हैं।
    https://GitHub.com/irthomasthomas/llm-consortium

    • मैं सोच रहा हूँ कि इसे Gemini Deep Think का local version क्यों कहा जा रहा है। multi-agent structure कई तरीकों से implement की जा सकती है, है न? और कई models की covariance की वजह से errors synchronize हो सकते हैं, इसलिए performance optimization के लिए ऐसी संरचनाएँ ज़रूरी लगती हैं जो error correlation कम रखें, जबकि individual accuracy बनी रहे। कई valid solutions वाले benchmarks पर मैं यह experiment करना चाहूँगा
    • क्या European Union (EU) consortium of consortiums है?
    • अगर किसी को ऐसा support करने वाला OpenWebUI plugin पता हो, तो बताइए
    • किसी ने कहा कि llm serve command दिखाई नहीं दे रही
  • यह वही model नहीं है जिसने कुछ हफ़्ते पहले IMO (International Mathematical Olympiad) में gold medal जीता था, लेकिन उसका बहुत क़रीबी variant है https://x.com/OfficialLoganK/status/1951262261512659430यह अभी API के ज़रिए उपलब्ध नहीं है

  • यह approach Grok 4 Heavy जैसी है: कई ‘reasoning’ agents को parallel चलाया जाता है, फिर उनके जवाबों की तुलना करके सबसे अच्छा answer चुना जाता है, और इसमें लगभग 30 मिनट लगते हैं। result शानदार हैं, लेकिन benchmark comparison असल में Grok 4 (single-agent, faster model) की बजाय Grok 4 Heavy के मुकाबले होना ज़्यादा fair होगा

    • अगर एक जैसी reasoning compute power को कई agents में बाँट दिया जाए, तो बेहतर परिणाम मिलते हैं। “ज़्यादा देर सोचो तो जवाब खराब हो जाता है” जैसी समस्या को भी कई parallel short thought paths से पार किया जा सकता है
    • article में कहा गया है कि Deep Think parallel thinking के ज़रिए अलग-अलग ideas एक साथ generate, consider, integrate और revise करके final solution तक पहुँचता है। इस description से multi-agent usage साफ़ नहीं होती, इसलिए अलग-अलग interpretation की गुंजाइश है
    • Grok-4 heavy benchmarks में आने वाली कई problems tool use से आसान बना देता है, इसलिए direct comparison की अपनी limits हैं
    • मैं जानना चाहता हूँ कि Google का तरीका Mixture of Experts से कैसे अलग है। Mixture of Experts में तो हर expert के लिए अलग weights सीखे जाते हैं, जबकि यहाँ सिर्फ़ temperature बदलकर thought diversity ली जा रही है। एक ही model को कई बार चलाकर idea diversity लेना बेहतर है या अलग architecture/weights वाले कई models को साथ चलाना—क्या इस पर papers में कोई सीधी तुलना है?
    • यह थोड़ा surprising है कि अभी तक ऐसा app नहीं आया जो major LLMs को किसी तरह battle mode में एक जगह चलाकर final answer चुन ले
  • OpenAI ने $200, Anthropic ने $100·$200, Gemini ने $250, और Grok ने $300 तक pricing बढ़ा दी है। सिर्फ़ OpenAI ने “effectively unlimited” कहा था, और वास्तव में ChatGPT Pro plan में मैं कभी limit तक नहीं पहुँचा। Claude Max में, दूसरी तरफ़, कई बार limit hit हुई। लेकिन ये कंपनियाँ limits साफ़-साफ़ disclose क्यों नहीं करतीं, यह समझ नहीं आता

    • मकसद double charging है। अगर pricing fair हो, तो per-query token usage दिखाकर जितना इस्तेमाल उतना पैसा लिया जाए। लेकिन companies regular recurring revenue चाहती हैं और actual usage कम से कम रखना चाहती हैं, इसलिए वे monthly या yearly basis पर unlimited जैसा बेचती हैं। आख़िर में यह structure लोगों से उनके वास्तविक इस्तेमाल से ज़्यादा पैसे दिलवाता है
    • limits पहले से public न करने की असली वजह शायद यह है कि market condition या infrastructure load के हिसाब से companies limits को dynamically adjust कर सकें। जैसे पहले ChatGPT image generation के Ghibli craze के दौरान traffic spike आने पर limits लगानी पड़ी थीं, और अभी जैसी ढील की स्थिति हो तो उन्हें खोला जा सकता है
    • अगर limits transparent हों, तो users उन्हें exploit करने के तरीके ढूँढ़ने लगेंगे, और आख़िर में सभी के लिए limit और कम करनी पड़ेगी। इसलिए व्यावहारिक तौर पर शायद उन्हें public न करना ज़्यादातर लोगों के लिए बेहतर है
  • पिछले कुछ महीनों में Gemini इस्तेमाल करते हुए मुझे उल्टा लगा है कि यह धीरे-धीरे और खराब हो रहा है। hallucination बहुत ज़्यादा हो रही है, और गलती बताने पर भी AI अड़ जाता है। इस पर भरोसा करना मुश्किल हो गया है

    • मेरे अनुभव में Flash लगातार बेहतर हो रहा है। Pro के लिए पैसे देने के बावजूद मैं Flash ज़्यादा इस्तेमाल करता हूँ। Pro अक्सर latest information ढूँढ़ने के बजाय पुराना training data दोहराता रहता है, जो निराशाजनक है, लेकिन Flash में यह समस्या लगभग नहीं है। coding के लिए मैं Gemini CLI में Pro इस्तेमाल करता हूँ, और सिर्फ़ code लिखने में नहीं बल्कि design documents, weekly task breakdown, schedule management जैसी चीज़ों में भी यह जबरदस्त है। ऐसा लगता है कि अगर इसे structured framework दे दिया जाए, तो यह अपना context भी खुद संभाल लेता है
    • मेरा अनुभव भी ऐसा ही है। मैं अब Gemini Pro इस्तेमाल नहीं करता। यह बहुत verbose है और इसकी बातें आपस में टकराती हैं। Claude Sonnet 4 अच्छे जवाब देता है। हाल में Sonnet और Opus के बीच skill gap काफ़ी कम लगा है। नया quota system आने के बाद अब मैं Sonnet से शुरुआत करता हूँ। अब यह Opus की तुलना में भी ज़्यादातर कठिन या जटिल समस्याएँ अच्छी तरह हल कर देता है। कुछ महीने पहले तक मुझे ऐसा नहीं लगता था
    • मुझे भी लगता है कि Gemini समय के साथ और खराब हुआ है। लेकिन fiction.livebench जैसे benchmarks में इस फ़र्क को quantify करना मुश्किल है। समझ नहीं आता कि क्या models पर बहुत aggressive quantizing हो रही है, जिससे performance गिर रही है, या फिर हमारी expectations ही लगातार बढ़ रही हैं
    • मैं पूछना चाहूँगा कि क्या यह मुख्यतः tool integration की समस्या है, और आप AI studio में इस्तेमाल कर रहे हैं या API से? मेरे अनुभव में यह कई बार ऐसे tools गढ़ लेता है जो मौजूद ही नहीं होते, और अपने results पर ज़रूरत से ज़्यादा confidence दिखाता है
  • Google AI Ultra subscribers को बताया गया है कि आज से वे Gemini app में Deep Think (fixed prompt count के साथ) feature इस्तेमाल कर सकते हैं। लेकिन “fixed set” का मतलब fixed संख्या है, या यह कि prompt types पहले से तय हैं—मैं इसे और स्पष्ट रूप से समझना चाहता हूँ

    • limit दिन में 10 requests की है। एक prompt पर लगभग 30 मिनट सोचता है, इसलिए यह सामान्य coding या fanfic writing की बजाय research या multi-layered synthesis problems के लिए ज़्यादा उपयुक्त है
  • Gemini CLI से schedule बनवाते समय, मैं साफ़-साफ़ कई बार कहता हूँ कि कोई अचानक मनमानी हरकत न करे, बीच में दखल भी देता हूँ, फिर भी यह बार-बार अपने हिसाब से बदलाव करने की कोशिश करता है और पूरा plan बिगाड़ देता है

    • इस तरह के agent systems उल्टा अक्सर confusion पैदा करते हैं। Claude Code (Anthropic) model performance को अधिकतम निकालने के तरीके से काम करता है, इसलिए popular है। लेकिन Gemini CLI उल्टा Gemini Pro 2.5 की मूल क्षमता को कम कर देता है। इसलिए मैंने Gemini CLI लगभग छोड़ ही दिया है (चाहे free हो)। फिर भी prompt-centric कामों में यह अब भी बहुत ताकतवर है, इसलिए मैं इसे नियमित रूप से इस्तेमाल करता हूँ
    • मेरा अनुभव भी ऐसा ही है। अगर Gemini CLI को abstract और बड़ा task सीधे दे दिया जाए, तो यह बार-बार गलतियाँ करता है। लेकिन अगर थोड़ी-सी साफ़ structure दे दी जाए—जैसे context generation को step-by-step बाँटना—तो कमाल के results मिलते हैं। पहले चरण में मैं इसे सिर्फ़ code पढ़कर requirements definition document लिखने को कहता हूँ। फिर उसी output के आधार पर detailed requirements, API design, tricky logic के pseudocode जैसी चीज़ें step-by-step document करने को कहता हूँ। आख़िर में पूरे development को हफ़्ते, दिन और घंटे के हिसाब से work plan में तोड़ने को कहता हूँ, और पर्याप्त information देने के बाद final code लिखवाता हूँ। पूरी automation करनी हो तो script से भी हो सकता है, लेकिन व्यवहार में human review, feedback और brainstorming के साथ यह तरीका ज़्यादा असरदार है। यह context का 90% से ज़्यादा हिस्सा खुद तैयार कर लेता है, और हाल में इस approach से यह ज़्यादातर गलतियाँ लगभग नहीं करता