19 पॉइंट द्वारा GN⁺ 2025-11-19 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • Google ने अपना अब तक का सबसे बुद्धिमान AI मॉडल Gemini 3 पेश किया, जो बेहतर reasoning और multimodal understanding प्रदान करता है
  • Gemini 3 Pro ने पिछली पीढ़ी की तुलना में सभी प्रमुख benchmarks पर सर्वोत्तम प्रदर्शन दर्ज किया और text, image, video, code जैसे विविध inputs को संभालता है
  • Deep Think मोड जटिल समस्याओं के समाधान के लिए उन्नत reasoning क्षमता जोड़ता है, और इसे Ultra subscribers के लिए चरणबद्ध रूप से उपलब्ध कराया जाएगा
  • Gemini 3 सीखने, development और planning के हर चरण में सहायता करता है, और Google Search, Gemini app, AI Studio, Vertex AI आदि में उपलब्ध है
  • Google, Gemini 3 के जरिए intelligent agents और personalized AI के युग की ओर बदलाव को तेज कर रहा है

Gemini 3 का अवलोकन

  • Gemini 3, Google द्वारा विकसित सबसे बुद्धिमान AI मॉडल है, जो users को किसी भी idea को वास्तविकता में बदलने में मदद करता है
  • यह multimodal understanding और agentic coding को जोड़कर text, image, video, audio और code जैसे विभिन्न inputs को एकीकृत रूप से प्रोसेस करता है
  • Gemini 3 Pro, Google ecosystem में AI Studio, Vertex AI, Gemini app, Google Antigravity platform सहित कई जगहों पर उपलब्ध है
  • Deep Think मोड बेहतर reasoning क्षमता के साथ जटिल समस्याओं के समाधान में मदद करता है, और इसे Google AI Ultra subscribers के लिए उपलब्ध कराया जाएगा

CEO का संदेश

  • Sundar Pichai ने Gemini project की शुरुआत के 2 साल के भीतर AI Overviews के 2 अरब मासिक users, Gemini app के 65 करोड़ users, और 1.3 लाख से अधिक developers की भागीदारी जैसी उपलब्धियों का उल्लेख किया
  • Google की full-stack AI innovation structure (infrastructure–research–model–product) तेज तकनीकी विस्तार को संभव बनाती है
  • Gemini 3, पिछली पीढ़ी की multimodal, reasoning और agent capabilities को एकीकृत करने वाला मॉडल है, जो user intent और context को अधिक सटीकता से समझता है
  • Gemini 3 को Search के AI Mode, Gemini app, AI Studio, Vertex AI, और Google Antigravity में एक साथ लॉन्च किया गया

Gemini 3 Pro का प्रदर्शन

  • Gemini 3 Pro ने 2.5 Pro की तुलना में सभी प्रमुख AI benchmarks में बेहतर प्रदर्शन दर्ज किया
    • LMArena leaderboard में 1501 Elo, Humanity’s Last Exam में 37.5%, GPQA Diamond में 91.9%, और MathArena Apex में 23.4% हासिल किए
    • multimodal benchmarks MMMU-Pro में 81%, Video-MMMU में 87.6%, और SimpleQA Verified में 72.1% दर्ज किया
  • यह सटीक और संक्षिप्त responses देता है, और वैज्ञानिक concepts को visualize करने या creative ideas को ठोस रूप देने में उपयोगी है
  • उदाहरण के तौर पर यह tokamak के भीतर plasma flow को visualize करने वाला code बना सकता है और nuclear fusion physics पर कविता भी लिख सकता है

Gemini 3 Deep Think

  • Deep Think मोड, Gemini 3 की reasoning और multimodal understanding क्षमता को और मजबूत करता है
    • Humanity’s Last Exam में 41.0%, GPQA Diamond में 93.8%, और ARC-AGI-2 में 45.1% के साथ शीर्ष स्तर का प्रदर्शन
  • यह जटिल समस्या-समाधान और नई चुनौतियों के लिए advanced reasoning capability को साबित करता है

सीखना (Learn anything)

  • Gemini 3, 10 लाख tokens context window और multimodal reasoning का उपयोग करके learning को support करता है
    • हाथ से लिखी recipe का अनुवाद और digital cookbook तैयार करना
    • लंबी lectures और papers का सारांश बनाना, और interactive flashcards या visualization code तैयार करना
    • sports videos का विश्लेषण करके personalized training plan बनाना
  • Google Search का AI Mode, Gemini 3 के आधार पर immersive visual layouts और interactive tools को real time में बनाता है

विकास (Build anything)

  • Gemini 3, zero-shot generation और complex prompts को संभालने में मजबूत है, और WebDev Arena में 1487 Elo हासिल करता है
    • Terminal-Bench 2.0 में 54.2% और SWE-bench Verified में 76.2% के साथ tool use और coding agent प्रदर्शन बेहतर हुआ
  • Google AI Studio, Vertex AI, Gemini CLI, Google Antigravity पर development संभव है
  • Cursor, GitHub, JetBrains, Manus, Replit जैसे third-party platforms पर भी support उपलब्ध है

Google Antigravity: agent-केंद्रित development environment

  • Google Antigravity, Gemini 3 आधारित agentic development platform है, जिसमें developers task-level पर AI के साथ सहयोग कर सकते हैं
  • agents, editor, terminal और browser तक सीधे access लेकर code लिखना, चलाना और verify करना अपने आप कर सकते हैं
  • इसमें Gemini 3 Pro के साथ Gemini 2.5 Computer Use model और Nano Banana image editing model एकीकृत हैं
  • उदाहरण के तौर पर agent, flight tracking app को खुद design, code और verify करने वाला workflow चला सकता है

योजना (Plan anything)

  • Gemini 3 ने long-term planning capability को मजबूत किया और Vending-Bench 2 leaderboard में पहला स्थान हासिल किया
    • simulated vending machine business संचालन में 1 साल तक स्थिर निर्णय-क्षमता बनाए रखी
  • यह जटिल multi-step tasks का automation कर सकता है, जैसे email organize करना या services book करना
  • Gemini Agent feature के जरिए Ultra subscribers इसे सीधे Gemini app में अनुभव कर सकते हैं

जिम्मेदार development

  • Gemini 3, Google AI में सबसे सुरक्षित मॉडल है, जिसमें prompt injection resistance और cyber attack defense को मजबूत किया गया है
  • Frontier Safety Framework के अनुसार internal tests और external expert evaluations किए गए
    • UK AISI, Apollo, Vaultis, Dreadnode जैसी संस्थाओं ने भाग लिया
  • Gemini 3 model card में विस्तृत safety evaluation results प्रकाशित किए गए

Gemini 3 युग की शुरुआत

  • Gemini 3 का rollout इन मार्गों से शुरू हुआ
    • Gemini app और Search का AI Mode
    • AI Studio, Google Antigravity, Gemini CLI के माध्यम से developers की access
    • Vertex AI और Gemini Enterprise के माध्यम से enterprise deployment
  • Deep Think मोड अतिरिक्त safety validation के बाद Ultra subscribers के लिए उपलब्ध कराया जाएगा
  • आगे Gemini 3 series के अतिरिक्त models भी पेश किए जाएंगे, और user feedback के आधार पर विस्तार की योजना है

3 टिप्पणियां

 
t7vonn 2025-11-19

Gemini कमाल है, सच में

 
GN⁺ 2025-11-19
Hacker News की राय
  • मैंने एक पुराना XML-आधारित calculator app Gemini में डाला, और उसने 1 मिनट से भी कम समय में पूरा webapp बना दिया
    मैंने खुद कई साल लगाकर custom XML को Android/Swing app में बदलने वाला compiler बनाया था, लेकिन Gemini ने बिना किसी format description के ही यह कर दिया
    जब मैंने Lovable से कोशिश की थी, तब app ठीक से काम नहीं कर रहा था और सिर्फ credits बर्बाद हुए थे, लेकिन इस बार स्तर ही पूरी तरह अलग था
    नतीजे का लिंक

  • मैंने Gemini को नया Project Euler problem (#970) दिया। इसकी संभावना कम थी कि यह training data में हो, लेकिन उसने 5 मिनट 10 सेकंड सोचा और सही जवाब देने वाला Python code दे दिया
    इंसानों में शीर्ष 3 के solve times क्रमशः 14 मिनट, 20 मिनट, और 1 घंटा 14 मिनट थे
    मुझे लगा था कि इस तरह के problems शायद model के RL-tuned domain में होंगे, लेकिन फिर भी कई दिन लगने वाली चीज़ को कुछ ही मिनटों में हल करना चौंकाने वाला है

    • मैंने भी Gemini 3 Pro Preview से वही problem हल करने की कोशिश की, और उसने 4 मिनट 31 सेकंड में नतीजा तो दिया, लेकिन जवाब गलत था
      Web search मना करने के बावजूद उसने stackexchange, youtube आदि 8 “sources” लौटा दिए
      फिर भी उसकी insights ज़्यादातर सही थीं और यह काफ़ी उपयोगी tool है
      prompt लिंक
    • मैंने पहले से test करते आ रहे Kattis के low problem को फिर आज़माया, और पहली बार LLM ने इसे pass किया
      ChatGPT के बाद से कोई model इसे solve नहीं कर पाया था, लेकिन Gemini 3 ने आखिरकार सफलता पाई
    • Model का ऊँचा Elo score शायद सिर्फ उसकी speed की वजह से भी हो सकता है
      लेकिन ऐसे नतीजे देखकर लगता है कि 10 साल के भीतर puzzles के लिए Stockfish-स्तर का AI आ जाएगा
    • जानकारी के लिए, अभी का नया problem Project Euler #970 है
    • मैंने gpt-5.1 thinking से कोशिश की, और उसने बस इंटरनेट पर जवाब खोज लिया 😅
  • मैंने पहले Flash 2.5 के साथ जिस analog clock widget prompt पर प्रयोग किया था, उसे Gemini 3 Pro Preview में डाला, और एक ही बार में पूरी तरह काम करने वाला result मिल गया
    नतीजे का लिंक

    • Flash 2.5 भी ठीक-ठाक था। उसने एक metric UNIX clock बनाई, जिसमें seconds को kiloseconds में दिखाया गया
      एक दिन 86.4ks होता है, और अभी लगभग 1.76 गीगासेकंड AUNIX epoch चल रहा है। कभी न कभी मैं इसका 20-foot physical clock बनाना चाहता हूँ
    • जब second hand 12 पर पहुँचती है, तब “wiggle” animation नहीं आता, इसलिए अब यह देखा नहीं जाता 😂
    • यह project Wes Bos के 30 Days of JavaScript course में शामिल example है, इसलिए संभव है कि यह training data में रहा हो
    • मैंने इसमें कुछ improvements जोड़े, लेकिन tick sound सिर्फ दूसरी कोशिश में सही बनी
      improved version लिंक
    • किसी और का लिखा prompt इससे कहीं ज़्यादा simple था। मैं मूल रूप से ऐसा prompt इस्तेमाल करता था जो ${time} variable के साथ सिर्फ HTML/CSS generate करे, और Gemini ने उसे पूरी तरह बिगाड़ दिया
      failed example लिंक
  • मैंने Pelican benchmark पर अपने notes और उसका नया high-difficulty version संकलित किया है
    blog post

    • अब लगता है हर lab में एक ‘pelican person’ होगा। शायद वे SVG में साइकिल चलाते pelican को बेहतर बनाने के लिए दिन-रात training कर रहे होंगे
    • उन्होंने कई महीनों तक pelican पर training की, और जैसे ही मैंने benchmark बदला, लक्ष्य ही बदल गया 😂
    • बहुत संभव है कि “साइकिल चलाता pelican” पहले से training data में शामिल रहा हो
    • कहा गया था कि saturation problem नहीं है, लेकिन नतीजों को देखकर लगता है कि बड़ी labs चुपचाप pelican hill चढ़ रही थीं
    • अफ़सोस है कि Gemini 3 का knowledge cutoff जनवरी 2025 है, जो 2.5 जैसा ही है
      शायद उन्होंने वही base model रखा और सिर्फ RL tuning बेहतर की है
  • Gemini 3 Pro Preview मेरे basic Python benchmark में पूरी तरह fail हो गया
    Gemini 2.5 Pro थोड़ा ज़्यादा करीब पहुँचा, लेकिन फिर भी जवाब गलत था
    इसके विपरीत gpt-5.1-thinking, Claude Sonnet 4.5, और Opus 4.1 pass हो गए
    इससे फिर महसूस हुआ कि benchmarks कोई absolute standard नहीं हैं

    • “benchmarks बेकार हैं” कहना बढ़ा-चढ़ाकर कहना होगा। उनकी सीमाएँ हैं, लेकिन वे अब भी उपयोगी संकेतक हैं
      जानना दिलचस्प होगा कि वह कौन-सा “basic” Python problem है जिसमें GPT-5 thinking fail हुआ
    • सिर्फ एक personal benchmark से निष्कर्ष निकालना भरोसेमंद नहीं लगता। अगर इसे साझा करें तो सब मिलकर verify कर सकते हैं
    • मैं अक्सर “एक ही HTML page में Pac-Man game बनाओ” वाला test करता हूँ। Gemini 3 भी 2.5 की तरह इसमें fail हुआ
    • Benchmark का अर्थ उसकी design quality पर निर्भर करता है। सिर्फ public है या नहीं, इससे फ़ैसला नहीं किया जा सकता
    • Google के घोषित SWEBench score में Gemini 3 Pro, Claude Sonnet 4.5 से नीचे था। यह भी जानने की उत्सुकता है कि Opus 4.5 उससे बेहतर करेगा या नहीं
  • मेडिकल से जुड़े एक issue पर काम करते समय Gemini 2.5 Pro ने लगभग आधा ही सही किया, लेकिन Gemini 3.0 ने इसे पूरी तरह हल कर दिया
    उसने संबंधित regulations, research, और approval process को भी तार्किक ढंग से व्यवस्थित किया, जिससे वास्तव में decision-making में मदद मिली
    लगता है ऐसे models सचमुच लोगों की ज़िंदगी बदल देंगे

  • Google की announcement post में “AI-generated summary पढ़ें” बटन होना बहुत मज़ेदार लगा
    अगला कदम शायद यह होगा: “हमारे AI को आपके AI summary पढ़ने दें”
    आख़िरकार यह Douglas Adams के Electric Monk जैसा हो सकता है, जहाँ आस्था तक automated हो जाए

    • मैंने भी कंपनी में एक AI project का नाम Electric Monk रखना चाहा था, लेकिन वह बहुत विवादास्पद लगा, इसलिए उसे Electric Mentor कर दिया
    • इस संदर्भ में SMBC comic बिल्कुल सटीक बैठती है
    • अब बस AI cloud outage resolution भी automate कर दे तो अच्छा होगा
    • ऐसा लगता है कि सिर्फ developers ही नहीं, manager की भूमिका तक AI के हाथ में जाने में भी ज़्यादा समय नहीं है
  • मेरा पसंदीदा benchmark लंबे meeting audio files का summary और speaker diarization है
    Gemini 2.5 में summary तो ठीक थी, लेकिन speaker diarization बहुत खराब था, जबकि 3.0 ने इसे पूरी तरह सही पकड़ा

    • मैंने 90 मिनट के podcast पर प्रयोग किया, और Gemini 3 ने hallucinated quotes बना दिए और timestamps भी सब गलत दिए
      लंबे audio में इसकी सीमाएँ अब भी हैं
    • ElevenLabs या Soniox जैसे dedicated audio models इस्तेमाल करें तो काफ़ी अधिक accuracy मिलती है
    • जानना चाहूँगा कि आप कौन-सा prompt इस्तेमाल करते हैं
    • मैं भी podcast speaker diarization project बना रहा हूँ, और यह काफ़ी अच्छा काम कर रहा है
    • Parakeet TDT v3 ऐसे काम के लिए बहुत उपयुक्त लगती है
  • मेरे बनाए पाँच पैरों वाले कुत्ते की फोटो test में Gemini 3 भी fail हो गया
    फिर भी दूसरे models से अलग उसने पाँचवें पैर को पहचाना, लेकिन उसे किसी और body part समझ लिया
    Visual recognition अब भी एक बड़ी चुनौती है

    • Perception वह क्षेत्र है जिसे evolution ने अरबों वर्षों में तराशा है, इसलिए computational रूप से यह कहीं ज़्यादा कठिन problem है
    • शायद ऐसा गलत निर्णय safety filter के blind spot की वजह से हुआ हो सकता है
 
nullptr 2025-11-19

फ़िलहाल इसे Google द्वारा जारी किए गए VSCode OSS fork, Antigravity ( https://antigravity.google/pricing ) में मुफ़्त में इस्तेमाल किया जा सकता है
इसके अलावा, लगता है कि gemini-cli में अभी केवल AI Ultra (मासिक 3.6 लाख) ही इस्तेमाल किया जा सकता है।