9 पॉइंट द्वारा GN⁺ 2025-03-26 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • Gemini 2.5 जटिल समस्याओं को हल करने के लिए डिज़ाइन किया गया अब तक का सबसे बुद्धिमान reasoning-आधारित AI model है
  • इसकी पहली रिलीज़ Gemini 2.5 Pro Experimental ने विभिन्न AI benchmarks में शीर्ष प्रदर्शन दर्ज किया
  • खास तौर पर LMArena रैंकिंग में बड़े अंतर से पहला स्थान हासिल किया
  • मौजूदा models से अलग, इसे जवाब देने से पहले स्वयं सोचने की प्रक्रिया से गुजरने वाली संरचना के साथ डिज़ाइन किया गया है, जिससे accuracy और performance बेहतर हुई है

AI में 'सोचने' की क्षमता क्या है?

  • यह सिर्फ साधारण classification या prediction से आगे बढ़कर information analysis, logical conclusion निकालना, context समझना, decision-making जैसी उच्च-स्तरीय संज्ञानात्मक क्षमताओं को शामिल करती है
  • इसके लिए DeepMind ने reinforcement learning, Chain-of-Thought prompt techniques आदि का उपयोग करते हुए AI की reasoning क्षमता पर शोध किया है
  • यह मौजूदा Gemini 2.0 Flash Thinking model से एक कदम आगे की performance दिखाता है

आगे की दिशा

  • Gemini 2.5 के जरिए उन्नत base models और post-training techniques को जोड़कर performance का नया स्तर हासिल किया गया है
  • आगे चलकर यह सोचने की क्षमता सभी Gemini models में डिफ़ॉल्ट रूप से शामिल की जाएगी, ताकि वे और जटिल समस्याएँ हल कर सकें और अधिक उन्नत agents को support दे सकें

Gemini 2.5 Pro का परिचय

  • Gemini 2.5 Pro Experimental अब तक विकसित models में सबसे जटिल कार्यों को करने में बेहतरीन performance दिखाता है
  • मानव पसंद के आधार पर मूल्यांकन करने वाले LMArena में बड़े अंतर से पहला स्थान प्राप्त किया
  • coding, math, science benchmarks में भी उत्कृष्ट प्रदर्शन दिखाया
  • यह अभी Google AI Studio और Gemini app में उपलब्ध है, और जल्द ही Vertex AI में भी उपलब्ध होगा
  • आगे pricing plans जोड़े जाएंगे ताकि अधिक call limits के साथ scalable service दी जा सके

बेहतर reasoning performance

  • जटिल logic problems को हल करने में शीर्ष-स्तरीय benchmark scores दर्ज किए
  • अतिरिक्त लागत वाली test techniques (जैसे majority voting) के बिना भी मजबूत performance बरकरार रखी
  • GPQA, AIME 2025 जैसे math और science problems में अग्रणी प्रदर्शन दिखाया
  • सैकड़ों experts द्वारा डिज़ाइन किए गए कठिन reasoning test 'Humanity’s Last Exam' में बिना tools के 18.8% का उद्योग-श्रेष्ठ score दर्ज किया

उन्नत coding performance

  • coding performance में Gemini 2.0 की तुलना में बड़ा सुधार हुआ
  • web app generation, agentic code writing, code transformation और modification में उत्कृष्ट क्षमता दिखाई
  • SWE-Bench Verified मूल्यांकन में custom agent के उपयोग पर 63.8% हासिल किया
  • एक ही पंक्ति के prompt से चलने योग्य video game बनाने का उदाहरण भी दिया गया

Gemini model की मज़बूतियाँ बरकरार

  • Gemini 2.5 ने मौजूदा Gemini models की ताकत, यानी multimodal processing और long context window, को बरकरार रखा है
  • 1 million token context window का support (जल्द ही 2 million तक विस्तार की योजना)
  • text, audio, image, video, पूरे code repository सहित कई information sources को एक साथ प्रोसेस कर सकता है
  • developers और enterprise users Google AI Studio, Gemini Advanced, Vertex AI आदि के जरिए इसका प्रयोग और परीक्षण कर सकते हैं

3 टिप्पणियां

 
wowfoot 2025-03-26

claud,gpt4.5 को पीछे छोड़ देता है, लेकिन grok3 को कई बार कोशिश करने पर मिलने वाले नतीजों से बेहतर नहीं कर पाता।
grok3 वाकई कमाल है।

 
zxshinxz 2025-03-26

Google AI Studio में Gemini 2.5 Pro आने के बाद पहले मौजूद सभी Gemini 2.0 Pro गायब हो गए हैं.. मैं इसे मुफ्त में काफ़ी काम का पाकर अच्छी तरह इस्तेमाल कर रहा था, इसलिए यह थोड़ा अफ़सोसजनक है। Gemini 2.5 Pro पर प्रति मिनट 2 बार की सीमा और दिन में केवल 50 बार तक ही कॉल कर पाने की पाबंदी काफ़ी बड़ी लगती है।

 
GN⁺ 2025-03-26
Hacker News की राय
  • LLM का उपयोग करके उपन्यास जैसी लंबी रचनाएँ लिखते समय सबसे बड़ी समस्याओं में से एक यह है कि यदि आप विवरण देते हैं, तो मॉडल उस पर अत्यधिक बेचैन ढंग से प्रतिक्रिया करता है

    • उदाहरण के लिए, यदि आप किसी epic fantasy के love interest का प्रोफ़ाइल देते हैं, तो लगभग हमेशा ऐसा होता है कि नायक उनसे 3 पेज के भीतर ही मिल जाता है
    • यह अव्यवहारिक प्रगति है, और इसे बदलने की कोशिश असरदार नहीं होती
    • मौजूदा मॉडल ने 19 पेज तैयार करने के बाद भी सामान्य प्रगति दिखाई और बहुत सारे विवरण शामिल किए
    • यह बहुत प्रभावशाली है
  • मैं गणितीय पहेलियों का उपयोग करके अलग-अलग मॉडलों का benchmark करता रहा हूँ

    • इस पहेली को कंप्यूटर से हल करने में लगभग 3 दिन लगे, जबकि एक गणित स्नातक ने इसे हाथ से एक दिन में हल कर लिया
    • Gemini 2.5 इस पहेली को हल करने वाला पहला मॉडल है, और इसका मतलब है कि गणितीय तर्क में LLM आबादी के 95% से अधिक लोगों से बेहतर है
    • पहेली यह है कि तीन लोग एक वृत्त में खड़े हैं, और हर व्यक्ति के सिर के ऊपर एक धनात्मक पूर्णांक तैर रहा है, जहाँ दो संख्याओं का योग तीसरी संख्या के बराबर है
    • पहला व्यक्ति कहता है कि उसे अपनी संख्या नहीं पता, दूसरा व्यक्ति भी कहता है कि उसे नहीं पता, और तीसरा व्यक्ति भी यही कहता है
    • फिर जब पहले व्यक्ति से दोबारा पूछा जाता है, तो वह 65 जवाब देता है
    • सवाल यह है कि तीनों संख्याओं का गुणनफल क्या है
  • इसने audio transcription और जटिल फ़ोटो में जीवों के आसपास bounding box खींचने जैसे कामों में बहुत अच्छा प्रदर्शन किया

    • इसने साइकिल चलाते हुए एक pelican भी बना दिया
    • संबंधित नोट्स लिंक में देखे जा सकते हैं
  • इसने benchmarks में अभूतपूर्व तरीके से शीर्ष प्रदर्शन दर्ज किया

    • यह उच्च गुणवत्ता और स्पष्ट परिणाम दिखाता है, लेकिन थोड़ा धीमा है
    • Google फिर से बड़ा प्रदर्शन कर रहा है
  • Gemini 2.5 Pro ने aider polyglot leaderboard पर 73% स्कोर के साथ SOTA हासिल किया

    • यह पिछले Gemini मॉडलों की तुलना में बड़ी छलाँग दिखाता है
    • यह diff-like editing format का प्रभावी उपयोग करने वाला पहला Gemini मॉडल है
  • ऐसी घोषणाएँ अब template जैसी लगने लगी हैं

    • state-of-the-art मॉडल
    • X, Y, Z के साथ benchmark तुलना
    • "बेहतर" reasoning
    • यह शानदार मॉडल हो सकता है, लेकिन दोहराव वाला टेक्स्ट दिलचस्पी कम कर देता है
  • Gemini 2.5 ने काफ़ी बेहतर base model और सुधरे हुए post-processing को मिलाकर प्रदर्शन का नया स्तर हासिल किया है

    • आगे चलकर ऐसी thinking capabilities को सभी मॉडलों में सीधे बनाया जाएगा ताकि वे अधिक जटिल समस्याएँ संभाल सकें और अधिक सक्षम, context-aware agents को समर्थन दे सकें
    • यह इंटरनेट से जुड़ा है और ज़रूरत पड़ने पर reasoning model की तरह काम करता है
    • उम्मीद है कि हाल ही में जारी किया गया canvas mode इस मॉडल में भी सपोर्ट किया जा सकेगा
  • मैंने एक Dart लाइब्रेरी में bug के कारण की पहचान करने के लिए एक test case इस्तेमाल किया, जिसमें LLM को पूरा codebase और bug description दिया गया था

    • इसमें लगभग 360,000 tokens शामिल थे
    • एक महीने पहले मैंने इसे प्रमुख मॉडलों पर आज़माया था, लेकिन केवल इसी मॉडल ने सही fix की पहचान की
  • अगर आप Gemini का उपयोग करने की योजना बना रहे हैं, तो ये सावधानियाँ हैं

    • कोई भी गोपनीय जानकारी या ऐसा डेटा इनपुट न करें जिसे reviewers देख सकते हों या जिसे Google उपयोग कर सकता हो
    • Google AI की गुणवत्ता सुधारने और products बेहतर बनाने के लिए human reviewers बातचीत को पढ़ते हैं, annotate करते हैं और process करते हैं
    • इस प्रक्रिया में privacy की रक्षा के लिए बातचीत को Google account से अलग किया जाता है
  • 2.0 मॉडल अभी इतना पुराना भी नहीं है, इसलिए सोचता हूँ कि नाम में +0.5 क्यों जोड़ा गया है

    • क्या यह marketing की वजह से है, किसी नई model architecture को दिखाता है, 2.0 आधारित अधिक training data है, या नई service infrastructure है — यह जानने की जिज्ञासा है
    • जब *.5 naming पहली बार आई थी, तब यह मुझे कुछ बेवकूफ़ी भरी लगी थी
    • OpenAI ने जब 3.5 जारी किया था, तब उसने कहा था कि 4 पहले से तैयार हो रहा है, और 3 को ChatGPT के लिए अधिक उपयुक्त बनाने हेतु tune किया जा रहा है
    • मुझे लगता है कि Anthropic द्वारा Sonnet 3, 3.5, 3.5 (new), 3.7 जैसी naming इस पद्धति का सबसे खराब उदाहरण है
    • मैं semver, date-based naming ("Gemini Pro 2025") या अर्थपूर्ण अक्षर-संख्या संयोजन (जैसे 4o - "Omni") को प्राथमिकता देता हूँ