1 पॉइंट द्वारा GN⁺ 2025-06-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • औपचारिक रिलीज़ से पहले नवीनतम Gemini 2.5 Pro का प्रीव्यू वर्ज़न उपलब्ध हो गया है
  • LMArena, WebDevArena जैसे प्रमुख मूल्यांकनों में पिछले मॉडल की तुलना में 24~35 Elo अंक की बढ़त
  • कोडिंग, विज्ञान, गणित, मल्टीमॉडल समझ, लंबे context की प्रोसेसिंग जैसे प्रमुख benchmarks में शीर्ष स्तर का प्रदर्शन दर्ज किया गया
  • इनपुट कीमत $1.25, आउटपुट कीमत $10 (प्रति मिलियन टोकन) के साथ प्रतिस्पर्धियों की तुलना में किफायती लागत संरचना

प्रमुख benchmark के अनुसार तुलना

  • Reasoning & Knowledge (Humanity's Last Exam): 21.6%, OpenAI/Anthropic आदि के समान स्तर, DeepSeek R1 (14%) से बेहतर
  • Science (GPQA diamond): 86.4%, उद्योग में सर्वोच्च प्रदर्शन (single attempt के आधार पर)
  • Mathematics (AIME 2025): 88.0%, OpenAI o3, DeepSeek R1 के समान स्तर, Anthropic Claude 4/3 से अधिक
  • Code Generation/Editing: LiveCodeBench 69.0%, Aider Polyglot 82.2%, कोड जनरेशन और एडिटिंग दोनों में उच्च सटीकता
  • Agentic Coding (SWE-bench Verified): 59.6% (single), 67.2% (multiple attempts), Anthropic Claude 4 से थोड़ा कम लेकिन OpenAI/DeepSeek के समान
  • Factuality: SimpleQA 54.0%, FACTS Grounding 87.8%, वास्तविक डेटा-आधारित उत्तर जनरेशन में मजबूत
  • Visual/Video/Image Understanding: MMMU 82.0%, Vibe-Eval (image) 67.2%, VideoMMMU (video) 83.6%, टेक्स्ट-इमेज-वीडियो सभी में मजबूत
  • Long Context (MRCR v2, 128K): 58.0%, OpenAI, Anthropic, xAI जैसे प्रमुख प्रतिस्पर्धी मॉडलों की तुलना में सर्वोच्च प्रदर्शन

कीमत और समर्थित भाषाएँ

  • इनपुट कीमत: $1.25 / प्रति मिलियन टोकन (200K से अधिक पर $2.50)
  • आउटपुट कीमत: $10 / प्रति मिलियन टोकन (200K से अधिक पर $15)
  • समर्थित भाषाएँ: 70 से अधिक वैश्विक भाषाएँ (Multipolyglot 89.2%)

उपयोग और अतिरिक्त विशेषताएँ

  • Google AI Studio, Vertex AI में तुरंत प्रीव्यू उपयोग उपलब्ध
  • Thinking Budget जैसे डेवलपर-उन्मुख cost और latency control features जोड़े गए
  • कोडिंग, ज्ञान, मल्टीमॉडल, लंबे दस्तावेज़ों की प्रोसेसिंग जैसे वास्तविक कार्य-उपयोग के लिए उपयुक्त क्षमताएँ मजबूत की गईं

निष्कर्ष

  • Gemini 2.5 Pro कीमत, प्रदर्शन, बहुउपयोगिता, मल्टीमॉडल, लंबे context जैसे कई पहलुओं में प्रतिस्पर्धियों की तुलना में बेहतर है
  • एंटरप्राइज़ और डेवलपर AI अपनाने में प्रमुख benchmarks आधारित स्पष्ट तुलना और cost efficiency को साथ में विचार किया जा सकता है

1 टिप्पणियां

 
GN⁺ 2025-06-07
Hacker News राय
  • Google ने lmarena में लगभग 25 ELO और बढ़ाया, यह देखना प्रभावित करने वाला है, खासकर यह ध्यान में रखते हुए कि पिछला #1 भी Gemini ही था मैंने पिछले कुछ हफ्तों में Gemini और Claude Opus 4 दोनों का काफी इस्तेमाल किया है, और मेरी राय में Opus बिल्कुल अलग स्तर का लगा जटिल TypeScript समस्याओं पर काम करते समय मैंने पहली बार देखा कि Gemini किसी बिंदु पर उसी जगह घूमता रहता है, या यहाँ तक कि हार मानकर कह देता है कि वह नहीं कर सकता, जबकि Opus उसे आसानी से सुलझा देता है यह उदाहरण कुल प्रदर्शन का पूरा प्रतिनिधित्व नहीं करता, लेकिन फर्क यह लगा कि Gemini किसी तरह कोड को जबरन चलाने की कोशिश करता है, जबकि Opus समस्या के मूल को समझकर ज्यादा साफ तरीके से आगे बढ़ता है यह भी लगा कि Opus में कल्पनाशीलता ज्यादा है, या वह agentic tasks के लिए बेहतर optimize किया गया है खास तौर पर यह प्रभावशाली लगा कि Opus ने एक बार अप्रत्याशित समाधान के रूप में playwright script बनाकर DOM dump किया, उसका विश्लेषण किया, और interaction issues की जाँच की Gemini कोड को खुद बहुत जिद से पढ़कर bug पकड़ने की कोशिश करता है, लेकिन मुझे उसके approach की सीमाएँ महसूस हुईं इसके बावजूद Gemini भी शानदार model है, और version 4.0 से पहले तक मैं उसे सबसे बेहतर मानता था

    • व्यक्तिगत रूप से मुझे Opus 4 से भी ज्यादा o3 पसंद है, और पिछले एक महीने में AI code generation tools पर सैकड़ों डॉलर खर्च करने के बाद मैंने अपनी ranking बनाई है पहला स्थान o3 का है, यह बारीक विवरण संभालने, समस्या के मूल को समझने, और वास्तव में production में इस्तेमाल होने लायक high-quality code लिखने में बेहद अच्छा है कमियाँ हैं cutoff window, लागत, और tools इस्तेमाल करने की इसकी कुछ ज्यादा ही पसंद Rails projects में लगभग कोई समस्या नहीं होती, लेकिन कभी-कभी असर पड़ता है दूसरा स्थान Opus 4 का है (Claude Code के जरिए इस्तेमाल), performance अच्छा है और o3 की तुलना में सस्ता भी है, इसलिए इसे daily driver की तरह ज्यादा इस्तेमाल करता हूँ Opus 4 planning और शुरुआती draft बना देता है, फिर o3 उसे बारीकी से critique करके feedback list बनाता है, और इस तरह final quality सच में बेहतर होती है तीसरा स्थान Gemini 2.5 Pro का है, मैंने यह latest release अभी नहीं आजमाया, लेकिन पहले यह दूसरे स्थान पर था अभी यह Sonnet 4 के बराबर या थोड़ा बेहतर लगता है, स्थिति के अनुसार बदलता है चौथा स्थान Sonnet 4 का है, यह बहुत कोड लिखता है, लेकिन अगर सीधे coaching और supervision न दी जाए तो सच में high-quality, concise, और deep code नहीं निकालता मैं code quality और structure को लेकर (naming, reusability आदि) बहुत picky हूँ, इसलिए पिछले महीने Cursor stats के हिसाब से auto-suggested code में से सिर्फ 33% ही accept किया जब output optimal path पर नहीं होता, तो मैं गलत अनुरोधों को ठीक करके और prompt को दोबारा refine करके बेहतर नतीजा लेने की कोशिश करता हूँ

    • Gemini की सबसे मजबूत बात बाकी models की तुलना में उसकी search क्षमता है मैंने कंपनी के domain से spam भेजने वाली जगह के लिए email लिखने को कहा, तो उसने hosting provider का abuse email, domain info, mx server, IP, data center सब ढूंढ दिया paper को podcast में बदलने को कहा तो उसने तुरंत कर दिया, और सुनने में भी मजेदार था

    • इस हफ्ते जब Claude 4 और Gemini 2.5 को एक ही task दिया, तो Gemini ने सही जवाब दिया और Claude ठीक से नहीं कर पाया खासकर SQL query comparison जैसे कठिन task ही नहीं, साधारण मामलों में भी Gemini कई बार असली समस्या पकड़ लेता है

    • असल में अनुभव अक्सर परिस्थिति पर निर्भर रहा कुछ समस्याएँ Gemini ने तुरंत सुलझा दीं, लेकिन उसके तुरंत बाद बहुत साधारण bug पर अटक गया, जो काफ़ी उलझाने वाला था o3 और Sonnet के साथ भी यही हुआ, और 4.0 को अभी इतना इस्तेमाल नहीं किया कि फैसला दे सकूँ लगा कि कई models को parallel में evaluate करके सबसे अच्छा solution चुनने वाली support की ज़रूरत है

    • किसी ने पूछा कि क्या o3 के साथ भी test किया था मेरे use case में o3, Opus 4 से कहीं ज्यादा प्रभावशाली लगा

  • OpenAI की market value को लेकर चिंता बढ़ती जा रही है अब कई मजबूत competitors आ गए हैं, और यह तर्क काफ़ी विश्वसनीय लगता है कि वह अब अकेला निर्विवाद leader नहीं रहा 300 अरब डॉलर valuation पर आगे यह और निवेश कैसे जुटाएगा, यह जिज्ञासा का विषय है revenue कम है और hardware, बिजली आदि की लागत लगातार बढ़ रही है, इसलिए इसकी वास्तविक value तय करना मुश्किल है जब अगली पीढ़ी के LLMs को नए data की ज़रूरत होगी, तब Facebook और Google के पास बढ़त होने की संभावना है OpenAI के पास खुद का बड़ा data business नहीं है, इसलिए proprietary data competition में वह कमजोर स्थिति में दिखता है जब वह research और user apps दोनों में leader था, तब ऊँची valuation को उचित ठहराया जा सकता था, लेकिन अब भरोसे का आधार कमजोर लगता है नए investors को OpenAI से क्या लाभ मिलेगा, यह स्पष्ट नहीं है 300 अरब डॉलर valuation पर आम तौर पर 150 अरब डॉलर revenue की ज़रूरत पड़ती है, और बहुत ही extreme P/E (100x) मानें तो भी सालाना 3 अरब डॉलर profit, साथ में 10 साल लगातार दोगुनी growth जैसा scenario मानना होगा (कुछ वैसा जैसे 2000s में Amazon) अभी nonprofit/for-profit structure की समस्या भी है, इसलिए listing खुद आसान न हो Google के प्रदर्शन पर बधाई, और मूल्यांकन यह कि AI race में सबसे बड़ा winner बनने की संभावना उसी की है

    • एक राय यह है कि OpenAI की market position को लेकर काफी गलतफहमी है "chatgpt" अब रोजमर्रा की क्रिया जैसा शब्द बन चुका है, जबकि Claude या Gemini आम लोगों को बिल्कुल पता नहीं हैं जब तक कुछ बहुत बड़ा न हो, लोगों के पास दूसरे product पर जाने की कोई खास वजह नहीं है ChatGPT की conversation history, memory, और export structure की सुविधा ही switching barrier के लिए काफी है 50 करोड़ active users के सामने OpenAI को बस quality बनाए रखनी है अगर मौजूदा paradigm जारी रहता है, तो भले वह तकनीकी leader न हो, फिर भी दूसरे की tech को पकड़ सकता है आम उपयोगकर्ता छोटे सुधारों के लिए product नहीं बदलते

    • valuation calculation में गलती होने की ओर इशारा किया गया 300 अरब डॉलर का दोगुना revenue नहीं, बल्कि 150 अरब डॉलर revenue सही है लेकिन मूल तर्क अब भी वैध है

    • अभी OpenAI जिस क्षेत्र में स्पष्ट रूप से बेहतर है, वह image generation है illustration, comics, photo editing, और home project ideas में इसका अलगपन दिखता है

    • एक और राय यह है कि भले Google AI race जीत रहा हो, उसका search business फिर भी कमजोर होगा और AI के कारण market dominance से आर्थिक लाभ कितना निकाला जा सकेगा, यह अब भी अनिश्चित है प्रतिस्पर्धा करना मजबूरी है, लेकिन शायद ads-केंद्रित monopoly वाला दौर ज्यादा लाभदायक था

    • चूँकि o3 pro और GPT 5 की release करीब है, इसलिए अभी यह तय कर देना जल्दबाज़ी होगी कि OpenAI leader नहीं रहा अगर ये दोनों models स्पष्ट प्रगति न दिखाएँ, तभी leadership loss की बात की जा सकती है फिलहाल कम से कम इतना लगता है कि वह Google आदि के बराबर खड़ा है

  • एक ही model के preview versions तीन-तीन निकालना वैसे ही भ्रमित करता है, ऊपर से आखिरी दो तारीखें (05-06 और 06-05) भी उलटी-पुलटी हों तो और ज्यादा उलझन होती है बस एक दिन टाल देते तो बात साफ हो जाती, ऐसा लगता है

    • तारीख इतनी ambiguous है कि असल में 13 तक टालना पड़ता, तभी भ्रम नहीं होता कनाडा में British और American date format दोनों मिलते हैं, इसलिए सच में बहुत confusion होता है आजकल y-m-d format आधिकारिक रूप से स्वीकार है और धीरे-धीरे फैल भी रहा है

    • 05-06 और 06-05 वाला confusion खुद OpenAI के 4o और o4 models पर खुली चुटकी जैसा लगता है

    • जिज्ञासा है कि Gemini 2.5 pro से 2.6 pro पर कब जाएगा Gemini 3 में शायद size और बड़ा होगा, ऐसा अनुमान है

    • मज़ाक में कहा गया कि developers naming में सचमुच बहुत कमजोर होते हैं

  • Gemini में मुझे खास तौर पर दो समस्याएँ महसूस हुई हैं

    1. साफ तौर पर नाम बदलने को न कहने पर भी यह variable names rename कर देता है
    2. और कभी-कभी closing square bracket छोड़ देता है मुझे variable names को concise रखना पसंद है, इसलिए मैं सिर्फ "json" भी लिख देता हूँ, feedback के लिए धन्यवाद, लेकिन ऐसे बदलाव बढ़ जाएँ तो code review मुश्किल हो जाता है
    • Gemini के गलत handling का एक ठोस उदाहरण दिया गया processing_class=tokenizer को साफ तौर पर सेट किए गए code को कई बार ठीक करने के बाद भी Gemini बार-बार tokenizer=tokenizer में बदल देता है यहाँ तक कि पूरी comment में DO NOT CHANGE लिख देने पर भी यह गलत बदलाव करता रहता है latest version (06-05) अभी नहीं आजमाया, लेकिन पिछला 05-06 भी यही गलती दोहराता रहा

    • यह भी ज़ोर देकर कहा गया कि o1-pro भी Gemini के साथ मेरी top ranking में है लेकिन Gemini अनावश्यक comments और असंबंधित code changes बहुत करता है, इसलिए असली काम में इस्तेमाल करना कठिन हो जाता है ideas explore करने में यह मददगार है, लेकिन final solution के लिए मैं o1-pro इस्तेमाल करता हूँ

    • Gemini सच में बेहूदे non-executable comments भी बहुत जोड़ देता है # Added this function, # Changed this to fix the issue जैसी चीजें ये commit message या PR में ठीक लगती हैं, लेकिन code में comments के रूप में डालना असुविधाजनक है

    • ChatGPT भी कई बार खास निर्देशों को पूरी तरह ignore कर देता है उदाहरण के लिए, "em dash या en dash इस्तेमाल मत करो" चाहे जितना ज़ोर देकर कहो, वह उलटे और ज्यादा डाल देता है कई बार कोशिश करने पर भी इसे एक बार भी ठीक से control नहीं कर पाया

  • मैं ChatGPT Plus और Gemini Pro दोनों का paid इस्तेमाल कर रहा हूँ ChatGPT लगातार rate limit में फँसता है, इसलिए subscription बंद करने पर विचार कर रहा हूँ Gemini/AI Studio में अब तक एक बार भी rate limit नहीं लगी

    • AI Studio वास्तव में backend में API account इस्तेमाल करता है, और Google Cloud free-tier project अपने आप बन जाता है "get an api key" page के नीचे billing account link किया जा सकता है free-tier API का इस्तेमाल Google service terms के अनुसार commercial use न माना जाए, और prompts को इंसान review कर सकते हैं तथा training data के रूप में इस्तेमाल किया जा सकता है

    • AI Studio API इस्तेमाल करता है, इसलिए आम user के लिए paid preview model में limit तक पहुँचना वास्तव में बहुत दुर्लभ है

    • Gemini मुझे ChatGPT से कहीं ज्यादा पसंद आया, लेकिन हाल में Pro plan में 100 messages per day की limit आ गई AI Studio में अभी तक शायद ऐसी limit नहीं है

    • जिज्ञासा है कि openrouter जैसे relay के जरिए API क्यों नहीं इस्तेमाल करते

  • पहले के Gemini models मुझे coding assistant के रूप में Claude 3.7 Sonnet से कमजोर लगे थे (4 तो और भी खराब) जब तक नए version का सीधा evaluation न आए, उसे आजमाने का इरादा नहीं है इंटरनेट पर Gemini की इतनी तारीफ मेरे निजी अनुभव से इतनी अलग है कि शक होता है कहीं खुला marketing push या artificial hype तो नहीं मिला हुआ

    • एक मत यह है कि किसी भी model का मूल्यांकन इस पर निर्भर करता है कि आप उससे वास्तव में क्या काम करा रहे हैं Claude 3.5/3.7 Sonnet, C/C++/Make/CMake में तो लगभग बेकार स्तर का था गलत जानकारी, असंभव code, बेमानी syntax/API, logical contradictions जैसी खराब चीजें मिलीं Gemini 2.5-pro और o3 बहुत बेहतर थे, यहाँ तक कि पूरी team ने भी उन्हें ज्यादा अच्छा कहा हो सकता है Claude TypeScript या Ruby में मजबूत हो, लेकिन कम से कम मेरे काम में Gemini की तारीफ महज ad hype नहीं थी

    • मैंने Claude इस्तेमाल नहीं किया, लेकिन रोजमर्रा के सवालों में Gemini ने हमेशा ChatGPT या Copilot से बेहतर जवाब दिए खासकर search use cases में, जैसे command line तरीके या product info, Gemini स्पष्ट रूप से मजबूत है

    • Aider में Sonnet और Gemini को बारी-बारी से इस्तेमाल कर रहा हूँ अजीब बात यह है कि कुछ समस्याएँ सिर्फ एक ही model हल कर पाता है, और इसका कोई पहले से दिखने वाला pattern नहीं है

    • एक राय यह भी है कि Claude 3.7 Sonnet coding assistant के रूप में Gemini से बेहतर है, लेकिन data science या जटिल Python ETL में Claude निराशाजनक था और o3 कहीं बेहतर निकला

    • Roo Code में Claude tools इस्तेमाल करने में बेहतर है, लेकिन Gemini का concise code style मेरी पसंद के ज्यादा करीब है दोनों को मिलाकर इस्तेमाल करता हूँ, या एक fail हो जाए तो दूसरे से समस्या हल कराता हूँ

  • यह भी राय है कि preview versions को सिर्फ तारीख बदलकर बार-बार release करने के बजाय patch number बढ़ाना बेहतर होगा

    • लेकिन अगर पुराने versions पर बने ecosystem को प्रभावित नहीं करना है, तो हर बड़े update पर नया model अलग करना पड़ता है
  • Aider में 82.2 score दर्ज हुआ लेकिन वास्तविकता में यह अभी भी o3 high के official score से पीछे है Aider leaderboard लिंक

    • पूछा गया कि 82.2 क्या दूसरे models के Percent correct के बराबर है "pure" o3 (high) 79.6% है, जबकि "o3 (high) + gpt-4.1" combination का highest 82.7% है पुराना Gemini 2.5 Pro Preview 05-06 लगभग 76.9% था इसलिए इसे काफी बड़ी छलांग माना गया Aider benchmarks को फिलहाल सबसे भरोसेमंद benchmark माना जाता है

    • यह कि यह बहुत सस्ता और तेज भी है, खास तौर पर चौंकाने वाली बात है

    • यह भी बताया गया कि ऊपर बताए गए score पुराने 05-06 preview के हैं, आज जारी हुए नए version के नहीं

  • एक tweet का हवाला दिया गया कि 06-05, 03-25 और 05-06 के बीच का gap भरता है संबंधित tweet

  • Claude 4 Sonnet के साथ code comparison में रुचि है इस blog table के अनुसार यह Claude 4 Sonnet से स्पष्ट रूप से नीचे दिखाया गया है

    • वास्तव में ज्यादातर benchmarks programming/coding से जुड़े हैं, और सिर्फ SWE-Bench में Claude का score ज्यादा है कौन-सा benchmark वास्तविक काम को सबसे अच्छी तरह दर्शाता है, यह तय करना कठिन है, लेकिन community में Aider Polyglot की प्रतिष्ठा अच्छी है