- Gemini 2.5 Flash और Pro मॉडल अब आधिकारिक रूप से उपलब्ध हैं, और साथ ही सबसे सस्ते और सबसे तेज़ Flash-Lite मॉडल का प्रीव्यू वर्ज़न भी पेश किया गया है
- Flash-Lite translation, classification जैसी latency-sensitive workloads के लिए खास तौर पर अनुकूलित है, और 2.0 Flash/Flash-Lite की तुलना में कम latency तथा बेहतर overall quality प्रदान करता है
- सभी 2.5 मॉडल multimodal input, 1M token context length, tool integration (search, code execution आदि), और Thinking mode को toggle करने जैसी सुविधाएँ सपोर्ट करते हैं
- cost-performance optimization (Pareto Frontier) को ध्यान में रखकर इन्हें डिज़ाइन किया गया है, जिससे यह product lineup बड़े पैमाने के traffic को संभालने के लिए उपयुक्त बनता है
- Flash-Lite और Flash को search के लिए भी customize करके उपयोग किया जा रहा है, और developers इन्हें Google AI Studio और Vertex AI में preview या stable मॉडल के रूप में इस्तेमाल कर सकते हैं
Flash-Lite की विशेषताएँ
- सबसे सस्ता और सबसे तेज़ मॉडल, जिसकी कीमत input के लिए प्रति 1 million tokens पर $0.10 और output के लिए प्रति 1 million tokens पर $0.40 है
- cost-performance ratio बहुत अच्छा होने के कारण यह translation, classification जैसी high-volume request workloads के लिए खास तौर पर उपयुक्त है
- पिछले 2.0 Flash-Lite की तुलना में overall quality बेहतर हुई है; science (GPQA) में 64.6% → 66.7%, और math (AIME 2025) में 49.8% → 63.1% तक सुधार हुआ है
- code generation और editing में इसका प्रदर्शन क्रमशः 34.3% और 27.1% है; high-performance मॉडल की तुलना में कम है, लेकिन cost-efficient विकल्प है
- multimodal processing का प्रदर्शन 72.9% पर बना रहता है, जबकि image understanding 51.3% से बढ़कर 57.5% हो गया है
- reasoning (Thinking) mode चालू करने पर overall accuracy बढ़ती है; उदाहरण के लिए HumanEval में 5.1% → 6.9%, और SWE-bench multi-task में 42.6% → 44.9% तक वृद्धि होती है
- factuality (SimpleQA) और long-context understanding (MRCR) जैसे benchmarks में भी Thinking mode के साथ प्रदर्शन उल्लेखनीय रूप से बेहतर होता है; खासकर 1M token आधार पर long-context accuracy 5.4% से बढ़कर 16.8% हो जाती है, यानी 3 गुना से अधिक
- multilingual ability (MMLU) भी बेहतर हुई है; Non-thinking में 81.1% और Thinking में 84.5% तक पहुँचती है
1 टिप्पणियां
Hacker News की राय
Google की पोस्ट में इसका ज़िक्र नहीं है, लेकिन लगता है कि Gemini 2.5 Flash मॉडल की कीमत बढ़ाई गई है
2.5 Flash Preview के archived pricing के अनुसार input text/image/video के लिए प्रति 10 लाख token $0.15, audio के लिए $1.00, output के लिए non-thinking $0.60 और thinking $3.50 का ढांचा था
नई pricing में thinking और non-thinking का अलगाव हटा दिया गया है
input text/image/video अब प्रति 10 लाख $0.30 है, यानी 2 गुना बढ़ोतरी, audio $1.00 पर वही है, और output प्रति 10 लाख $2.50 है, जो पहले के non-thinking से काफी महंगा है, लेकिन thinking से सस्ता हो गया है
pricing का विस्तृत विवरण यहाँ देखा जा सकता है
pricing बदलाव के बारे में blog post में और जानकारी दी गई है
विस्तृत संदर्भ लिंक
यह भी कहा गया कि AI तकनीक जल्द बहुत सस्ती हो जाएगी, लेकिन फिलहाल कीमतें बढ़ती दिख रही हैं
जब Gemini पहली बार आया था, तब इसकी कीमत इतनी कम थी कि लगा यह competitors की तुलना में बहुत सस्ता है, और अब जाकर शायद वास्तविक pricing दिख रही है
चुपचाप 2 गुना बढ़ी हुई कीमत
Gemini 2.0 Flash के $0.10/$0.40 को याद करें तो बढ़ोतरी साफ महसूस होती है
इसे बहुत तीक्ष्णता से पकड़ा गया बदलाव बताया गया
लगता है यह pricing बदलाव Gemini के लिए काफी महत्वपूर्ण है, जो audio-to-audio क्षेत्र में GOAT बन सकता था
एक समय Gemini Pro AI Studio में मुफ्त मिलता था, इसलिए लोग इसे काफी इस्तेमाल करते थे
उसके बाद इसकी performance उल्टा खराब हुई, और अब महत्वपूर्ण कामों के लिए फिर Claude पर लौट गए हैं
Gemini का एहसास एक ऐसे दोस्त जैसा है जो बहुत सारी गैरज़रूरी बातें करता है
फिर भी brainstorming के लिए इसे अक्सर इस्तेमाल करते हैं, और Gemini से बने prompt को refine करके Claude में उपयोग करते हैं
Aider leaderboard देखें तो मेरे अनुभव के विपरीत Gemini हमेशा आगे नहीं रहता
मैं सिर्फ Aider API सीधे इस्तेमाल करता हूँ, इसलिए AI Studio का अनुभव नहीं है
Claude कमजोर prompt पर भी ठीक perform करता है, खासकर जब दिशा अस्पष्ट हो
लेकिन जब मुझे साफ पता होता है कि क्या चाहिए, तब Gemini 2.5 Pro (Thinking enabled) बेहतर लगता है, और code ज़्यादा स्थिर चलता है
o4-mini और o3 में थोड़ा ज़्यादा 'smart' सोचने का एहसास है, लेकिन code अस्थिर रहता है (Gemini ज़्यादा स्थिर है)
complexity बढ़ने पर Claude कुछ कमजोर पड़ता दिखता है, और मेरे हिसाब से Gemini और o3 ज़्यादा ऊँचे दर्जे के हैं
o3-mini आने के बाद से फिर Claude पर लौटने की ज़रूरत नहीं पड़ी
मेरा भी लगभग यही अनुभव रहा
शुरुआत में लगा कि यह जटिल समस्याएँ भी अच्छे से हल कर लेता है, लेकिन साधारण कामों में इसे नियंत्रित करना मुश्किल है
जवाब बहुत verbose होते हैं, और UX सबसे महत्वपूर्ण होने की वजह से अभी Claude Code का UX ज़्यादा पसंद है
मेरा भी यही हाल है; concise जवाब दिलाने के लिए elaborate prompt बनाकर Gem तैयार किया, फिर भी यह बहुत verbose रहता है और सवाल की सीमा को बेवजह बढ़ा देता है, जो परेशान करता है
मेरे पास अंदरूनी जानकारी नहीं है, लेकिन मॉडल के quantized होने जैसा एहसास होता है
एक अक्षर को अनंत बार दोहराने जैसी घटनाएँ दिखती हैं, जो मैंने आमतौर पर quantized models में ही देखी हैं
काश पुराना preview version वापस लाया जाए
preview version संतुलित था और वास्तव में उपयोगी counterpoints भी देता था, लेकिन GA version बहुत ज़्यादा सकारात्मक लहजे में बदल गया है
मैं Gemini से इतना प्रभावित हुआ कि OpenAI का इस्तेमाल ही बंद कर दिया
कभी-कभी OpenRouter पर तीनों models टेस्ट करता हूँ, लेकिन अब 90% से ज़्यादा समय सिर्फ Gemini ही उपयोग करता हूँ
पिछले साल 90% ChatGPT था, उससे तुलना करें तो यह बड़ा बदलाव है
मैं आमतौर पर Google के प्रति आलोचनात्मक हूँ, लेकिन इस बार सच में models बहुत शानदार लगे
खासकर इसका context window बेहद बड़ा होना बहुत महत्वपूर्ण है
मेरा भी यही हाल है, मैंने इस बार Claude की subscription रद्द कर दी और लगता है Gemini बहुत तेज़ी से बराबरी पर आ रहा है
इस घोषणा के बाद लगता है Flash Lite अब "बेकार" से उठकर "काम का tool" बन गया है
Flash Lite सस्ता है, और सबसे बड़ी बात यह है कि यह लगभग हमेशा 1 सेकंड के भीतर (न्यूनतम 200ms, औसत 400ms) जवाब देता है — इसकी असली ताकत इसकी speed है
हमारी service Brokk(brokk.ai) में भी Quick Edits के लिए अभी Flash 2.0 (Non-Lite) इस्तेमाल हो रहा है, और अब 2.5 Lite अपनाने पर विचार कर रहे हैं
Thinking के कारण धीमे Flash 2.5 से नीचे वाले मॉडल की उपयोगिता को लेकर जिज्ञासा है
तेज़ response महत्वपूर्ण है, लेकिन thinking on करने पर speed घट जाती है, इसलिए मामला थोड़ा अस्पष्ट है
coding के बाहर लोग Gemini का उपयोग कैसे करते हैं, और क्यों चुनते हैं, यह जानने की जिज्ञासा है
ऐप बनाते समय क्या लोग GenAI backend को swappable बनाकर डिज़ाइन करते हैं, या कीमत/विश्वसनीयता की वजह से कई providers में load balancing करते हैं, और अगर LLM के लिए भी कभी spot market बन गया तो क्या बदलेगा — यह भी जानना है
मेरे अनुभव में Gemini 2.5 Pro translation और summarization (Canva के उपयोग सहित) जैसे non-coding कामों में बहुत अच्छा है
यह उसके विशाल context window और usage limits की वजह से संभव है
खासकर research reports बनाने में Gemini, ChatGPT से बेहतर लगता है
शायद Google की search ताकत की वजह से इसकी reports कई sources पर आधारित और ज़्यादा सटीक लगती हैं
इसकी writing style भी ज़्यादा पसंद है, और Google Docs में export कर पाना भी सुविधाजनक है
हालांकि UI competitors की तुलना में काफी कमजोर है, और Custom instruction, Projects, Temporary Chat जैसे मुख्य features का न होना या अधूरा होना बड़ा नुकसान है
ढेर सारे NDA documents एक साथ डालने पर भी यह कुछ ही सेकंड में सिर्फ संबंधित सामग्री निकाल देता है, जो बहुत उपयोगी है
विशाल context window और ठीक वही जानकारी निकालने की क्षमता इसे ऐसे कामों के लिए आदर्श बनाती है
Gemini Flash 2.0 बेहद सस्ता है और enterprise-grade workloads के लिए एक शक्तिशाली model है
यह cutting-edge intelligence वाला नहीं है, लेकिन कम कीमत, तेज़ speed और structured output की ऊँची reliability के कारण development में इससे बहुत संतुष्टि मिलती है
2.5 Lite पर upgrade test करने की योजना है
मैं lexikon.ai का काफी उपयोग करता हूँ, खासकर image bulk processing में Gemini का ज़्यादा इस्तेमाल करता हूँ
Google Vision API की pricing दूसरे बड़े providers (OpenAI, Anthropic) की तुलना में बहुत सस्ती है, इसलिए यह पसंद है
Gemini 2.5 Flash (non-thinking option) को thinking partner की तरह उपयोग करता हूँ
यह मेरे विचारों को व्यवस्थित करने में मदद करता है, और ऐसे inputs भी दे देता है जिनके बारे में मैंने सोचा नहीं था
self-reflection में भी उपयोगी है; मैं अपने विचार या चिंताएँ डालता हूँ और AI के जवाब से संदर्भ लेता हूँ
क्या अभी भी कुछ लोग 2.5-pro API access नहीं कर पा रहे हैं?
"projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro को नहीं पाया जा सकता या access की अनुमति नहीं है" जैसी error आ रही है
साथ में valid model version उपयोग करने की जाँच करने का संदेश भी दिखता है
बड़े पैमाने पर LLM inference/data processing services चलाते हुए, हम कई open-weight models की लागत और performance profiling बहुत करते हैं
LLM pricing में अब भी अजीब बात यह है कि providers token consumption के हिसाब से linear billing करते हैं, जबकि वास्तविक system cost sequence length बढ़ने के साथ quadratic रूप से बढ़ती है
आजकल model architecture, inference algorithms और hardware काफ़ी हद तक समान हो गए हैं, इसलिए लगता है providers pricing तय करते समय customer request patterns के historical stats का काफी सहारा लेते हैं
अंततः वास्तविक usage pattern data हाथ आने के बाद कीमतें बढ़ना कोई नई बात नहीं लगती
2.0 Flash Lite की तुलना में 2.5 Flash Lite की audio processing pricing 6.33 गुना बढ़ गई है
2.5 Flash Lite में audio input प्रति 10 लाख token $0.5 है, जबकि 2.0 में यह $0.075 था
इतनी तेज़ी से audio token pricing क्यों बढ़ी, यह जानने की उत्सुकता है
अगर input:output token ratio 3:1 मानें, तो blended price पहले की तुलना में 3.24 गुना बढ़ी है, और 2.0 Flash के आधार पर देखें तो लगभग 5 गुना
इसलिए 2.0 Flash अभी भी कई उपयोग मामलों में, खासकर non-coding क्षेत्रों में, प्रतिस्पर्धी रह सकता है
भले performance थोड़ी कम हो, लेकिन prompt को कई हिस्सों में बाँटकर इस्तेमाल करने से वास्तविक प्रभाव बेहतर हो सकता है
लगा था कि इस बार 2.5 Flash एक दबदबे वाली पसंद बनेगा, लेकिन थोड़ा निराशा हुई
(संबंधित pricing सामग्री यहाँ देखी जा सकती है)