बेहतर Gemini 2.5 Flash और Flash-Lite पेश

(developers.googleblog.com)

1 पॉइंट द्वारा GN⁺ 2025-09-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google ने Gemini 2.5 Flash और 2.5 Flash-Lite के नए preview वर्ज़न पेश किए हैं, जिनका मुख्य फोकस quality improvement और efficiency enhancement है
Flash-Lite को निर्देश समझने की क्षमता में बढ़ोतरी, अनावश्यक रूप से लंबे जवाबों में कमी, multimodal और translation क्षमताओं में सुधार के साथ high-speed और low-cost वातावरण के लिए अनुकूलित किया गया है
Flash में tool उपयोग क्षमता को मजबूत किया गया है और token efficiency सुधारी गई है, जिससे जटिल agent-आधारित कामों में प्रदर्शन काफी बढ़ा है
वास्तविक परीक्षणों में SWE-Bench Verified स्कोर 5% बढ़ा, और आंतरिक benchmark में दीर्घकालिक कार्य प्रदर्शन 15% बेहतर हुआ
दोनों मॉडल -latest alias को सपोर्ट करते हैं, जिससे बिना code बदले नवीनतम फीचर्स का उपयोग किया जा सकता है; जबकि स्थिरता चाहने वाले उपयोगकर्ता मौजूदा 2.5 मॉडलों का उपयोग जारी रख सकते हैं

Gemini 2.5 Flash और Flash-Lite का अवलोकन

Gemini 2.5 Flash और Flash-Lite के नवीनतम वर्ज़न Google AI Studio और Vertex AI में जारी किए गए हैं। इस रिलीज़ का उद्देश्य लगातार बेहतर model quality और उच्च efficiency प्रदान करना है
नया Flash-Lite और Flash, कुल मिलाकर quality, speed और cost के मामले में पुराने मॉडलों की तुलना में काफी बेहतर प्रदर्शन दिखाते हैं
Flash-Lite में output tokens 50% कम हुए हैं, और Flash में 24% की कमी आई है, जिससे operating cost घटती है और processing speed बढ़ती है

Updated Gemini 2.5 Flash-Lite

कमांड फॉलो करने की क्षमता बेहतर: जटिल निर्देशों या system prompt को समझने और उन पर अमल करने की क्षमता में बड़ा सुधार हुआ है
अधिक संक्षिप्तता: छोटे और आसानी से समझ आने वाले जवाब उत्पन्न होते हैं, जिससे token cost घटती है और बड़े पैमाने के traffic वातावरण में latency कम होती है
multimodal और translation quality में सुधार: audio transcription, image recognition और translation quality — तीनों में विश्वसनीयता बढ़ी है
Flash-Lite preview वर्ज़न को gemini-2.5-flash-lite-preview-09-2025 मॉडल नाम से तुरंत आज़माया जा सकता है

Updated Gemini 2.5 Flash

tool उपयोग क्षमता मजबूत: जटिल multi-step परिस्थितियों में agent-आधारित उपयोगिता काफी बढ़ी है, जिससे SWE-Bench Verified पर पिछले वर्ज़न की तुलना में 5%p बेहतर प्रदर्शन (48.9% → 54%) हासिल हुआ
cost efficiency में सुधार: कम tokens के उपयोग से बेहतर output quality मिलती है, और latency व infrastructure cost दोनों घटते हैं
Primer उपयोगकर्ताओं का feedback भी सकारात्मक है
- Manus के सह-संस्थापक और Chief Scientist Yichao ‘Peak’ Ji ने कहा, “नया Gemini 2.5 Flash मॉडल अद्भुत speed और intelligence दोनों प्रदान करता है। long-horizon goal-based agent कार्यों में प्रदर्शन 15% बेहतर हुआ है, जिससे cost efficiency के आधार पर scale और बढ़ा है।”
Gemini 2.5 Flash preview वर्ज़न gemini-2.5-flash-preview-09-2025 मॉडल नाम से उपलब्ध है

Gemini के साथ build शुरू करें

पिछले एक वर्ष में preview मॉडल जारी करके डेवलपर्स को नवीनतम फीचर्स जल्दी आज़माने और feedback देने में सक्षम बनाया गया है
आज जारी किए गए preview वर्ज़न नए stable वर्ज़न में आधिकारिक रूप से परिवर्तित नहीं हो रहे हैं, बल्कि अगले आधिकारिक वर्ज़न की quality सुधारने के आधार के रूप में उपयोग किए जाएंगे

लंबे मॉडल नामों की जगह -latest alias जोड़ा गया है, जिससे हमेशा नवीनतम मॉडल को आसानी से इस्तेमाल किया जा सके। यह alias अपने-आप नवीनतम वर्ज़न से जुड़ता है, इसलिए code बदले बिना नए फीचर्स आज़माए जा सकते हैं
- gemini-flash-latest
- gemini-flash-lite-latest
यदि किसी विशेष वर्ज़न को update या discontinue किया जाना हो, तो कम से कम 2 हफ्ते पहले ईमेल से सूचना दी जाएगी। alias सिर्फ एक reference है; pricing, features और limits हर रिलीज़ के अनुसार बदल सकते हैं
यदि दीर्घकालिक स्थिरता चाहिए, तो मौजूदा gemini-2.5-flash और gemini-2.5-flash-lite मॉडल नामों का उपयोग करने की सिफारिश की जाती है

महत्व

यह रिलीज़ औपचारिक stable वर्ज़न में promotion नहीं, बल्कि एक preview update है, और भविष्य के stable मॉडल के लिए प्रयोग व उपयोगकर्ता feedback एकत्र करने की प्रक्रिया का हिस्सा है
Google, Gemini के माध्यम से speed, intelligence और cost efficiency के संतुलन का लक्ष्य रखता है, और डेवलपर्स को बेहतर AI applications बनाने में मदद देने के लिए लगातार सुधार कर रहा है

1 टिप्पणियां

GN⁺ 2025-09-27

Hacker News टिप्पणियाँ

हाल में Gemini का इस्तेमाल करते हुए जो समस्याएँ महसूस हुईं, यह टिप्पणी उन्हें ठीक से पकड़ती है। मॉडल खुद बहुत शानदार है, लेकिन असल उपयोग में बातचीत बीच में कट जाने की समस्या बार-बार होती है। यह token limit या filter की वजह से नहीं, बल्कि संभवतः इस bug की वजह से है कि मॉडल गलती से response complete signal भेज देता है। यह मुद्दा पहले से कई महीनों से GitHub और developer forum पर P2 issue के रूप में उठा हुआ है। Gemini के पूरे जवाबों की तुलना Claude या GPT-4 से करें तो quality काफ़ी खराब नहीं है। लेकिन reliability ज़्यादा अहम है। भले परफेक्ट न हो, पर जो मॉडल हमेशा अंत तक जवाब दे, वही इस्तेमाल में आसान लगता है। Google के पास तकनीकी क्षमता है, लेकिन जब तक वह बातचीत के flow की ऐसी बुनियादी समस्याएँ ठीक नहीं करता, benchmarks चाहे जितने अच्छे हों, प्रतियोगियों की तुलना में यह टूटा हुआ-सा महसूस होगा। संबंधित references के लिए issue #707 और developer forum discussion देखें
- Gemini की एक और कमी की बात की गई है। यह tool calling और JSON output requirement को एक साथ संभाल नहीं पाता। request में application/json specify करने पर tools इस्तेमाल नहीं किए जा सकते, और दोनों चाहिए हों तो या तो ज़बरदस्ती उम्मीद करनी पड़ती है कि JSON सही निकलेगा (जो अक्सर fail होता है), या फिर पहले request में tool use करके दूसरे request में formatting करनी पड़ती है। झंझट है, लेकिन workaround काफ़ी सीधा है
- यह सिर्फ Gemini की समस्या नहीं है, ChatGPT के साथ भी reliability के मामले में बहुत समस्या झेलने का अनुभव रहा है
- ऐसी छोटी-छोटी समस्याएँ, या AI Studio में scrolling तक ठीक से न होना, समझ से बाहर है। इतना शानदार tool होने के बावजूद इसमें बुनियादी सुविधाओं की कमी क्यों है, यह सवाल है
- मुझे भी ऐसा ही लगता है। Gemini 2.5 Pro software architecture के लिए वाकई बहुत उपयुक्त है। लेकिन इसे लगातार prompt देते रहना थका देता है। Sonnet भी काफ़ी अच्छा काम कर लेता है
- chatgpt में भी reliability की बहुत समस्याएँ हैं
llm-gemini plugin में इस मॉडल का support जोड़ दिया गया है। इसे uvx के साथ बिना अलग installation के चलाया जा सकता है। उदाहरण:

export LLM_GEMINI_KEY='...'
uvx --isolated --with llm-gemini llm -m gemini-flash-lite-latest 'An epic poem about frogs at war with ducks'

release notes के लिए यहाँ देखें। pelican से जुड़ी चर्चा के लिए यह पोस्ट देखें

सोच रहा हूँ कि साइकिल चलाते pelican की SVG example image training dataset में जा रही है या नहीं। इस क्षेत्र के engineers में भी Hacker News पर अक्सर आने वाले लोग बहुत हैं
आख़िर में कौन जीतेगा, यह जानने की उत्सुकता है। मेंढक? बतख? या pelican?
अगर 2.5 एक improved model है, तो इसका version 2.6 क्यों नहीं है, यह सवाल है। पुराने 2.5 और नए 2.5 में फ़र्क करना पड़ता है, इसलिए भ्रम होता है। यह वैसा ही झंझट लगता है जैसे Apple ने कभी numbering के बिना "the new iPad" नाम से product निकाला था
- इसी वजह से Sonnet v3.5 के दूसरे version को लोग अक्सर v3.6 कहते थे, और Anthropic ने उसके बाद वाले को v3.7 नाम दिया
- models को आम तौर पर release month/year के आधार पर बुलाया जाता है। उदाहरण के लिए, सबसे नया Gemini 2.5 Flash "google/gemini-2.5-flash-preview-09-2025" कहलाता है। संदर्भ
- 2.5 version name नहीं, architecture generation का संकेत है। Mazda 3 का उदाहरण लें, तो यह ‘Mazda 4’ नहीं बल्कि उसी मौजूदा model में नया trim level (या हल्का refresh) जुड़ने जैसा है। SemVer जैसी व्यवस्था ज़्यादा बेहतर होती, इस बात से सहमत हूँ
- शायद यह सिर्फ bug fix स्तर का बदलाव दिखाने के लिए हो, ऐसा अंदाज़ा है
- उल्टा इससे 2.6 Flash और 2.5 Pro में कौन बेहतर है, यह और भी confusing हो जाता है
Google ऐसा लगता है कि प्रमुख foundation model providers में latency, TPS और cost पर वाकई बहुत ध्यान दे रहा है। Anthropic और OpenAI model intelligence में आगे हैं, लेकिन एक performance threshold के नीचे slow responses collaboration tools में असुविधा पैदा करते हैं। थोड़ा कम smart होने पर भी Gemini जैसा तेज़ model workflow में ज़्यादा pleasant लगता है। हालांकि कभी-कभी Claude या gpt-5 की तुलना में यह पूरी तरह blunt भी महसूस होता है
- निजी तौर पर मुझे शक है कि यह इतना binary picture वास्तव में सही है या नहीं। Gemini intelligence में इतना पीछे लगता नहीं, और आगे के model cycles में यह gap और कम होगा। साथ ही Google सिर्फ latency/TPS/cost पर नहीं, बल्कि अपने models को simple chatbot से आगे कई products में तेज़ी से integrate करने पर भी ध्यान देता दिखता है। जैसे Google Workspace, Google Search के अलावा jules या labs.google/flow, financial dashboard जैसे नए क्षेत्रों में भी काफ़ी सक्रिय प्रयोग हो रहे हैं। Youtube में Gemini आने में भी शायद ज़्यादा समय नहीं लगेगा
- हाल में Gemini(2.5-pro) का इस्तेमाल कम कर रहा हूँ। पहले इसकी deep research क्षमता और reliable citation features देखकर प्रभावित था। लेकिन पिछले कुछ हफ़्तों में बहस करने की आदत बढ़ गई है और source-related hallucinations को पहचान नहीं पाता। उदाहरण के लिए Github Actions में secrets map access के बारे में पूछा तो सही जवाब देने के बजाय ग़लत workflow tests देने लगा, और कितना भी विरोध करो, बस कुतर्क करता रहा। दूसरी ओर Chatgpt ने बिना समस्या सही जवाब दिया। संबंधित संदर्भ: पहला, दूसरा
- मेरे हिसाब से Latency/TPS/cost की competition मुख्य रूप से grok और gemini flash के बीच है। image→text काम में इन दोनों की बराबरी करने वाला कोई model नहीं है। OpenAI या Anthropic का इस हिस्से में ज़्यादा interest नहीं दिखता
- 10 साल पहले वाली कहावत थी, “शादी से पहले सामने वाले को slow internet पर बैठाकर देखो,” अब हम “शादी से पहले सामने वाले को slow AI model के सामने बैठाकर देखो” वाले दौर में आ गए हैं ;-)
- इससे सहमत होना मुश्किल है। Gemini सिर्फ price/performance ratio में अच्छा नहीं, बल्कि आम users के लिए सबसे बढ़िया “everyday” model है। खासकर coding जैसे “agentic” कामों में यह Claude या GPT-5 से काफ़ी पीछे है, लेकिन लंबी बातचीत और पुराने context को अच्छी तरह याद रखने में Gemini सबसे अच्छा है। debugging करते समय कई models को parallel चलाकर देखें, तो अक्सर सिर्फ Gemini ही पुरानी messages के महत्वपूर्ण points पकड़ता है और code samples भी सटीक देता है। low-resource languages support, OCR और image recognition में भी यह दबदबे वाला है। हाँ, Google अभी marketing और AI UX में सबसे कमज़ोर है, लेकिन सुधार हुआ तो और बढ़ सकता है। मैं खुद भी लगभग रोज़ तीनों models साथ-साथ इस्तेमाल करता हूँ
Non-AI summary: दोनों models AI analysis metrics में ज़्यादा smart हुए हैं, और end-to-end response time भी कम हुआ है। output token efficiency में 24%~50% सुधार हुआ है (जो cost savings में मदद करता है)। Gemini 2.5 Flash-Lite के मुख्य सुधार हैं बेहतर instruction understanding, अनावश्यक verbosity में कमी, और multimodal/translation क्षमता में बढ़ोतरी। Gemini 2.5 Flash की ख़ासियत है ज़्यादा मज़बूत agent tool use और token-efficient reasoning। model strings हैं gemini-2.5-flash-lite-preview-09-2025 और gemini-2.5-flash-preview-09-2025
- लगता है “Non-AI summary” जैसा फ़ॉर्मैट आगे trend बन सकता है। सिर्फ यह जानकर कि इसे किसी इंसान ने सीधे संक्षेप में लिखा है, पढ़ने में मज़ा बढ़ जाता है
- “Non-AI Summary” शब्द मैं अपनाकर इस्तेमाल करूँगा
- “output token efficiency” का मतलब क्या है, यह जानना चाहता हूँ। Gemini Flash में billing input/output tokens के हिसाब से होती है, तो अगर output बराबर है तो cost भी बराबर होनी चाहिए। यानी tokenizer या internal method बदले बिना cost saving कैसे हो रही है, यह समझना मुश्किल है
- 2.5 Flash ने AI को पहली बार मेरे लिए सच में उपयोगी बनाया। मैं पहले #1 AI hater था, लेकिन अब Google search की जगह पहले Gemini app खोलता हूँ। यह ज़्यादा accurate है, ads भी नहीं हैं। जो जानकारी यह देता है, उसका ज़्यादातर हिस्सा सही होता है, और ऐसा लगता है जैसे इंटरनेट का सटीक ज्ञान हाथ में आ गया हो। मैं अकेले Gemini app में kale की बुवाई के तापमान जैसी बातों पर लंबी बातचीत में डूब सकता हूँ। तरह-तरह के blogs, bots और SEO spam की तुलना में यह कहीं ज़्यादा focused है। हालांकि Google इसे कितने समय तक ऐसे बनाए रखेगा, और revenue cannibalization का सवाल अभी बाकी है
- हर तरफ़ से देखें तो यह पिछले version की तुलना में gradual improvement जैसा लगता है
version numbering को लेकर छोटी-सी शिकायत है, लेकिन हर improvement पर नंबर बढ़ाना ज़्यादा intuitive होता। अभी जिस तरह release होता है, उससे confusion पैदा होता है
- मेरी भी यही शिकायत है। Anthropic ने भी ऐसा ही किया था और “nerf” को लेकर काफ़ी विवाद हुआ था। हम tokens को packages की तरह खरीदते हैं, उनकी validity भी कम होती है, और असल model update कितना हुआ, यह भी साफ़ नहीं होता। मेरे हिसाब से 1% का सुधार या गिरावट भी हो तो public disclosure होना चाहिए। बुनियादी तौर पर AI कंपनियों को transparency और accessibility बनाए रखनी चाहिए। संबंधित मामला: Claude incident
- यह छोटी शिकायत नहीं, गंभीर समस्या है। ऐसी policy में version numbering खुद ही बेकार हो जाती है
- शायद यह पुराने 2.5 Flash model को replace करने जैसा है। openai ने भी 4-o model वगैरह को चुपचाप update किया था, और glazing issue की वजह से rollback का मामला भी याद आता है
models के लिए meaningful version management यानी semver जैसी नई व्यवस्था बनानी चाहिए। छोटे optimizations और पूरी retrain/architecture changes के बीच साफ़ फ़र्क किया जा सके, ऐसा होना चाहिए
Gemini 2.5 Flash हाल में मेरा सबसे ज़्यादा इस्तेमाल किया जाने वाला LLM है। खासकर image input और structured output में यह OpenAI/Anthropic से बेहतर लगा
- Gemini 2.5 Flash मेरे काम के क्षेत्र में ChatGPT 5 को दबा देता है। इसका इतना कम लोकप्रिय होना हैरान करने वाला है
- कीमत बदली है या नहीं, यह मैंने चेक नहीं किया
क्या सिर्फ मैं ही कोई अलग Gemini इस्तेमाल कर रहा हूँ? कंपनी में Google Workspace इस्तेमाल होने की वजह से Gemini default रूप में मिलता है। लेकिन दूसरे models की तुलना में इसका output डरावना स्तर तक खराब है। सब इसकी तारीफ़ करते हैं, लेकिन मेरे अनुभव में Gemini के जवाब या तो ग़लत होते हैं या बहुत लंबे (summary माँगी थी, essay मिल गया), और बिल्कुल संतोषजनक नहीं लगते। वही सवाल Gemini और ChatGPT के काफ़ी कमजोर version से पूछूँ तो ChatGPT बहुत बेहतर निकलता है। क्या मैं कुछ miss कर रहा हूँ?
- मैंने इसे सिर्फ ai studio में इस्तेमाल किया है, और वहाँ यह दूसरे models से काफ़ी बेहतर है। IDE integration वगैरह का अनुभव नहीं है। हाँ, ज़रूरत पड़ती है कि इसे ज़्यादा तारीफ़ न करने को कहा जाए, और वह context window को manage करने में भी मदद करता है
- मेरा भी कुछ ऐसा ही अनुभव है। translation के अलावा शायद ही कभी इस्तेमाल किया, और translation में भी यह कभी-कभी मना कर देता है या अजीब व्यवहार करता है। हाल की घटना में basic सवाल पर सिर्फ एक comma दे दिया, या बेवजह ethics issue (जैसे “hood पहने backpack”) बताकर मना कर दिया। ज़रूरत से ज़्यादा refusal ही सबसे बड़ी समस्या है
- यह use case पर निर्भर करता है। simple Q&A में GPT-5 बेहतर है, लेकिन text को report में बदलने, summarize करने या highlight करने जैसे writing tasks में Gemini सबसे अच्छा है
- निजी तौर पर ChatGPT की बड़ी ताकत यह लगती है कि बिना अतिरिक्त clarification माँगे वह सवाल को अच्छी तरह समझ लेता है और पढ़ने में आसान format में जवाब देता है। GPT का post-training एक स्तर ऊपर लगता है
- हो सकता है आप इसे सही तरीके से इस्तेमाल नहीं कर रहे हों
Gemini 2.5 Flash price-to-performance के हिसाब से प्रभावशाली model है। फिर भी समझ नहीं आता कि Gemini 2.0 Flash अभी भी इतना popular क्यों है। OpenRouter के हालिया model numbers:
- xAI: Grok Code Fast 1: 1.15T
- Anthropic: Claude Sonnet 4: 586B
- Google: Gemini 2.5 Flash: 325B
- Sonoma Sky Alpha: 227B
- Google: Gemini 2.0 Flash: 187B
- DeepSeek: DeepSeek V3.1 (muft): 180B
- xAI: Grok 4 Fast (muft): 158B
- OpenAI: GPT-4.1 Mini: 157B
- DeepSeek: DeepSeek V3 0324: 142B
- OpenRouter की एक कमी यह है कि वह हर model के हिसाब से असली उपयोग करने वाली कंपनियों की संख्या public नहीं करता। अगर एक बड़ा customer switch कर जाए तो metrics ही बदल सकते हैं। इस हिस्से में ज़्यादा transparency अच्छी होगी
- हमारी कंपनी में भी बहुत से काम अभी तक पुराने models पर ही अटके हैं, update नहीं हुए
- वजह price है। 2.0 Flash, 2.5 Flash से सस्ता है और फिर भी काफ़ी शानदार model है
- 2.0 Flash, 2.5 Flash से साफ़ तौर पर सस्ता है, और हालिया update से पहले तो 2.5-Flash-Lite से भी बेहतर था। text parsing, summarization, image recognition जैसे कामों के लिए यह अच्छा workhorse है। लेकिन अब 2.5-Flash-Lite आने से शायद इसे replace कर दिया जाएगा
- शायद latest versions के हिसाब से नाम बदलना झंझट लगता है, इसलिए 2.5 Flash में भी naming scheme वैसी ही रखी जा रही है।

बेहतर Gemini 2.5 Flash और Flash-Lite पेश

Gemini 2.5 Flash और Flash-Lite का अवलोकन

Updated Gemini 2.5 Flash-Lite

Updated Gemini 2.5 Flash

Gemini के साथ build शुरू करें

महत्व

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ