- Gemini 2.5 Flash Google AI Studio और Vertex AI के ज़रिए उपलब्ध एक hybrid reasoning model है, जो speed और cost को बनाए रखते हुए reasoning क्षमता को काफी बेहतर बनाता है
- सोचने (on/off) फीचर और thinking_budget setting के ज़रिए performance, cost, latency को बारीकी से नियंत्रित किया जा सकता है
- thinking budget सेट करके model द्वारा generate किए जा सकने वाले maximum token count को विस्तार से नियंत्रित किया जा सकता है, जिससे जटिल tasks के लिए अधिक सटीक और व्यापक जवाब मिलते हैं
- कम लागत में उच्च प्रदर्शन देने वाला Google का सबसे cost-efficient reasoning model है, और अलग-अलग use cases के अनुसार इसे लचीले ढंग से समायोजित किया जा सकता है
- फिलहाल Google AI Studio और Vertex AI में preview रूप में उपलब्ध है, और API में भी configure किया जा सकता है
Gemini 2.5 Flash preview लॉन्च
- Google ने Gemini 2.5 Flash को Google AI Studio और Vertex AI के माध्यम से preview रूप में जारी किया है
- मौजूदा 2.0 Flash की तुलना में reasoning क्षमता में बड़ा सुधार हुआ है, जबकि speed और cost efficiency बरकरार है
- यह पहला पूरी तरह hybrid reasoning model है, जिसमें developer thinking mode को on या off कर सकते हैं
- thinking_budget setting के ज़रिए quality, cost, response latency के बीच संतुलन नियंत्रित किया जा सकता है
- thinking mode बंद होने पर भी यह 2.0 Flash से बेहतर प्रदर्शन बनाए रखता है
Gemini 2.5 Flash की reasoning क्षमता
- Gemini 2.5 Flash जवाब तुरंत generate नहीं करता, बल्कि पहले सोचने की प्रक्रिया से गुजरता है
- जटिल समस्याओं, गणित के सवालों और research analysis queries के लिए ज़्यादा सटीक और व्यापक जवाब देता है
- LMArena के Hard Prompts benchmark में इसका प्रदर्शन 2.5 Pro के बाद सबसे ऊँचा रहा
- दूसरे models की तुलना में कम कीमत और छोटे model size के साथ समान प्रदर्शन देता है
सबसे cost-efficient reasoning model
- Gemini 2.5 Flash को price-to-performance के लिहाज़ से सबसे बेहतर reasoning model माना गया है
- यह Google के quality-to-cost efficiency curve (Pareto frontier) में नया जोड़ा गया है
thinking control फीचर: thinking_budget
- अलग-अलग उपयोग मामलों के अनुसार quality, cost और latency के बीच सूक्ष्म नियंत्रण की सुविधा देता है
- thinking_budget का मतलब है model सोचने के लिए जितने maximum tokens इस्तेमाल कर सकता है
- उदाहरण: budget बढ़ाने पर quality बेहतर होती है, लेकिन cost और latency भी बढ़ती है
- जिन सरल सवालों में सोचने की ज़रूरत नहीं होती, उनमें कम budget अपने-आप लागू हो जाता है
- budget range 0 ~ 24,576 tokens है, और AI Studio तथा Vertex AI में slider या API parameter के ज़रिए इसे नियंत्रित किया जा सकता है
सोच के स्तर के अनुसार उदाहरण prompts
कम स्तर की reasoning की ज़रूरत
- “Thank you” in Spanish
- कनाडा में कितने Province हैं
मध्यम स्तर की reasoning की ज़रूरत
- दो dice फेंकने पर 7 आने की probability निकालना
- schedule के आधार पर सप्ताह के दिनों में 5 घंटे basketball के लिए समय-सारिणी बनाना
उच्च स्तर की reasoning की ज़रूरत
- beam के mechanical engineering stress calculation की समस्या
- Excel-style formula evaluation function लिखने की समस्या
- dependency resolution, operator precedence, circular detection की ज़रूरत
शुरुआत करें
- Google AI Studio, Vertex AI और Gemini app में preview version उपलब्ध है
thinking_budget parameter के साथ प्रयोग करके जटिल समस्याएँ हल करने की संभावनाएँ देखी जा सकती हैं
- code उदाहरण:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
- अधिक जानकारी developer documentation और Gemini Cookbook में उपलब्ध है
- आगे और फीचर्स जोड़े जाएंगे, और आधिकारिक रिलीज़ से पहले लगातार सुधार जारी रहेगा
1 टिप्पणियां
Hacker News की राय
Google का Gemini 2.5 Pro (experimental) मुफ्त में उपलब्ध कराना एक बड़ी बात थी। मैंने OpenAI के ज़्यादा महंगे models कभी इस्तेमाल नहीं किए, इसलिए तुलना नहीं कर सकता, लेकिन पहले इस्तेमाल किए गए मुफ्त models की तुलना में Gemini 2.5 Pro ने काफ़ी प्रगति दिखाई है। यह model जिन ज़्यादातर विषयों पर मैं काम करता हूँ, उनमें मुझसे ज़्यादा स्मार्ट है, और मुझसे सहमत होने की कोशिश करने के बजाय मुझसे बहस करता है। अब मेरा सारा casual AI usage Gemini पर केंद्रित है, और गहरे विषयों पर सवाल पूछने का इंतज़ार रहता है। मैं इस model की value बढ़ाने के लिए नए tools बना रहा हूँ
Gemini models की अक्सर नज़रअंदाज़ की जाने वाली खूबियों में से एक यह है कि API के ज़रिए सीधे Python code लिख और चला सकते हैं। मेरा llm-gemini plugin इसे support करता है: GitHub link. code चलाने के लिए कोई अतिरिक्त cost नहीं लगती; सिर्फ input और output tokens के लिए भुगतान करना होता है। उदाहरण के लिए, 10 input और 1,531 output के उपयोग पर 0.536 सेंट की लागत आई
Gemini Flash model को सबसे कम ध्यान मिलता है, लेकिन वास्तविक उपयोग में यह cost के मुकाबले सबसे बेहतर performance देता है और multimodal tools भी उपलब्ध कराता है। Google चुपचाप AI race जीत रहा है
Gemini 2.5 Flash के docs को गहराई से देखने पर एक छिपी हुई जानकारी मिली: image input के लिए model सिर्फ संबंधित विषय के 2D bounding boxes ही नहीं बना सकता, बल्कि segmentation masks भी बना सकता है। इस price range में Flash model से segmentation masks बनवाना काफ़ी शानदार है। segmentation masks को mask दर्शाने वाली b64 string बनाकर implement किया गया है
मेरे जैसे non-programmer के लिए Google हैरान करने वाला अच्छा होता जा रहा है। यह शुरू से काम करने वाला code देता है। जब मैंने किसी website का data scrape करके उसका analysis करने वाला code लिखने को कहा, तो उसने data scrape और analyze करने वाला code लिख दिया। यह basic data classification और aggregation था, लेकिन मैंने इसकी उम्मीद नहीं की थी
Google की और भी innovation। OpenAI के सामने दो बड़े मुद्दे हैं। पहला, Google की vertically integrated chip pipeline और AI chips बनाने के लिए ज़रूरी गहरी supply chain तथा operational knowledge। इससे हर चरण में बहुत बड़ा cost advantage मिलता है। दूसरा, data की कमी और लगातार अपडेट होने वाले knowledge source के रूप में social media का अनुचित advantage। नया data धीरे-धीरे एक बहुत मूल्यवान differentiator बनता जा रहा है। SamA इन समस्याओं को समझते हैं और इन्हें OpenAI की सफलता तय करने वाले बुनियादी मुद्दों के रूप में देखते हैं
Gemini 2.0 Flash की तुलना में 50% price increase। यह सुनने में काफ़ी लगता है, लेकिन Flash अब भी इस quality के दूसरे models की तुलना में बहुत सस्ता है
Python API library code में एक दिलचस्प चीज़ मिली: GitHub link.
thinking_budgetdocumented है, लेकिनinclude_thoughtsक्या है, यह समझना मुश्किल है। मैं यह नहीं ढूँढ़ पाया कि इस option का उपयोग करके Gemini से thought summary कैसे लौटवाई जाएGoogle API और मुफ्त AI Studio के ज़रिए प्रभावशाली models दे रहा है, लेकिन Gemini app में इस्तेमाल होने वाला model काफ़ी खराब लगता है। पिछले कुछ हफ़्तों से मैं Workspace account पर Gemini Advanced इस्तेमाल कर रहा हूँ, और model कम समय तक सोचता है, छोटे outputs देता है, और context window भी प्रचारित 10 लाख tokens से काफ़ी कम लगती है। लगता है Google जानबूझकर Gemini app को सीमित कर रहा है
जब एक internal PDF (3 pages, medium difficulty) को json benchmark पर चलाया गया:
gemini-flash-2.0: लगभग 60% accuracy, 6,250 pages प्रति 1 डॉलरgemini-2.5-flash-preview(बिना सोच): लगभग 80% accuracy, 1,700 pages प्रति 1 डॉलरgemini-2.5-flash-preview(सोच के साथ): लगभग 80% accuracy, 350 pages प्रति 1 डॉलरgemini-flash-2.5: लगभग 90% accuracy, 150 pages प्रति 1 डॉलर