Gemini 3.5 Flash

(deepmind.google)

2 पॉइंट द्वारा GN⁺ 2024-05-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google DeepMind का Gemini 3.5 Flash एक Preview मॉडल है, जो Flash परिवार की कम latency और scalability बनाए रखते हुए agent और coding कार्यों के लिए उन्नत reasoning देता है
लंबे workflows और iterative coding के साथ-साथ text, audio, image, code और video को साथ में संभालने वाली multimodal understanding इसकी मुख्य क्षमता है
सार्वजनिक उदाहरण तेज़ UI generation से लेकर पेपर-आधारित game बनाने और virtual city design तक शामिल करते हैं, और agentic tasks में इसके उपयोग की रेंज पर ज़ोर देते हैं
benchmarks में MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9%, MMMU-Pro 83.6% जैसे कई मदों में तालिका के सर्वोच्च स्कोर दर्ज किए गए
input में text, image, video, audio और PDF support है; output text है, और यह 1M input tokens, 64k output tokens, function calling, structured output, search tools और code execution देता है

Gemini 3.5 Flash की स्थिति

Gemini 3.5 Flash “Flash-स्तर की latency और scalability” पर उन्नत reasoning देने वाला मॉडल है
उपयोग क्षेत्र agent, coding, everyday tasks, advanced reasoning, multimodal understanding और long context understanding हैं
मॉडल की स्थिति Preview है

Flash latency पर लक्षित कार्य

तेज़ गति और intelligence को साथ में देना इसकी मुख्य दिशा है
- यह ऐसा मॉडल बनना चाहता है जो गति और scalability बनाए रखते हुए भी intelligence से समझौता न करे
यह long-range reasoning और iterative coding tasks संभालता है
text, audio, image, code और video में multimodal understanding support करता है

agent उपयोग के उदाहरण

तेज़ agent क्षमताएँ दिखाने वाले कई task examples पेश किए गए हैं
- 60 सेकंड से कम में payment UI के 6 options generate करना
- तेज़ी से 64 fractal variations generate करना
- AlphaGo paper को input के रूप में लेकर autonomous तरीके से intelligent game बनाना
- न्यूनतम input से fundraising event brand बनाने और सुधारने वाले कई workflows coordinate करना
- text description को पूर्ण interactive HTML component में बदलना
- Strudel music library का उपयोग कर कई agents द्वारा song generate करना
- expert agent team को coordinate कर virtual city design और build करना
- messy dataset को automatic रूप से rename और structure करना
- agents deploy कर game को real time में लगातार improve करना

ग्राहक उदाहरण और performance सुधार

Armadin ने बताया कि Gemini का latest Flash model long-range multi-turn cyber benchmark में Flash 3 से 42% अधिक है, और token efficiency 68% बेहतर हुई है
Box के enterprise task evaluation set में Gemini 3.5 Flash, Gemini 3 Flash से 19.6% अधिक था
- Life Sciences ग्राहकों के data extraction और calculation accuracy में 96.4% सुधार हुआ
- Financial Services के लिए structured data आधारित financial report generation accuracy 46.7% अधिक हुई
JetBrains के Junie ने आकलन किया कि Gemini 3.5 Flash, Gemini Pro के करीब coding और reasoning quality देता है, जबकि Flash की speed और cost characteristics बनाए रखता है
- पिछले Flash generation की तुलना में low reasoning level वाली coding performance 10–20% बेहतर हुई

benchmark results

Gemini 3.5 Flash agent workflows के लिए model के रूप में मज़बूती से उभरता है
coding benchmarks
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
agent और tool use benchmarks
- MCP Atlas: 83.6%, तालिका में सर्वोच्च स्कोर
- Toolathlon: 56.5%, तालिका में सर्वोच्च स्कोर
UI control और specialized tasks
- OSWorld-Verified: 78.4%
- Finance Agent v2: 57.9%, तालिका में सर्वोच्च स्कोर
- GDPval-AA Elo: 1656
multimodal benchmarks
- CharXiv Reasoning: 84.2%, तालिका में सर्वोच्च स्कोर
- MMMU-Pro: 83.6%, तालिका में सर्वोच्च स्कोर
- Blueprint-Bench 2: 33.6%
long context और reasoning
- MRCR v2 128k average: 77.3%
- MRCR v2 1M pointwise: 26.6%, comparable Gemini 3 Flash और Gemini 3.1 Pro से अधिक
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
evaluation methodology की जानकारी Gemini 3.5 Flash evals methodology में है

मॉडल जानकारी और उपलब्ध environments

input में text, image, video, audio, PDF support हैं
output text है
context और knowledge मानदंड
- input tokens: 1M
- output tokens: 64k
- knowledge cutoff: January 2025
tool use capabilities
- function calling
- structured output
- search को tool के रूप में use करना
- code execution
उपलब्ध environments हैं Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity, Android Studio
developer documentation Gemini API models documentation में उपलब्ध है
model card Gemini 3.5 Flash model card में उपलब्ध है

1 टिप्पणियां

GN⁺ 2024-05-15

Hacker News की राय

llm-gemini प्लगइन को अपग्रेड करके Gemini Flash CLI access उपलब्ध करा दिया गया है
pipx install llm # or brew install llm
llm install llm-gemini --upgrade
llm keys set gemini
# paste API key here
llm -m gemini-1.5-flash-latest 'a short poem about otters'
https://github.com/simonw/llm-gemini/releases/tag/0.1a4
MMLU जैसे benchmarks देखें तो, इसका मतलब यह दिखता है कि यह असल में Llama 3 70B-स्तर की quality वाला मॉडल है, जिसका first-token latency 1 सेकंड से कम है; यह GPT-4/Opus-स्तर का नहीं है, लेकिन native multimodal और 1 मिलियन context रखता है
खुद build करने की तुलना में यह बुरा नहीं है, लेकिन frontier models में Gemini का मुख्य differentiator native multimodal था। अब GPT-4o आ चुका है, तो जो organizations GCP से बंधी नहीं हैं वे Gemini क्यों चुनेंगी, यह साफ़ नहीं है। अगर आप पूरी किताब या पूरी फिल्म एक साथ process नहीं कर रहे हैं, तो GPT-4o का 128k context भी पर्याप्त है; उत्सुकता है कि क्या सच में ऐसे production-scale काम हैं जो 1 मिलियन से 100k पर घटाने से नहीं हो पाते
- 1 मिलियन tokens का मतलब है कि chat शुरू करने से पहले आप 2,000 पेज के documents context window में डाल सकते हैं
  Gemini की ताकत logic puzzles हल करने में नहीं, बल्कि context length में है। अगर आप exam की तैयारी कर रहे हैं तो पूरी textbook chat में डाल सकते हैं; और अगर आपको किसी पुराने test system के लिए ऐसी dead language इस्तेमाल करनी पड़े जिसके बारे में internet पर जानकारी नहीं है, तो 1,300-पेज का reference manual डालकर पूछ सकते हैं
- मुझे नहीं लगता कि यह Llama 3 70B quality का हो सकता है
  मैंने Gemini 1.5 Pro को कई workflows में डालकर देखने की कोशिश की, लेकिन यह बहुत खराब लगा। खासकर video या audio डालने पर hallucinations अविश्वसनीय रूप से ज्यादा थे। पता नहीं कि hallucinations से भरे छोटे multimodal models के अधिकांश कंपनियों में practical use cases हैं भी या नहीं; भरोसेमंद न हो तो यह बस खिलौना है
- GCP से बंधी न होने वाली organizations के लिए Gemini चुनने की वजह price है। खासकर उन multimodal tasks में जहां GPT-4 quality की जरूरत नहीं होती
  OpenAI के सबसे सस्ते multimodal model GPT-4o से तुलना करें तो भी, GPT-3.5-Turbo की cost GPT-4o की 1/10 है और यह input के लिए प्रति 1 मिलियन tokens $0.5, output के लिए प्रति 1 मिलियन tokens $1.50, और 16K context window देता है। Gemini 1.5 Flash में 128K या उससे कम prompts पर input के लिए प्रति 1 मिलियन tokens $0.35 और output के लिए प्रति 1 मिलियन tokens $0.53 है। जिन multimodal tasks, खासकर document processing, में GPT-4-level intelligence की जरूरत नहीं है, वहां Gemini Flash लगभग 95% cost saving जैसा दिखता है
- यह कुछ वैसा है जैसे पूछा जाए कि 50MB Yahoo account काफी लगता है, फिर 1GB Gmail की क्या जरूरत है
  context डालते समय दो बार सोचना नहीं पड़ता, और context limit पार होने से निपटने के लिए workarounds भी नहीं बनाने पड़ते। अगर अधिकांश use cases multimodal से ज्यादा text से जुड़े हैं, तो फायदा काफी साफ़ दिखता है
- कुछ महीने पहले मैंने Gemini के साथ 1 मिलियन tokens इस्तेमाल करने की कोशिश की थी, लेकिन यह crash हो जाता था या बहुत धीरे respond करता था और अंत में crash हो जाता था
  पांच-छह बार कोशिश करके छोड़ दिया; उम्मीद है यह version ज्यादा तेज़ और stable होगा
मुझे लगता है कि default 1 मिलियन token context यहां बड़ा feature है, लेकिन यह असल में क्या मतलब रखता है, इसे मापने के लिए बेहतर benchmarks चाहिए
intuition से लगता है कि context लंबा होने पर इस सीमा से टकराना पड़ेगा कि एक single vector-space point में कितनी understanding समा सकती है, और context से relevant हिस्से चुनने के लिए बेहतर architecture की जरूरत होगी
- अगर production use की बात कर रहे हैं, तो economically unsustainable demos नहीं, बल्कि OpenAI के सबसे सस्ते multimodal model की तुलना में per-token cost 4–7% वाला model का multimodal होना एक अहम feature है
- समझ नहीं आता कि किस dimension के vector space में single-point limit है
  पता नहीं यह public information है या नहीं, लेकिन embedding dimension size एक architecture choice है। मुझे यह fundamental limit से ज्यादा design और resource constraints का मामला लगता है
- vector और vector databases की मोटी समझ रखने वाला व्यक्ति भी समझ सके, इस तरह क्या कोई समझा सकता है कि vector space के single point में understanding रखना क्या मतलब है
  अगर संबंधित articles या आगे पढ़ने की सामग्री हो तो recommend करें
- हम multi-head attention से deal कर रहे हैं, इसलिए हर token के लिए कई points होते हैं
  heads की संख्या या key vector size कभी भी बढ़ाया जा सकता है
- असल में यह इतना अच्छा नहीं है। “Harry Potter की 6.5 किताबें डालीं तो इसने characters को annotations के साथ जोड़ने वाला SVG map बना दिया” जैसे convincing demos बनाए जा सकते हैं
  लेकिन उसमें सिर्फ कुछ characters होते हैं, annotations भी कमजोर होते हैं, और cost करीब $20 आई। 10 बार करें तो कुछ बार आपको fooled करने लायक ही ठीक रहता है
cloud में ही इस्तेमाल हो सकने वाला lightweight model—यह दिलचस्प है। ये big tech कंपनियां AI usage तक own करने को लेकर सच में बहुत दृढ़ हैं
लेकिन हमें इसे future बनने नहीं देना चाहिए
OpenAI की Google पर एक बढ़त यह है कि वह API pricing public सच में करता है, और naming भी अपेक्षाकृत consistent रखता है
Google में अगर API से ही models की list निकालें, तो ऐसा लगता है कि Google Cloud console में जिसे Generative Language API कहा जाता है और docs में Gemini API कहा जाता है, उस route से करीब 10 models मिलते हैं। model names 10 से ज्यादा हैं, लेकिन कुछ models के कई aliases हैं।
उनमें से Gemini API pricing docs page पर price info सिर्फ 3 के लिए है, और उनमें से 2 preview हैं इसलिए pricing future में लागू होगी। console के Generative Language API में docs page के 3 में से सिर्फ वही 1 non-preview model price के साथ दिखता है। Cloud SKU list में Generative Language API नहीं है और Gemini API है, लेकिन वहां भी वही एक model है। console page “latest pricing” के रूप में जिस Cloud Price list को link करता है, उसमें Generative Language API और Gemini API दोनों ही बिल्कुल नहीं हैं। समझ नहीं आता कि इतने अलग-अलग entries क्यों हैं
अब लगता है कि ज्यादातर कामों के लिए context length काफी हो गई है, तो उत्सुकता है कि अभी भी subword tokens क्यों इस्तेमाल किए जाते हैं

मुझे सच में यह भी जानने की उत्सुकता है कि character-based LLMs की तुलना कैसे होगी। 2 मिलियन context हो तो compute bottleneck धुंधला पड़ जाता है। हालांकि vocabulary size क्या भूमिका निभाता है, यह ठीक से नहीं पता। embeddings पहले से ही ज्ञान का बड़ा हिस्सा समेटे होती हैं, इसलिए बड़ी vocabulary अहम हो सकती है। उल्टा, character-based vocabulary इस्तेमाल करने से glitch tokens, arithmetic, rhyme जैसी कई समस्याएं हल हो सकती हैं। subword tokenizer को सही तरह implement और train करना भी काफी जटिल लगता है, जबकि character level पर यह बहुत सरल होना चाहिए

attention mechanism तब learning efficiency में कहीं बेहतर होता है जब वह बड़े और meaningful tokens पर ध्यान दे सके
inference server में memory का बड़ा हिस्सा KV cache में जाता है, और attention के जरिए embeddings को stack करने के लिए कहीं ज्यादा tokens को आपस में relate करना पड़ता है, जबकि हर token का “meaning” कमजोर होता है। किसी दिन शायद हम इस बिंदु तक पहुंचें। आखिरकार हमें ऐसे multimodal LLMs चाहिए होंगे जो images और sounds को pixel और frequency level तक समझें, और text के लिए भी शायद अंततः यही चाहेंगे
characters शब्दों के अर्थ-निर्माण घटक नहीं हैं; आम तौर पर syllables वह भूमिका निभाते हैं
कम से कम सामान्य रूप से तो ऐसा ही लगता है। Roman alphabet की तुलना में यह approach ज्यादा quality दे सकता है। सोचता हूं कि क्या सिर्फ यह compare करके test किया जा सकता है कि LLM English और Chinese को कैसे process करते हैं
मेरे हिसाब से दो बड़ी समस्याएं हैं। पहली, ज्यादा output को sequentially generate करना होगा, इसलिए latency खराब होगी
दूसरी, ये models बहुत मोटे तौर पर tokens को embedding layer में “average meaning” में बदलते हैं, attention layers meanings को जोड़ती हैं, और feedforward layers मौजूदा meaning combination को किसी learned archetype या prototype जैसी चीज से match करती हैं। word pieces से characters पर उतरने पर यह सब और ज्यादा उलझ जाता है। उदाहरण के लिए “a” का average meaning क्या है, यही अस्पष्ट है; इसलिए मुझे लगता है कि character-based models को अच्छे से train करने की techniques अभी पर्याप्त नहीं हैं
AI music generation में 10^6 के scale की बड़ी vocabulary size से कहीं बेहतर results मिलते हैं
पूरी जानकारी नहीं है, बस अनुमान है, लेकिन शायद इसलिए कि transformer कोई general-purpose pattern recognizer नहीं, बल्कि किसी खास granularity level के patterns ही पकड़ पाता है
Google की branding team निश्चित रूप से बेहतर लगती है। Gemini, Gems जैसे नाम मुझे पसंद हैं
“ChatGPT” काफी भद्दा और जटिल नाम है, और OpenAI किसी faceless organization जैसा लगता है। बेशक यह बदल सकता है, लेकिन इस समय तो काफी देर हो चुकी लगती है। market में आते वक्त ज्यादा creative होने के लिए उनके पास पर्याप्त पैसा रहा होगा
- “ChatGPT” “Google” जैसा नाम है। मुझे नहीं लगता “Gemini” उसकी जगह ले पाएगा
- OpenAI को marketing advice की सख्त जरूरत है
  “GPT4o”, सच में? यहां तक कि बातचीत में “GPT4 Omni” कहना आसान है, और “o” का मतलब भी वही है। वे यह गंभीरता से underestimate कर रहे हैं कि general users कितने ज्यादा हैं
NYT Connections benchmark में Gemini 1.5 Flash का score 15.3 है
GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2
- उस list में high performance लेकिन बेहद खराब नामों वाले OpenAI models बहुत ज्यादा हैं
जानकारी बहुत कम है। इसे तेज और सस्ते विकल्प के रूप में बेच रहे हैं, लेकिन inference speed benchmark भी नहीं है और non-Gemini models से comparison भी नहीं है
https://ai.google.dev/pricing के मुताबिक लगता है कि pricing gpt3.5-turbo से थोड़ी सस्ती रखी गई है, लेकिन असल में comparison कैसा है, पता नहीं चलता
अगर Gemini Flash सिर्फ तेज Gemini है, तो खराब जवाब जल्दी आ जाने से बेहतर नहीं हो जाते
practical coding, system architecture, और कभी-कभी सामान्य सवालों में मैंने कई महीनों तक Gemini Pro और ChatGPT 4 को साथ-साथ इस्तेमाल किया; ChatGPT कम से कम 80% समय ज्यादा useful था। Gemini या तो गलत होता था, या useful जवाब तक पहुंचने में लंबा भटकता था, इसलिए इस्तेमाल के लायक नहीं था। मुझे तेज चीज नहीं चाहिए थी। शायद अब यह ज्यादा “smart”, यानी ज्यादा useful हो गया हो, लेकिन
- शायद अगर smartness को कम resources में ज्यादा काम करने के रूप में define करें, तो इसे scalable latent space में किसी चीज के मौजूद होने का संकेत माना जा सकता है