Gemma 4 12B: एकीकृत encoder के बिना मल्टीमॉडल मॉडल

(blog.google)

10 पॉइंट द्वारा GN⁺ 2026-06-04 | 5 टिप्पणियां | WhatsApp पर शेयर करें

Gemma 4 12B एक मध्यम आकार का मॉडल है, जिसे लैपटॉप पर agentic multimodal intelligence चलाने के लिए डिज़ाइन किया गया है, और यह edge-friendly E4B तथा अधिक उन्नत 26B MoE के बीच की कमी को भरता है
encoder-रहित एकीकृत architecture के साथ यह image और audio input को अलग multimodal encoder के बिना सीधे LLM backbone में प्रवाहित करता है, ताकि latency और memory usage कम हो सके
मानक benchmark performance बड़े 26B MoE मॉडल के करीब है, जबकि कुल memory usage आधे से भी कम है, और यह 16GB RAM या VRAM/एकीकृत memory वाले consumer laptop पर locally चल सकता है
Gemma 4 12B, Gemma परिवार का पहला मध्यम आकार का मॉडल है जो native audio input को support करता है, और Multi-Token Prediction drafters के ज़रिए latency कम करने का लक्ष्य रखता है
Gemma 4 मॉडल 15 करोड़ से अधिक downloads पार कर चुके हैं, और Gemma 4 12B, Apache 2.0 license तथा प्रमुख developer tools और deployment paths के support के साथ local multimodal agent development का दायरा बढ़ाता है

मुख्य विशेषताएँ

Gemma 4 12B को इस तरह डिज़ाइन किया गया है कि यह सीधे लैपटॉप पर high-performance multimodal intelligence ला सके, और mobile-first efficiency को advanced reasoning के साथ जोड़ता है
यह edge-friendly E4B और अधिक उन्नत 26B Mixture of Experts(MoE) के बीच स्थित है, और कम memory footprint में शक्तिशाली capabilities प्रदान करता है
इसकी प्रमुख विशेषताएँ इस प्रकार हैं
- multimodal encoder के बिना vision और audio input को सीधे LLM backbone तक पहुँचाने वाली एकीकृत architecture
- 26B मॉडल के करीब benchmark performance तथा multi-step reasoning और agent workflow support
- केवल 16GB VRAM या unified memory के साथ local execution के लिए laptop readiness
- Apache 2.0 license और developer ecosystem support
- Multi-Token Prediction(MTP) drafters के माध्यम से latency में कमी

encoder-रहित multimodal processing का तरीका

पारंपरिक multimodal model आमतौर पर image और audio को अलग encoder से transform करने के बाद उनकी representation language model को भेजते हैं
Gemma 4 12B को इस तरह train किया गया है कि यह अलग encoder से बढ़ने वाली latency और memory usage से बचने के लिए audio और vision input को सीधे एकीकृत कर सके
vision processing में, Gemma 4 का vision encoder एक हल्के embedding module से बदला गया है, जो single matrix multiplication, positional embedding और normalization से बना है, ताकि visual processing LLM backbone संभाल सके
audio processing में, audio encoder को पूरी तरह हटा दिया गया है और raw audio signal को text token के समान dimensional space में project किया जाता है
अधिक विस्तृत developer architecture विवरण Gemma 4 12B Developer Guide में देखा जा सकता है

शुरुआत करने के रास्ते

कुछ क्लिक में LM Studio, Ollama, Google AI Edge Gallery App, Google AI Edge Eloquent app, और LiteRT-LM CLI पर प्रयोग किया जा सकता है
pre-trained और instruction-tuned checkpoints को Hugging Face और Kaggle से डाउनलोड किया जा सकता है
integration और training के लिए developer documentation और quick start notebook का उपयोग किया जा सकता है
local inference pipeline को Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM से लागू किया जा सकता है, और Unsloth के साथ efficient fine-tuning की जा सकती है
आधिकारिक Skills Repository एक skill library है, जिसे agents को नवीनतम Gemma capabilities के साथ build करने के लिए डिज़ाइन किया गया है
production endpoint को Google Cloud पर Gemini Enterprise Agent Platform Model Garden, Cloud Run, और GKE के माध्यम से deploy किया जा सकता है

5 टिप्पणियां

hmmhmmhm 2026-06-04

gemma4 26b a4b की तुलना में इसकी स्पीड थोड़ी निराशाजनक लगती है, यह भी.... क्या a4b आ सकता है?

loblue 2026-06-04

मुझे इसे अपने MacBook M1, 32GB RAM वाले मॉडल पर चलाकर देखना होगा। अगर 12b है, तो शायद ठीक रहेगा।

kaydash 2026-06-04

यह तो अभी-अभी नहीं आया है, फिर इसका ज़िक्र क्यों हो रहा है?

winterjung 2026-06-04

पहले सिर्फ e मॉडल और 26b, 31b ही थे, और gemma 4 12b मॉडल इस बार नया आया है।

GN⁺ 2026-06-04

Hacker News की राय

Q4 क्वांटाइज़्ड मॉडल को llama.cpp पर चलाकर इसे अपने बनाए Minesweeper vibe coding benchmark में डालकर देखा: https://senko.net/vibecode-bench/2026/minesweeper-gamma-4-12...
नतीजे ठीक-ठाक थे, लेकिन कुछ बार अजीब और मामूली syntax errors को हाथ से ठीक करना पड़ा, जैसे एक extra closing parenthesis जोड़ देना या function definition को comma से अलग करने की कोशिश करना
इन संकेतों को देखते हुए यह लोकल coding model के रूप में ठीक-ठाक है, और सिर्फ output देखें तो लगभग 14 महीने पहले आए GPT-4.1 के काफ़ी करीब लगता है: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
12GB VRAM वाली consumer card पर 4-bit GGUF में 5 tokens/sec मिला, और interactive coding के लिए यह धीमा है, लेकिन काफ़ी उपयोगी मॉडल है
यह दिलचस्प है कि करीब एक साल में 12 अरब parameters वाला मॉडल एक खास benchmark पर उस coding performance तक लगभग पहुँच गया, जिसे पहले GPT-4.1 स्तर का माना जाता था
टेस्ट किए गए कई मॉडलों की सूची: https://senko.net/vibecode-bench/
- संभवतः यह coding के लिए trained मॉडल नहीं है। इसमें audio और vision input हैं, यह सिर्फ 12B है, और घोषणा में कहीं भी coding का ज़िक्र नहीं है
  सामान्य coding performance शायद Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B, gpt-oss-20b जैसे दूसरे छोटे मॉडलों से कम होगी
  16GB laptop पर Qwen 3.5 9B स्पष्ट रूप से सबसे मज़बूत है, और छोटे coding models में top-tier Gemma 4 31B है, लेकिन dense होने की वजह से पूरा context इस्तेमाल करने के लिए लगभग 48GB unified memory चाहिए
- अगर 12GB VRAM कार्ड पर 5 tokens/sec मिल रहे हैं, तो लगता है कि hybrid mode में CPU और system RAM भी साथ इस्तेमाल हो रहे हैं
  यह speed लगभग वही है जो 4-bit पर उस आकार के मॉडल को DDR4 RAM bandwidth के साथ चलाने पर मिलती है, और अगर 12GB consumer Nvidia GPU जैसे RTX 2080 या RTX 3060 हों, तो llama.cpp CUDA backend में 20 tokens/sec से ज़्यादा आना चाहिए
- Coding में सबसे बड़ी जीत शायद reasoning ability थी। इसलिए छोटा मॉडल GPT-4.1 की coding performance तक पहुँच सकता है, लेकिन सामान्य world knowledge में बड़ा GPT-4.1 अब भी जीत सकता है
- सोच रहा हूँ कि क्या syntax issues को fine-tuning या दूसरे parameter adjustments से ठीक किया जा सकता है। ऐसी errors काफ़ी परेशान करती हैं
यहाँ बड़ी बात encoder-less architecture है, हालाँकि मैं अभी इसे पूरी तरह समझ नहीं पाया हूँ
“Gemma 4 के vision encoder को single matrix multiplication, positional embedding, और normalization से बने lightweight embedding module से बदला गया” — तकनीकी रूप से यह अब भी encoding ही है, और लगता है इसका मतलब बस यह है कि SigLIP जैसे dedicated model का इस्तेमाल नहीं किया गया
Developer guide में इसे 35M layer कहकर थोड़ा और समझाया गया है, लेकिन यह कितना robust है, इस पर जिज्ञासा है: https://developers.googleblog.com/gemma-4-12b-the-developer-...
“16GB RAM consumer laptop पर लोकल रन हो सकता है” वाली बात शायद quantization को मानकर कही गई है, और quality loss को देखते हुए यह कुछ हद तक misleading हो सकता है
- Developer page के अंदर encoder-less architecture को अच्छी तरह समझाने वाला लेख है: https://newsletter.maartengrootendorst.com/p/a-visual-guide-...
- यह मूल रूप से early fusion है
  FAIR यह 2 साल पहले ही कर चुका था: https://arxiv.org/abs/2405.09818
  तब से मैं ऐसे मॉडल के public release का इंतज़ार कर रहा था, लेकिन परेशान करने वाली बात यह है कि Chameleon उसी सिद्धांत पर multimodal output भी दे सकता था, जबकि यह मॉडल सिर्फ input लेता है
  जानना चाहूँगा कि multimodal output के बिना pretraining कैसे की गई, और क्या image output support था जिसे काट दिया गया
- सामान्य अर्थ में यह “encoding” ही है, लेकिन यहाँ शायद मतलब यह है कि encoder neural network नहीं है
- असली बड़ी बात मुझे Gallery app लगती है: https://developers.google.com/edge/gallery
  16GB Mac रखने वाले लोग, खासकर पत्रकार, काफ़ी हैं; कोई भी app डाउनलोड करके मॉडल install कर सकता है और तुरंत इसे आज़मा सकता है
  अब लगता है पत्रकारों को OpenAI की consumer revenue outlook पर सवाल उठाने शुरू कर देने चाहिए
  मैं AI को लेकर काफ़ी skeptical हूँ, लेकिन जानकार skeptic बनने की कोशिश में मैंने लोकल मॉडल के साथ agent tasks और CAD-to-image generation थोड़ा करके देखा, और Gemma 26B मॉडल मुझे काफ़ी पसंद आया
  मैं इसका उपयोग cloud dependency बनाए बिना basics सीखने और OpenCode समझने के लिए कर रहा हूँ; यह code भी काफ़ी अच्छा लिखता है और अपनी गति से सीखने में मदद करता है
  अगर यह 12B मॉडल प्रचार के दावे का आधा भी निकला, तो कम से कम short term में consumer-facing cloud business model पर सवाल खड़े करता है
  यह साफ़ नहीं है कि यह app MTP drafter इस्तेमाल करता है या नहीं, और मैं अभी तक Gemma में इसे सीधे चला नहीं पाया हूँ, लेकिन Qwen 3.6 का built-in MTP support LM Studio में शानदार था
- 12B होने पर 8 bits/parameter पर 12GB बनते हैं, जो लगभग lossless है, और 4 bits/parameter पर 6GB, जिसे आम तौर पर “काफ़ी करीब” माना जाता है
  quantization पर ज़्यादा अटकने से पहले यह देखना चाहिए कि base model performance वास्तव में कितनी है
अब हम closed loop game में प्रवेश कर रहे हैं। Google को अपने मॉडल accelerate करने के लिए किसी और की ज़रूरत नहीं है, और यह उसके मुख्य काम के काफ़ी करीब है
ऐसी efficiency improvements को लगातार विकसित होते देखना हैरान भी करता है और नहीं भी। जैसे silicon और CPU architecture समय के साथ लगातार shrink होकर ज़्यादा powerful हुए, वैसे ही AI भी समय के साथ 100 गुना efficient हो सकता है
कभी न कभी कोई सीमा आएगी, लेकिन अगले 30 साल शायद पिछले 30 साल से भी ज़्यादा प्रगति वाले होंगे, और हो सकता है हम किसी Blade Runner जैसी भविष्यवादी दुनिया में रहें जहाँ gene editing उम्रदराज़ कोशिकाओं और अंगों को ठीक करे और cancer का इलाज करे

हमारे जीवनकाल के बाद लोग शायद स्थिर रूप से 125 साल की उम्र तक सक्रियता बनाए रखते हुए जिएँगे, और आखिरकार 1000 साल की उम्र पर भी सोचने लगेंगे
30 साल पहले और 30 साल बाद को देखें तो बदलाव अविश्वसनीय लगेंगे। भगवान हमारी रक्षा करे

यह दौर निश्चित रूप से रोमांचक है, लेकिन cutting-edge प्रगति के नज़रिए से अभी भी तोड़ने के लिए बहुत से low-hanging fruit बचे हुए हैं
बस, कम संख्या के parameters में समा सकने वाले “ज्ञान” की एक सीमा होती है
शायद radio, aviation, या यहाँ तक कि शुरुआती microcomputer दौर भी कुछ ऐसा ही महसूस हुआ होगा
मैंने lifespan optimization को career या hobby से ऊपर रखने का रास्ता चुना है। मैं भविष्य देखना चाहता हूँ, और यह AI लहर सच में बहुत दिलचस्प है
ऐसा नहीं है
बड़े models अब भी काफी आगे हैं, और Gemma 31B भी कुल मिलाकर 12B से बेहतर है, लेकिन यह भ्रम नहीं होना चाहिए कि वह बड़े models के करीब पहुँच गया है
optimization की गुंजाइश निश्चित रूप से है, लेकिन जटिल कामों में accuracy के लिए ऐसे छोटे और दिखाई देने वाले gradients चाहिए जो training के दौरान पकड़े जाएँ और inference में उनका पीछा किया जा सके
उदाहरण के लिए, अगर आप कहें कि code मत लिखो और फिर coding सवाल पूछो, तो Gemma अब भी code लिख देता है, जबकि Gemini या Claude उस nuance को पकड़कर निर्देशों का बेहतर पालन करते हैं
मैं जानना चाहता हूँ कि Google के open model जारी करने के पीछे व्यावसायिक कारण क्या है। इस तरह की रिलीज़ के लिए आभारी हूँ, लेकिन एक for-profit company के रूप में यह बड़ी तस्वीर में कैसे फिट बैठता है, यह समझना चाहता हूँ
क्या यह अपने ही बनाए नए tech stack पर प्रतिस्पर्धियों को चढ़ने में मदद करना नहीं है?
क्या यह सिर्फ goodwill या marketing है, या इसमें कोई ऐसी strategy है जो मैं मिस कर रहा हूँ?
- frontier labs को inference में 80% gross margin मिल पाने की बड़ी वजह यह है कि frontier model उनके पास एक दुर्लभ resource है
  अगर inference पर्याप्त लोकप्रिय और मूल्यवान हो जाए और वे कंपनियाँ उससे अरबों डॉलर का मुनाफ़ा कमाने लगें, तो उसी मुनाफ़े से वे ऐसे replacement products और platforms बना सकती हैं जो Google और उसके ग्राहकों के बीच आ जाएँ
  Google के पास पहले से दुनिया के सबसे बड़े 80% gross margin वाले businesses में से एक है, और हर कोई उसका एक हिस्सा चाहता है
  अगर frontier inference को cost के करीब दिया जाए, और frontier से नीचे के models को open source करके model को commodity बना दिया जाए, तो frontier labs के लिए inference पर लगातार ऊँचा gross margin बनाए रखना मुश्किल हो जाएगा
  यह एक रणनीतिक कदम है
- यह model सीधे उसके अपने commercial revenue products को replace नहीं करता, लेकिन development activity को संभव बनाता है और उन कंपनियों से बातचीत का रास्ता खोलता है जो इस model से शुरू करके बाद में थोड़ा और चाहेंगी
  मेरी अपनी company भी अभी कई platform products पर all-in है, और Microsoft ने भी कल कहा कि उसका लक्ष्य “Unmetered intelligence” है
  छोटे local models से बहुत कुछ संभव होता है, और वे चीज़ें stack की दूसरी layers में revenue पैदा करने वाले हिस्से बन जाती हैं
- Android और Chrome को on-device AI features चाहिए। Google इन weights को server-side machine learning की तरह lock करके नहीं रख सकता
  वैसे भी कोई न कोई weights निकाल ही लेगा, इसलिए इन्हें open source करके औपचारिक रूप से जारी कर देना ज़्यादा आसान है
- Google AI में कुछ गिने-चुने vertical integration विकल्पों में से एक है। उसके पास data, models, cloud services, low-level silicon (TPU), internal usage, consumer usage, B2B usage, और distribution channels (browser और mobile) सब हैं
  AI adoption बढ़ने पर यह सब साथ में ऊपर जाता है, और लोग अगर Google solutions चुनते हैं तो Google को और फ़ायदा होता है
  Google model को भेजा गया हर token, चाहे free हो या paid, प्रतिस्पर्धियों पर यह दबाव डालता है कि cutting-edge बने रहने के लिए वे भारी पैसा खर्च करें
- अगर आप AI lab हैं, तो इस क्षेत्र में research team रखना लगभग तय है। यहीं सबसे आसानी से iteration और improvement किए जा सकते हैं, जिन्हें बाद में बड़े frontier models में शामिल किया जा सकता है
  सवाल बस यह है कि model को public किया जाए या केवल pure R&D के लिए रखा जाए
  दूसरे लोग पहले से ही इसी गुणवत्ता के models जारी कर रहे हैं, इसलिए इस प्रवाह में शामिल होना अपने ही पैर पर कुल्हाड़ी मारना नहीं लगता
  अतिरिक्त self-cannibalization लगभग शून्य के बराबर है, और reputation का लाभ शायद इसके काबिल है
image processing बहुत खराब है। मैंने Qwen 3.5 0.8B के साथ कई tests किए, और सिर्फ 7% size वाला Qwen हर बार जीत गया, जबकि Gemma कई बार पूरी तरह गलत निकला
मैंने “This is a test” लिखा हुआ एक साधारण image दिया, फिर भी यह 6 मिनट तक analyze करने की कोशिश करता रहा और विफल हो गया, जबकि Qwen 3.5 0.8B ने 1 सेकंड से भी कम समय में आत्मविश्वास से सही जवाब दिया
हो सकता है मुझे मिला Q6 quantization टूटा हुआ हो, या LM Studio की समस्या हो, लेकिन किसी भी हालत में 0.8B का प्रदर्शन तुलना में चौंकाने वाला है
- लगता है Google ने Alibaba की तुलना में ज़्यादा या अधिक सख्त guardrails डाले हैं, जो छोटे model को confuse कर देते हैं
  Gemma3 model में भी कई बार ऐसा हुआ कि उसने image में exposure या sexual scene होने का दावा करके description देने से मना कर दिया, और मैं उस behavior का मतलब समझ नहीं पाया
- मुझे हमेशा लगा है कि Gemma models vision tasks में Qwen से बहुत पीछे हैं, इसलिए यह कोई नई बात नहीं है
architecture बदलाव से अलग, यह शायद इस सवाल का जवाब है कि Gemma4 pretraining model lineup में 4B और 26B के बीच का हिस्सा अजीब तरह से खाली क्यों था
context headroom के साथ 16GB VRAM में आराम से फिट हो जाने वाला model एक स्वागतयोग्य upgrade है
multimedia को छोड़ दें, तो यह prismml के qwen2.5-आधारित 1.5-bit model से कितना बेहतर है, यह जानना दिलचस्प होगा
ऐसे small models के use cases क्या हैं, यह जानना चाहता हूँ। क्या इस size के models को रोज़मर्रा में इस्तेमाल करने वाला कोई व्यक्ति अपना वास्तविक अनुभव साझा कर सकता है?
- मैं basement में रखी Linux machine पर vLLM चलाकर, Tailscale से connect करके, छोटे models को कई कामों में इस्तेमाल करता हूँ
  जैसे scanned documents को formatted text में बदलना, image caption/description और object suitability classification करना (spam prevention सहित), और documents को संबंधित Wikipedia pages से match करके tag करना
  मैं इन्हें frontier models की तरह इस्तेमाल नहीं करता, बल्कि हर prompt को एक स्पष्ट लक्ष्य वाले micro-tasks में तोड़ देता हूँ
  पूरे flow को चलाने के लिए काफी glue code भी लिखता हूँ, और इस तरह के काम मैं LLM आने से पहले भी करता था
  LLM की वजह से complex code कम करना और model जोड़कर बेहतर परिणाम लेना संभव हुआ
  local model इस्तेमाल करने की वजह cost और control है। मेरे पास पहले से workstation और GPU थे, इसलिए running cost बस बिजली है
  मैंने OpenAI और Google के proprietary models भी इस्तेमाल किए हैं, लेकिन एक बार tool जिस model पर निर्भर था उसके retire हो जाने से चीज़ें हिल गई थीं। अगर weights local में stored हों तो वह चिंता नहीं रहती
- अपने बनाए dictation app में मैं local model से text polish करता हूँ और grammar ठीक करता हूँ। इसे बनाना बहुत आसान था, और अब मैं इसे meeting notes capture और summary तक बढ़ा रहा हूँ, वह भी पूरी तरह on-device
  कुछ समय पहले मैंने एक छोटा app भी देखा था जो screenshot देखकर file की सामग्री के आधार पर उसका filename बदल देता है
  ऐसे छोटे उदाहरण बहुत हैं, और कई use cases में frontier model की बिल्कुल ज़रूरत नहीं होती
मैंने Gemma को कई सालों के online writing review और classification में इस्तेमाल किया है। यह उन लगभग 50 लाख शब्दों पर किया गया था जो मैंने open source project forums, HN, Reddit आदि पर लिखे थे, और चूंकि यह मेरा अपना लेखन था इसलिए data source ethics की चिंता के बिना LoRA training का प्रयोग भी किया
अभी इसे एक खास उद्योग के लिए web search और data extraction में इस्तेमाल कर रहा हूँ
यह इतना स्मार्ट है कि दिए गए शहर में उस उद्योग के businesses ढूंढ ले, उनकी websites पढ़ ले, address और phone number जैसी जानकारी निकाल ले, duplicate हटाए, और दूसरे sources से cross-check भी कर ले
Gemma 4 ने Gemini 2.5 Flash से बेहतर या कम से कम अधिक nuanced judgment दिया, और नया Gemini 3.5 Flash बहुत अच्छा है, लेकिन अवास्तविक रूप से महंगा है
अगर बहुत तेज performance की ज़रूरत न हो, तो self-hosted Gemma 4 कई tasks में जीत जाता है
Qwen 3.6 27B भी अपने size के हिसाब से security bugs ढूंढने में हैरान करने जितना अच्छा है। यह कई बड़े models को हरा देता है और Gemini Pro 3.1 के करीब है, लेकिन Gemini 3.5 Flash आश्चर्यजनक रूप से साफ़ तौर पर बेहतर है
इसमें सिर्फ बिजली का खर्च आता है, और मेरी बिजली सस्ती है और 100% renewable है, इसलिए hosted models की तुलना में इसे ज़्यादा व्यापक रूप से इस्तेमाल कर सकता हूँ
फिर भी समझदारी का पैसा अभी providers द्वारा subsidy जैसी सस्ती दरों पर दिए जा रहे tokens खरीदने में ही है
30GB से बड़े model चलाने वाला hardware खरीदने की बजाय Claude या Codex की 100 डॉलर subscription लेकर top models को बहुत discounted कीमत पर इस्तेमाल करना अभी ज़्यादा फ़ायदेमंद है
अगर automation API चाहिए, तो DeepSeek/MiMo, Anthropic या OpenAI के top models से एक या दो orders of magnitude तक सस्ता है
मैंने दो inference machines पर लगभग 4000 डॉलर खर्च किए, और इस पैसे में ऐसे छोटे models के लिए कई सालों के tokens खरीदे जा सकते थे
लेकिन मुझे hardware के साथ काम करना पसंद है, इसलिए वही अपने आप में reward है, और अगर कुछ पैसा वापस निकल आए तो वह bonus है
अगर बड़े providers subsidized tokens पर पैसा जलाना बंद कर दें और गंभीर billing शुरू करें, तो हिसाब बदल सकता है, और हो सकता है कि RAM की कीमत 2~3 गुना बढ़ने से पहले equipment खरीद लेना सौभाग्य साबित हो
अगर आप तकनीक सीखना या खुद training experiments करना नहीं चाहते, तो ज़्यादातर मामलों में local run करने की कोशिश न करना ही बेहतर होगा
- छोटे models के लिए specific tasks में बहुत अच्छा niche है। मैं जो desktop app बना रहा हूँ, उसके document processing हिस्से में एक fine-tuned Phi-4 model इस्तेमाल करता हूँ, जो इससे छोटा है और VRAM नहीं बल्कि लगभग 3.5GB RAM में फिट हो जाता है
  अगर आपके पास local model इस्तेमाल करने का बहुत specific idea है, तो graphics card या NPU के बिना भी इसे अच्छी तरह चलाया जा सकता है
  लेकिन इस्तेमाल का तरीका बेहद सीमित रखना होगा। यह general-purpose chatbot के रूप में अच्छा नहीं है, और local LLM पसंद होने के बावजूद उस स्थिति में मैं hosted latest model ही चुनूंगा
- इस model के बारे में नहीं जानता, लेकिन ठीक इसके ऊपर वाला 31B मैं OpenCode में agent-style coding assistant के रूप में इस्तेमाल कर रहा हूँ
  जो काम इतना आसान हो कि Sonnet को दिया जा सके, वह मैं Gemma 4 को भी देता हूँ, और यह बहुत अच्छा काम कर रहा है
  नकारात्मक रूप से चौंकने की तुलना में सकारात्मक रूप से चौंकने के मामले कहीं ज़्यादा हैं
  ऐसा भी कम नहीं होता कि Gemma 4 fail हो जाए, इसलिए Opus 4.7 पर बदला जाए, और फिर Opus भी fail हो जाए
यह काफ़ी अच्छा update है। लेकिन demo video थोड़ी मज़ेदार है
tester ने release को bullet points में बदलने को कहा तो model ने यह अच्छी तरह कर दिया
फिर जब कहा गया कि इसी सामग्री से email draft बनाओ, तो उसने बिना मांगे bullet points को paragraphs में बदल दिया और अभी जो सही किया था उसे पलट दिया
पता नहीं email में bullet points न डालने का कोई etiquette होता है या नहीं
मैंने German से जुड़े benchmark को जल्दी deploy करके check किया। CohereLabs/include-base-44 के German-specific result में Gemma 4 12B लगभग 0.618 पर है
Gemma 4 26B(A4B MoE) 0.647 है, Qwen 3 14B 0.621 है, Gemma 4 12B 0.618 है, Ministral 14B 2512 0.604 है, और Gemma 3 12B 0.547 है
Qwen 3 14B और Gemma 4 12B के बीच का अंतर random fluctuation की सीमा के भीतर है, और repeated runs में बिल्कुल same score भी आया है
अगला स्तर, Gemma 4 31B, इस benchmark में 0.676 है, और reasoning की अनुमति वाले Qwen 3 14B ने भी 0.676 दिया
कल anti-cheating benchmark भी चलाकर देखूंगा कि क्या Qwen अब भी आगे है