Gemma 4 12B: एकीकृत encoder के बिना मल्टीमॉडल मॉडल
(blog.google)- Gemma 4 12B एक मध्यम आकार का मॉडल है, जिसे लैपटॉप पर agentic multimodal intelligence चलाने के लिए डिज़ाइन किया गया है, और यह edge-friendly E4B तथा अधिक उन्नत 26B MoE के बीच की कमी को भरता है
- encoder-रहित एकीकृत architecture के साथ यह image और audio input को अलग multimodal encoder के बिना सीधे LLM backbone में प्रवाहित करता है, ताकि latency और memory usage कम हो सके
- मानक benchmark performance बड़े 26B MoE मॉडल के करीब है, जबकि कुल memory usage आधे से भी कम है, और यह 16GB RAM या VRAM/एकीकृत memory वाले consumer laptop पर locally चल सकता है
- Gemma 4 12B, Gemma परिवार का पहला मध्यम आकार का मॉडल है जो native audio input को support करता है, और Multi-Token Prediction drafters के ज़रिए latency कम करने का लक्ष्य रखता है
- Gemma 4 मॉडल 15 करोड़ से अधिक downloads पार कर चुके हैं, और Gemma 4 12B, Apache 2.0 license तथा प्रमुख developer tools और deployment paths के support के साथ local multimodal agent development का दायरा बढ़ाता है
मुख्य विशेषताएँ
- Gemma 4 12B को इस तरह डिज़ाइन किया गया है कि यह सीधे लैपटॉप पर high-performance multimodal intelligence ला सके, और mobile-first efficiency को advanced reasoning के साथ जोड़ता है
- यह edge-friendly E4B और अधिक उन्नत 26B Mixture of Experts(MoE) के बीच स्थित है, और कम memory footprint में शक्तिशाली capabilities प्रदान करता है
- इसकी प्रमुख विशेषताएँ इस प्रकार हैं
- multimodal encoder के बिना vision और audio input को सीधे LLM backbone तक पहुँचाने वाली एकीकृत architecture
- 26B मॉडल के करीब benchmark performance तथा multi-step reasoning और agent workflow support
- केवल 16GB VRAM या unified memory के साथ local execution के लिए laptop readiness
- Apache 2.0 license और developer ecosystem support
- Multi-Token Prediction(MTP) drafters के माध्यम से latency में कमी
encoder-रहित multimodal processing का तरीका
- पारंपरिक multimodal model आमतौर पर image और audio को अलग encoder से transform करने के बाद उनकी representation language model को भेजते हैं
- Gemma 4 12B को इस तरह train किया गया है कि यह अलग encoder से बढ़ने वाली latency और memory usage से बचने के लिए audio और vision input को सीधे एकीकृत कर सके
- vision processing में, Gemma 4 का vision encoder एक हल्के embedding module से बदला गया है, जो single matrix multiplication, positional embedding और normalization से बना है, ताकि visual processing LLM backbone संभाल सके
- audio processing में, audio encoder को पूरी तरह हटा दिया गया है और raw audio signal को text token के समान dimensional space में project किया जाता है
- अधिक विस्तृत developer architecture विवरण Gemma 4 12B Developer Guide में देखा जा सकता है
शुरुआत करने के रास्ते
- कुछ क्लिक में LM Studio, Ollama, Google AI Edge Gallery App, Google AI Edge Eloquent app, और LiteRT-LM CLI पर प्रयोग किया जा सकता है
- pre-trained और instruction-tuned checkpoints को Hugging Face और Kaggle से डाउनलोड किया जा सकता है
- integration और training के लिए developer documentation और quick start notebook का उपयोग किया जा सकता है
- local inference pipeline को Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM से लागू किया जा सकता है, और Unsloth के साथ efficient fine-tuning की जा सकती है
- आधिकारिक Skills Repository एक skill library है, जिसे agents को नवीनतम Gemma capabilities के साथ build करने के लिए डिज़ाइन किया गया है
- production endpoint को Google Cloud पर Gemini Enterprise Agent Platform Model Garden, Cloud Run, और GKE के माध्यम से deploy किया जा सकता है
4 टिप्पणियां
मुझे इसे अपने MacBook M1, 32GB RAM वाले मॉडल पर चलाकर देखना होगा। अगर 12b है, तो शायद ठीक रहेगा।
यह तो अभी-अभी नहीं आया है, फिर इसका ज़िक्र क्यों हो रहा है?
पहले सिर्फ e मॉडल और 26b, 31b ही थे, और gemma 4 12b मॉडल इस बार नया आया है।
Hacker News की राय
नतीजे ठीक-ठाक थे, लेकिन कुछ बार अजीब और मामूली syntax errors को हाथ से ठीक करना पड़ा, जैसे एक extra closing parenthesis जोड़ देना या function definition को comma से अलग करने की कोशिश करना
इन संकेतों को देखते हुए यह लोकल coding model के रूप में ठीक-ठाक है, और सिर्फ output देखें तो लगभग 14 महीने पहले आए GPT-4.1 के काफ़ी करीब लगता है: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
12GB VRAM वाली consumer card पर 4-bit GGUF में 5 tokens/sec मिला, और interactive coding के लिए यह धीमा है, लेकिन काफ़ी उपयोगी मॉडल है
यह दिलचस्प है कि करीब एक साल में 12 अरब parameters वाला मॉडल एक खास benchmark पर उस coding performance तक लगभग पहुँच गया, जिसे पहले GPT-4.1 स्तर का माना जाता था
टेस्ट किए गए कई मॉडलों की सूची: https://senko.net/vibecode-bench/
सामान्य coding performance शायद Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B, gpt-oss-20b जैसे दूसरे छोटे मॉडलों से कम होगी
16GB laptop पर Qwen 3.5 9B स्पष्ट रूप से सबसे मज़बूत है, और छोटे coding models में top-tier Gemma 4 31B है, लेकिन dense होने की वजह से पूरा context इस्तेमाल करने के लिए लगभग 48GB unified memory चाहिए
यह speed लगभग वही है जो 4-bit पर उस आकार के मॉडल को DDR4 RAM bandwidth के साथ चलाने पर मिलती है, और अगर 12GB consumer Nvidia GPU जैसे RTX 2080 या RTX 3060 हों, तो llama.cpp CUDA backend में 20 tokens/sec से ज़्यादा आना चाहिए
“Gemma 4 के vision encoder को single matrix multiplication, positional embedding, और normalization से बने lightweight embedding module से बदला गया” — तकनीकी रूप से यह अब भी encoding ही है, और लगता है इसका मतलब बस यह है कि SigLIP जैसे dedicated model का इस्तेमाल नहीं किया गया
Developer guide में इसे 35M layer कहकर थोड़ा और समझाया गया है, लेकिन यह कितना robust है, इस पर जिज्ञासा है: https://developers.googleblog.com/gemma-4-12b-the-developer-...
“16GB RAM consumer laptop पर लोकल रन हो सकता है” वाली बात शायद quantization को मानकर कही गई है, और quality loss को देखते हुए यह कुछ हद तक misleading हो सकता है
FAIR यह 2 साल पहले ही कर चुका था: https://arxiv.org/abs/2405.09818
तब से मैं ऐसे मॉडल के public release का इंतज़ार कर रहा था, लेकिन परेशान करने वाली बात यह है कि Chameleon उसी सिद्धांत पर multimodal output भी दे सकता था, जबकि यह मॉडल सिर्फ input लेता है
जानना चाहूँगा कि multimodal output के बिना pretraining कैसे की गई, और क्या image output support था जिसे काट दिया गया
16GB Mac रखने वाले लोग, खासकर पत्रकार, काफ़ी हैं; कोई भी app डाउनलोड करके मॉडल install कर सकता है और तुरंत इसे आज़मा सकता है
अब लगता है पत्रकारों को OpenAI की consumer revenue outlook पर सवाल उठाने शुरू कर देने चाहिए
मैं AI को लेकर काफ़ी skeptical हूँ, लेकिन जानकार skeptic बनने की कोशिश में मैंने लोकल मॉडल के साथ agent tasks और CAD-to-image generation थोड़ा करके देखा, और Gemma 26B मॉडल मुझे काफ़ी पसंद आया
मैं इसका उपयोग cloud dependency बनाए बिना basics सीखने और OpenCode समझने के लिए कर रहा हूँ; यह code भी काफ़ी अच्छा लिखता है और अपनी गति से सीखने में मदद करता है
अगर यह 12B मॉडल प्रचार के दावे का आधा भी निकला, तो कम से कम short term में consumer-facing cloud business model पर सवाल खड़े करता है
यह साफ़ नहीं है कि यह app MTP drafter इस्तेमाल करता है या नहीं, और मैं अभी तक Gemma में इसे सीधे चला नहीं पाया हूँ, लेकिन Qwen 3.6 का built-in MTP support LM Studio में शानदार था
quantization पर ज़्यादा अटकने से पहले यह देखना चाहिए कि base model performance वास्तव में कितनी है
ऐसी efficiency improvements को लगातार विकसित होते देखना हैरान भी करता है और नहीं भी। जैसे silicon और CPU architecture समय के साथ लगातार shrink होकर ज़्यादा powerful हुए, वैसे ही AI भी समय के साथ 100 गुना efficient हो सकता है
कभी न कभी कोई सीमा आएगी, लेकिन अगले 30 साल शायद पिछले 30 साल से भी ज़्यादा प्रगति वाले होंगे, और हो सकता है हम किसी Blade Runner जैसी भविष्यवादी दुनिया में रहें जहाँ gene editing उम्रदराज़ कोशिकाओं और अंगों को ठीक करे और cancer का इलाज करे
हमारे जीवनकाल के बाद लोग शायद स्थिर रूप से 125 साल की उम्र तक सक्रियता बनाए रखते हुए जिएँगे, और आखिरकार 1000 साल की उम्र पर भी सोचने लगेंगे
30 साल पहले और 30 साल बाद को देखें तो बदलाव अविश्वसनीय लगेंगे। भगवान हमारी रक्षा करे
यह दौर निश्चित रूप से रोमांचक है, लेकिन cutting-edge प्रगति के नज़रिए से अभी भी तोड़ने के लिए बहुत से low-hanging fruit बचे हुए हैं
बस, कम संख्या के parameters में समा सकने वाले “ज्ञान” की एक सीमा होती है
शायद radio, aviation, या यहाँ तक कि शुरुआती microcomputer दौर भी कुछ ऐसा ही महसूस हुआ होगा
मैंने lifespan optimization को career या hobby से ऊपर रखने का रास्ता चुना है। मैं भविष्य देखना चाहता हूँ, और यह AI लहर सच में बहुत दिलचस्प है
ऐसा नहीं है
बड़े models अब भी काफी आगे हैं, और Gemma 31B भी कुल मिलाकर 12B से बेहतर है, लेकिन यह भ्रम नहीं होना चाहिए कि वह बड़े models के करीब पहुँच गया है
optimization की गुंजाइश निश्चित रूप से है, लेकिन जटिल कामों में accuracy के लिए ऐसे छोटे और दिखाई देने वाले gradients चाहिए जो training के दौरान पकड़े जाएँ और inference में उनका पीछा किया जा सके
उदाहरण के लिए, अगर आप कहें कि code मत लिखो और फिर coding सवाल पूछो, तो Gemma अब भी code लिख देता है, जबकि Gemini या Claude उस nuance को पकड़कर निर्देशों का बेहतर पालन करते हैं
मैं जानना चाहता हूँ कि Google के open model जारी करने के पीछे व्यावसायिक कारण क्या है। इस तरह की रिलीज़ के लिए आभारी हूँ, लेकिन एक for-profit company के रूप में यह बड़ी तस्वीर में कैसे फिट बैठता है, यह समझना चाहता हूँ
क्या यह अपने ही बनाए नए tech stack पर प्रतिस्पर्धियों को चढ़ने में मदद करना नहीं है?
क्या यह सिर्फ goodwill या marketing है, या इसमें कोई ऐसी strategy है जो मैं मिस कर रहा हूँ?
अगर inference पर्याप्त लोकप्रिय और मूल्यवान हो जाए और वे कंपनियाँ उससे अरबों डॉलर का मुनाफ़ा कमाने लगें, तो उसी मुनाफ़े से वे ऐसे replacement products और platforms बना सकती हैं जो Google और उसके ग्राहकों के बीच आ जाएँ
Google के पास पहले से दुनिया के सबसे बड़े 80% gross margin वाले businesses में से एक है, और हर कोई उसका एक हिस्सा चाहता है
अगर frontier inference को cost के करीब दिया जाए, और frontier से नीचे के models को open source करके model को commodity बना दिया जाए, तो frontier labs के लिए inference पर लगातार ऊँचा gross margin बनाए रखना मुश्किल हो जाएगा
यह एक रणनीतिक कदम है
मेरी अपनी company भी अभी कई platform products पर all-in है, और Microsoft ने भी कल कहा कि उसका लक्ष्य “Unmetered intelligence” है
छोटे local models से बहुत कुछ संभव होता है, और वे चीज़ें stack की दूसरी layers में revenue पैदा करने वाले हिस्से बन जाती हैं
वैसे भी कोई न कोई weights निकाल ही लेगा, इसलिए इन्हें open source करके औपचारिक रूप से जारी कर देना ज़्यादा आसान है
AI adoption बढ़ने पर यह सब साथ में ऊपर जाता है, और लोग अगर Google solutions चुनते हैं तो Google को और फ़ायदा होता है
Google model को भेजा गया हर token, चाहे free हो या paid, प्रतिस्पर्धियों पर यह दबाव डालता है कि cutting-edge बने रहने के लिए वे भारी पैसा खर्च करें
सवाल बस यह है कि model को public किया जाए या केवल pure R&D के लिए रखा जाए
दूसरे लोग पहले से ही इसी गुणवत्ता के models जारी कर रहे हैं, इसलिए इस प्रवाह में शामिल होना अपने ही पैर पर कुल्हाड़ी मारना नहीं लगता
अतिरिक्त self-cannibalization लगभग शून्य के बराबर है, और reputation का लाभ शायद इसके काबिल है
image processing बहुत खराब है। मैंने Qwen 3.5 0.8B के साथ कई tests किए, और सिर्फ 7% size वाला Qwen हर बार जीत गया, जबकि Gemma कई बार पूरी तरह गलत निकला
मैंने “This is a test” लिखा हुआ एक साधारण image दिया, फिर भी यह 6 मिनट तक analyze करने की कोशिश करता रहा और विफल हो गया, जबकि Qwen 3.5 0.8B ने 1 सेकंड से भी कम समय में आत्मविश्वास से सही जवाब दिया
हो सकता है मुझे मिला Q6 quantization टूटा हुआ हो, या LM Studio की समस्या हो, लेकिन किसी भी हालत में 0.8B का प्रदर्शन तुलना में चौंकाने वाला है
Gemma3 model में भी कई बार ऐसा हुआ कि उसने image में exposure या sexual scene होने का दावा करके description देने से मना कर दिया, और मैं उस behavior का मतलब समझ नहीं पाया
architecture बदलाव से अलग, यह शायद इस सवाल का जवाब है कि Gemma4 pretraining model lineup में 4B और 26B के बीच का हिस्सा अजीब तरह से खाली क्यों था
context headroom के साथ 16GB VRAM में आराम से फिट हो जाने वाला model एक स्वागतयोग्य upgrade है
multimedia को छोड़ दें, तो यह prismml के qwen2.5-आधारित 1.5-bit model से कितना बेहतर है, यह जानना दिलचस्प होगा
ऐसे small models के use cases क्या हैं, यह जानना चाहता हूँ। क्या इस size के models को रोज़मर्रा में इस्तेमाल करने वाला कोई व्यक्ति अपना वास्तविक अनुभव साझा कर सकता है?
जैसे scanned documents को formatted text में बदलना, image caption/description और object suitability classification करना (spam prevention सहित), और documents को संबंधित Wikipedia pages से match करके tag करना
मैं इन्हें frontier models की तरह इस्तेमाल नहीं करता, बल्कि हर prompt को एक स्पष्ट लक्ष्य वाले micro-tasks में तोड़ देता हूँ
पूरे flow को चलाने के लिए काफी glue code भी लिखता हूँ, और इस तरह के काम मैं LLM आने से पहले भी करता था
LLM की वजह से complex code कम करना और model जोड़कर बेहतर परिणाम लेना संभव हुआ
local model इस्तेमाल करने की वजह cost और control है। मेरे पास पहले से workstation और GPU थे, इसलिए running cost बस बिजली है
मैंने OpenAI और Google के proprietary models भी इस्तेमाल किए हैं, लेकिन एक बार tool जिस model पर निर्भर था उसके retire हो जाने से चीज़ें हिल गई थीं। अगर weights local में stored हों तो वह चिंता नहीं रहती
कुछ समय पहले मैंने एक छोटा app भी देखा था जो screenshot देखकर file की सामग्री के आधार पर उसका filename बदल देता है
ऐसे छोटे उदाहरण बहुत हैं, और कई use cases में frontier model की बिल्कुल ज़रूरत नहीं होती
मैंने Gemma को कई सालों के online writing review और classification में इस्तेमाल किया है। यह उन लगभग 50 लाख शब्दों पर किया गया था जो मैंने open source project forums, HN, Reddit आदि पर लिखे थे, और चूंकि यह मेरा अपना लेखन था इसलिए data source ethics की चिंता के बिना LoRA training का प्रयोग भी किया
अभी इसे एक खास उद्योग के लिए web search और data extraction में इस्तेमाल कर रहा हूँ
यह इतना स्मार्ट है कि दिए गए शहर में उस उद्योग के businesses ढूंढ ले, उनकी websites पढ़ ले, address और phone number जैसी जानकारी निकाल ले, duplicate हटाए, और दूसरे sources से cross-check भी कर ले
Gemma 4 ने Gemini 2.5 Flash से बेहतर या कम से कम अधिक nuanced judgment दिया, और नया Gemini 3.5 Flash बहुत अच्छा है, लेकिन अवास्तविक रूप से महंगा है
अगर बहुत तेज performance की ज़रूरत न हो, तो self-hosted Gemma 4 कई tasks में जीत जाता है
Qwen 3.6 27B भी अपने size के हिसाब से security bugs ढूंढने में हैरान करने जितना अच्छा है। यह कई बड़े models को हरा देता है और Gemini Pro 3.1 के करीब है, लेकिन Gemini 3.5 Flash आश्चर्यजनक रूप से साफ़ तौर पर बेहतर है
इसमें सिर्फ बिजली का खर्च आता है, और मेरी बिजली सस्ती है और 100% renewable है, इसलिए hosted models की तुलना में इसे ज़्यादा व्यापक रूप से इस्तेमाल कर सकता हूँ
फिर भी समझदारी का पैसा अभी providers द्वारा subsidy जैसी सस्ती दरों पर दिए जा रहे tokens खरीदने में ही है
30GB से बड़े model चलाने वाला hardware खरीदने की बजाय Claude या Codex की 100 डॉलर subscription लेकर top models को बहुत discounted कीमत पर इस्तेमाल करना अभी ज़्यादा फ़ायदेमंद है
अगर automation API चाहिए, तो DeepSeek/MiMo, Anthropic या OpenAI के top models से एक या दो orders of magnitude तक सस्ता है
मैंने दो inference machines पर लगभग 4000 डॉलर खर्च किए, और इस पैसे में ऐसे छोटे models के लिए कई सालों के tokens खरीदे जा सकते थे
लेकिन मुझे hardware के साथ काम करना पसंद है, इसलिए वही अपने आप में reward है, और अगर कुछ पैसा वापस निकल आए तो वह bonus है
अगर बड़े providers subsidized tokens पर पैसा जलाना बंद कर दें और गंभीर billing शुरू करें, तो हिसाब बदल सकता है, और हो सकता है कि RAM की कीमत 2~3 गुना बढ़ने से पहले equipment खरीद लेना सौभाग्य साबित हो
अगर आप तकनीक सीखना या खुद training experiments करना नहीं चाहते, तो ज़्यादातर मामलों में local run करने की कोशिश न करना ही बेहतर होगा
अगर आपके पास local model इस्तेमाल करने का बहुत specific idea है, तो graphics card या NPU के बिना भी इसे अच्छी तरह चलाया जा सकता है
लेकिन इस्तेमाल का तरीका बेहद सीमित रखना होगा। यह general-purpose chatbot के रूप में अच्छा नहीं है, और local LLM पसंद होने के बावजूद उस स्थिति में मैं hosted latest model ही चुनूंगा
जो काम इतना आसान हो कि Sonnet को दिया जा सके, वह मैं Gemma 4 को भी देता हूँ, और यह बहुत अच्छा काम कर रहा है
नकारात्मक रूप से चौंकने की तुलना में सकारात्मक रूप से चौंकने के मामले कहीं ज़्यादा हैं
ऐसा भी कम नहीं होता कि Gemma 4 fail हो जाए, इसलिए Opus 4.7 पर बदला जाए, और फिर Opus भी fail हो जाए
यह काफ़ी अच्छा update है। लेकिन demo video थोड़ी मज़ेदार है
tester ने release को bullet points में बदलने को कहा तो model ने यह अच्छी तरह कर दिया
फिर जब कहा गया कि इसी सामग्री से email draft बनाओ, तो उसने बिना मांगे bullet points को paragraphs में बदल दिया और अभी जो सही किया था उसे पलट दिया
पता नहीं email में bullet points न डालने का कोई etiquette होता है या नहीं
मैंने German से जुड़े benchmark को जल्दी deploy करके check किया। CohereLabs/include-base-44 के German-specific result में Gemma 4 12B लगभग 0.618 पर है
Gemma 4 26B(A4B MoE) 0.647 है, Qwen 3 14B 0.621 है, Gemma 4 12B 0.618 है, Ministral 14B 2512 0.604 है, और Gemma 3 12B 0.547 है
Qwen 3 14B और Gemma 4 12B के बीच का अंतर random fluctuation की सीमा के भीतर है, और repeated runs में बिल्कुल same score भी आया है
अगला स्तर, Gemma 4 31B, इस benchmark में 0.676 है, और reasoning की अनुमति वाले Qwen 3 14B ने भी 0.676 दिया
कल anti-cheating benchmark भी चलाकर देखूंगा कि क्या Qwen अब भी आगे है