Google ने ओपन मॉडल Gemma 4 पेश किया
(deepmind.google)- Google DeepMind ने Gemini 3 तकनीक पर आधारित अगली पीढ़ी का ओपन AI मॉडल Gemma 4 घोषित किया, जिसे प्रति parameter intelligence efficiency को अधिकतम करने वाली संरचना के साथ डिज़ाइन किया गया है
- मॉडल E2B, E4B, 26B, 31B चार आकारों में उपलब्ध है, और मोबाइल·IoT से लेकर personal GPU environments तक व्यापक रनटाइम रेंज को सपोर्ट करता है
- इसमें multimodal reasoning, 140 भाषाओं का समर्थन, agentic workflows, सूक्ष्म fine-tuning, efficient architecture जैसे प्रमुख फीचर्स शामिल हैं
- गणित·coding·multimodal understanding क्षेत्रों में Gemma 3 की तुलना में प्रदर्शन काफी बेहतर हुआ है, और security·reliability standards Google के commercial models के समान स्तर पर बनाए रखे गए हैं
- मॉडल weights को Hugging Face, Ollama, Kaggle, LM Studio, Docker आदि से डाउनलोड किया जा सकता है, और यह local तथा cloud environments में integrated execution को सपोर्ट करता है
Gemma 4 — अगली पीढ़ी का ओपन AI मॉडल
- Gemma 4 Google DeepMind का नवीनतम ओपन मॉडल है, जिसे Gemini 3 के research और technology के आधार पर विकसित किया गया है, और इसकी संरचना intelligence-per-parameter को अधिकतम करने के लिए बनाई गई है
- मॉडल E2B, E4B, 26B, 31B चार आकारों में उपलब्ध है, और मोबाइल·IoT से लेकर personal workstations तक विभिन्न environments में चल सकता है
- इसके मुख्य फीचर्स में multimodal reasoning, 140 भाषाओं का समर्थन, agentic workflows, सूक्ष्म fine-tuning, और efficient architecture शामिल हैं
- performance benchmarks में इसने Gemma 3 की तुलना में समग्र सुधार दर्ज किया, खासकर गणित·coding·multimodal understanding में ऊंचे स्कोर हासिल किए
- security·reliability standards Google के commercial models के समान स्तर पर बनाए रखे गए हैं, और मॉडल weights को Hugging Face, Ollama, Kaggle, LM Studio, Docker आदि से डाउनलोड किया जा सकता है
मॉडल संरचना और दक्षता
- Gemma 4 को Gemini 3 की तकनीकी नींव पर डिज़ाइन किया गया है और यह intelligence efficiency को अधिकतम करने वाली ओपन मॉडल संरचना अपनाता है
- मॉडल आकार E2B, E4B, 26B, 31B चार versions में विभाजित हैं, और हर version को computing resources और memory efficiency के अनुसार optimize किया गया है
- E2B·E4B: मोबाइल और IoT devices के लिए, अधिकतम efficiency और offline execution सपोर्ट
- 26B·31B: personal GPU environments में frontier-level reasoning capability प्रदान करते हैं
प्रमुख फीचर्स
-
Agentic workflows
- function calling का native support है, जिससे यूज़र की ओर से planning·app navigation·task execution करने वाले autonomous agents बनाए जा सकते हैं
-
Multimodal reasoning
- audio और visual understanding को जोड़कर समृद्ध multimodal applications के विकास को सपोर्ट करता है
-
Support for 140 languages
- साधारण translation से आगे बढ़कर cultural context की समझ सहित multilingual experiences बनाए जा सकते हैं
-
Fine tuning
- यूज़र अपने पसंदीदा frameworks और techniques के साथ विशिष्ट tasks के प्रदर्शन सुधार के लिए fine-tuning कर सकते हैं
-
Efficient architecture
- इसे अपने हार्डवेयर पर चलाया जा सकता है, और यह efficient development तथा deployment environment प्रदान करता है
प्रदर्शन
- Gemma 4 का मूल्यांकन विभिन्न text generation से जुड़े datasets और metrics के आधार पर किया गया
- प्रमुख benchmark परिणाम (Gemma 4 31B IT के आधार पर):
- Arena AI (text): 1452 (Gemma 3 27B की तुलना में 1365)
- MMMLU (multilingual Q&A): 85.2%
- MMMU Pro (multimodal reasoning): 76.9%
- AIME 2026 (गणित): 89.2%
- LiveCodeBench v6 (coding problems): 80.0%
- GPQA Diamond (scientific knowledge): 84.3%
- τ2-bench (agent tool use): 86.4%
- कुल मिलाकर Gemma 3 की तुलना में सभी श्रेणियों में प्रदर्शन बेहतर दिखता है, खासकर गणित·coding·multimodal understanding में बड़ा सुधार है
E2B और E4B — मोबाइल और IoT के लिए
- audio·vision support के जरिए edge devices पर real-time processing संभव है
- smartphones, Raspberry Pi, Jetson Nano आदि पर पूर्ण offline execution और लगभग zero latency प्रदर्शन प्रदान करता है
- Google AI Edge Gallery के जरिए इसे आज़माया जा सकता है
26B और 31B — उच्च-प्रदर्शन local AI
- IDE, coding assistants, agentic workflows के लिए उपयुक्त उन्नत reasoning capabilities प्रदान करता है
- consumer GPUs के लिए optimize किया गया है, जिससे छात्र·शोधकर्ता·डेवलपर्स local AI server environments बना सकते हैं
- इसे Google AI Studio में सीधे चलाया जा सकता है
सुरक्षा और विश्वसनीयता
- Gemma 4 पर Google के commercial models जैसे ही infrastructure security protocols लागू किए गए हैं
- यह enterprise और public institutions के उपयोग के लिए पारदर्शी और भरोसेमंद आधार प्रदान करता है
- उच्चतम स्तर के security·reliability standards को पूरा करते हुए नवीनतम AI capabilities भी देता है
डाउनलोड और रन
-
मॉडल weights डाउनलोड
- Gemma 4 मॉडल weights Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub पर उपलब्ध हैं
-
training और deployment support
- Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama सहित कई platforms के साथ integration support
- आधिकारिक docs और API के जरिए training·deployment·inference environments कॉन्फ़िगर किए जा सकते हैं
Gemmaverse कम्युनिटी
- Gemmaverse के जरिए दुनिया भर के डेवलपर्स द्वारा Gemma से बनाए गए projects को देखा जा सकता है
- Google DeepMind के X, Instagram, YouTube, LinkedIn, GitHub channels के जरिए ताज़ा updates मिलते हैं
- subscription के माध्यम से नवीनतम AI innovation updates प्राप्त किए जा सकते हैं
2 टिप्पणियां
Hacker News की राय
Gemma 4 का reasoning, multimodal, और tool calling फीचर्स को एकीकृत करने वाला वर्ज़न जारी किया गया है
Hugging Face collection से quantized models डाउनलोड किए जा सकते हैं, और Unsloth guide भी साथ में दी गई है
सुझाए गए parameters हैं temperature=1.0, top_p=0.95, top_k=64, EOS
"है, और thinking trace<|channel>thought\nका उपयोग करता हैमैंने OCR, embedding, और summary pipeline बनाकर 1800 के दशक के land records को searchable बनाया
GGUF और llama.cpp के आधार पर multilingual search संभव हुआ, और 1 मिनट का processing wait time कोई समस्या नहीं लगती
--reasoning-budget 0या--chat-template-kwargs '{"enable_thinking":false}'काम नहीं कियाबाद में पता चला कि नया flag
--reasoning offइस्तेमाल करना चाहिएMacBook Air M4(32GB) पर unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL टेस्ट किया, और यह qwen3.5-35b-a3b से कहीं ज़्यादा प्रभावशाली लगा
PowerShell ने कई components install करने के बाद
localhostURL खोलने को कहा, लेकिन उसके तुरंत बाद fail हो गयामैं developer नहीं हूँ, इसलिए PowerShell का अनुभव नहीं होने से दिक्कत हुई, और अच्छा होगा अगर इसे single executable (.exe) के रूप में distribute किया जाए
LM Studio में Gemma 4 models टेस्ट किए गए
2B और 4B models ने अजीब pelican images बनाईं, जबकि 26B-A4B model ने अब तक के सबसे बेहतरीन नतीजे दिए
test results साझा किए गए
31B model ने local पर सिर्फ "---\n" आउटपुट किया, लेकिन AI Studio API में ठीक से चला
उदाहरण: clocks.brianmoore.com
Gemma 4 और Qwen 3.5 के benchmark comparison की एक table तैयार की गई
इसमें MMLU-Pro, GPQA, Codeforces ELO जैसे कई metrics शामिल हैं
Qwen 3.5-27B और Gemma 4 26B/31B की तुलना में कुछ नतीजे उलटे दिखते हैं
Unsloth team ने GGUF जल्दी जारी किया, यह प्रभावशाली है, और अगर यह Qwen 3.5 के बराबर है तो यह बहुत उत्साहजनक है
छोटे Gemma models, Qwen के छोटे models से काफ़ी कमजोर हैं
Qwen3.5-4B और Gemma 4 पर Reddit thread देखें
मैं Gemma team का हिस्सा हूँ और इस major release पर साथ काम किया है
सवाल हों तो जवाब दे सकता हूँ
related blog देखें
Qwen3.5 9B से प्रतिस्पर्धा करने वाला mid-range model आने की उम्मीद थी
क्या benchmark खुद ही comparison distortion पैदा कर रहा है, यह भी जिज्ञासा है
comparison link
Unix timestamp calculation prompt के साथ Gemma 4 और Qwen 3.5 की तुलना की गई
Qwen ने 8 मिनट से ज़्यादा सोचने के बाद सही जवाब दिया, जबकि Gemma ने 30 सेकंड में गलत नतीजा दिया
Gemma ने Python script लिखी लेकिन चला नहीं पाई, इसलिए गलत जवाब दिया
नहीं तो वह सिर्फ अंदाज़ा ही लगा सकता है
datecommand GNU environment में सही काम करती हैmacOS पर
gdateinstall करना होगा (brew install coreutils)gist link
model ने बस “कल्पना में” execution किया था
Modular का MAX nightly Blackwell और AMD MI355 पर सबसे तेज़ open source implementation है
Modular blog के अनुसार इसे pip से सीधे install किया जा सकता है
Gemma 4 का ELO-केंद्रित benchmark भ्रामक हो सकता है
ज़्यादातर metrics में यह Qwen 3.5 27B से नीचे है
लेकिन 2B और 4B models ASR या OCR के लिए दिलचस्प हैं
मैं Lmarena (human evaluation based) scores पर ज़्यादा भरोसा करता हूँ
comparison link
आख़िरकार इंतज़ार किया हुआ release आ गया
एक-दो और iteration के बाद लगता है कि self-hosting environment में ज़्यादातर ज़रूरतें पूरी हो जाएँगी
पहले simple Q&A काफ़ी था, लेकिन अब coding agent स्तर की उम्मीद होने लगी है
open models अभी वहाँ तक नहीं पहुँचे हैं, लेकिन यह release उम्मीद जगाता है
ये translation, classification, और categorization के ज़्यादातर काम संभालते हैं
इस release की सबसे अच्छी बात Apache 2.0 license है
E2B, E4B (mobile के लिए), 26B-A4B (MoE), और 31B (बड़ा dense) models उपलब्ध हैं
mobile versions audio input सपोर्ट करते हैं, और 31B agent tasks में मज़बूत है
26B-A4B की VRAM efficiency मिलती-जुलती है, लेकिन inference speed कहीं तेज़ है
एक छोटे Rust project पर Gemma 4 26B और Qwen 3.5 27B की तुलना की गई
Qwen ने 1 घंटे से ज़्यादा समय लिया, Gemma ने 20 मिनट में ही हार मान ली
Codex के summary के अनुसार, Qwen की structural completeness बेहतर थी और Gemma तेज़ थी लेकिन अधूरी रही
मैं भी इस आकलन से सहमत हूँ
related PR और issue देखें
release के शुरुआती दौर में जल्दबाज़ी में निष्कर्ष नहीं निकालना चाहिए
26B-A4B की तुलना Qwen 3.5 35B-A3B से की जानी चाहिए
दुर्भाग्य से, 120b वाला रूमर सही नहीं निकला।