10 पॉइंट द्वारा GN⁺ 2026-04-03 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Google DeepMind ने Gemini 3 तकनीक पर आधारित अगली पीढ़ी का ओपन AI मॉडल Gemma 4 घोषित किया, जिसे प्रति parameter intelligence efficiency को अधिकतम करने वाली संरचना के साथ डिज़ाइन किया गया है
  • मॉडल E2B, E4B, 26B, 31B चार आकारों में उपलब्ध है, और मोबाइल·IoT से लेकर personal GPU environments तक व्यापक रनटाइम रेंज को सपोर्ट करता है
  • इसमें multimodal reasoning, 140 भाषाओं का समर्थन, agentic workflows, सूक्ष्म fine-tuning, efficient architecture जैसे प्रमुख फीचर्स शामिल हैं
  • गणित·coding·multimodal understanding क्षेत्रों में Gemma 3 की तुलना में प्रदर्शन काफी बेहतर हुआ है, और security·reliability standards Google के commercial models के समान स्तर पर बनाए रखे गए हैं
  • मॉडल weights को Hugging Face, Ollama, Kaggle, LM Studio, Docker आदि से डाउनलोड किया जा सकता है, और यह local तथा cloud environments में integrated execution को सपोर्ट करता है

Gemma 4 — अगली पीढ़ी का ओपन AI मॉडल

  • Gemma 4 Google DeepMind का नवीनतम ओपन मॉडल है, जिसे Gemini 3 के research और technology के आधार पर विकसित किया गया है, और इसकी संरचना intelligence-per-parameter को अधिकतम करने के लिए बनाई गई है
  • मॉडल E2B, E4B, 26B, 31B चार आकारों में उपलब्ध है, और मोबाइल·IoT से लेकर personal workstations तक विभिन्न environments में चल सकता है
  • इसके मुख्य फीचर्स में multimodal reasoning, 140 भाषाओं का समर्थन, agentic workflows, सूक्ष्म fine-tuning, और efficient architecture शामिल हैं
  • performance benchmarks में इसने Gemma 3 की तुलना में समग्र सुधार दर्ज किया, खासकर गणित·coding·multimodal understanding में ऊंचे स्कोर हासिल किए
  • security·reliability standards Google के commercial models के समान स्तर पर बनाए रखे गए हैं, और मॉडल weights को Hugging Face, Ollama, Kaggle, LM Studio, Docker आदि से डाउनलोड किया जा सकता है

मॉडल संरचना और दक्षता

  • Gemma 4 को Gemini 3 की तकनीकी नींव पर डिज़ाइन किया गया है और यह intelligence efficiency को अधिकतम करने वाली ओपन मॉडल संरचना अपनाता है
  • मॉडल आकार E2B, E4B, 26B, 31B चार versions में विभाजित हैं, और हर version को computing resources और memory efficiency के अनुसार optimize किया गया है
    • E2B·E4B: मोबाइल और IoT devices के लिए, अधिकतम efficiency और offline execution सपोर्ट
    • 26B·31B: personal GPU environments में frontier-level reasoning capability प्रदान करते हैं

प्रमुख फीचर्स

  • Agentic workflows

    • function calling का native support है, जिससे यूज़र की ओर से planning·app navigation·task execution करने वाले autonomous agents बनाए जा सकते हैं
  • Multimodal reasoning

    • audio और visual understanding को जोड़कर समृद्ध multimodal applications के विकास को सपोर्ट करता है
  • Support for 140 languages

    • साधारण translation से आगे बढ़कर cultural context की समझ सहित multilingual experiences बनाए जा सकते हैं
  • Fine tuning

    • यूज़र अपने पसंदीदा frameworks और techniques के साथ विशिष्ट tasks के प्रदर्शन सुधार के लिए fine-tuning कर सकते हैं
  • Efficient architecture

    • इसे अपने हार्डवेयर पर चलाया जा सकता है, और यह efficient development तथा deployment environment प्रदान करता है

प्रदर्शन

  • Gemma 4 का मूल्यांकन विभिन्न text generation से जुड़े datasets और metrics के आधार पर किया गया
  • प्रमुख benchmark परिणाम (Gemma 4 31B IT के आधार पर):
    • Arena AI (text): 1452 (Gemma 3 27B की तुलना में 1365)
    • MMMLU (multilingual Q&A): 85.2%
    • MMMU Pro (multimodal reasoning): 76.9%
    • AIME 2026 (गणित): 89.2%
    • LiveCodeBench v6 (coding problems): 80.0%
    • GPQA Diamond (scientific knowledge): 84.3%
    • τ2-bench (agent tool use): 86.4%
  • कुल मिलाकर Gemma 3 की तुलना में सभी श्रेणियों में प्रदर्शन बेहतर दिखता है, खासकर गणित·coding·multimodal understanding में बड़ा सुधार है

E2B और E4B — मोबाइल और IoT के लिए

  • audio·vision support के जरिए edge devices पर real-time processing संभव है
  • smartphones, Raspberry Pi, Jetson Nano आदि पर पूर्ण offline execution और लगभग zero latency प्रदर्शन प्रदान करता है
  • Google AI Edge Gallery के जरिए इसे आज़माया जा सकता है

26B और 31B — उच्च-प्रदर्शन local AI

  • IDE, coding assistants, agentic workflows के लिए उपयुक्त उन्नत reasoning capabilities प्रदान करता है
  • consumer GPUs के लिए optimize किया गया है, जिससे छात्र·शोधकर्ता·डेवलपर्स local AI server environments बना सकते हैं
  • इसे Google AI Studio में सीधे चलाया जा सकता है

सुरक्षा और विश्वसनीयता

  • Gemma 4 पर Google के commercial models जैसे ही infrastructure security protocols लागू किए गए हैं
  • यह enterprise और public institutions के उपयोग के लिए पारदर्शी और भरोसेमंद आधार प्रदान करता है
  • उच्चतम स्तर के security·reliability standards को पूरा करते हुए नवीनतम AI capabilities भी देता है

डाउनलोड और रन

  • मॉडल weights डाउनलोड

    • Gemma 4 मॉडल weights Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub पर उपलब्ध हैं
  • training और deployment support

    • Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama सहित कई platforms के साथ integration support
    • आधिकारिक docs और API के जरिए training·deployment·inference environments कॉन्फ़िगर किए जा सकते हैं

Gemmaverse कम्युनिटी

  • Gemmaverse के जरिए दुनिया भर के डेवलपर्स द्वारा Gemma से बनाए गए projects को देखा जा सकता है
  • Google DeepMind के X, Instagram, YouTube, LinkedIn, GitHub channels के जरिए ताज़ा updates मिलते हैं
  • subscription के माध्यम से नवीनतम AI innovation updates प्राप्त किए जा सकते हैं

2 टिप्पणियां

 
GN⁺ 2026-04-03
Hacker News की राय
  • Gemma 4 का reasoning, multimodal, और tool calling फीचर्स को एकीकृत करने वाला वर्ज़न जारी किया गया है
    Hugging Face collection से quantized models डाउनलोड किए जा सकते हैं, और Unsloth guide भी साथ में दी गई है
    सुझाए गए parameters हैं temperature=1.0, top_p=0.95, top_k=64, EOS " है, और thinking trace <|channel>thought\n का उपयोग करता है

    • Daniel का काम दुनिया बदल रहा है
      मैंने OCR, embedding, और summary pipeline बनाकर 1800 के दशक के land records को searchable बनाया
      GGUF और llama.cpp के आधार पर multilingual search संभव हुआ, और 1 मिनट का processing wait time कोई समस्या नहीं लगती
    • मैंने llama.cpp में “thinking” बंद करने की कोशिश की, लेकिन --reasoning-budget 0 या --chat-template-kwargs '{"enable_thinking":false}' काम नहीं किया
      बाद में पता चला कि नया flag --reasoning off इस्तेमाल करना चाहिए
      MacBook Air M4(32GB) पर unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL टेस्ट किया, और यह qwen3.5-35b-a3b से कहीं ज़्यादा प्रभावशाली लगा
    • guide में “Search and download Gemma 4” स्टेप का screenshot qwen3.5 के लिए है, और Unsloth Studio में सिर्फ Gemma 3 models दिखते हैं
    • यह शायद शुरुआती सवाल है, लेकिन मैं जानना चाहता हूँ कि original model की बजाय यह वर्ज़न क्यों इस्तेमाल करना चाहिए
    • Windows 11 पर Unsloth के साथ Gemma 4 install करते समय password सेट करने वाले स्टेप पर error आया
      PowerShell ने कई components install करने के बाद localhost URL खोलने को कहा, लेकिन उसके तुरंत बाद fail हो गया
      मैं developer नहीं हूँ, इसलिए PowerShell का अनुभव नहीं होने से दिक्कत हुई, और अच्छा होगा अगर इसे single executable (.exe) के रूप में distribute किया जाए
  • LM Studio में Gemma 4 models टेस्ट किए गए
    2B और 4B models ने अजीब pelican images बनाईं, जबकि 26B-A4B model ने अब तक के सबसे बेहतरीन नतीजे दिए
    test results साझा किए गए
    31B model ने local पर सिर्फ "---\n" आउटपुट किया, लेकिन AI Studio API में ठीक से चला

    • pelican benchmark की वजह से अब हर model release पर Hacker News comments देखना पड़ता है
    • क्या pelican अब training data का हिस्सा बन चुका है, यह जानने की जिज्ञासा है
    • अच्छा होगा अगर सभी pelican images को एक साथ देखने के लिए gallery page हो
      उदाहरण: clocks.brianmoore.com
    • instruction-tuned version इस्तेमाल करने पर pelican quality बहुत बेहतर हो सकती है
    • यह जानना है कि इसे किस तरह के laptop specs पर चलाया गया
  • Gemma 4 और Qwen 3.5 के benchmark comparison की एक table तैयार की गई
    इसमें MMLU-Pro, GPQA, Codeforces ELO जैसे कई metrics शामिल हैं

    • ELO score tfa के graph से काफ़ी अलग है
      Qwen 3.5-27B और Gemma 4 26B/31B की तुलना में कुछ नतीजे उलटे दिखते हैं
      Unsloth team ने GGUF जल्दी जारी किया, यह प्रभावशाली है, और अगर यह Qwen 3.5 के बराबर है तो यह बहुत उत्साहजनक है
    • 24GB GPU वाला उपयोगकर्ता इस table के आधार पर कौन-सा model चुने, यह स्पष्ट नहीं है
    • axis को उलटकर और कुछ models हटाकर की गई तुलना उल्टा गलतफहमी पैदा कर सकती है
      छोटे Gemma models, Qwen के छोटे models से काफ़ी कमजोर हैं
      Qwen3.5-4B और Gemma 4 पर Reddit thread देखें
  • मैं Gemma team का हिस्सा हूँ और इस major release पर साथ काम किया है
    सवाल हों तो जवाब दे सकता हूँ

    • क्या Gemma 3 की तरह quantization-aware training (QAT) version जारी करने की योजना है
      related blog देखें
    • इस बार 12B version क्यों नहीं है, यह जानना है
      Qwen3.5 9B से प्रतिस्पर्धा करने वाला mid-range model आने की उम्मीद थी
    • “major number release” का मतलब सच में compute resource scale-up है, या फिर नई architecture पर शिफ्ट करना, यह जानना है
    • ELO score के अलावा दूसरे benchmarks में performance कम क्यों दिख रही है, यह पूछा गया
      क्या benchmark खुद ही comparison distortion पैदा कर रहा है, यह भी जिज्ञासा है
    • निजी परीक्षण में यह Gemini 3 Pro के लगभग बराबर लगा, और cost 10 गुना कम थी
      comparison link
  • Unix timestamp calculation prompt के साथ Gemma 4 और Qwen 3.5 की तुलना की गई
    Qwen ने 8 मिनट से ज़्यादा सोचने के बाद सही जवाब दिया, जबकि Gemma ने 30 सेकंड में गलत नतीजा दिया
    Gemma ने Python script लिखी लेकिन चला नहीं पाई, इसलिए गलत जवाब दिया

    • अगर model को सच में code execute करना है, तो agentic harness environment में sandboxing और specification देनी होगी
      नहीं तो वह सिर्फ अंदाज़ा ही लगा सकता है
    • date command GNU environment में सही काम करती है
      macOS पर gdate install करना होगा (brew install coreutils)
    • RX 9070 XT(24GB VRAM) environment में बिना tools के भी सही result मिला
      gist link
    • मूल comment लिखने वाले ने model को actual command execution permission नहीं दी थी
      model ने बस “कल्पना में” execution किया था
    • आख़िरी वाक्य मज़ेदार था
  • Modular का MAX nightly Blackwell और AMD MI355 पर सबसे तेज़ open source implementation है
    Modular blog के अनुसार इसे pip से सीधे install किया जा सकता है

    • पूछा गया कि क्या यह TensorRT-LLM से तेज़ है, या फिर TensorRT-LLM को open source न मानने की कोई वजह है
    • यह जानना है कि PyTorch के मुकाबले speedup ratio कितना है
  • Gemma 4 का ELO-केंद्रित benchmark भ्रामक हो सकता है
    ज़्यादातर metrics में यह Qwen 3.5 27B से नीचे है
    लेकिन 2B और 4B models ASR या OCR के लिए दिलचस्प हैं

    • public benchmarks में हेरफेर करना आसान है
      मैं Lmarena (human evaluation based) scores पर ज़्यादा भरोसा करता हूँ
    • निजी परीक्षण में coding को छोड़कर बाकी क्षेत्रों में काफ़ी अच्छे नतीजे मिले
      comparison link
    • Chinese models का arc-agi 2 जैसे private tests में performance कम रहता है
    • benchmarks सिर्फ reference के लिए होते हैं, सबसे सही तरीका है कि अपनी actual use case पर खुद test किया जाए
    • “ELO Score” से ठीक किस metric का मतलब है, यह स्पष्ट नहीं है
  • आख़िरकार इंतज़ार किया हुआ release आ गया
    एक-दो और iteration के बाद लगता है कि self-hosting environment में ज़्यादातर ज़रूरतें पूरी हो जाएँगी

    • मैं भी सहमत हूँ, लेकिन मेरी “daily needs” हर साल और जटिल होती जा रही हैं
      पहले simple Q&A काफ़ी था, लेकिन अब coding agent स्तर की उम्मीद होने लगी है
      open models अभी वहाँ तक नहीं पहुँचे हैं, लेकिन यह release उम्मीद जगाता है
    • Gemma3:27b और Qwen3-vl:30b-a3b मेरे सबसे ज़्यादा इस्तेमाल होने वाले local LLM हैं
      ये translation, classification, और categorization के ज़्यादातर काम संभालते हैं
    • यह जानना है कि self-hosting किस तरह के कामों के लिए इस्तेमाल किया जा रहा है
  • इस release की सबसे अच्छी बात Apache 2.0 license है
    E2B, E4B (mobile के लिए), 26B-A4B (MoE), और 31B (बड़ा dense) models उपलब्ध हैं
    mobile versions audio input सपोर्ट करते हैं, और 31B agent tasks में मज़बूत है
    26B-A4B की VRAM efficiency मिलती-जुलती है, लेकिन inference speed कहीं तेज़ है

  • एक छोटे Rust project पर Gemma 4 26B और Qwen 3.5 27B की तुलना की गई
    Qwen ने 1 घंटे से ज़्यादा समय लिया, Gemma ने 20 मिनट में ही हार मान ली
    Codex के summary के अनुसार, Qwen की structural completeness बेहतर थी और Gemma तेज़ थी लेकिन अधूरी रही
    मैं भी इस आकलन से सहमत हूँ

    • अभी chat template bug की वजह से tool calling अस्थिर है
      related PR और issue देखें
      release के शुरुआती दौर में जल्दबाज़ी में निष्कर्ष नहीं निकालना चाहिए
    • Qwen 3.5 27B एक dense model है, इसलिए इसकी तुलना Gemma 4 31B से करना सही है
      26B-A4B की तुलना Qwen 3.5 35B-A3B से की जानी चाहिए
    • Qwen dense है, जबकि Gemma MoE architecture पर है, इसलिए सीधी तुलना मुश्किल है
 
eoeoe 2026-04-03

दुर्भाग्य से, 120b वाला रूमर सही नहीं निकला।