Google ने Gemma 3n पेश किया - नए on-device multimodal AI का आगमन

(developers.googleblog.com)

1 पॉइंट द्वारा GN⁺ 2025-06-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Gemma 3n मोबाइल·edge वातावरण के लिए नवीनतम on-device multimodal AI मॉडल है, जो image·audio·video·text सभी को प्रोसेस कर सकता है
efficiency-केंद्रित संरचना और इनोवेटिव architecture (Matformer, Per-Layer Embeddings, MobileNet-V5 आदि) के जरिए, मौजूदा cloud बड़े मॉडलों के स्तर का प्रदर्शन 2~3GB memory में हासिल करता है
E2B/E4B दो मॉडल साइज उपलब्ध हैं और Mix-n-Match तरीके से hardware के मुताबिक बारीक custom size सपोर्ट करता है
speech recognition·translation, real-time vision analysis, 140 भाषाओं की multilingual processing जैसे कई on-device AI use case में तुरंत लागू किया जा सकता है
Hugging Face, Ollama, llama.cpp जैसे प्रमुख AI open source ecosystem के साथ व्यापक integration है, और कई tool·API·SDK के जरिए तुरंत इस्तेमाल किया जा सकता है

अवलोकन और पृष्ठभूमि

पिछले साल की शुरुआत में जारी हुआ पहला Gemma मॉडल 16 करोड़ से अधिक downloads दर्ज करते हुए Gemmaverse नाम के ecosystem में विकसित हुआ
इस ecosystem में security, healthcare जैसे विभिन्न specialized मॉडल और community contributions से बने कई इनोवेटिव use case शामिल हैं
Google ने इसी सफलता के आधार पर, मोबाइल-केंद्रित रूप से डिज़ाइन किए गए Gemma 3n की आधिकारिक रिलीज़ की घोषणा की
यह Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama जैसे developer-friendly ecosystem और tools के साथ व्यापक integration प्रदान करता है
इसमें Gemma 3n के मुख्य innovation, benchmark और development methods को developer दृष्टिकोण से गहराई में पेश किया गया है

What’s new in Gemma 3n?

Gemma 3n on-device AI में एक नई छलांग का संकेत देता है
यह text, image, audio, video input और text output के लिए native multimodal सपोर्ट देता है
efficiency को अधिकतम करते हुए यह E2B(5B parameters), E4B(8B parameters) दो मॉडल साइज में उपलब्ध है, और कम memory (2GB, 3GB) पर भी चल सकता है
इसमें MatFormer, Per Layer Embeddings, LAuReL, AltUp जैसी इनोवेटिव architecture और नए audio·vision encoder शामिल किए गए हैं
140 भाषाओं का सपोर्ट, 35 भाषाओं में multimodal understanding, math·coding·reasoning क्षमता में सुधार, और E4B के आधार पर LMArena में 1300 अंक पार

MatFormer: एक मॉडल, कई साइज

MatFormer(🪆Matryoshka Transformer) architecture scalability और flexibility के लिए डिज़ाइन की गई नई transformer संरचना है
यह Russian matryoshka सिद्धांत का उपयोग करती है, जिसमें बड़े मॉडल के अंदर छोटे मॉडल स्वतंत्र रूप से शामिल होते हैं
E4B को train करते समय E2B submodel को साथ में optimize किया जाता है, जिससे अलग से pre-extracted मॉडल डाउनलोड करने की जरूरत नहीं पड़ती और inference अधिकतम 2 गुना तेज हो सकता है
Mix-n-Match तरीके से hardware constraints के अनुसार customized intermediate मॉडल बनाए जा सकते हैं, जिनमें feedforward network या layer skip का उपयोग होता है
MatFormer Lab में benchmark-आधारित optimal setting की जांच और मॉडल निर्माण संभव है
भविष्य में Elastic execution (real-time dynamic model size switching) का भी सपोर्ट देने की योजना है

Per-Layer Embeddings (PLE): on-device memory efficiency को अधिकतम करना

Per-Layer Embeddings (हर layer के लिए embedding) on-device deployment के दौरान quality बढ़ाते हैं और memory उपयोग को न्यूनतम बनाते हैं
कुल parameters (5B/8B) में से केवल embeddings को CPU पर कुशलतापूर्वक load/process किया जाता है, जबकि transformer core (2B/4B) ही VRAM में रहता है
इसकी वजह से पहले की तुलना में बहुत कम memory, यानी accelerator पर लगभग 2B parameters के साथ, बिना quality घटे मॉडल चल सकता है

KV Cache Sharing: लंबे context input के लिए optimization

Gemma 3n लंबे audio/video जैसे sequential input को तेज़ी से प्रोसेस करने के लिए KV Cache Sharing फीचर जोड़ता है
prefill (प्रारंभिक input processing) चरण में intermediate layer का KV cache ऊपरी layer के साथ सीधे share किया जाता है, जिससे प्रदर्शन में 2 गुना से अधिक सुधार होता है
लंबे sequence prompt को पहले से तेज़ी से समझकर multimodal application की real-time क्षमता बढ़ाई जा सकती है

ऑडियो पहचान: STT और translation सपोर्ट

Universal Speech Model(USM) आधारित audio encoder शामिल है, जो 160ms इकाइयों के audio token को language model input के रूप में इस्तेमाल करता है
on-device high-quality speech recognition (ASR), speech translation (AST) लागू किया जा सकता है
English↔Spanish, French, Italian, Portuguese जैसे प्रमुख language pair में उच्च प्रदर्शन की पुष्टि हुई है
Chain-of-Thought prompting तकनीक का उपयोग करने पर translation quality बेहतर हो सकती है
शुरुआती रिलीज़ के समय audio encoder 30 सेकंड तक के clip को सपोर्ट करता है, और आगे चलकर लंबे streaming processing तक विस्तार की योजना है

MobileNet-V5: नवीनतम vision encoder

Gemma 3n में integrated MobileNet-V5-300M एक उच्च-दक्षता vision encoder है, जो edge device पर भी मजबूत प्रदर्शन देता है
यह 256x256, 512x512, 768x768 pixel जैसी कई input resolution को सपोर्ट करता है, जिससे आवश्यकता के अनुसार performance और detail को समायोजित किया जा सकता है
बड़े multimodal dataset पर आधारित joint training के जरिए image·video understanding की व्यापकता हासिल की गई है और यह विशिष्ट visual task में सक्षम है
Google Pixel पर प्रति सेकंड 60 फ्रेम real-time analysis संभव है
architecture के स्तर पर MobileNet-V4 आधारित block (universal inverted bottleneck, Mobile MQA), hybrid pyramid संरचना, Multi-Scale Fusion VLM adapter जैसे कई innovation लागू किए गए हैं
SoViT (Gemma 3 baseline) की तुलना में 13 गुना गति, 46% कम parameters, 4 गुना कम memory, और अधिक accuracy के साथ यह स्पष्ट रूप से बेहतर है
technical report में architecture, data scaling strategy, deep learning distillation technique आदि पर अतिरिक्त जानकारी आगे साझा की जाएगी

व्यावहारिक उपयोग और इस्तेमाल का तरीका

AI Studio में तुरंत आज़माएँ: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
मॉडल डाउनलोड/डिप्लॉयमेंट: Hugging Face, Kaggle, Ollama, llama.cpp आदि पर तुरंत उपयोग संभव
tool·framework integration: Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth आदि अधिकतर सपोर्टेड हैं
API·cloud deployment: Google GenAI API, Vertex AI, NVIDIA API जैसे कई वातावरणों में deployment

मुख्य on-device उपयोग परिदृश्य

smartphone/edge device में real-time AI assistant·speech translator·multimodal chatbot·real-time vision analysis·IoT
resource-constrained environment में AI service का internal integration
offline·network-constrained environment में AI innovation

developer resources

Gemma 3n Impact Challenge

on-device/offline/multimodal क्षमताओं का उपयोग करके वास्तविक सामाजिक प्रभाव वाले प्रोडक्ट development के लिए प्रतियोगिता आयोजित
- इनाम $150,000, वीडियो·demo submission आवश्यक: https://www.kaggle.com/competitions/google-gemma-3n-hackathon

1 टिप्पणियां

GN⁺ 2025-06-27

Hacker News की राय

यह मॉडल पहले वाले gemma3 पर किए जाने वाले सभी कामों के साथ पूरी तरह compatible है, मैंने इसे अपनी VLM fine-tuning script से सीधे जोड़कर देखा और यह बिना किसी समस्या के चला गया (hf transformer code के आधार पर)। Lora के साथ single GPU पर E4B model चलाने के लिए batch size 1 पर 18Gb VRAM चाहिए, जबकि gemma-4B के लिए 21Gb चाहिए था। deepmind ने वाकई शानदार काम किया है, gemma3 series public-weight VLLM में सबसे बेहतरीन है
- संशोधन: अभी जिस model का ज़िक्र कर रहा हूँ वह E2B है
मैंने "पेलिकन साइकिल चलाते हुए SVG बनाओ" prompt को Gemma 3n 7.5GB (Ollama) और mlx-vlm के 15GB version पर आज़माया, और दोनों quantization size में नतीजे अलग-अलग आए, जो दिलचस्प था। नतीजे यहाँ डाले हैं: https://simonwillison.net/2025/Jun/26/gemma-3n/
- क्या इसे सच में कोई अर्थपूर्ण benchmark कहा जा सकता है, या यह सिर्फ़ मज़े के लिए है? सच कहूँ तो मुझे ठीक से समझ नहीं आता
मुझे अब भी ठीक से समझ नहीं आता कि on-device environment में Gemma और Gemini में फर्क क्या है, क्योंकि दोनों को network connection के बिना इस्तेमाल किया जा सकता है। आधिकारिक wording का उदाहरण: "Gemini Nano बिना network connection के भी समृद्ध generative AI अनुभव देता है" — इस वाक्य में Gemini की जगह Gemma रख दें तो भी यह पूरी तरह सही लगता है
- फर्क license का है। Gemini Nano weights को आप सीधे इस्तेमाल नहीं कर सकते (खासकर commercial use में), और उन्हें सिर्फ़ Android MLKit या Google-approved runtime के ज़रिए ही access किया जा सकता है। दूसरी तरफ़ Gemma को आप अपनी पसंद के किसी भी runtime या framework में commercial use के लिए इस्तेमाल कर सकते हैं
- Gemma 3n preview blog को देखें तो Gemma 3n और Gemini Nano के नए version का architecture एक जैसा है। यहाँ n शायद Nano का संकेत है। Nano Android में built-in proprietary model है, जबकि Gemma एक open model है जिसे कहीं भी आज़ादी से लागू किया जा सकता है। संबंधित स्रोत Google के आधिकारिक blog और video में हैं
- Gemma open source है और apache 2.0 license के तहत है। इसे app में शामिल करने के लिए आपको खुद package करना होगा। वहीं Gemini Nano एक पूरी तरह uncontrollable Android API है
- मेरा अनुमान है कि दोनों models के बीच फर्क training data का होगा। Gemini वाले हिस्से को काफ़ी ज़्यादा सख़्ती से नियंत्रित किया जाता है, और अगर वह training data की चीज़ों को दोहराने लगे तो 'recitation error' आ सकता है
OpenAI की वजह से ऐसा लगता है कि इंडस्ट्री में इस तरह की अव्यवस्थित naming ही standard बन गई है, जो मुझे निजी तौर पर पसंद नहीं है
- तो फिर आपने इसका क्या नाम रखा होता, यह जानने की जिज्ञासा है
मैंने GGUF version खुद बना लिया है, इसलिए ज़रूरत हो तो कोई भी इसे आज़मा सकता है! इसे ऐसे चलाता हूँ: ./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0। साथ ही inference + finetuning के लिए Colab demo भी बना रहा हूँ। Gemma 3N का audio, text, vision support वाकई प्रभावशाली है। ज़्यादा जानकारी के लिए https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune देखें
- मैंने Ollama में E4B model टेस्ट किया, लेकिन image interpretation पूरी तरह गलत तरीके से काम कर रही है। output सिर्फ़ text पर निर्भर करता है, और हमेशा लगातार ग़लत आता है, जबकि आधिकारिक Gemma 3 4B ठीक चलता है, इसलिए मुझे लगा कि समस्या Ollama की है। जाँच करने पर पता चला कि अभी यह सिर्फ़ text-only support है[1], और मुझे लगता है कि इसे थोड़ा और स्पष्ट बताया जाना चाहिए था। llama.cpp को खुद build करने की इच्छा नहीं है, इसलिए GGUF support आने तक इंतज़ार करूँगा। [1]: https://github.com/ollama/ollama/issues/10792#issuecomment-3009619264
- मैं Unsloth version इस्तेमाल करने के बारे में टाइप ही कर रहा था, तभी देखा कि आपने इसे पहले ही बनाकर डाल दिया है। कमाल है!
- धन्यवाद! ऐसे models चलाने के लिए किस तरह का PC spec चाहिए, यह जानना चाहता हूँ
- यहाँ jinja का क्या मतलब है, यह जानना चाहता हूँ
सच कहूँ तो मुझे संदेह है कि ये छोटे models वास्तविक उपयोग में कितने काम आते हैं। मैंने कई कोशिशें कीं, लेकिन 27B से छोटे models को toy level से ऊपर उपयोग करना मुश्किल लगा, और वे बस कभी-कभार अच्छे जवाब दे पाते हैं। मैंने gemma3:27b-it-qat से spam filter की समस्या हल की, और मेरे benchmark नतीजों में भी वही स्तर उपयोगी साबित हुआ
- कम accuracy होने पर भी इनके वास्तविक उपयोग हैं। भविष्य में कौन-से products आएँगे, यह नहीं पता, लेकिन आज भी ऐसे उदाहरण हैं: iPhone keyboard में small language model अगले शब्द की recommendation के लिए इस्तेमाल होता है (यूज़र को सिर्फ़ सुझाया गया शब्द चुनना होता है)। और speculative decoding जैसी तकनीकों में छोटा model बड़े model की inference speed बढ़ाने के लिए काम आता है। आगे और भी स्मार्ट उपयोग सामने आएँगे
- ऐसे छोटे models को अगर base infrastructure की तरह देखें तो ये काफ़ी उपयोगी हैं। अगर कभी ऐसा भविष्य आए जहाँ ज़्यादातर mobile phones में built-in LLM हो, तो वह बहुत अच्छा होगा — यानी यह बुनियादी infrastructure जैसा बन जाए
- मैंने <5bn params वाले छोटे models का सबसे अच्छा उपयोग offline reference tool के रूप में पाया है। उड़ान के दौरान coding करते समय Google की जगह MacBook Air पर qwen install करके syntax, documentation जैसी बुनियादी चीज़ें पूछने में यह काम आता है
- 4b या उससे छोटे models specific task fine-tuning के लिए बेहतरीन होते हैं, और बहुत कम लागत पर commercial models से बेहतर नतीजे भी दे सकते हैं। code autocomplete में भी ये अच्छे हैं। 7b~8b models code refactoring जैसे तेज़ और सरल coding tasks के लिए ठीक हैं (जैसे: "SomeType type argument वाले सभी function names के आगे ST_ prefix जोड़ो")। 12b models से, जैसे Mistral Nemo या Gemma 3 12b, consistent sentences भी बनाए जा सकते हैं
Kevin Kwok ने model structure की reverse engineering बहुत अच्छी तरह संक्षेप में समझाई है, इसलिए इसे देखें: https://github.com/antimatter15/reverse-engineering-gemma-3n
Google site पर कहीं ऐसा data होना चाहिए जिसमें हर product name, description, feature को table में व्यवस्थित किया गया हो
graph का Y-axis सच में बहुत अजीब तरीके से बनाया गया है
क्या किसी को पता है कि gemma 3n के deployment version को वास्तव में इस्तेमाल करने पर कितनी लागत आती है? docs में लिखा है कि gemini api के ज़रिए gemma 3n इस्तेमाल किया जा सकता है, लेकिन pricing सिर्फ़ "unavailable" दिखाती है

Google ने Gemma 3n पेश किया - नए on-device multimodal AI का आगमन

अवलोकन और पृष्ठभूमि

What’s new in Gemma 3n?

MatFormer: एक मॉडल, कई साइज

Per-Layer Embeddings (PLE): on-device memory efficiency को अधिकतम करना

KV Cache Sharing: लंबे context input के लिए optimization

ऑडियो पहचान: STT और translation सपोर्ट

MobileNet-V5: नवीनतम vision encoder

व्यावहारिक उपयोग और इस्तेमाल का तरीका

मुख्य on-device उपयोग परिदृश्य

developer resources

Gemma 3n Impact Challenge

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय