Google ने Gemma 3n पेश किया - नए on-device multimodal AI का आगमन
(developers.googleblog.com)- Gemma 3n मोबाइल·edge वातावरण के लिए नवीनतम on-device multimodal AI मॉडल है, जो image·audio·video·text सभी को प्रोसेस कर सकता है
- efficiency-केंद्रित संरचना और इनोवेटिव architecture (Matformer, Per-Layer Embeddings, MobileNet-V5 आदि) के जरिए, मौजूदा cloud बड़े मॉडलों के स्तर का प्रदर्शन 2~3GB memory में हासिल करता है
- E2B/E4B दो मॉडल साइज उपलब्ध हैं और Mix-n-Match तरीके से hardware के मुताबिक बारीक custom size सपोर्ट करता है
- speech recognition·translation, real-time vision analysis, 140 भाषाओं की multilingual processing जैसे कई on-device AI use case में तुरंत लागू किया जा सकता है
- Hugging Face, Ollama, llama.cpp जैसे प्रमुख AI open source ecosystem के साथ व्यापक integration है, और कई tool·API·SDK के जरिए तुरंत इस्तेमाल किया जा सकता है
अवलोकन और पृष्ठभूमि
- पिछले साल की शुरुआत में जारी हुआ पहला Gemma मॉडल 16 करोड़ से अधिक downloads दर्ज करते हुए Gemmaverse नाम के ecosystem में विकसित हुआ
- इस ecosystem में security, healthcare जैसे विभिन्न specialized मॉडल और community contributions से बने कई इनोवेटिव use case शामिल हैं
- Google ने इसी सफलता के आधार पर, मोबाइल-केंद्रित रूप से डिज़ाइन किए गए Gemma 3n की आधिकारिक रिलीज़ की घोषणा की
- यह Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama जैसे developer-friendly ecosystem और tools के साथ व्यापक integration प्रदान करता है
- इसमें Gemma 3n के मुख्य innovation, benchmark और development methods को developer दृष्टिकोण से गहराई में पेश किया गया है
What’s new in Gemma 3n?
- Gemma 3n on-device AI में एक नई छलांग का संकेत देता है
- यह text, image, audio, video input और text output के लिए native multimodal सपोर्ट देता है
- efficiency को अधिकतम करते हुए यह E2B(5B parameters), E4B(8B parameters) दो मॉडल साइज में उपलब्ध है, और कम memory (2GB, 3GB) पर भी चल सकता है
- इसमें MatFormer, Per Layer Embeddings, LAuReL, AltUp जैसी इनोवेटिव architecture और नए audio·vision encoder शामिल किए गए हैं
- 140 भाषाओं का सपोर्ट, 35 भाषाओं में multimodal understanding, math·coding·reasoning क्षमता में सुधार, और E4B के आधार पर LMArena में 1300 अंक पार
MatFormer: एक मॉडल, कई साइज
- MatFormer(🪆Matryoshka Transformer) architecture scalability और flexibility के लिए डिज़ाइन की गई नई transformer संरचना है
- यह Russian matryoshka सिद्धांत का उपयोग करती है, जिसमें बड़े मॉडल के अंदर छोटे मॉडल स्वतंत्र रूप से शामिल होते हैं
- E4B को train करते समय E2B submodel को साथ में optimize किया जाता है, जिससे अलग से pre-extracted मॉडल डाउनलोड करने की जरूरत नहीं पड़ती और inference अधिकतम 2 गुना तेज हो सकता है
- Mix-n-Match तरीके से hardware constraints के अनुसार customized intermediate मॉडल बनाए जा सकते हैं, जिनमें feedforward network या layer skip का उपयोग होता है
- MatFormer Lab में benchmark-आधारित optimal setting की जांच और मॉडल निर्माण संभव है
- भविष्य में Elastic execution (real-time dynamic model size switching) का भी सपोर्ट देने की योजना है
Per-Layer Embeddings (PLE): on-device memory efficiency को अधिकतम करना
- Per-Layer Embeddings (हर layer के लिए embedding) on-device deployment के दौरान quality बढ़ाते हैं और memory उपयोग को न्यूनतम बनाते हैं
- कुल parameters (5B/8B) में से केवल embeddings को CPU पर कुशलतापूर्वक load/process किया जाता है, जबकि transformer core (2B/4B) ही VRAM में रहता है
- इसकी वजह से पहले की तुलना में बहुत कम memory, यानी accelerator पर लगभग 2B parameters के साथ, बिना quality घटे मॉडल चल सकता है
KV Cache Sharing: लंबे context input के लिए optimization
- Gemma 3n लंबे audio/video जैसे sequential input को तेज़ी से प्रोसेस करने के लिए KV Cache Sharing फीचर जोड़ता है
- prefill (प्रारंभिक input processing) चरण में intermediate layer का KV cache ऊपरी layer के साथ सीधे share किया जाता है, जिससे प्रदर्शन में 2 गुना से अधिक सुधार होता है
- लंबे sequence prompt को पहले से तेज़ी से समझकर multimodal application की real-time क्षमता बढ़ाई जा सकती है
ऑडियो पहचान: STT और translation सपोर्ट
- Universal Speech Model(USM) आधारित audio encoder शामिल है, जो 160ms इकाइयों के audio token को language model input के रूप में इस्तेमाल करता है
- on-device high-quality speech recognition (ASR), speech translation (AST) लागू किया जा सकता है
- English↔Spanish, French, Italian, Portuguese जैसे प्रमुख language pair में उच्च प्रदर्शन की पुष्टि हुई है
- Chain-of-Thought prompting तकनीक का उपयोग करने पर translation quality बेहतर हो सकती है
- शुरुआती रिलीज़ के समय audio encoder 30 सेकंड तक के clip को सपोर्ट करता है, और आगे चलकर लंबे streaming processing तक विस्तार की योजना है
MobileNet-V5: नवीनतम vision encoder
- Gemma 3n में integrated MobileNet-V5-300M एक उच्च-दक्षता vision encoder है, जो edge device पर भी मजबूत प्रदर्शन देता है
- यह 256x256, 512x512, 768x768 pixel जैसी कई input resolution को सपोर्ट करता है, जिससे आवश्यकता के अनुसार performance और detail को समायोजित किया जा सकता है
- बड़े multimodal dataset पर आधारित joint training के जरिए image·video understanding की व्यापकता हासिल की गई है और यह विशिष्ट visual task में सक्षम है
- Google Pixel पर प्रति सेकंड 60 फ्रेम real-time analysis संभव है
- architecture के स्तर पर MobileNet-V4 आधारित block (universal inverted bottleneck, Mobile MQA), hybrid pyramid संरचना, Multi-Scale Fusion VLM adapter जैसे कई innovation लागू किए गए हैं
- SoViT (Gemma 3 baseline) की तुलना में 13 गुना गति, 46% कम parameters, 4 गुना कम memory, और अधिक accuracy के साथ यह स्पष्ट रूप से बेहतर है
- technical report में architecture, data scaling strategy, deep learning distillation technique आदि पर अतिरिक्त जानकारी आगे साझा की जाएगी
व्यावहारिक उपयोग और इस्तेमाल का तरीका
- AI Studio में तुरंत आज़माएँ: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
- मॉडल डाउनलोड/डिप्लॉयमेंट: Hugging Face, Kaggle, Ollama, llama.cpp आदि पर तुरंत उपयोग संभव
- tool·framework integration: Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth आदि अधिकतर सपोर्टेड हैं
- API·cloud deployment: Google GenAI API, Vertex AI, NVIDIA API जैसे कई वातावरणों में deployment
मुख्य on-device उपयोग परिदृश्य
- smartphone/edge device में real-time AI assistant·speech translator·multimodal chatbot·real-time vision analysis·IoT
- resource-constrained environment में AI service का internal integration
- offline·network-constrained environment में AI innovation
developer resources
- आधिकारिक दस्तावेज़
- मॉडल डाउनलोड(HF)
- MatFormer Lab
- Google AI Studio में आज़माएँ
- open source ecosystem integration, Ollama, MLX, llama.cpp आदि
Gemma 3n Impact Challenge
- on-device/offline/multimodal क्षमताओं का उपयोग करके वास्तविक सामाजिक प्रभाव वाले प्रोडक्ट development के लिए प्रतियोगिता आयोजित
- इनाम $150,000, वीडियो·demo submission आवश्यक: https://www.kaggle.com/competitions/google-gemma-3n-hackathon
1 टिप्पणियां
Hacker News की राय
jinjaका क्या मतलब है, यह जानना चाहता हूँ