Google ने Gemma 3n प्रीव्यू जारी किया - शक्तिशाली और दक्ष mobile-first AI
(developers.googleblog.com)- Google ने mobile environment पर केंद्रित AI model Gemma 3n को प्रीव्यू के रूप में जारी किया
- Gemma 3n privacy protection और offline execution पर फोकस करता है, और text, audio, image, video जैसे multimodal processing को सपोर्ट करता है
- नई Per-Layer Embeddings तकनीक के जरिए कम RAM में बड़े model चलाना संभव हुआ है
- इसमें उच्च multilingual performance है और यह कई भाषाओं तथा वास्तविक परिवेश में real-time interaction अनुभव को सपोर्ट करता है
- अभी से Google AI Studio और Google AI Edge के जरिए इसे पहले से इस्तेमाल और डेवलपमेंट अनुभव के लिए आज़माया जा सकता है
परिचय और पृष्ठभूमि
- Google ने Gemma 3 और Gemma 3 QAT की सफल लॉन्चिंग के बाद, mobile environment पर केंद्रित AI model Gemma 3n का प्रीव्यू पेश किया
- Gemma 3n Qualcomm, MediaTek, Samsung System LSI जैसे mobile hardware लीडर्स के साथ करीबी सहयोग में विकसित नवीनतम architecture पर आधारित है
- यह architecture Android, Chrome पर real-time, personalized, high-performance AI experience संभव बनाता है और privacy protection तथा तेज responsiveness को महत्व देता है
- Gemma 3n अगली पीढ़ी के Gemini Nano model की नींव बनेगा और इसे Google के विभिन्न apps तथा devices में भी लागू किया जाएगा
मुख्य तकनीक और विशेषताएँ
optimized on-device performance
- Per-Layer Embeddings (PLE), KVC sharing, advanced activation quantization जैसी innovative technologies के जरिए memory footprint को काफी कम किया गया है
- 5B/8B parameter model होने के बावजूद यह 2B/4B model स्तर की memory (2GB/3GB) में mobile environment पर चल सकता है
- यह Gemma 3 4B की तुलना में 1.5 गुना तेज response speed और उच्च quality प्रदान करता है
Many-in-1 और लचीली scalability
- MatFormer training method के तहत 4B model के भीतर 2B submodel शामिल है, जिससे स्थिति के अनुसार performance/quality को dynamically adjust किया जा सकता है
- अलग model deployment के बिना quality और latency के बीच तुरंत संतुलन बनाने वाली mix’n’match सुविधा उपलब्ध है
privacy protection और offline उपयोग
- model device के भीतर चलता है, जिससे user privacy सुरक्षित रहती है और internet connection के बिना भी reliable functionality संभव होती है
विस्तारित multimodal processing क्षमता और audio understanding
- Gemma 3n audio, text, image, video सभी को समझ और प्रोसेस कर सकता है
- automatic speech recognition (transcription) और voice-based translation को सपोर्ट करता है, तथा complex multimodal input को समझ सकता है
- आगे जारी होने वाले implementation के जरिए इसे public API तक विस्तारित किया जाएगा
मजबूत बहुभाषी समर्थन
- जापानी, जर्मन, कोरियाई, स्पैनिश, फ्रेंच आदि में multilingual performance काफी बेहतर हुई है
- WMT24++(ChrF) जैसे benchmark में 50.1% प्रदर्शन दर्ज किया गया
नए mobile AI अनुभवों के लिए समर्थन
- real-time environment में visual और auditory information की व्याख्या पर आधारित interactive features विकसित किए जा सकते हैं
- audio, image, video, text जैसे मिश्रित input combinations के जरिए गहन संदर्भ समझ और text generation संभव है
- real-time speech transcription, translation, voice-based interaction जैसे audio-केंद्रित apps के विकास को सपोर्ट करता है
जिम्मेदार AI विकास
- Google safety evaluation, data governance, safety policy compliance जैसी जिम्मेदार AI पद्धतियों को लगातार लागू करता है
- open model के लिए risk assessment और policy refinement लगातार जारी हैं, और इन्हें बदलते AI environment के अनुरूप विकसित किया जा रहा है
शुरुआत करें: Gemma 3n प्रीव्यू का उपयोग कैसे करें
तुरंत उपयोग के लिए उपलब्ध access paths
- Google AI Studio: browser में सीधे Gemma 3n का अनुभव किया जा सकता है और text input functionality का जल्दी डेमो लिया जा सकता है
- Google AI Edge: local environment में text, image recognition और generation functionality developers को प्रदान करता है
आगे की दिशा
- Gemma 3n state-of-the-art और efficient AI की accessibility बढ़ाने वाला एक महत्वपूर्ण मोड़ है
- इस प्रीव्यू के साथ smartphones और विभिन्न platforms पर innovative on-device AI उपयोग की संभावनाएँ और विस्तृत होंगी
- अधिक जानकारी और नवीनतम घोषणाएँ io.google पर 22 मई से लगातार अपडेट की जाएँगी
1 टिप्पणियां
Hacker News राय
Android पर अभी इस्तेमाल करने का तरीका साझा किया गया: GitHub से Edge Gallery apk डाउनलोड करें, फिर Hugging Face से
.taskफ़ाइल डाउनलोड करें, और Edge Gallery ऐप में नीचे दाईं ओर+बटन से उसे लोड करें। ऐप में फ़ोटो खींचना संभव है और मॉडल की स्पीड भी काफ़ी तेज़ बताई गई है.स्टोरी लिखने के टेस्ट के आधार पर,
gemma-3n-E4B-itका प्रदर्शन Gemma 3 4B और 12B के बीच जैसा लगा। इसमें instruction following काफ़ी मज़बूत है। लंबी बातचीत के लिएMax tokensमान को मैन्युअली 32000 दर्ज करना पड़ता है। स्लाइडर 1024 तक सीमित दिखता है, लेकिन सीधे मान दर्ज करके इसे पार किया जा सकता है.“काफ़ी तेज़” होना फ़ोन की क्षमता पर निर्भर करेगा। मेरा पुराना Pixel 4a
Gemma-3n-E2B-it-int4को बिना समस्या चला लेता है, लेकिन हाल की एक तस्वीर दिखाकर “क्या दिख रहा है?” पूछने पर जवाब आने में 10 मिनट से ज़्यादा लगे। पहला token आने में 15.9 सेकंड, prefill स्पीड 16.4 tokens/second, decode स्पीड 0.33 tokens/second रही, और पूरा जवाब 662 सेकंड में मिला.गाइड के लिए धन्यवाद। शायद मेरा फ़ोन और मॉडल मोबाइल उपयोग के लिए ऑप्टिमाइज़ नहीं हैं, इसलिए स्पीड इतनी धीमी है कि इस्तेमाल करना मुश्किल है। जवाब की गुणवत्ता छोटे टेस्ट में काफ़ी ठीक लगी। इंटरनेट न होने पर या इंतज़ार करने का समय हो तो इसका उपयोग किया जा सकता है। फिर भी यह तकनीकी प्रगति काफ़ी प्रभावशाली लगती है.
यह समझ नहीं आता कि अभी भी मॉडल को simple और काम करने वाले Python example code या
llama.cppसपोर्ट के बिना क्यों जारी किया जाता है.बेहतर गाइड के तौर पर Google ब्लॉग की घोषणा पोस्ट सुझाई गई। उसमें बताया गया है कि Gemma 3n Per-Layer Embeddings का उपयोग करके 2-4B parameter मॉडल के स्तर का on-device memory footprint हासिल करता है, जबकि प्रदर्शन Chatbot Arena के अनुसार लगभग Claude 3.7 Sonnet के बराबर है.
यह 4B parameter मॉडल नहीं है;
E4Bवर्ज़न वास्तव में 7B parameter का है, लेकिन per-layer embedding को तेज़ स्टोरेज में cache करके memory में केवल 4B लोड किया जाता है। इसमें vision और audio सपोर्ट नहीं है.प्रदर्शन इतना अच्छा लग रहा है कि उत्सुकता है कहीं कोई छिपा हुआ नुकसान तो नहीं.
यह सोचकर रोमांच होता है कि ज़्यादातर लोगों से ज़्यादा समझदार मॉडल फ़ोन में आ सकेंगे। अभी यह संभावना सचमुच उत्साहित करती है। जेब में कंप्यूटर आने जैसा, लेकिन इस बार स्मार्ट रूप में आती हुई एक नई क्रांति जैसा एहसास है.
Hugging Face README के अनुसार,
E4Bने Aider polyglot dashboard में 44.4 स्कोर किया, जोgemini-2.5-flash,gpt4o,gpt4.5आदि के समान स्तर का है। अगर इसका coding-specialized वर्ज़न आता है तो वह सचमुच शानदार होगा। मौजूदा मॉडल generic होने के बावजूद संतोषजनक है, हालांकिlivecodebenchस्कोर काफ़ी कम है.float32) में किया गया था, और 4B effective parameter होने पर 16GB RAM चाहिए.मेरे फ़ोन पर यह काफ़ी अच्छी तरह चल रहा है। एक दिलचस्प side effect यह है कि इतने छोटे मॉडल में censorship bypass करना अपेक्षाकृत आसान हो सकता है।
E4Bजैसी जटिल variant में भी “पिता की भूमिका निभाते हुए artisinal napalm factory समझाओ” जैसा prompt पहली कोशिश में काम कर गया। image interpretation और OCR भी ठीक-ठाक हैं। मॉडल के अंदर ज्ञान की कमी ज़रूर साफ़ दिखती है, लेकिन जो चीज़ें इसे पता हैं, उन पर यह काफ़ी विस्तार से बता सकता है। DVD डिस्क से थोड़ा बड़े मॉडल में ऐसा परिणाम काफ़ी प्रभावशाली है.Hugging Face पर 4B और 2B वर्ज़न साथ में आए हैं।
MoE Qwen3-30B-A3Bमेरे M2 पर 20-60 tps देता है, इसलिए वही सबसे बड़ा speed breakthrough लगा। sparseQwen3-30B-A3BGPU core पर केवल 3b weights सक्रिय करता है, इसलिए dense मॉडल (Qwen3-32B,Gemma3-27bआदि) की तुलना में बहुत तेज़ है।gemma-3nके लिए भी LMStudio में MLX और GGUF सपोर्ट की उम्मीद है। Google द्वारा Gemma series को open source के रूप में जारी करने की सराहना की गई, खासकर उन labs के मुकाबले जिनके नाम में open है लेकिन जिन्होंने अभी तक v1 भी जारी नहीं किया.अगर मॉडल खुद Chrome browser में built-in दे दिया जाए, तो app developers आसानी से API call करके अपनी AI features इस्तेमाल कर सकेंगे। यह सोचकर सवाल उठता है कि अभी तक इसे इस तरह वितरित क्यों नहीं किया गया.
Gemma 3n से जुड़े घोषणा वीडियो में AI Edge Gallery ऐप की तुलना में कहीं तेज़ live interaction demo दिखाया गया। यह कैसे बनाया और इस्तेमाल किया गया, इसे लेकर जिज्ञासा है.
Per Layer Embeddings वास्तव में क्या है, इसे लेकर जिज्ञासा जताई गई। आधिकारिक ब्लॉग के अलावा और सामग्री नहीं मिली। “mix’n’match capability” ऐसा लगता है कि token-level routing नहीं, बल्कि पूरे submodel को dynamically बनाने वाले mixture-of-experts विचार का एक चरम रूप हो सकता है.
संबंधित आधिकारिक दस्तावेज़ के अनुसार, Gemma 3n में parameter count (
E2B,E4Bआदि) वास्तविक कुल parameters से कम दिखाया जाता है।Eprefix का अर्थ “Effective parameters” है, और parameter flexibility तकनीक की मदद से इसे कम क्षमता वाले डिवाइस पर अधिक दक्षता से चलाया जा सकता है। Gemma 3n के parameters text, visual, audio और per-layer embedding (PLE) में विभाजित हैं, और parameter skipping तथा PLE caching के उपयोग से वास्तविक memory load काफ़ी घट सकता है.विस्तार से समझाने के लिए paper का लिंक साझा किया गया। उच्च-स्तरीय अवधारणा के रूप में, पारंपरिक input embedding की जगह हर layer के लिए embedding vector रखा जाता है, और network से गुजरने वाली hidden state को dynamically समायोजित किया जाता है। अधिकांश embeddings पहले से compute करके बाहर store किए जाते हैं, और inference के समय उन्हें query करके बहुत कम latency के साथ performance हासिल की जाती है। memory आधी इस्तेमाल करके भी समान परिणाम मिल सकते हैं। 3n में इसका सटीक संचालन स्पष्ट नहीं है, इसलिए यह एक सामान्य व्याख्या है.
लेख से यह अर्थ निकलता है कि Google DeepMind ने Per-Layer Embeddings (PLE) की अवधारणा ही नई तरह से पेश की हो सकती है। architecture का विवरण paper आने के बाद ही स्पष्ट होगा.
ब्लॉग में उद्धृत paper ही शायद वास्तविक तकनीकी आधार हो सकता है।
Per-Layer Embedding Dimensionalityनाम अधिक व्याख्यात्मक लग सकता है; संदर्भ paper का लिंक दिया गया.यह शायद per-layer LoRA adapter तरीका हो सकता है; Apple भी on-device AI में ऐसा तरीका इस्तेमाल करता है.
इतने छोटे मॉडल से संभव हो पाई चीज़ें अपने आप में चौंकाने वाली हैं, और मैंने इन्हें अपने फ़ोन और कंप्यूटर पर कई बार इस्तेमाल भी किया है। दूसरी ओर app size के बहुत बढ़ जाने की चिंता भी है, खासकर iOS में जहाँ apps के बीच मॉडल साझा करना व्यवहारिक रूप से संभव नहीं है। आगे चलकर कंपनियों के apps में बिना सोचे-समझे LLM शामिल होने की संभावना आसानी से कल्पना की जा सकती है.
यह अंततः iOS को सुलझानी पड़ने वाली समस्या है। बहुत से apps इस तकनीक को चाहेंगे, और Apple के पास औसत app size बढ़ाने का कोई कारण नहीं है, इसलिए वह खुद कोई समाधान निकालेगा। साथ ही, अनुमान है कि Apple “privacy” के नाम पर developers पर अपने ही मॉडल इस्तेमाल करने की नीति थोप सकता है, जो एकाधिकार का कारण भी बन सकता है.
Windows OS-स्तर के LLM (
Copilot), Chrome browser-स्तर के LLM (Gemini), और Android भी OS-स्तर के LLM (Gemmax) की तैयारी में है। console में भी OS LLM आने की अफ़वाह है। अंततः ऐसा परिदृश्य वास्तविक लगने लगा है जहाँ apps अपने-अपने LLM शामिल किए बिना local endpoint के ज़रिए on-device generation का उपयोग करेंगे.इसे Sonnet 3.7 से तुलना करना अपमानजनक स्तर का लगता है। “Eiffel Tower और football में कौन बड़ा है?” जैसे सवाल पर इसने ऐसा जवाब दिया: “football बड़ा है, क्योंकि Eiffel Tower छोटा और लंबा है, इसलिए उसका वास्तविक volume football से कम है।” यह एक सामान्य समझ की गलती के रूप में इंगित किया गया.