Google Gemma 3 270M: अल्ट्रा-एफिशिएंट AI के लिए कॉम्पैक्ट मॉडल पेश
(developers.googleblog.com)- Gemma 3 270M 270 मिलियन पैरामीटर वाला एक हल्का मॉडल है, जिसमें मजबूत instruction-following क्षमता और टेक्स्ट को संरचित करने की क्षमता है
- 256k टोकन के बड़े vocabulary set की वजह से यह दुर्लभ टोकनों को संभालने में सक्षम है, और इसे विशेष डोमेन व भाषाओं के लिए fine-tuning-आधारित मॉडल के रूप में डिज़ाइन किया गया है
- Pixel 9 Pro SoC पर INT4 quantized मॉडल 25 बातचीत में सिर्फ 0.75% बैटरी खर्च करता है, यानी इसकी energy efficiency बहुत उत्कृष्ट है
- बड़े general-purpose मॉडल की जगह कई छोटे specialized मॉडल चलाकर speed, cost, accuracy तीनों हासिल करने वाली रणनीति के लिए उपयुक्त
- on-device execution, तेज़ iterative experimentation, और कम-लागत संचालन की ज़रूरत वाले fixed workflows के लिए अनुकूलित, जिससे कई तरह के AI applications बनाए जा सकते हैं
Gemma 3 270M का अवलोकन
- Google ने Gemma 3 और Gemma 3 QAT के बाद इसे नए छोटे specialized fine-tuning मॉडल के रूप में पेश किया है
- 270M parameters में से 170 मिलियन embedding को और 100 मिलियन transformer blocks को आवंटित हैं
- 256k tokens की बड़ी vocabulary की मदद से दुर्लभ और विशेष टोकनों को प्रोसेस किया जा सकता है
- pretrained और instruction-tuned दोनों वर्ज़न उपलब्ध हैं
मुख्य विशेषताएँ
- कॉम्पैक्ट लेकिन शक्तिशाली संरचना: विशेष डोमेन/भाषा के अनुसार fine-tuning के लिए आदर्श
- अत्यधिक energy efficiency: Pixel 9 Pro SoC पर INT4 मॉडल 25 बातचीत में सिर्फ 0.75% बैटरी उपयोग करता है
- instruction-following क्षमता: सामान्य बातचीत की तुलना में task-centric उपयोग के लिए अधिक अनुकूल, और बेस स्टेट में भी निर्देशों का पालन कर सकता है
- quantization support (QAT): INT4 precision पर न्यूनतम performance drop, resource-constrained environments के लिए उपयुक्त
‘सही जगह पर सही मॉडल’ दर्शन
- AI डिज़ाइन में efficiency-first दृष्टिकोण पर ज़ोर
- छोटे मॉडल के साथ तेज़ response और कम-लागत संचालन संभव
- text classification, data extraction जैसे स्पष्ट tasks में specialization होने पर उच्च प्रदर्शन
वास्तविक उपयोग के उदाहरण
- Adaptive ML ने SK Telecom की बहुभाषी content moderation के लिए Gemma 3 4B मॉडल को fine-tune करके बड़े proprietary मॉडलों से बेहतर प्रदर्शन हासिल किया
- 270M मॉडल इस approach को और छोटे पैमाने पर बढ़ाता है, जिससे अलग-अलग specialized tasks के लिए बड़ी संख्या में ‘expert models’ बनाए जा सकते हैं
- Hugging Face का web-based Bedtime Story Generator ऐप Gemma 3 270M की मदद से ऑफलाइन या वेब ब्राउज़र के भीतर real-time content generation सक्षम बनाता है
उपयुक्त उपयोग परिदृश्य
- स्पष्ट और बड़े पैमाने के task processing: sentiment analysis, entity extraction, query routing, text transformation, creation, compliance checks जैसे विशेष क्षेत्रों के tasks के लिए आदर्श
- सर्वश्रेष्ठ किफ़ायत और गति: हल्के इन्फ्रास्ट्रक्चर या on-device पर बहुत कम लागत में संचालन, और तुरंत response देने की क्षमता
- तेज़ development और deployment: मॉडल छोटा होने के कारण fine-tuning experiments तथा optimization/testing कुछ ही घंटों में पूरे किए जा सकते हैं
- गोपनीयता सुरक्षा: cloud transmission के बिना device पर onboard processing संभव, जिससे sensitive information की सुरक्षा में मदद मिलती है
- custom specialized model संचालन: बजट पर बोझ डाले बिना अलग-अलग उद्देश्यों के लिए एक साथ कई मॉडल बनाना और deploy करना संभव
fine-tuning और deployment
- Hugging Face, Ollama, Kaggle, LM Studio, Docker आदि से मॉडल डाउनलोड किया जा सकता है
- Vertex AI, llama.cpp, Gemma.cpp, LiteRT, Keras, MLX जैसे कई inference tools का समर्थन
- Hugging Face, UnSloth, JAX-आधारित full fine-tuning guides उपलब्ध
- local environment से लेकर Google Cloud Run तक लचीला deployment संभव
निष्कर्ष
- Gemma 3 270M एक छोटा लेकिन शक्तिशाली foundation model है, जो विशेष tasks के लिए अनुकूलित AI solutions के निर्माण को तेज़ करता है
- कम लागत, उच्च दक्षता और तेज़ deployment को एक साथ चाहने वाले डेवलपर्स के लिए यह एक आदर्श विकल्प है
3 टिप्पणियां
.task फ़ाइल में बना दें तो Android स्मार्टफोन पर इसे मनचाहे तरीके से आज़मा सकूँगा..
किसी ने बनाया हुआ
.task(non web) फ़ाइल मिला, तो मैंने इसे मोबाइल पर आज़माया; यह संक्षेप में और तेज़ी से अच्छे जवाब देता है.लेकिन qwen3:0.6b (हालाँकि यह शायद ज़्यादा भारी होगा) मुझे ज़्यादा बेहतर लगता है
Hacker News की राय
मैंने ये मॉडल एक शानदार टीम के साथ बनाए हैं, और ये open model ecosystem में व्यापक रूप से डाउनलोड के लिए उपलब्ध हैं, इसलिए मैं सबको इन्हें आज़माने की सलाह देता हूँ। हमने इन्हें उनके आकार के मुकाबले शक्तिशाली प्रदर्शन देने के लक्ष्य से डिज़ाइन किया है, और इन्हें इस तरह बनाया है कि कोई भी अपने use case के हिसाब से आसानी से fine-tune कर सके। छोटे model size की वजह से ये कई तरह के hardware पर चल सकते हैं, और fine-tuning की लागत भी बहुत कम है। आप इसे मुफ़्त Colab पर 5 मिनट के भीतर खुद fine-tune करके देख सकते हैं। सही Gemma size चुनने के लिए मैंने खुद रिकॉर्ड किया हुआ 1b ~ 27b, और हाल में जोड़ा गया 270m version का परिचय वीडियो देखना उपयोगी होगा YouTube लिंक। मैं Google में researcher के रूप में काम करता हूँ, लेकिन यहाँ लिखी गई सभी राय मेरी निजी हैं। मैं तकनीकी सवालों पर फोकस करते हुए जितना संभव हो सके उतना साझा करूँगा
मुझे Gemma 3 मॉडल वाकई शानदार लगते हैं। नॉर्वेजियन generation भी ठीक है, और instruction following भी ज़्यादातर मामलों में अच्छा है। लेकिन censorship से जुड़ी लगने वाली एक समस्या है, खासकर गंभीर विषयों में यह निर्देशों के विपरीत बहुत ज़्यादा conservative व्यवहार करता है। उदाहरण के लिए, अगर इसे ऐसे game में chat messages को classify करने को कहा जाए जहाँ players एक-दूसरे को मार सकते हैं, और यह बताना हो कि संदेश वास्तविक धमकी है या game के भीतर की धमकी, तो यह ठीक से काम नहीं करता। यहाँ तक कि जब कहा जाए कि अगर स्पष्ट न हो तो इसे game-related classify करो, तब भी यह safety की तरफ biased रहता है। कभी-कभी यह helpline तक दिखा देता है। लगता है कि यह मॉडल को safe रखने वाली training का असर है, लेकिन क्या आपको पता है कि ऐसा क्यों होता है
मुझे BSidesSF में मिले एक शानदार Google engineer की याद आ गई। उन्होंने सवालों के इतने मन से जवाब दिए थे, और वीडियो पर क्लिक करते ही पता चला कि वो आप ही थे! वह सचमुच प्रेरणादायक पल था, धन्यवाद
अगर fine-tuned version के कोई वास्तविक उदाहरण हों तो क्या आप साझा कर सकते हैं? सिर्फ विवरण भी ठीक है, लेकिन अगर demo या यहाँ तक कि model weights (GGUF format हो तो और भी अच्छा) डाउनलोड के लिए मिल जाएँ तो सबसे बढ़िया होगा
यह सचमुच शानदार काम है। 270M parameter वाला मॉडल इस स्तर की efficiency के साथ मिलना दुर्लभ है। architecture के चुनाव भी नए और रोचक हैं। क्या आप training के बारे में और विस्तार से कुछ साझा कर सकते हैं? embedding parameters 170M हैं, तो training के दौरान embedding collapse के बिना embedding matrix को स्थिर कैसे रखा गया, यह जानना चाहूँगा। क्या parameter split (170m/100m) पर internal experiments या performance trade-off के बारे में और पढ़ने लायक कोई सामग्री है? पूरे model series के लिए धन्यवाद
बेहद प्रभावशाली काम। यह मॉडल summarization या autocomplete जैसे one-shot tasks में बहुत अच्छा लगता है। launch day पर quantized aware training version भी जारी करना बहुत अच्छा लगा, इससे मॉडल और छोटा हो गया
270M-F16 मॉडल के साथ बातचीत प्रभावशाली थी। मैंने पूछा, "पृथ्वी पर दूसरा सबसे ऊँचा पर्वत कौन सा है?" तो यह बार-बार "Everest" कहता रहा। "तो पहला कौन सा है?" पर भी "Everest"। "तीसरा?" "चौथा?" सबका जवाब "Everest"। जब मैंने कहा, "तुमने तो पहले ही कहा था कि सबसे ऊँचा Everest है," तो इसने जवाब दिया, "सही है, खुशी"। इसके बाद भी मैं दूसरा सबसे ऊँचा पर्वत पूछता रहा और यह सिर्फ "Everest" दोहराता रहा। आखिर जब मैंने "1~5 रैंक के पर्वतों की सूची" माँगी, तभी इसने जवाब बदला: 1. Everest, 2. K2, 3. Sahel, 4. Fuji, 5. McKinley। "तो दूसरा सबसे ऊँचा K2 है न?" पर भी यह फिर "Everest" ही कहता रहा। ऐसे छोटे मॉडल शानदार हैं, लेकिन सचमुच ऐसा लगता है जैसे किसी छोटे बच्चे से बात कर रहे हों
इस मॉडल में लगभग 270M parameters हैं, यानी 1B का लगभग एक-तिहाई। मूल रूप से यह बस थोड़े matrix multiplications कर रहा है, इसलिए इससे बहुत ज्ञान, grammar या consistency की उम्मीद नहीं की जा सकती। ऐसे 1B से छोटे मॉडल किसी खास उद्देश्य के लिए optimized specialized models होते हैं। उदाहरण के लिए, customer reviews से जानकारी निकालकर JSON object में बदलना, ताकि input text को program में अर्थपूर्ण तरीके से इस्तेमाल किया जा सके। ऐसे मॉडल तब बेहतर काम करते हैं जब इन्हें अपेक्षित data पर बहुत आक्रामक तरीके से fine-tune किया जाए। आखिरकार, अगर 270MB का मॉडल fine-tuning के बाद आपका मनचाहा परिणाम दे सकता है, तो 32GB का general-purpose मॉडल इस्तेमाल करने की ज़रूरत ही क्या है
इसमें जोड़ूँगा कि हमने शुरुआत से ही perfect factuality को लक्ष्य नहीं बनाया था। मॉडल के आकार से अलग, ये weights पहले से ही fixed हैं। मैं यही सुझाव दूँगा कि इसे किसी RAG system से जोड़ें ताकि यह बाहरी ज्ञान पर निर्भर कर सके, या फिर आप जिन facts की ज़रूरत हो उन्हीं पर इसे सीधे fine-tune करें। यह नया ज्ञान भी तेज़ी से सीख लेता है
270M मॉडल को encyclopedic knowledge test के लिए इस्तेमाल करना वैसा ही है जैसे बहुत ज़्यादा compressed JPG देखकर कहना, "image quality तो टूटी हुई है"
prompt देखकर लगता है कि आप knowledge evaluation करना चाह रहे हैं, लेकिन यह मॉडल उस काम के लिए नहीं है। जैसा blog post में कहा गया है, "text classification और data extraction जैसे मामलों में यह accuracy, speed और cost के हिसाब से शानदार performance देता है"
"पेरिस के लिए 2 दिन का itinerary बनाओ" जैसी request पर इसने पेरिस के attractions, landmarks, museum visits, तरह-तरह के food experiences, Marais district और Latin Quarter में सैर, Musée d'Orsay की यात्रा आदि के साथ घंटे-घंटे का काफ़ी ठोस travel plan दिया। travel preparation tips भी बहुत ध्यान से दिए
यह मॉडल सचमुच मज़ेदार है। लगभग 241MB के बेहद छोटे आकार में यह बहुत तेज़ है, लेकिन लगभग हर चीज़ को खुलकर "hallucinate" भी कर देता है। उदाहरण के लिए, "साइकिल चलाते pelican का SVG बनाओ" कहने पर मॉडल ने कविता लिख दी (जैसे: 'यह एक बिल्ली है, बड़े पंख और खुश पूँछ', 'साइकिल की रोशनी चमक रही है', 'रोमांच के लिए तैयार है' आदि)। मैंने कई कोशिशों के नतीजे Gist में डाले हैं। उम्मीद है कि आगे चलकर कुछ चुने हुए कामों के लिए उपयोगी output देने वाले fine-tuned मॉडल आएँगे
इस कोशिश पर मैं ज़ोर से हँस पड़ा। इसने कविता, गीत या कुछ वैसा generate किया, फिर हर पंक्ति SVG में कैसे reflected है यह समझाया, और अंत में कहा, "यह SVG code दृश्य को साफ़ और दृश्यात्मक रूप से प्रस्तुत करता है"
देखा कि आप ollama के ggufs इस्तेमाल कर रहे हैं। default में आपको Q4_0 quantized model मिलता है, लेकिन
gemma3:270m-it-bf16इस्तेमाल करने पर, या unsloth ggufs केhf.co/unsloth/gemma-3-270m-it-GGUF:16से बेहतर नतीजे मिल सकते हैंयह बहुत सारे बेकार tokens भी बना देता है, लेकिन सच में tokens की बाढ़ ला देता है
241MB download के लिए 170 से ज़्यादा floppy disks चाहिए होंगे
"Julius Caesar का जन्म कब हुआ था?" इस सवाल पर इसका जवाब था, "Julius Caesar का जन्म Rome में हुआ था।" सुंदरता :D (मैं इसे नीचा नहीं दिखा रहा, मेरा मतलब सिर्फ यह है कि इसे काबू में लाने में और मेहनत लगेगी)
मुझे लगता है Apple को भी ऐसे मॉडल बनाने चाहिए। अगर search deal को AI deal से बदलना लक्ष्य नहीं है, तो Apple का इस तरह लगभग ग़ायब रहना बहुत अजीब है। Tim Cook ने कहा था कि "यह वह अवसर है जिसे हमें पकड़ना चाहिए," लेकिन हाल की दिशा देखकर लगता है कि कंपनी रास्ता खो चुकी है। Google को शुभकामनाएँ
यह बात HN के हर LLM thread में आती है कि LLM अभी भी बेवकूफ़ और बेकार हैं। मैं इससे सहमत नहीं हूँ, लेकिन यह सच है कि अब तक किसी भी कंपनी ने AI के ऐसे use cases नहीं खोजे हैं जिनकी long-term investment value पर्याप्त रूप से साबित हो चुकी हो। Apple पहले भी देर से बाज़ार में उतरा है (जैसे MP3, smartphone, smartwatch), लेकिन फिर भी अपने innovative products से प्रतिस्पर्धा को पछाड़ चुका है
GPT2-स्तर का मॉडल पहले से ही Apple autocomplete में इस्तेमाल हो रहा है विस्तार से यहाँ
अगर "ऐसे" मॉडल से मतलब SLM (small language model) है, तो यह सच है कि Apple इस क्षेत्र में बहुत पहले से शोध कर रहा है
Apple भी यह कर रहा है। आधिकारिक दस्तावेज़ भी हैं Foundation Models Doc। latest beta install होने पर आप सीधे API calls कर सकते हैं। इसके अलावा, लगभग हर device पर लागू होने वाले मॉडल के लिए fine-tuning का आधिकारिक support भी है संबंधित दस्तावेज़
Apple ऐसे मॉडल जारी नहीं करेगा। जैसा दूसरे comments से पता चलता है, अभी प्रदर्शन काफ़ी नहीं है। ऐसा मॉडल ढूँढना बहुत मुश्किल है जो real use में ठीक-ठाक speed से tokens निकाले, device को overheat न करे, और बकवास न बोलने लगे (मैंने खुद कई इस्तेमाल किए हैं)। Apple हमेशा अधूरे या कम-polished products पसंद नहीं करता, बल्कि रिलीज़ टाल देना बेहतर समझता है
मैं DistilBERT का उपयोग करके WordPress posts की classification कर रहा हूँ। data 100,000 से ज़्यादा है, और fine-tuning के बाद reports तक आराम से बनाए जा सकते हैं। distribution uneven हो तब भी कुछ tricks से इसे काफ़ी हद तक संभाला जा सकता है। आगे मैं इसे इस मॉडल से बदलकर performance compare करने वाला हूँ, और अगर कोई बदलाव हुआ तो साझा करूँगा
मैं जानना चाहता हूँ कि क्या किसी ने इतने छोटे मॉडल को वास्तव में fine-tune करके production में इस्तेमाल किया है
मैंने RAG system के लिए एक reranker छोटे मॉडल से बनाया था। candidate generation (vector search + BM25), business logic और ACL filtering के बाद जो text chunks बचते थे, उनमें tiny model से यह तय कराया कि वे वास्तव में query से संबंधित हैं या नहीं, और फिर filter किया। यह सचमुच production में गया था, लेकिन models के context size बढ़ने के साथ cost और quality की वजह से वह module बाद में हटा दिया गया। फिर भी, कुछ समय तक यह चलाया गया था
हमारी कंपनी छोटे मॉडल से पहले screening करती है, और confidence ज़्यादा होने पर ChatGPT से verify कराती है। हम यही तरीका language detection पर भी लागू करने की सोच रहे हैं। मौजूदा open source ML models mixed languages, sentence length और specific domains में कमज़ोर हैं (जैसे सिर्फ Bible translation पर trained होना आदि)
इसे कहाँ इस्तेमाल किया जाए यह थोड़ा अस्पष्ट है, लेकिन tag generation के लिए यह उपयोगी हो सकता है। इस आकार के encoders कुछ खास tasks में उल्टा काफ़ी आगे भी निकल जाते हैं
अगर मुझे सही याद है, तो Android (खासकर Pixel) में on-device assistant जैसी चीज़ों के लिए fine-tuned Gemma models इस्तेमाल होते हैं
9gag.com comments के लिए
आजकल model optimization की होड़ काफ़ी तेज़ है, और मैं सोच रहा था कि अगर अनावश्यक languages/domains हटा दिए जाएँ तो parameters कितना कम किए जा सकते हैं। उदाहरण के लिए, अगर सिर्फ English support करनी हो, तो क्या Chinese या European languages हटाकर उसी parameter budget में और ज़्यादा tasks कराए जा सकते हैं
यही सवाल वास्तव में वह हिस्सा था जिस पर हमने यह मॉडल बनाते समय सबसे ज़्यादा सोचा। "आप कितने काम कितनी अच्छी तरह करना चाहते हैं" इसके अनुसार trade-off बनता है। अलग data और अलग training strategies चुनकर performance मापनी पड़ती है। मैं सचमुच सलाह दूँगा कि आप अपने खुद के task set पर मॉडल train करके performance trade-off का मूल्यांकन करें। ऐसे प्रयोगों से आप LLM की क्षमताओं में बदलाव को सीधे महसूस कर सकते हैं
वास्तविकता में यह इतना सरल नहीं होता। transfer learning को देखना उपयोगी होगा
मैंने कभी नहीं सोचा था कि 2025 में जारी हुआ LLM मैं अपने iPhone पर BF16 full precision में चलाऊँगा। iPhone 16 Pro पर लगभग 80 tokens per second मिल रहे हैं
लेख में एक बात और जोड़ूँ: Gemma 3 270M का सटीक IFEval score 51.2 है। Qwen 3 scatter plot पर (0.6, 59.2) पर स्थित है
मैं यह भी बताना चाहूँगा कि prompt selection का इस मॉडल के performance पर बहुत बड़ा असर पड़ता है। NER या POS tagging कुछ निराशाजनक लगे। लेकिन non-Indo-European translation (जैसे Thai, Indonesian से English translation) आश्चर्यजनक रूप से अच्छा काम कर रही थी