Gemma 4 QAT मॉडल: मोबाइल और लैपटॉप दक्षता के लिए compression optimization

(blog.google)

4 पॉइंट द्वारा GN⁺ 2026-06-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Gemma 4 quantization-aware training (QAT) checkpoints मेमोरी आवश्यकताओं और on-device performance को optimize करते हैं, ताकि रोज़मर्रा के edge devices और consumer GPUs पर इन्हें लोकल रूप से चलाना आसान हो
QAT training के दौरान quantization को simulate करता है, जिससे compression के समय quality loss कम होता है, और standard PTQ baseline की तुलना में कुल मिलाकर बेहतर quality मिलती है
जारी किए गए checkpoints Q4_0 format और mobile-specific format को target करते हैं, और mobile format Gemma 4 E2B का memory footprint घटाकर 1GB तक ले आता है
Mobile schema static activations, per-channel quantization, selective 2-bit quantization, और embedding·KV cache optimization के ज़रिए mobile chips पर workload और active memory usage कम करता है
Hugging Face weights, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js, SGLang·vLLM·MLX·Unsloth support के साथ local execution, on-device deployment, और fine-tuning संभव है

पृष्ठभूमि और दायरा

Gemma 4 के रिलीज़ के दो महीने बाद, Google ने inference acceleration के लिए Multi-Token Prediction(MTP) और E4B·26B MOE models के बीच की जगह भरने वाले 12B model के बाद अब QAT checkpoints जारी किए हैं
नए checkpoints का लक्ष्य Gemma 4 को रोज़मर्रा के edge devices और consumer GPUs पर लोकल रूप से चलाना संभव बनाना है
QAT training के दौरान quantization को simulate करके model compression में होने वाले quality loss को minimize करता है
इस रिलीज़ में लोकप्रिय Q4_0 quantization format के लिए QAT checkpoints और mobile use cases के लिए optimized एक नया quantization format दिया गया है

संपीड़न और गुणवत्ता के बीच संतुलन

Quantization consumer hardware पर models चलाने की एक मुख्य तकनीक है, जो memory footprint कम करती है और decode speed बढ़ाती है
Standard post-training quantization (PTQ) से अक्सर performance में गिरावट आती है, जबकि QAT quantization process को सीधे training में integrate करता है
PTQ भी quality preserve करने में प्रभावी है, लेकिन QAT के नतीजे standard PTQ baseline की तुलना में overall quality को और बेहतर बनाते हैं
Google ने सभी models की performance maximize करने के लिए Q4_0 format पर QAT recipe लागू की, और E2B·E4B edge models के लिए अलग से mobile-specific quantization schema डिज़ाइन किया

मोबाइल अनुकूलन संरचना

Standard compression formats को mobile processors पर efficient तरीके से चलाना अक्सर कठिन होता है, इसलिए Gemma 4 edge hardware के लिए customized mobile quantization schema का उपयोग करता है
Static activations data scale settings को training के दौरान पहले से calculate करते हैं, जिससे mobile chips का workload घटता है और response speed बढ़ती है
Per-channel quantization compressed data को mobile accelerator architecture के अनुरूप व्यवस्थित करती है, जिससे slow fallback methods के बिना native computation संभव होती है
Selective 2-bit quantization token generation वाले हिस्सों को 2-bit में अधिक आक्रामक रूप से compress करती है, जबकि core inference layers को higher precision पर रखती है, जिससे storage बचता है
Embedding और KV cache optimization model vocabulary और short-term memory पर compression केंद्रित करके active memory footprint को काफी कम करते हैं और लंबे conversations संभव बनाते हैं
जिन use cases में audio·vision encoder की ज़रूरत नहीं है, उनमें सिर्फ आवश्यक modality deploy करके memory footprint और घटाया जा सकता है, और Per-Layer Embeddings के बिना Gemma 4 E2B text-only model को 1GB से कम memory चाहिए

उपयोग के तरीके और टूल समर्थन

Google Q4_0 और mobile model weights को Hugging Face पर उपलब्ध करा रहा है
GGUF format को llama.cpp में सीधे उपयोग किया जा सकता है, compressed tensors vLLM के लिए दिए गए हैं, और अन्य workflows के लिए non-quantized checkpoints भी साझा किए गए हैं जिन्हें Q4_0-supported formats में convert और quantize किया जा सकता है
Deployment methods की जानकारी दस्तावेज़ में मिल सकती है
Desktop पर llama.cpp, Ollama, LM Studio के ज़रिए Gemma 4 QAT models को लोकल रूप से download, manage, और run किया जा सकता है
On-device deployment के लिए Google का lightweight LiteRT-LM runtime इस्तेमाल किया जा सकता है, और web पर Transformers.js के साथ इसे सीधे चलाया जा सकता है
Large model serving के लिए SGLang और vLLM का उपयोग किया जा सकता है, जबकि Apple Silicon optimization के लिए MLX उपलब्ध है
MTP QAT checkpoints model को quantize करते हुए MTP की speed improvements को बनाए रखते हैं, और Hugging Face Transformers तथा Unsloth के साथ weights को सीधे fine-tune किया जा सकता है

1 टिप्पणियां

GN⁺ 2026-06-06

Hacker News की राय

Mac पर uvx litert-lm run से Gemma 4 E2B को लोकल चलाकर देखा, और पहली बार चलाने पर ~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lm में 3.2GB डाउनलोड हुआ
इस आकार का मॉडल ऑडियो और इमेज इनपुट भी संभाल लेता है, यह काफ़ी प्रभावशाली है, और इमेज के लिए --attachment image.jpg --prompt describe, ऑडियो के लिए --attachment audio.wav --prompt transcribe की तरह चलाया जा सकता है
Pelican SVG आउटपुट खुद बहुत अच्छा नहीं था, लेकिन 3.2GB की फ़ाइल का वैध SVG निकाल देना भी चौंकाने वाला था: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...
- यह सच में quantization-aware training (QAT) है या नहीं, इस पर थोड़ा भ्रम है
  MLX Community के मॉडल्स के नाम में यह साफ़ लिखा होता है, लेकिन यहाँ वाले मॉडल्स में ऐसा नहीं है, और अपलोड की तारीखें भी पूरी तरह मेल खाती नहीं दिखतीं
- यह भी हैरानी की बात है कि इसका 0.8GB वर्शन भी है, जो केवल टेक्स्ट के लिए है
  अब डिवाइस के अंदर ही वीडियो और ऑडियो को पहचानने वाली बुनियादी real-time बातचीत संभव हो गई है
- अलग बात है, uvx इस्तेमाल करने में सचमुच बहुत सुविधाजनक है
  अच्छा होता अगर Nvidia भी लोगों को Docker workaround कराने के बजाय इसे first-class support देता
Unsloth collection भी है [0], और नतीजे भी सार्वजनिक हैं [1]
बिना quantize किए हुए BF16 मॉडल की तुलना में accuracy लगभग 100% के क़रीब लगती है, और लेख में दिखाए गए Google के मूल QAT से Unsloth quantization बेहतर लगती है
निजी तौर पर, मैं फ़ोन में मॉडल एम्बेड होने के साथ भी Unsloth Studio और API के जरिए 2B मॉडल को web search और structured JSON output के लिए इस्तेमाल कर रहा हूँ, और इस काम के लिए यह बहुत अच्छा फिट बैठता है
[0] https://huggingface.co/collections/unsloth/gemma-4-qat
[1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis
- शायद उस चार्ट को ग़लत समझा गया है
  वहाँ जो दिख रहा है वह साधारण BF16 नहीं बल्कि BF16 QAT Q4_0 है
  बात कुछ ऐसी है कि Google ने मॉडल को 4-bit में quantize करने के बाद, नीचे के packer के साथ compatibility और सुविधा के लिए परिणाम को BF16 फ़ॉर्मेट में स्टोर किया
  यह कुछ वैसा है जैसे छोटे 8-bit नंबरों को 32-bit integer में रख देना, इसलिए इसका मतलब यह नहीं कि यह बिना quantize किए BF16 के 100% के क़रीब है
  फिर भी यह दिलचस्प है कि Google द्वारा जारी 4-bit QAT Q4_0, BF16 QAT Q4_0 का ठीक 100% क्यों नहीं है। इन दोनों packing formats के बीच conversion तो अतिरिक्त quantization के बिना सिर्फ bit manipulation से हो जाना चाहिए, लेकिन Unsloth का कहना है कि grid alignment की समस्या है
  इससे अलग, यह भी खटकता है कि Google, Qwen जैसे छोटे मॉडल बनाने वाले जब नया मॉडल जारी करते हैं तो सिर्फ BF16 benchmark दिखाते हैं। असल में लोग 4~8-bit quantization चलाते हैं, लेकिन 4-bit और 6-bit पर कितना नुकसान होता है, यह जानना बहुत मुश्किल है
- थोड़ा भ्रम है, क्या Unsloth मॉडल लगभग 600MB का है और Google वाला 7GB का?
सिर्फ इस हफ़्ते को देखकर भी Gemma ecosystem कितनी तेज़ी से आगे बढ़ा है, यह प्रभावशाली है
Gemma 12B, multi-token prediction, और आधिकारिक quantized मॉडल आए हैं, और लग रहा है कि Google इस release flow पर सच में ज़ोर लगा रहा है, इसलिए उत्सुकता बढ़ती है
WWDC से ठीक पहले का शुक्रवार है, और यह भी दिलचस्प है कि Apple कथित तौर पर Google मॉडल पर आधारित “बेहतर” Siri की घोषणा करने वाला है
अभी यह कोई बंद partnership हो सकती है, लेकिन यह भी संभव है कि Google ने वही मॉडल पहले से जारी कर दिया हो जिसे Apple अगले हफ़्ते demo करेगा
पक्की जानकारी नहीं है, बस अटकल है
ollama से hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0 को AMD Ryzen 9 8940HX, NVIDIA GeForce RTX 5060 8GB, और 14GB RAM वाले लैपटॉप पर चलाकर देखा, और यह उम्मीद से तेज़ था
Gemma 4 12B को जारी करना(https://news.ycombinator.com/item?id=48385906), और फिर कुछ दिन बाद आधिकारिक Q4_0 Gemma 4 12B निकालना थोड़ा अजीब लगता है
फिर भी अच्छा है कि इस पोस्ट में Q4_0 Gemma 4 12B के अनुमानित VRAM उपयोग को 6.7GB बताया गया है, और इससे यह भी साफ़ होता है कि Google का 16GB में आराम से चलने वाला दावा सही तो है, लेकिन आख़िरकार वह सिर्फ quantized वर्शन पर लागू होता है
इसी संदर्भ में, Google के नए macOS Edge Gallery में साफ़ लिखा है कि 16GB मशीनों पर भी RAM की कमी के कारण Gemma 4 12B समर्थित नहीं है, लेकिन यहाँ दिए गए अनुमानित VRAM उपयोग के हिसाब से Q4_0 variant तो साफ़ तौर पर चलना चाहिए, इसलिए Google को यह ठीक करना चाहिए
- कई releases होना अजीब क्यों है, यह समझ नहीं आता
  मेरे हिसाब से मॉडल और variants तैयार होते ही जारी कर देना, सब कुछ एक साथ तैयार होने तक रोककर रखने से बेहतर है
  Q4_0 मूल Gemma 4 12B का सिर्फ साधारण quantized रूप नहीं है, बल्कि quantization-aware training checkpoint है
- अगर मैंने सही समझा है, तो 4Q और QAT 4Q एक-दूसरे से अलग हैं
Google Pixel Intelligence शायद Apple Intelligence को पीछे छोड़ सकता है
12B मॉडल को 8GB VRAM में चला पाना बड़ी बात है
छोटे local models कितनी तेज़ी से आगे बढ़े हैं, यह देखकर हैरानी होती है
Gemma 4 E2B Unsloth 4Q के साथ काफ़ी अच्छे नतीजे मिले: https://youtube.com/shorts/XLsAnz5aAAI
E4B मॉडल मेरे फ़ोन के TPU पर फिट नहीं बैठता, इसलिए RAM में swap हो जाता है, और QAT वर्शन में accuracy बेहतर हो जाए तो यह स्वागतयोग्य होगा
- यह जानने की उत्सुकता है कि इससे उपयोगी परिणाम कैसे मिले
  हमारे हिसाब से बिना quantize किया हुआ E2B मॉडल भी सबसे सरल वास्तविक classification tasks में पूरी तरह बेकार था
- यह कैसे पता चला कि वह TPU पर चल रहा था या RAM में swap हो रहा था?
  मैं भी अपने Pixel पर इसे टेस्ट करना चाहता हूँ

Gemma 4 QAT मॉडल: मोबाइल और लैपटॉप दक्षता के लिए compression optimization

पृष्ठभूमि और दायरा

संपीड़न और गुणवत्ता के बीच संतुलन

मोबाइल अनुकूलन संरचना

उपयोग के तरीके और टूल समर्थन

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय