Gemma 3 QAT मॉडल: अत्याधुनिक AI अब consumer GPU तक
(developers.googleblog.com)- पिछले महीने घोषित Gemma 3 एक open AI model है जो अत्याधुनिक performance देता है, और NVIDIA H100 जैसे single high-performance GPU पर भी चल सकता है
- QAT(Quantization-Aware Training) तकनीक लागू करके इसका हल्का संस्करण जारी किया गया है, जिससे अब यह consumer GPU पर भी चल सकता है
- int4 quantization की वजह से memory usage काफी कम हो जाता है, जबकि performance loss न्यूनतम रहता है
- QAT model RTX 3090, RTX 4060 जैसे सामान्य GPU पर भी चल सकते हैं, और Hugging Face, Ollama, LM Studio आदि में तुरंत इस्तेमाल किए जा सकते हैं
- community version के कई PTQ model भी साथ में उपलब्ध हैं, जिससे flexible choice मिलती है
Gemma 3 का परिचय और performance overview
- Google द्वारा घोषित नवीनतम open model Gemma 3 शानदार performance वाला एक large language model है
- यह BF16(16-bit floating point) precision में NVIDIA H100 GPU पर चल सकता है, और इसने बेहतरीन Chatbot Arena Elo score दर्ज किया है
- BF16 का उपयोग करने का कारण models के बीच performance comparison को fair बनाना है, ताकि अलग-अलग optimization methods को हटाकर model की मूल performance की तुलना की जा सके
accessibility बढ़ाने के लिए QAT-आधारित quantization
- पहले बड़े models को high-spec cloud environment की जरूरत होती थी, लेकिन इसे consumer hardware पर भी चलाने के लिए QAT technique लागू की गई
- Quantization model के अंदर numerical precision को कम करके memory usage घटाता है और execution को तेज करता है
- उदाहरण: BF16 की जगह int4 format इस्तेमाल करने पर 4 गुना से अधिक compression effect मिलता है
QAT से quality बनाए रखना
- साधारण post-training quantization की बजाय QAT(Quantization-Aware Training) का उपयोग किया गया, जिसमें training के दौरान ही quantization को reflect किया जाता है
- training process में लगभग 5,000 steps तक non-quantized checkpoint की prediction probabilities को target values के रूप में इस्तेमाल किया गया
- इस तरीके से Q4_0 quantization पर Perplexity reduction rate को 54% तक कम करने की उपलब्धि हासिल हुई
VRAM usage में क्रांतिकारी कमी
-
int4 quantization से VRAM saving का असर बड़ा है, और model के अनुसार कमी इस प्रकार है:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
-
इन आँकड़ों में केवल model weights को load करने के लिए जरूरी VRAM शामिल है; runtime के दौरान जरूरी KV cache के लिए अलग VRAM चाहिए
कई तरह के devices पर चलाने की सुविधा
- Gemma 3 27B (int4): RTX 3090 (24GB VRAM) पर local run संभव
- Gemma 3 12B (int4): RTX 4060 Laptop (8GB VRAM) पर भी बिना समस्या चलता है
- Gemma 3 4B, 1B: smartphone और low-spec devices पर भी चल सकते हैं
आसान integration और उपयोग
-
QAT models कई platforms और tools पर तुरंत उपयोग के लिए उपलब्ध हैं:
- Ollama: एक command line से run
- LM Studio: GUI environment में download और run
- MLX: Apple Silicon पर high-efficiency inference support
- Gemma.cpp: CPU environment में high-performance execution
- llama.cpp: GGUF format के साथ आसान integration
Gemmaverse के community models
- official QAT models के अलावा कई community PTQ models भी उपलब्ध हैं
- प्रमुख contributors: Bartowski, Unsloth, GGML
- अलग-अलग models में speed, size, और quality के balance के हिसाब से चुनाव किया जा सकता है
अभी तुरंत शुरू किया जा सकता है
- AI के लोकतंत्रीकरण की दिशा में यह एक महत्वपूर्ण कदम है, और Gemma 3 का QAT version अब कोई भी locally चला सकता है
- चलाने के तरीके:
- PC: Ollama
- model download: Hugging Face, Kaggle
- mobile run: Google AI Edge का उपयोग
1 टिप्पणियां
Hacker News की राय
gemma-3-27b-it-qat-4bitमॉडल अब Mistral Small 3.1 24B के साथ नया पसंदीदा मॉडल हैनिजी "vibe check" सवालों पर 4bit QAT 27B मॉडल ने सटीक जवाब दिए
पहला graph BF16 precision में "Elo Score" की तुलना दिखाता है, और दूसरा graph VRAM उपयोग की तुलना करता है
qwen2.5की जगहgemma3:27b-it-qatका उपयोग करके 32G मेमोरी वाले Mac पर रोज़मर्रा का काम कर रहे हैं16-core AMD 3950x CPU पर चला रहे हैं, और translation तथा image description में यह बहुत प्रभावशाली है
नवीनतम QAT
gemma3:27bडाउनलोड करने के बाद performance 1.47 गुना बेहतर हो गईलोकल LLM को कंपनियों द्वारा first-class citizen की तरह ट्रीट किया जाना ज़रूरी है
Microsoft और Apple ने AI PC और Apple Intelligence का प्रचार किया, लेकिन वास्तव में consumer GPU पर उपयोग योग्य मॉडल सिर्फ़ high-end GPU पर ही संभव हैं
Gemma 3, Llama 4 से कहीं बेहतर है
Ollama में उपलब्ध है