Gemma 3 QAT मॉडल: अत्याधुनिक AI अब consumer GPU तक

(developers.googleblog.com)

12 पॉइंट द्वारा GN⁺ 2025-04-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें

पिछले महीने घोषित Gemma 3 एक open AI model है जो अत्याधुनिक performance देता है, और NVIDIA H100 जैसे single high-performance GPU पर भी चल सकता है
QAT(Quantization-Aware Training) तकनीक लागू करके इसका हल्का संस्करण जारी किया गया है, जिससे अब यह consumer GPU पर भी चल सकता है
int4 quantization की वजह से memory usage काफी कम हो जाता है, जबकि performance loss न्यूनतम रहता है
QAT model RTX 3090, RTX 4060 जैसे सामान्य GPU पर भी चल सकते हैं, और Hugging Face, Ollama, LM Studio आदि में तुरंत इस्तेमाल किए जा सकते हैं
community version के कई PTQ model भी साथ में उपलब्ध हैं, जिससे flexible choice मिलती है

Gemma 3 का परिचय और performance overview

Google द्वारा घोषित नवीनतम open model Gemma 3 शानदार performance वाला एक large language model है
यह BF16(16-bit floating point) precision में NVIDIA H100 GPU पर चल सकता है, और इसने बेहतरीन Chatbot Arena Elo score दर्ज किया है
BF16 का उपयोग करने का कारण models के बीच performance comparison को fair बनाना है, ताकि अलग-अलग optimization methods को हटाकर model की मूल performance की तुलना की जा सके

accessibility बढ़ाने के लिए QAT-आधारित quantization

पहले बड़े models को high-spec cloud environment की जरूरत होती थी, लेकिन इसे consumer hardware पर भी चलाने के लिए QAT technique लागू की गई
Quantization model के अंदर numerical precision को कम करके memory usage घटाता है और execution को तेज करता है
उदाहरण: BF16 की जगह int4 format इस्तेमाल करने पर 4 गुना से अधिक compression effect मिलता है

QAT से quality बनाए रखना

साधारण post-training quantization की बजाय QAT(Quantization-Aware Training) का उपयोग किया गया, जिसमें training के दौरान ही quantization को reflect किया जाता है
training process में लगभग 5,000 steps तक non-quantized checkpoint की prediction probabilities को target values के रूप में इस्तेमाल किया गया
इस तरीके से Q4_0 quantization पर Perplexity reduction rate को 54% तक कम करने की उपलब्धि हासिल हुई

VRAM usage में क्रांतिकारी कमी

int4 quantization से VRAM saving का असर बड़ा है, और model के अनुसार कमी इस प्रकार है:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
इन आँकड़ों में केवल model weights को load करने के लिए जरूरी VRAM शामिल है; runtime के दौरान जरूरी KV cache के लिए अलग VRAM चाहिए

कई तरह के devices पर चलाने की सुविधा

Gemma 3 27B (int4): RTX 3090 (24GB VRAM) पर local run संभव
Gemma 3 12B (int4): RTX 4060 Laptop (8GB VRAM) पर भी बिना समस्या चलता है
Gemma 3 4B, 1B: smartphone और low-spec devices पर भी चल सकते हैं

आसान integration और उपयोग

QAT models कई platforms और tools पर तुरंत उपयोग के लिए उपलब्ध हैं:
- Ollama: एक command line से run
- LM Studio: GUI environment में download और run
- MLX: Apple Silicon पर high-efficiency inference support
- Gemma.cpp: CPU environment में high-performance execution
- llama.cpp: GGUF format के साथ आसान integration

Gemmaverse के community models

official QAT models के अलावा कई community PTQ models भी उपलब्ध हैं
प्रमुख contributors: Bartowski, Unsloth, GGML
अलग-अलग models में speed, size, और quality के balance के हिसाब से चुनाव किया जा सकता है

अभी तुरंत शुरू किया जा सकता है

AI के लोकतंत्रीकरण की दिशा में यह एक महत्वपूर्ण कदम है, और Gemma 3 का QAT version अब कोई भी locally चला सकता है
चलाने के तरीके:
- PC: Ollama
- model download: Hugging Face, Kaggle
- mobile run: Google AI Edge का उपयोग

1 टिप्पणियां

GN⁺ 2025-04-21

Hacker News की राय

gemma-3-27b-it-qat-4bit मॉडल अब Mistral Small 3.1 24B के साथ नया पसंदीदा मॉडल है
- M2 64GB पर Ollama और MLX के ज़रिए उपयोग कर रहे हैं, और मेमोरी उपयोग कम होने से दूसरे ऐप चलाने के लिए काफ़ी जगह बचती है
- LLM टूल्स के लिए plugin लिखने में सफल परिणाम मिले
निजी "vibe check" सवालों पर 4bit QAT 27B मॉडल ने सटीक जवाब दिए
- 13GB weights में भरी information density देखकर हैरानी हुई
- DeepMind का Gemma 3 27B मॉडल सबसे प्रभावशाली open source मॉडल है
पहला graph BF16 precision में "Elo Score" की तुलना दिखाता है, और दूसरा graph VRAM उपयोग की तुलना करता है
- यह अफ़सोसजनक है कि BF16 और QAT के बीच quality comparison graph नहीं है
qwen2.5 की जगह gemma3:27b-it-qat का उपयोग करके 32G मेमोरी वाले Mac पर रोज़मर्रा का काम कर रहे हैं
- Python, Haskell, Common Lisp development में यह बहुत उपयोगी है
- open source मॉडल को लोकल पर चलाना संतोषजनक लगता है
16-core AMD 3950x CPU पर चला रहे हैं, और translation तथा image description में यह बहुत प्रभावशाली है
- translation के समय input language analysis से बचने के लिए command को समायोजित करते हैं
नवीनतम QAT gemma3:27b डाउनलोड करने के बाद performance 1.47 गुना बेहतर हो गई
लोकल LLM को कंपनियों द्वारा first-class citizen की तरह ट्रीट किया जाना ज़रूरी है
- पहला graph DeepSeek r1 के FP16 run के लिए ज़रूरी H100 की संख्या को लेकर गलतफ़हमी पैदा कर सकता है
Microsoft और Apple ने AI PC और Apple Intelligence का प्रचार किया, लेकिन वास्तव में consumer GPU पर उपयोग योग्य मॉडल सिर्फ़ high-end GPU पर ही संभव हैं
Gemma 3, Llama 4 से कहीं बेहतर है
- Meta के LLM बाज़ार में अपनी स्थिति खोने की संभावना है
- Llama 4 का मॉडल आकार इतना बड़ा है कि उपयोगकर्ता सीमित हो जाते हैं
- Gemma 3 हर हार्डवेयर आकार में व्यापक रूप से उपयोग के लिए उपलब्ध है
Ollama में उपलब्ध है

Gemma 3 QAT मॉडल: अत्याधुनिक AI अब consumer GPU तक

Gemma 3 का परिचय और performance overview

accessibility बढ़ाने के लिए QAT-आधारित quantization

QAT से quality बनाए रखना

VRAM usage में क्रांतिकारी कमी

कई तरह के devices पर चलाने की सुविधा

आसान integration और उपयोग

Gemmaverse के community models

अभी तुरंत शुरू किया जा सकता है

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय