12 पॉइंट द्वारा GN⁺ 2025-04-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • पिछले महीने घोषित Gemma 3 एक open AI model है जो अत्याधुनिक performance देता है, और NVIDIA H100 जैसे single high-performance GPU पर भी चल सकता है
  • QAT(Quantization-Aware Training) तकनीक लागू करके इसका हल्का संस्करण जारी किया गया है, जिससे अब यह consumer GPU पर भी चल सकता है
  • int4 quantization की वजह से memory usage काफी कम हो जाता है, जबकि performance loss न्यूनतम रहता है
  • QAT model RTX 3090, RTX 4060 जैसे सामान्य GPU पर भी चल सकते हैं, और Hugging Face, Ollama, LM Studio आदि में तुरंत इस्तेमाल किए जा सकते हैं
  • community version के कई PTQ model भी साथ में उपलब्ध हैं, जिससे flexible choice मिलती है

Gemma 3 का परिचय और performance overview

  • Google द्वारा घोषित नवीनतम open model Gemma 3 शानदार performance वाला एक large language model है
  • यह BF16(16-bit floating point) precision में NVIDIA H100 GPU पर चल सकता है, और इसने बेहतरीन Chatbot Arena Elo score दर्ज किया है
  • BF16 का उपयोग करने का कारण models के बीच performance comparison को fair बनाना है, ताकि अलग-अलग optimization methods को हटाकर model की मूल performance की तुलना की जा सके

accessibility बढ़ाने के लिए QAT-आधारित quantization

  • पहले बड़े models को high-spec cloud environment की जरूरत होती थी, लेकिन इसे consumer hardware पर भी चलाने के लिए QAT technique लागू की गई
  • Quantization model के अंदर numerical precision को कम करके memory usage घटाता है और execution को तेज करता है
  • उदाहरण: BF16 की जगह int4 format इस्तेमाल करने पर 4 गुना से अधिक compression effect मिलता है

QAT से quality बनाए रखना

  • साधारण post-training quantization की बजाय QAT(Quantization-Aware Training) का उपयोग किया गया, जिसमें training के दौरान ही quantization को reflect किया जाता है
  • training process में लगभग 5,000 steps तक non-quantized checkpoint की prediction probabilities को target values के रूप में इस्तेमाल किया गया
  • इस तरीके से Q4_0 quantization पर Perplexity reduction rate को 54% तक कम करने की उपलब्धि हासिल हुई

VRAM usage में क्रांतिकारी कमी

  • int4 quantization से VRAM saving का असर बड़ा है, और model के अनुसार कमी इस प्रकार है:

    • Gemma 3 27B: 54GB → 14.1GB
    • Gemma 3 12B: 24GB → 6.6GB
    • Gemma 3 4B: 8GB → 2.6GB
    • Gemma 3 1B: 2GB → 0.5GB
  • इन आँकड़ों में केवल model weights को load करने के लिए जरूरी VRAM शामिल है; runtime के दौरान जरूरी KV cache के लिए अलग VRAM चाहिए

कई तरह के devices पर चलाने की सुविधा

  • Gemma 3 27B (int4): RTX 3090 (24GB VRAM) पर local run संभव
  • Gemma 3 12B (int4): RTX 4060 Laptop (8GB VRAM) पर भी बिना समस्या चलता है
  • Gemma 3 4B, 1B: smartphone और low-spec devices पर भी चल सकते हैं

आसान integration और उपयोग

  • QAT models कई platforms और tools पर तुरंत उपयोग के लिए उपलब्ध हैं:

    • Ollama: एक command line से run
    • LM Studio: GUI environment में download और run
    • MLX: Apple Silicon पर high-efficiency inference support
    • Gemma.cpp: CPU environment में high-performance execution
    • llama.cpp: GGUF format के साथ आसान integration

Gemmaverse के community models

  • official QAT models के अलावा कई community PTQ models भी उपलब्ध हैं
  • प्रमुख contributors: Bartowski, Unsloth, GGML
  • अलग-अलग models में speed, size, और quality के balance के हिसाब से चुनाव किया जा सकता है

अभी तुरंत शुरू किया जा सकता है

  • AI के लोकतंत्रीकरण की दिशा में यह एक महत्वपूर्ण कदम है, और Gemma 3 का QAT version अब कोई भी locally चला सकता है
  • चलाने के तरीके:

1 टिप्पणियां

 
GN⁺ 2025-04-21
Hacker News की राय
  • gemma-3-27b-it-qat-4bit मॉडल अब Mistral Small 3.1 24B के साथ नया पसंदीदा मॉडल है

    • M2 64GB पर Ollama और MLX के ज़रिए उपयोग कर रहे हैं, और मेमोरी उपयोग कम होने से दूसरे ऐप चलाने के लिए काफ़ी जगह बचती है
    • LLM टूल्स के लिए plugin लिखने में सफल परिणाम मिले
  • निजी "vibe check" सवालों पर 4bit QAT 27B मॉडल ने सटीक जवाब दिए

    • 13GB weights में भरी information density देखकर हैरानी हुई
    • DeepMind का Gemma 3 27B मॉडल सबसे प्रभावशाली open source मॉडल है
  • पहला graph BF16 precision में "Elo Score" की तुलना दिखाता है, और दूसरा graph VRAM उपयोग की तुलना करता है

    • यह अफ़सोसजनक है कि BF16 और QAT के बीच quality comparison graph नहीं है
  • qwen2.5 की जगह gemma3:27b-it-qat का उपयोग करके 32G मेमोरी वाले Mac पर रोज़मर्रा का काम कर रहे हैं

    • Python, Haskell, Common Lisp development में यह बहुत उपयोगी है
    • open source मॉडल को लोकल पर चलाना संतोषजनक लगता है
  • 16-core AMD 3950x CPU पर चला रहे हैं, और translation तथा image description में यह बहुत प्रभावशाली है

    • translation के समय input language analysis से बचने के लिए command को समायोजित करते हैं
  • नवीनतम QAT gemma3:27b डाउनलोड करने के बाद performance 1.47 गुना बेहतर हो गई

  • लोकल LLM को कंपनियों द्वारा first-class citizen की तरह ट्रीट किया जाना ज़रूरी है

    • पहला graph DeepSeek r1 के FP16 run के लिए ज़रूरी H100 की संख्या को लेकर गलतफ़हमी पैदा कर सकता है
  • Microsoft और Apple ने AI PC और Apple Intelligence का प्रचार किया, लेकिन वास्तव में consumer GPU पर उपयोग योग्य मॉडल सिर्फ़ high-end GPU पर ही संभव हैं

  • Gemma 3, Llama 4 से कहीं बेहतर है

    • Meta के LLM बाज़ार में अपनी स्थिति खोने की संभावना है
    • Llama 4 का मॉडल आकार इतना बड़ा है कि उपयोगकर्ता सीमित हो जाते हैं
    • Gemma 3 हर हार्डवेयर आकार में व्यापक रूप से उपयोग के लिए उपलब्ध है
  • Ollama में उपलब्ध है