• Meta ने मोबाइल डिवाइस पर चलने योग्य हल्के quantized Llama मॉडल जारी किए
  • 8K या उससे कम के छोटे context वाले applications के लिए अनुकूलित
  • Quantized मॉडल ने 2-4 गुना speedup, मॉडल आकार में 56% कमी, और memory उपयोग में 41% कमी हासिल की।
  • Quantization तकनीकें
    • Llama 3.2 1B और 3B मॉडलों के लिए Quantization-Aware Training(QAT) और SpinQuant तकनीकों का उपयोग किया गया।
    • QAT में accuracy को, जबकि SpinQuant में portability को प्राथमिकता दी गई।
    • PyTorch के ExecuTorch framework के जरिए दोनों quantization तकनीकों का समर्थन किया गया।
  • मोबाइल डिवाइस optimization
    • Qualcomm और MediaTek SoC पर चलने के लिए डिज़ाइन किया गया।
    • Android OnePlus 12 मॉडल पर टेस्ट में मॉडल आकार और memory उपयोग में बड़ी कमी देखी गई।
    • मोबाइल CPU और NPU का उपयोग करके performance को optimize किया गया।
  • Quantization configuration
    • PyTorch के ExecuTorch inference framework और Arm CPU backend को ध्यान में रखकर डिज़ाइन किया गया।
    • सभी linear layers को 4-bit group units में quantize किया गया, और activation के लिए 8-bit dynamic quantization का उपयोग किया गया।
  • Quantization-Aware Training(QAT) और LoRA
    • Llama 3.2 मॉडल के training के दौरान quantization प्रभाव को simulate करने वाले QAT का उपयोग कर low-precision environment में performance optimize की गई।
    • QAT initialization के लिए BF16 Llama 3.2 मॉडल checkpoint का उपयोग किया गया और QAT के साथ अतिरिक्त SFT training की गई।
    • QAT मॉडल के backbone को freeze करके LoRA adapter लागू रखते हुए एक और बार SFT किया गया।
    • QAT के लिए torchao API का उपयोग किया गया।
  • SpinQuant
    • QAT + LoRA की तुलना में कम accurate है, लेकिन dataset access के बिना भी काम कर सकता है, इसलिए portability बेहतर है।
    • अलग-अलग hardware targets और use cases के अनुसार मॉडल को quantize किया जा सकता है।
  • परिणाम
    • QLoRA approach ने हर पहलू में सबसे बेहतर quality दिखाई।
    • BF16 की तुलना में decode latency औसतन 2.5 गुना और prefill latency 4.2 गुना बेहतर हुई।
    • मॉडल आकार औसतन 56% घटा और memory उपयोग 41% कम हुआ।
    • माप Android OnePlus 12 डिवाइस पर किए गए; iOS डिवाइस पर accuracy समान रही, लेकिन performance का मूल्यांकन नहीं किया गया।

GN⁺ की संक्षिप्त टिप्पणी

  • Meta के quantized Llama मॉडल का लक्ष्य मोबाइल डिवाइस पर रन करने के लिए lightweight बनाना और performance optimize करना है।
  • QAT और SpinQuant तकनीकों के जरिए accuracy और portability दोनों को ध्यान में रखकर quantized मॉडल उपलब्ध कराए गए हैं।
  • मोबाइल CPU और NPU का उपयोग कर performance को अधिकतम किया गया है, और विभिन्न hardware पर उपयोग का समर्थन किया गया है।
  • अलग-अलग मोबाइल platforms और partners के साथ करीबी सहयोग के जरिए ऐसा समाधान दिया गया है जिसे वास्तविक उत्पादों में लागू किया जा सके।
  • Meta के Llama मॉडल को openness, modifiability, और cost efficiency के लिहाज़ से प्रतिस्पर्धी माना जाता है, और लगातार innovation के साथ मोबाइल पर मजबूत AI अनुभव देने की उम्मीद है।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.