Gemma 2: व्यावहारिक आकार के open language models में सुधार
(ai.google.dev)मुख्य बिंदु:
Gemma 2, 2 अरब से 27 अरब parameters की रेंज में आने वाले हल्के, अत्याधुनिक open language models का नया परिवार है।
9 अरब और 27 अरब parameter वाले models अभी उपलब्ध हैं, जबकि 2 अरब model जल्द जारी होगा।
मुख्य तकनीकी सुधार:
- local-global attention का बारी-बारी से उपयोग
- group-query attention
- छोटे models के लिए knowledge distillation training
models अपने आकार की तुलना में सर्वश्रेष्ठ performance दिखाते हैं, और 2-3 गुना बड़े models के साथ प्रतिस्पर्धी हैं।
मॉडल आर्किटेक्चर:
- decoder-only transformer architecture
- 8192 token context length
- local sliding window (4096 tokens) और global attention layers का बारी-बारी से उपयोग
- group-query attention (GQA)
- layer normalization के लिए RMSNorm
प्रशिक्षण:
- 27 अरब model को 13 ट्रिलियन tokens पर train किया गया
- 9 अरब model को 8 ट्रिलियन tokens पर train किया गया
- 2.6 अरब model को 2 ट्रिलियन tokens पर train किया गया
- data sources: web documents, code, scientific articles
- 2.6 अरब और 9 अरब models में knowledge distillation का उपयोग
प्रदर्शन:
- benchmarks में तुलनीय open models से बेहतर
- कुछ बड़े models के साथ भी प्रतिस्पर्धी
- question answering, reasoning, math, science, coding tasks में मजबूत परिणाम
सुरक्षा & जिम्मेदारी:
- व्यापक safety testing और responsible deployment प्रक्रियाएँ लागू
- safety policies और training के दौरान mitigation measures लागू
- developers के लिए responsible generative AI toolkit उपलब्ध
6 टिप्पणियां
क्या वह समय आएगा जब केवल CPU से LLM चलाए जा सकेंगे?
करीब 20B हो तो सिर्फ CPU से इसे चलाना पूरी तरह संभव है। 60B से ऊपर जाने पर मुश्किल होने लगती है या ठीक से नहीं चलता। (ट्रेनिंग पूरी तरह अलग मामला है) ollama एक बार इस्तेमाल करके देखिए।
मुझे ज़रूरी specs का बिल्कुल अंदाज़ा नहीं था, सलाह के लिए धन्यवाद। Intel 11th gen laptop पर यह अभी मुश्किल लग रहा है, शायद इसे किसी virtualization server पर चलाना पड़ेगा।
lm studioइंस्टॉल कर लें, हो जाएगामैंने इसे लैपटॉप पर मुश्किल कहा था क्योंकि CPU उपयोग सभी cores पर 100% तक चला जाता है और गर्मी बहुत बढ़ जाती है, इसलिए यह आरामदायक नहीं लगा। LM Studio में prompt UI है, इसलिए usability अच्छी है, लेकिन लगता है कि यह smooth अनुभव की जरूरत पूरी नहीं कर पाएगा।
अरे..? यह तो पहले से ही कर रहा है;;