10 पॉइंट द्वारा haebom 2024-06-28 | 6 टिप्पणियां | WhatsApp पर शेयर करें

मुख्य बिंदु:

Gemma 2, 2 अरब से 27 अरब parameters की रेंज में आने वाले हल्के, अत्याधुनिक open language models का नया परिवार है।
9 अरब और 27 अरब parameter वाले models अभी उपलब्ध हैं, जबकि 2 अरब model जल्द जारी होगा।

मुख्य तकनीकी सुधार:

  • local-global attention का बारी-बारी से उपयोग
  • group-query attention
  • छोटे models के लिए knowledge distillation training
    models अपने आकार की तुलना में सर्वश्रेष्ठ performance दिखाते हैं, और 2-3 गुना बड़े models के साथ प्रतिस्पर्धी हैं।

मॉडल आर्किटेक्चर:

  • decoder-only transformer architecture
  • 8192 token context length
  • local sliding window (4096 tokens) और global attention layers का बारी-बारी से उपयोग
  • group-query attention (GQA)
  • layer normalization के लिए RMSNorm

प्रशिक्षण:

  • 27 अरब model को 13 ट्रिलियन tokens पर train किया गया
  • 9 अरब model को 8 ट्रिलियन tokens पर train किया गया
  • 2.6 अरब model को 2 ट्रिलियन tokens पर train किया गया
  • data sources: web documents, code, scientific articles
  • 2.6 अरब और 9 अरब models में knowledge distillation का उपयोग

प्रदर्शन:

  • benchmarks में तुलनीय open models से बेहतर
  • कुछ बड़े models के साथ भी प्रतिस्पर्धी
  • question answering, reasoning, math, science, coding tasks में मजबूत परिणाम

सुरक्षा & जिम्मेदारी:

  • व्यापक safety testing और responsible deployment प्रक्रियाएँ लागू
  • safety policies और training के दौरान mitigation measures लागू
  • developers के लिए responsible generative AI toolkit उपलब्ध

6 टिप्पणियां

 
savvykang 2024-06-28

क्या वह समय आएगा जब केवल CPU से LLM चलाए जा सकेंगे?

 
haebom 2024-06-28

करीब 20B हो तो सिर्फ CPU से इसे चलाना पूरी तरह संभव है। 60B से ऊपर जाने पर मुश्किल होने लगती है या ठीक से नहीं चलता। (ट्रेनिंग पूरी तरह अलग मामला है) ollama एक बार इस्तेमाल करके देखिए।

 
savvykang 2024-06-28

मुझे ज़रूरी specs का बिल्कुल अंदाज़ा नहीं था, सलाह के लिए धन्यवाद। Intel 11th gen laptop पर यह अभी मुश्किल लग रहा है, शायद इसे किसी virtualization server पर चलाना पड़ेगा।

 
hhkkkk 2024-06-29

lm studio इंस्टॉल कर लें, हो जाएगा

 
savvykang 2024-06-29

मैंने इसे लैपटॉप पर मुश्किल कहा था क्योंकि CPU उपयोग सभी cores पर 100% तक चला जाता है और गर्मी बहुत बढ़ जाती है, इसलिए यह आरामदायक नहीं लगा। LM Studio में prompt UI है, इसलिए usability अच्छी है, लेकिन लगता है कि यह smooth अनुभव की जरूरत पूरी नहीं कर पाएगा।

 
hhkkkk 2024-06-28

अरे..? यह तो पहले से ही कर रहा है;;