- AMD ने अपना पहला small language model AMD-135M पेश किया
- इस मॉडल को AMD Instinct™ MI250 accelerator का उपयोग करके 670 अरब tokens पर train किया गया
- इसे दो मॉडलों में बाँटा गया है: AMD-Llama-135M और AMD-Llama-135M-code
- AMD-Llama-135M मॉडल को सामान्य data का उपयोग करके 6 दिनों तक 670 अरब tokens पर train किया गया
- AMD-Llama-135M-code मॉडल को अतिरिक्त 20 अरब code data tokens पर 4 दिनों तक fine-tune किया गया
- इस मॉडल का training code, dataset और weights open source के रूप में उपलब्ध हैं
- Speculative Decoding के जरिए inference performance optimization
- large language models आम तौर पर autoregressive approach का उपयोग करके inference करते हैं
- इस approach की मुख्य सीमा यह है कि हर forward pass में केवल एक token ही बनाया जा सकता है
- speculative decoding की शुरुआत से इस समस्या का समाधान किया गया
- एक छोटे draft model का उपयोग करके candidate tokens का set बनाया जाता है, जिसे बड़ा target model verify करता है
- यह approach हर forward pass में कई tokens बनाने की अनुमति देता है, जिससे memory access consumption काफी कम होती है और speed काफी बढ़ती है
- inference performance acceleration
- AMD-Llama-135M-code को CodeLlama-7b के draft model के रूप में उपयोग करके inference performance का परीक्षण किया गया
- MI250 accelerator और Ryzen™ AI processor (NPU सहित) पर speculative decoding के साथ और बिना इसकी तुलना की गई
- कुछ विशेष configurations में speculative decoding का उपयोग करने पर speed improvement देखा गया
- अगले कदम
- AMD open source reference implementation प्रदान कर AI community में innovation को बढ़ावा दे रहा है
- AMD-135M के बारे में अधिक जानकारी technical blog में देखी जा सकती है
- AMD Github repository में code तक पहुँचा जा सकता है
- Hugging Face Model Card से model files डाउनलोड की जा सकती हैं
- AMD Developer Cloud में Instinct accelerator cards के access के लिए आवेदन किया जा सकता है
GN⁺ की संक्षिप्त जानकारी
- AMD का पहला small language model AMD-135M, AI community के लिए एक महत्वपूर्ण प्रगति है
- speculative decoding के जरिए inference performance में बड़ा सुधार हुआ है
- open source reference implementation के जरिए developers को model को reproduce करने और अन्य SLM व LLM को train करने में सहायता मिलती है
- इसका लक्ष्य AI क्षेत्र में innovation को बढ़ावा देना और अधिक समावेशी व नैतिक तकनीकी प्रगति हासिल करना है
1 टिप्पणियां
सामान्य कृत्रिम बुद्धिमत्ता तक विकसित होने के लिए एक आयामगत छलांग का अवसर होना चाहिए, और वह अवसर है शिक्षा।