AMD ने AI inference प्रदर्शन और दक्षता बढ़ाने के लिए MK1 का अधिग्रहण किया

(mkone.ai)

1 पॉइंट द्वारा GN⁺ 2023-08-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें

AMD, MK1 के अधिग्रहण के जरिए हार्डवेयर से सॉफ्टवेयर तक पूरे स्टैक में AI inference प्रदर्शन और दक्षता बढ़ाना चाहता है
Mountain View स्थित MK1, बड़े पैमाने पर डिप्लॉयमेंट के लिए हाई-स्पीड inference और reasoning-आधारित AI तकनीक पर केंद्रित टीम रही है
MK1 का Flywheel AMD हार्डवेयर के लिए ऑप्टिमाइज़्ड है और फिलहाल प्रतिदिन 1 ट्रिलियन से अधिक टोकन प्रोसेस करता है
MK1 टीम, AMD Artificial Intelligence Group में शामिल होकर enterprise AI software stack और inference क्षमताओं को मजबूत करने पर काम करेगी
Flywheel और comprehension engines, AMD Instinct GPU की मेमोरी आर्किटेक्चर का उपयोग करके बड़े पैमाने के reasoning में सटीकता, लागत-दक्षता और ट्रेसबिलिटी बढ़ाने पर केंद्रित हैं

AMD AI स्टैक में शामिल हुआ MK1

AMD ने MK1 का अधिग्रहण पूरा कर लिया है और इसे पूरे स्टैक में AI प्रदर्शन और दक्षता बढ़ाने के लिए एक रणनीतिक मील का पत्थर मान रहा है
MK1, Mountain View, California स्थित एक टीम है, जो बड़े पैमाने पर डिप्लॉयमेंट के लिए ऑप्टिमाइज़्ड हाई-स्पीड inference और reasoning-आधारित AI तकनीक विकसित करती रही है
MK1 की Flywheel तकनीक AMD हार्डवेयर के लिए ऑप्टिमाइज़्ड है और फिलहाल प्रतिदिन 1 ट्रिलियन से अधिक टोकन प्रोसेस करती है
MK1 टीम, AMD Artificial Intelligence Group में शामिल हो गई है
- इस टीम की तकनीक और विशेषज्ञता का उपयोग AMD की हाई-स्पीड inference क्षमताओं और enterprise AI software stack को आगे बढ़ाने में किया जाएगा

Enterprise AI के लिए Flywheel का लक्ष्य

MK1 के Flywheel और comprehension engines, AMD Instinct GPU की मेमोरी आर्किटेक्चर का लाभ उठाने के लिए डिज़ाइन किए गए हैं
यह तकनीक बड़े पैमाने के वातावरण में सटीकता, लागत-दक्षता और पूर्ण ट्रेसबिलिटी के साथ reasoning उपलब्ध कराने पर केंद्रित है
AMD, MK1 के सॉफ्टवेयर इनोवेशन और अपनी कंप्यूटिंग क्षमताओं को मिलाकर enterprise AI के अगले चरण को तेज करना चाहता है
- ग्राहकों को जटिल बिज़नेस प्रोसेस ऑटोमेट करने में सहायता देना
- उच्च-मूल्य वाले एप्लिकेशन में नए अवसर खोलने में सहायता देना
अधिग्रहण के अपेक्षित प्रभाव से संबंधित बयान भविष्य उन्मुख वक्तव्य हैं, और वास्तविक परिणाम AMD की SEC फाइलिंग में वर्णित जोखिमों और अनिश्चितताओं के अनुसार अलग हो सकते हैं

1 टिप्पणियां

GN⁺ 2023-08-07

Hacker News की राय

यह अजीब है कि वे मौजूदा quantization techniques का एक बार भी ज़िक्र नहीं करते या नतीजों की उनसे तुलना नहीं करते
आम तौर पर मैं इसे अच्छे इरादे से देखना चाहूँगा, लेकिन ऐसा नहीं हो सकता कि उन्हें उसी मकसद के लिए पहले से व्यापक रूप से इस्तेमाल हो रही तकनीकों की जानकारी न हो, इसलिए comparison benchmark होना चाहिए
जो कमी है उसे पूरा करने के लिए, Llama 1 के लिए llama.cpp द्वारा दी गई quantization-by-quantization comparison table[0] मौजूद है। इसे Llama 2 metrics से सीधे compare नहीं किया जा सकता, लेकिन सिर्फ speed और perplexity में बदलाव की दर देखें तो MK-1 Q5_1 से काफी मिलता-जुलता दिखता है। Perplexity थोड़ी, लेकिन नज़रअंदाज़ न की जा सकने वाली, खराब होती है और speed 2x से थोड़ा ज्यादा तेज हो जाती है
अगर ये numbers सही हैं, तो Hugging Face से पहले से quantized Llama 2 model डाउनलोड करके MK-1 जैसी लगभग वही performance मिल सकती है। Q5 files यहाँ हैं: https://huggingface.co/TheBloke/Llama-2-13B-GGML/tree/main
[0] https://github.com/ggerganov/llama.cpp#quantization
- मैं co-founders में से एक हूँ। मौजूदा तरीकों से compare न करने का कारण यह था कि हमें लगा fair comparison करना मुश्किल है
  हर technique में trade-offs और use cases बहुत हैं, और यह मामला ऐसा नहीं है कि एक खराब है और दूसरा अच्छा; बल्कि target design points अलग हैं। उदाहरण के लिए cloud और local अलग हैं। हम numbers और benchmarks publish कर रहे हैं, और अभी अपनी current value proposition के लिए सही early partners खोज रहे हैं, इसलिए private beta में हैं
  उदाहरण के लिए llama.cpp single-user case (batch=1) में local पर model चलाने के लिए एक बेहतरीन framework है। llama.cpp RPi, CPU, GPU जैसे कई backends support करता है, लेकिन multi-user case (batch >> 1) में GPU पर एक खास perplexity, compression ratio और speed के आधार पर MKML को बेहतर दिखाकर compare करना हमें fair नहीं लगता। क्योंकि मेरी जानकारी में वह llama.cpp का target use case नहीं है। उदाहरण के लिए MKML Llama-2 7B को 4090 पर batch 32, यानी 32 prompts की parallel processing के साथ करीब 2700 tok/sec देता है, memory usage 5.2GB है, और perplexity लगभग fp16 level पर है
  साथ ही, फिलहाल हम quantization के लिए किसी open-source tool या technique को wrap करके इस्तेमाल नहीं कर रहे हैं। यह सब in-house technology है और जल्द ही हमारे पास बताने के लिए और खबर होगी। अगर specific technical questions हैं तो जहाँ तक संभव हो जवाब दूँगा
- “codec” शब्द का इस्तेमाल भी थोड़ा खटकता है। ऐसा लगता है जैसे वे दिखाना चाहते हैं कि उन्होंने कोई पूरी तरह नया paradigm invent किया है, और video compression की याद दिलाने वाला fancy नाम लगाना चाहते हैं
- इस weekend मैंने AMD 7900 XTX पर llama.cpp और q5_k_s quantization के साथ Llama2 पर कुछ experiments किए
  उनके RTX 4090 पर दिए MK600 numbers से compare करें तो, सस्ता GPU इस्तेमाल करने के बावजूद throughput ज्यादा और perplexity कम measured हुई
- Q5_1 भी अब पुराना तरीका है। K-family quantization समान perplexity loss पर तेज है और space efficiency भी बेहतर है
  https://old.reddit.com/r/LocalLLaMA/comments/142q5k5/updated...
- MKML का कहना है कि उसने Llama2-13B model size को 26GB से घटाकर 10.5GB कर दिया। TheBloke की मिलती-जुलती offering 10.7GB वाली Q6_K model है
  हो सकता है वे बस GGML और llama.cpp को इस्तेमाल करने लायक पैकेज कर रहे हों, और लोगों को यह विश्वास दिला रहे हों कि यह proprietary technology है
मौजूदा quantization techniques का एक बार भी ज़िक्र नहीं? मैं 10 डॉलर की शर्त लगा सकता हूँ कि यह बस bitsandbytes या ggml के ऊपर wrapper होने की अच्छी-खासी संभावना है
Open source नहीं है तो इसे इस्तेमाल करना मुश्किल लगेगा
यह field बहुत तेजी से बदल रही है, और वरना convenience भी पर्याप्त नहीं होगी
ऊपर से branding MK-ultra की याद दिलाती है, जिसे avoid करना बेहतर होगा
मैंने machine learning model quantization किया है। Open source में मिलने वाला 4-bit या 8-bit quantization सबसे अच्छा possible option नहीं है
size घटाते हुए prediction performance बनाए रखने की कहीं ज्यादा sophisticated techniques हैं। कुछ techniques, जैसे quantization-aware training, training process में बदलाव शामिल करती हैं
- यह पक्का है कि बेहतर methods मौजूद हैं। लेकिन इस case में MKML के numbers पहले से व्यापक रूप से इस्तेमाल हो रही representative quantization techniques के साथ रखे जाएँ तो impressive नहीं लगते
  इस table[0] के मुताबिक size Q6_K quantization से सबसे ज्यादा मिलता है, और perplexity तो उल्टा थोड़ी ज्यादा खराब दिखती है
  अगर उनकी technique बेहतर होती, तो वे raw fp16 model को ही एकमात्र alternative जैसा दिखाने के बजाय open-source techniques के अस्तित्व को acknowledge करते और comparison table में शामिल करते
  [0] https://old.reddit.com/r/LocalLLaMA/comments/142q5k5/updated...
- Unum की quantization method कैसी है?
  https://github.com/unum-cloud/usearch
यह एक और AI startup grift जैसा दिखता है। GGML इस्तेमाल करके उसे बंद कर देना और फिर VC money लेने की कोशिश जैसा
लगता है एक और AI wrapper company वही काम कर रही है और LLM hype खत्म होने से पहले उस पर सवार होना चाहती है
अगर यह open source नहीं है और closed है, तो शुरुआत से ही मामला खत्म समझिए
क्या यह बस quantization नहीं है?
- Demo video में दोनों cases का output बिल्कुल same है, इसलिए quantization इस्तेमाल हो रही है या नहीं, इस पर शक है
- मेरा भी ठीक यही खयाल था। यह काम तो पहले से सब कर रहे हैं। अगर वे कुछ अलग नहीं कर रहे, तो उन्हें दिखाना होगा कि यह बस तेजी से 8-bit या 4-bit वगैरह में quantize करने से बेहतर क्यों है
- जो भी हो, जल्द ही llama.cpp जैसे open-source tools में इसकी copy या similar feature आने की काफी संभावना है
  यह defensible advantage जैसा नहीं दिखता। यह तेजी से आगे बढ़ रहे open-source alternatives से लड़ता हुआ एक feature भर लगता है
अफसोस है कि यह open-source effort नहीं है
मेरे stack में proprietary dependency आना मुझे बिल्कुल पसंद नहीं
- यह कहाँ तक जाएगा, इसे लेकर मैं काफी skeptical हूँ। Open-source community ने quantization से लगभग वही performance improvements पहले ही हासिल कर लिए हैं
  ऐसा लगता है जैसे existing libraries को फिर से package करके सावधानी न बरतने वाले और कम जानकारी वाले AI startups को बेचने की कोशिश हो
mlc-llm से तुलना करें तो कैसा है, जो 4-bit quantization इस्तेमाल करता है? मेरे 4090 पर llama2 13B बहुत तेज चलता है
वही 4-bit quantization इस्तेमाल करने पर भी यह GPU पर llama.cpp से कई गुना तेज है
- सही, TVM Vulkan auto-tuning कमाल है। मेरे खयाल से यह matmul Vulkan extension भी इस्तेमाल नहीं करता
  MLC का 4-bit quantization llama.cpp की तुलना में सरल है, इसलिए perplexity कम खराब रहती है, और speed difference का कुछ हिस्सा भी समझाता है। लेकिन सबसे बड़ा missing feature CPU offloading है। यह हो तो 4090 पर 70B भी काफी ठीक-ठाक चल सकता है
  मेरे हिसाब से local LLM inference की holy grail है Llama 70B को TVM से चलाना और उसे GPU व integrated GPU में बाँटकर लोड करना। लगता है हम लगभग वहाँ पहुँच गए हैं। सारे टुकड़े मौजूद हैं, बस उन dots को जोड़ने वाला frontend developer नहीं है
आजकल यह सब MacBook Pro पर भी किया जा सकता है। समझ नहीं आता कि यहाँ किसी और vendor lock-in में क्यों फँसना चाहूँगा
सबसे अच्छा चाहिए तो OpenAI या Anthropic इस्तेमाल करें, नहीं तो खुद चलाएँ
क्या यह सच में Ultra Instinct^H^H Llama2 का असर है?
Facebook असल में ecosystem, tool makers और छोटे inference services को मजबूत कर रहा है
इस company को एक भरोसेमंद और popular model, असली open-source license वाले model और संबंधित weights तक access मिला, इसलिए वे weights की license या restrictions की चिंता किए बिना उसके ऊपर optimizations बनाकर बेच सके

AMD ने AI inference प्रदर्शन और दक्षता बढ़ाने के लिए MK1 का अधिग्रहण किया

AMD AI स्टैक में शामिल हुआ MK1

Enterprise AI के लिए Flywheel का लक्ष्य

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय