- AICI - Artificial Intelligence Controller Interface
- यह बड़े भाषा मॉडल (LLM) के आउटपुट को रियल-टाइम में सीमित और निर्देशित करने वाले कंट्रोलर बनाने की सुविधा देता है
- कंट्रोलर constrained decoding, prompts और जनरेट किए गए टेक्स्ट के dynamic editing, तथा parallel generation के बीच coordination कर सकते हैं
- कंट्रोलर token-by-token decoding के दौरान custom logic को एकीकृत करते हैं और LLM request के दौरान state बनाए रखते हैं
- AICI का उद्देश्य मौजूदा और नए कंट्रोलर रणनीतियों को आसानी से बनाना और उन पर प्रयोग करना संभव बनाना है
- बेसिक LLM inference और serving engine के implementation details को abstract करके
- कंट्रोलर development को सरल बनाना,
- तेज कंट्रोलर को अधिक आसानी से लिखना, और
- LLM inference और serving engine के बीच compatibility को आसान बनाना इसका लक्ष्य है
- AICI को (अंततः) local और cloud execution के लिए डिज़ाइन किया गया है, जिसमें multi-tenant LLM deployment भी शामिल है
- कंट्रोलर हल्के WebAssembly (Wasm) modules के रूप में implement किए जाते हैं, जो उसी सिस्टम पर LLM inference engine के साथ चलते हैं और जब GPU token generation में व्यस्त होता है तब CPU का उपयोग करते हैं
- AICI inference stack की एक layer है, जिसे इस तरह डिज़ाइन किया गया है कि Guidance, LMQL जैसी control libraries उसके ऊपर चल सकें और LLM inference तथा service engines में portability, efficiency और performance improvements का लाभ पा सकें
- AICI
- लचीला: कंट्रोलर किसी भी ऐसी भाषा में लिखे जा सकते हैं जिसे Wasm में compile किया जा सके (Rust, C, C++, ...), या Wasm के भीतर interpret किया जा सके (Python, JavaScript, ...)
- सुरक्षित: कंट्रोलर sandboxed होते हैं, इसलिए वे file system, network या अन्य resources तक access नहीं कर सकते
- तेज: Wasm modules को native code में compile किया जाता है और वे LLM inference engine के समानांतर चलते हैं, जिससे generation process पर बहुत कम overhead पड़ता है
- Microsoft Research द्वारा डिज़ाइन और निर्मित प्रोटोटाइप
अभी कोई टिप्पणी नहीं है.