- कोड जनरेशन के लिए विशेष रूप से अनुकूलित Mamba2 भाषा मॉडल
- Mamba मॉडल, ट्रांसफॉर्मर मॉडल से अलग, linear-time inference और सैद्धांतिक रूप से अनंत लंबाई की sequences को मॉडल करने की क्षमता प्रदान करता है
- इनपुट लंबाई की परवाह किए बिना तेज़ response के साथ उपयोगकर्ता मॉडल के साथ व्यापक रूप से इंटरैक्ट कर सकते हैं
- यह दक्षता खासकर code productivity को प्रभावित करती है, जिससे यह SOTA transformer-based models के बराबर प्रदर्शन कर सकता है
- बेंचमार्क परिणामों में 7B मॉडल पर Codestral Mamba (7B) ने मौजूदा CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B आदि की तुलना में बेहतर या लगभग समान क्षमता दिखाई
- इसके एक शानदार local code assistant बनने की उम्मीद है
mistral-inference SDK, TensorRT-LLM के जरिए deploy किया जा सकता है, और local inference के लिए llama.cpp में भी समर्थन आने वाला है
- HuggingFace से raw weights डाउनलोड किए जा सकते हैं
2 टिप्पणियां
Hacker News राय
VS Code में चलाने के लिए कुछ स्टेप्स की ज़रूरत है
FIM फीचर वाले मॉडल की सिफारिश मांगी गई
codellama-13bको vim extension के साथ इस्तेमाल कर रहे हैं, लेकिन प्रदर्शन बहुत अच्छा नहीं हैGemma-27bबेहतर कोड जनरेट करता है, लेकिन उसमें FIM फीचर नहीं हैcodellama-34bमें inference ठीक से काम नहीं करताMBPP कॉलम में DeepSeek को हाइलाइट किया जाना चाहिए
घोषणा की गई कि मॉडल HuggingFace पर है, लेकिन लिंक नहीं दिया गया
Mamba2 का उपयोग करने वाला कोई हाई-प्रोफाइल मॉडल देखना अच्छा है
दावा है कि Mamba ज़्यादा तेज़ है, लेकिन latency के आंकड़े नहीं हैं
Mamba और Transformers के फायदे-नुकसान पर किसी product intro की सिफारिश की गई
जानना चाहते हैं कि Mamba architecture की कोई अच्छी व्याख्या उपलब्ध है या नहीं
LLM की सामान्य अवधारणा समझते हैं, लेकिन ऐसे व्यक्ति के लिए उपयुक्त वीडियो या लेख की सिफारिश चाहते हैं जिसने सिर्फ ChatGPT, Claude जैसे आम तौर पर उपलब्ध टूल्स ही इस्तेमाल किए हों
model.box playground में तेज़ टेस्ट किया गया
gpt-4o) की तुलना में completion length काफ़ी छोटी दिखीCodestral - Mistral का code generation AI model