11 पॉइंट द्वारा xguru 2024-07-17 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • कोड जनरेशन के लिए विशेष रूप से अनुकूलित Mamba2 भाषा मॉडल
  • Mamba मॉडल, ट्रांसफॉर्मर मॉडल से अलग, linear-time inference और सैद्धांतिक रूप से अनंत लंबाई की sequences को मॉडल करने की क्षमता प्रदान करता है
    • इनपुट लंबाई की परवाह किए बिना तेज़ response के साथ उपयोगकर्ता मॉडल के साथ व्यापक रूप से इंटरैक्ट कर सकते हैं
    • यह दक्षता खासकर code productivity को प्रभावित करती है, जिससे यह SOTA transformer-based models के बराबर प्रदर्शन कर सकता है
  • बेंचमार्क परिणामों में 7B मॉडल पर Codestral Mamba (7B) ने मौजूदा CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B आदि की तुलना में बेहतर या लगभग समान क्षमता दिखाई
  • इसके एक शानदार local code assistant बनने की उम्मीद है
  • mistral-inference SDK, TensorRT-LLM के जरिए deploy किया जा सकता है, और local inference के लिए llama.cpp में भी समर्थन आने वाला है
  • HuggingFace से raw weights डाउनलोड किए जा सकते हैं

2 टिप्पणियां

 
xguru 2024-07-17

Hacker News राय

  • VS Code में चलाने के लिए कुछ स्टेप्स की ज़रूरत है

    • अगर पोस्ट में निर्देशों का लिंक या VS Code Extension के लिए one-click install लिंक शामिल हो, तो अपनाने में मदद मिलेगी
    • यह ऐसा मॉडल है जिसमें कई यूज़र्स की दिलचस्पी होगी, लेकिन monetizable call to action का न होना एक समस्या है
  • FIM फीचर वाले मॉडल की सिफारिश मांगी गई

    • codellama-13b को vim extension के साथ इस्तेमाल कर रहे हैं, लेकिन प्रदर्शन बहुत अच्छा नहीं है
    • Gemma-27b बेहतर कोड जनरेट करता है, लेकिन उसमें FIM फीचर नहीं है
    • codellama-34b में inference ठीक से काम नहीं करता
  • MBPP कॉलम में DeepSeek को हाइलाइट किया जाना चाहिए

    • DeepSeek का स्कोर Codestral से बेहतर है
  • घोषणा की गई कि मॉडल HuggingFace पर है, लेकिन लिंक नहीं दिया गया

  • Mamba2 का उपयोग करने वाला कोई हाई-प्रोफाइल मॉडल देखना अच्छा है

  • दावा है कि Mamba ज़्यादा तेज़ है, लेकिन latency के आंकड़े नहीं हैं

    • जानना चाहते हैं कि क्या किसी ने इसे इस्तेमाल किया है, और क्या यह सच में तेज़ है
  • Mamba और Transformers के फायदे-नुकसान पर किसी product intro की सिफारिश की गई

  • जानना चाहते हैं कि Mamba architecture की कोई अच्छी व्याख्या उपलब्ध है या नहीं

  • LLM की सामान्य अवधारणा समझते हैं, लेकिन ऐसे व्यक्ति के लिए उपयुक्त वीडियो या लेख की सिफारिश चाहते हैं जिसने सिर्फ ChatGPT, Claude जैसे आम तौर पर उपलब्ध टूल्स ही इस्तेमाल किए हों

    • यह देखना चाहते हैं कि क्या लोकल में चलाने लायक हार्डवेयर है, लेकिन शुरुआत कहाँ से करें यह नहीं जानते
  • model.box playground में तेज़ टेस्ट किया गया

    • दूसरे मॉडल्स (e.g., gpt-4o) की तुलना में completion length काफ़ी छोटी दिखी
    • response speed उम्मीद के मुताबिक थी