1 पॉइंट द्वारा GN⁺ 2023-08-25 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Code Llama कोडिंग कार्यों के लिए विशेष रूप से डिज़ाइन किया गया एक अत्याधुनिक बड़ा भाषा मॉडल (LLM) है.
  • यह कोड और प्राकृतिक भाषा प्रॉम्प्ट, दोनों से कोड और कोड के बारे में प्राकृतिक भाषा उत्पन्न कर सकता है.
  • Code Llama को Llama 2 के ऊपर बनाया गया है, और यह तीन रूपों में उपलब्ध है: बेस कोड मॉडल, Python-विशेषज्ञ मॉडल, और प्राकृतिक भाषा निर्देशों को समझने के लिए fine-tune किया गया मॉडल.
  • यह मॉडल शोध और व्यावसायिक उपयोग, दोनों के लिए मुफ्त है, और कोड कार्यों में सार्वजनिक रूप से उपलब्ध अन्य LLMs से बेहतर प्रदर्शन करता है.
  • Code Llama एक प्रोडक्टिविटी टूल के रूप में इस्तेमाल किया जा सकता है, जो प्रोग्रामरों को अधिक मजबूत और बेहतर documented सॉफ़्टवेयर लिखने में मदद करता है, और कोड सीखने वालों के लिए प्रवेश बाधा कम करने वाले शैक्षिक टूल के रूप में भी उपयोगी है.
  • यह मॉडल Python, C++, Java, PHP, Typescript (Javascript), C#, Bash सहित कई लोकप्रिय भाषाओं का समर्थन करता है.
  • Code Llama तीन आकारों में उपलब्ध है, जिनमें क्रमशः 7B, 13B और 34B पैरामीटर हैं, और प्रत्येक को कोड तथा कोड-संबंधित डेटा के 500B टोकन पर प्रशिक्षित किया गया है.
  • अलग-अलग मॉडल विभिन्न सेवाओं और latency आवश्यकताओं के अनुरूप दिए गए हैं; 34B मॉडल सर्वोत्तम परिणाम देता है, जबकि छोटे मॉडल तेज़ और कम latency वाली जरूरतों के लिए अधिक उपयुक्त हैं.
  • Code Llama अधिकतम 100,000 टोकन का context संभाल सकता है, इसलिए यह लंबे प्रोग्राम बनाने और बड़े codebase को debug करने में उपयोगी है.
  • Code Llama - Python और Code Llama - Instruct, दो अतिरिक्त variants भी fine-tune किए गए हैं; इनमें पहला Python कोड के लिए विशेषीकृत है और दूसरा प्राकृतिक भाषा में उपयोगी तथा सुरक्षित उत्तर उत्पन्न करने के लिए fine-tune किया गया है.
  • Code Llama ने HumanEval और Mostly Basic Python Programming (MBPP) कोडिंग benchmark का उपयोग करने वाले benchmark tests में अन्य open source, code-only LLMs और Llama 2 से बेहतर प्रदर्शन किया.
  • Code Llama को जारी करने से पहले सुरक्षा उपाय किए गए थे, जिनमें मॉडल द्वारा दुर्भावनापूर्ण कोड उत्पन्न करने के जोखिम का मात्रात्मक मूल्यांकन भी शामिल था.
  • Code Llama की training recipe और model weights GitHub पर उपलब्ध हैं, और इसका विकास, benchmark tests, सीमाएँ तथा भविष्य की चुनौतियाँ research paper में विस्तार से बताई गई हैं.
  • Code Llama के निर्माताओं का मानना है कि AI models, खासकर कोडिंग के लिए LLMs, खुले दृष्टिकोण से सबसे अधिक लाभ प्राप्त करते हैं, क्योंकि इससे पूरा समुदाय उनकी क्षमताओं का मूल्यांकन कर सकता है, समस्याओं की पहचान कर सकता है और कमजोरियों को ठीक कर सकता है.
  • डेवलपर्स को Code Llama का जिम्मेदारी से उपयोग करने के लिए प्रोत्साहित किया जाता है, जिसमें submodel development, content policy की परिभाषा, data preparation, model fine-tuning, performance evaluation और improvement, risk response, user interaction में transparency, तथा reporting mechanism बनाने से जुड़े दिशानिर्देशों का पालन शामिल है.
  • Code Llama को सभी क्षेत्रों के software engineers का समर्थन करने और दूसरों को Llama 2 का उपयोग करके research तथा commercial products के लिए नए और नवाचारी टूल बनाने के लिए प्रेरित करने हेतु डिज़ाइन किया गया है.

1 टिप्पणियां

 
GN⁺ 2023-08-25
Hacker News राय
  • Code Llama को कोडिंग के लिए खास तौर पर डिज़ाइन किया गया एक नया large language model बताया गया है.
  • यह मॉडल अधिकतम 100,000 token context संभाल सकता है और स्थिर generation प्रदान करता है.
  • कुछ उपयोगकर्ताओं ने कहा कि 16k token के बाद key retrieval accuracy घट जाती है, इसलिए उन्होंने 100k context की उपयोगिता पर सवाल उठाया.
  • उनका मानना है कि Code Llama का 7B मॉडल GitHub Copilot के पीछे मौजूद मॉडल Codex के मुकाबले प्रतिस्पर्धी है.
  • उपयोगकर्ता 34B Python 4 bit quantized मॉडल की क्षमता को लेकर उत्साहित हैं.
  • 100K token से बड़े codebase को संभालने वाले embedded code model को लेकर सवाल हैं.
  • ऐसे मॉडलों का विकास, इन tools को optimize करने के लिए coding practices में संभावित बदलाव पर चर्चा को बढ़ावा दे रहा है.
  • उपयोगकर्ता Rust, Linux, genomics, physics modeling जैसे अन्य domains के लिए विशेष large language models बनाने और समस्याएँ हल करने के लिए सहयोग की संभावना में रुचि रखते हैं.
  • सबसे बेहतर मॉडल Unnatural Code Llama अभी जारी नहीं किया गया है, और इसकी वजह OpenAI की terms of service के उल्लंघन की आशंका हो सकती है.
  • उपयोगकर्ता Code Llama और Code Pilot जैसे tools की उपयोगिता की तुलना सीधे GPT-4 इस्तेमाल करने से कर रहे हैं.
  • लोग इन मॉडलों को चलाने के लिए आवश्यक hardware requirements समझना चाहते हैं, और कुछ उपयोगकर्ता अपने source code को tech giants के पास अपलोड किए बिना ऐसे मॉडल इस्तेमाल करना चाहते हैं.