- CodeLLaMA 7b से 60% छोटा, लेकिन code generation के समय समान प्रदर्शन देने वाला 3B parameter size का LLM
- GPU के बिना भी सामान्य laptop पर offline चल सकता है (जैसे MacBook Air)
- 4 ट्रिलियन natural language data पर trained Stable LM 3B मॉडल पर आधारित, जिसे software engineering/code से संबंधित data पर आगे और train किया गया
- 2023 StackOverflow डेवलपर सर्वे का संदर्भ लेकर 18 programming languages चुनी गईं
5 टिप्पणियां
हम वित्तीय क्षेत्र में हैं, इसलिए डेवलपमेंट केवल internal network पर ही करते हैं। ऐसे मामले में कैसे approach करना बेहतर होगा?
घर पर Copilot जैसी चीज़ें इस्तेमाल करके देखता हूँ, तो लगता है कि कंपनी में भी कुछ ऐसा इस्तेमाल कर पाते तो अच्छा होता, इसलिए पूछ रहा हूँ.
https://github.com/janhq/jan
यह एक GUI app है जो आपको मॉडल्स को offline इस्तेमाल करने देता है। अगर आप internal network में हैं, तो लगता है कि आप इस app की installer file और इस्तेमाल करने वाले model files को बाहर से पहले डाउनलोड करके internal network में ट्रांसफर करके इस्तेमाल कर सकते हैं.
मॉडल को manually जोड़ने का तरीका नीचे दिया गया है।
https://jan.ai/guides/using-models/import-manually/
अलग-थलग नेटवर्क वाले माहौल में, सच कहें तो यह डेवलपर्स के पैरों में बेड़ियां डालने जैसा ही है।
इन दिनों network separation policy में ढील देने की बात भी हो रही है और कुछ सुधार की कोशिशें भी दिख रही हैं, इसलिए उम्मीद की जा सकती है, लेकिन बैंक, telecom वगैरह जैसे जहां personal information संभाली जाती है, वहां आगे भी शायद थोड़ा मुश्किल ही रहेगा। डेवलपर्स के लिए तो यह बेहद जेल जैसा माहौल है।
उन्होंने सिर्फ़ ऐसे मॉडलों के साथ परफ़ॉर्मेंस की तुलना की है जिनका model size इसी तरह छोटा है, लेकिन अगर थोड़ा ज़्यादा व्यापक leaderboard देखें तो यह तस्वीर दिखती है.
https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
चूंकि यह code के लिए है, इसलिए ऐसा भी लगता है कि थोड़ा धीमा या महंगा होने पर भी अगर परफ़ॉर्मेंस बेहतर हो तो वही ज़्यादा अच्छा नहीं होगा?