Kakao के भाषा मॉडल Kanana की टेक्निकल रिपोर्ट सार्वजनिक

(tech.kakao.com)

10 पॉइंट द्वारा GN⁺ 2025-02-27 | 3 टिप्पणियां | WhatsApp पर शेयर करें

Kakao सेवा-प्रयोग के लिए अनुकूलित AI मॉडल को लक्ष्य बनाकर, उच्च प्रदर्शन और लागत दक्षता दोनों को ध्यान में रखते हुए ‘Kanana Model Family’ विकसित कर रहा है
अल्ट्रा-लार्ज भाषा मॉडल ‘Kanana Flag’ का प्रशिक्षण पूरा कर लिया गया है, और इसके साथ Kanana Essence, Kanana Nano आदि भाषा मॉडल लाइनअप को पूरा किया गया है
AI शोध इकोसिस्टम में योगदान और वैश्विक AI कम्युनिटी के साथ सहयोग के लिए ‘Kanana Nano 2.1B’ मॉडल (base, instruct, embedding) को open source के रूप में जारी किया गया है

1. कोरियाई और अंग्रेज़ी में Global Top स्तर का उच्च प्रदर्शन हासिल

Kakao का लक्ष्य वैश्विक प्रतिस्पर्धात्मकता वाले मॉडल विकसित करना है, और सीमित संसाधनों के भीतर सर्वोत्तम प्रदर्शन पाने के लिए विभिन्न training techniques का प्रयोग किया गया
Kanana Flag ने training resource optimization के जरिए अन्य कंपनियों के मॉडलों की तुलना में 50% से अधिक training cost घटाते हुए साथ ही सर्वोच्च स्तर (SOTA) का प्रदर्शन दर्ज किया
अंग्रेज़ी benchmarks (MMLU, MT-Bench) में इसने वैश्विक मॉडलों के समान प्रदर्शन दिखाया, जबकि कोरियाई benchmarks (KMMLU, KoMT-Bench) में प्रतिस्पर्धी मॉडलों की तुलना में दबदबे वाला प्रदर्शन साबित किया
benchmark प्रदर्शन सारांश
- संवाद और अनुरोध निष्पादन प्रदर्शन
  - Kanana Flag 32.5B ने अंग्रेज़ी और कोरियाई आधारित संवादों में प्रतिस्पर्धी मॉडलों की तुलना में अधिक स्कोर दर्ज किए
  - खास तौर पर ज्ञान-आधारित कोरियाई संवाद (KoMT-Bench) और तार्किक सोच मूल्यांकन (LogicKor) में उत्कृष्ट प्रदर्शन दिखाया
- ज्ञान, coding, गणित प्रदर्शन
  - अंग्रेज़ी (81.08 अंक) और कोरियाई (64.19 अंक) ज्ञान मूल्यांकन में उच्च स्कोर दर्ज करते हुए प्रतिस्पर्धी मॉडलों की तुलना में बेहतर परिणाम हासिल किए
  - code completion और code solution में भी उच्च accuracy दिखाई, और बुनियादी गणित (GSM8K) में 90.83 अंक के साथ उत्कृष्ट प्रदर्शन हासिल किया

2. training efficiency के जरिए समान आकार के मॉडलों की तुलना में आधे से भी कम training cost

बड़े भाषा मॉडलों के training में भारी computing resources लगते हैं, इसलिए Kakao ने training efficiency को अधिकतम करने वाली pre-training strategy लागू की
Staged pre-training पद्धति का उपयोग करके 8B और 26.8B आकार के मॉडलों को train करने के बाद, optimization के जरिए Kanana Nano 2.1B मॉडल तैयार किया गया
pruning और distillation तकनीकों का उपयोग करके lightweight मॉडल को optimize किया गया
DUS (Depth Up-Scaling) तकनीक लागू करके Kanana Essence 9.8B और Kanana Flag 32.5B विकसित किए गए
इसके जरिए समान आकार के वैश्विक मॉडलों की तुलना में आधे से भी कम लागत पर training optimization में सफलता मिली

3. on-device पर भी उपयोग योग्य उच्च-प्रदर्शन lightweight मॉडल, Kanana Nano 2.1B open source के रूप में जारी

शोधकर्ताओं और डेवलपर्स की उपयोगिता को ध्यान में रखते हुए, ‘Kanana Nano 2.1B’ के base, instruct, embedding वर्ज़न open source के रूप में जारी किए गए
Kanana Nano 2.1B को इस तरह डिज़ाइन किया गया है कि यह on-device environment में भी सुचारु रूप से चल सके, इसलिए इसे research और development उद्देश्यों के लिए उपयोग किया जा सकता है
बड़े मॉडलों की ऊँची लागत और छोटे मॉडलों की कम accuracy, दोनों को ध्यान में रखते हुए, सबसे व्यावहारिक आकार में इसे जारी करने का निर्णय लिया गया
अपेक्षाकृत छोटा मॉडल होने के बावजूद यह वैश्विक मॉडलों के टक्कर का प्रदर्शन दिखाता है और विभिन्न applications की संभावनाएँ प्रदान करता है
हालांकि जटिल reasoning या गणितीय समस्या-समाधान जैसे उच्च-कठिनाई वाले tasks में इसकी सीमाएँ हो सकती हैं, लेकिन शोधकर्ताओं और डेवलपर्स को इसके आधार पर विविध शोध आगे बढ़ाने में सहायता देने की योजना है

समापन

Kakao ने इस टेक्निकल रिपोर्ट के माध्यम से Kanana भाषा मॉडल की पूरी लाइनअप और open source मॉडल Kanana Nano 2.1B का परिचय दिया
आगे reinforcement learning (RL) आधारित तकनीकों को जोड़कर reasoning क्षमता, गणित और code प्रदर्शन को और मजबूत करने की योजना है
Continual Learning के जरिए नए डेटा को लगातार सीखते हुए पहले से सीखी गई सामग्री को बनाए रखने लायक सुधार किए जाएंगे
Alignment तकनीक को उन्नत बनाकर उपयोगकर्ता अनुरोध निष्पादन क्षमता को मजबूत किया जाएगा, ताकि AI अधिक स्वाभाविक रूप से समझ सके और बातचीत कर सके
अंततः Kanana मॉडल multimodal AI में विकसित होंगे, ताकि वे इंसानों की तरह देख, सुन, बोल और सहज रूप से संवाद कर सकें
Kakao की योजना है कि AI उपयोगकर्ताओं के दैनिक जीवन में मूल्य जोड़ सके, इसके लिए वह लगातार चुनौतियाँ ले और तकनीकी प्रतिस्पर्धात्मकता को मजबूत करे

Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download

[1] pruning: AI मॉडल के घटकों को छाँटकर केवल महत्वपूर्ण हिस्सों को छोड़ने की तकनीक
[2] distillation: बड़े मॉडल का ज्ञान छोटे मॉडल तक पहुँचाने की तकनीक
[3] Depth Up-Scaling: मौजूदा मॉडल में अधिक layers जोड़कर मॉडल के आकार को प्रभावी ढंग से बढ़ाने की विधि

3 टिप्पणियां

rtyu1120 2025-02-27

लाइसेंस क्या है, यह देखा तो CC BY-NC-ND 4.0 निकला..?? क्या NonCommercial का मतलब यह है कि Kakao के अलावा दूसरी कंपनियां इसका इस्तेमाल न करें... समझ नहीं आ रहा कि इरादा क्या है।

bobross0 2025-03-13

हाहाहाहा

cosine20 2025-03-03

हाहाहा