Mi:dm 2.0 - KT का स्वयं विकसित open source LLM

xguru · 2025-07-10T14:27:27+09:00

"Mi:dm" एक व्यावसायिक उपयोग के लिए उपलब्ध open source मॉडल है, जो कोरियाई समाज की भाषा/सांस्कृतिक विशेषताओं को दर्शाता है उच्च-गुणवत्ता वाले कोरियाई डेटा का चयन, synthetic data generation, curriculum learning, और कोरियाई के लिए विशेष रूप से अनुकूलित proprietary tokenizer जैसी बहु-स्तरीय optimization strategies का उपयोग तीन मॉडल: on-device के लिए mini(2.3B), performance और efficiency के संतुलन वाला base(11B), और frontier-स्तर का pro(41B, जल्द सार्वजनिक) Mi:dm 2.0 Mini (2.3B): lightweight मॉडल, embedded environments और विशेष उद्देश्यों के लिए optimized Mi:dm 2.0 Base (11.5B): large-scale general-purpose मॉडल, Depth-up Scaling तकनीक से मौजूदा 8B मॉडल को गहरा बनाकर performance बेहतर Base और Mini दोनों 32K token input को support करते हैं KMMLU, HAERAE जैसे कोरियाई benchmarks में शीर्ष-स्तरीय performance दिखाता है, और research तथा commercial use दोनों के लिए मुक्त MIT license के साथ जारी किया गया है डेटा संरचना और रणनीति उच्च-गुणवत्ता वाले कोरियाई दस्तावेज़ों की उपलब्धता सुनिश्चित करने पर ज़ोर, और संदर्भ-संगति, पठनीयता, अहानिकरता के मानकों पर दस्तावेज़ चयन Synthetic data (translation, keyword-आधारित पाठ्यसामग्री निर्माण, Chain-of-Thought आदि) का उपयोग कर domain diversity सुनिश्चित की गई Curriculum learning और domain balancing से training data के imbalance को कम किया गया कोरियाई-अनुकूलित tokenizer से compression efficiency और भाषा संरचना की अभिव्यक्ति बेहतर की गई डेटा वर्गीकरण प्रणाली भाषा, domain, data source, expression/style आदि पर आधारित बहु-आयामी classification system लागू 6 प्रमुख domains (humanities, STEM, applied science, health/food, life/culture, others) और 20 sub-domains 85.7% से अधिक natural (organic) data, और 14% synthetic data गुणवत्ता प्रबंधन पाइपलाइन 8-चरणीय बड़े पैमाने की web document filtering: deduplication, heuristic, perplexity, character corruption/fix, model-based quality filter, harmfulness filter, line deduplication, PII de-identification आदि हर source के लिए अलग cleaning और rules लागू (उदाहरण: news, legal documents, academic papers आदि) synthetic data generation STEM, अर्थव्यवस्था जैसे low-coverage क्षेत्रों में high-trust open source data को seed बनाकर, कोरियाई पाठ्यसामग्री/व्याख्या/प्रश्न आदि synthetic रूप में तैयार कर data को मजबूत किया गया अनुपयुक्त web documents भी केवल मुख्य विषय निकालकर और पुनर्लेखन करके उपयोग किए गए अंग्रेज़ी web documents की संरचनात्मक विविधता को कोरियाई में बदलकर और विस्तारित करके long-form QA और लेखन data सुनिश्चित किया गया Chain-of-Thought data से गणित और code जैसे क्षेत्रों में step-by-step reasoning training मजबूत की गई मॉडल आर्किटेक्चर और प्रशिक्षण Transformer decoder-only संरचना Base: 8B मॉडल → Depth-up Scaling(32→48 layers) → 11.5B तक विस्तार, और उच्च-गुणवत्ता डेटा पर 2-चरणीय continual training Mini: Base के ज्ञान को width pruning और multi-stage distillation से हल्का बनाया गया, जिससे efficient inference संभव हुआ Long-context training के साथ अधिकतम 32,768 token input support GQA, SiLU, RoPE जैसी नवीनतम तकनीकों का उपयोग उपयोग अनुभव और परिचय लेख कोरियाई AI मॉडल : KT Mi:dm 2.0 उपयोग अनुभव KT द्वारा बनाया गया कोरियाई AI, Midm 2.0 परिचय KT के कोरियाई AI Mi:dm 2.0 को आज़माकर देखना KT का Mi:dm 2.0 परिचय पृष्ठ KT की Mi:dm 1.0 रिलीज़ के समय की प्रचार सामग्री - Mi:dm, तर्क और भावना से आगे बढ़कर व्यक्तित्व को व्यक्त करता है

(huggingface.co)

10 पॉइंट द्वारा xguru 2025-07-10 | 16 टिप्पणियां | WhatsApp पर शेयर करें

"Mi:dm" एक व्यावसायिक उपयोग के लिए उपलब्ध open source मॉडल है, जो कोरियाई समाज की भाषा/सांस्कृतिक विशेषताओं को दर्शाता है
उच्च-गुणवत्ता वाले कोरियाई डेटा का चयन, synthetic data generation, curriculum learning, और कोरियाई के लिए विशेष रूप से अनुकूलित proprietary tokenizer जैसी बहु-स्तरीय optimization strategies का उपयोग
तीन मॉडल: on-device के लिए mini(2.3B), performance और efficiency के संतुलन वाला base(11B), और frontier-स्तर का pro(41B, जल्द सार्वजनिक)
- Mi:dm 2.0 Mini (2.3B): lightweight मॉडल, embedded environments और विशेष उद्देश्यों के लिए optimized
- Mi:dm 2.0 Base (11.5B): large-scale general-purpose मॉडल, Depth-up Scaling तकनीक से मौजूदा 8B मॉडल को गहरा बनाकर performance बेहतर
- Base और Mini दोनों 32K token input को support करते हैं
KMMLU, HAERAE जैसे कोरियाई benchmarks में शीर्ष-स्तरीय performance दिखाता है, और research तथा commercial use दोनों के लिए मुक्त MIT license के साथ जारी किया गया है

डेटा संरचना और रणनीति

उच्च-गुणवत्ता वाले कोरियाई दस्तावेज़ों की उपलब्धता सुनिश्चित करने पर ज़ोर, और संदर्भ-संगति, पठनीयता, अहानिकरता के मानकों पर दस्तावेज़ चयन
Synthetic data (translation, keyword-आधारित पाठ्यसामग्री निर्माण, Chain-of-Thought आदि) का उपयोग कर domain diversity सुनिश्चित की गई
Curriculum learning और domain balancing से training data के imbalance को कम किया गया
कोरियाई-अनुकूलित tokenizer से compression efficiency और भाषा संरचना की अभिव्यक्ति बेहतर की गई

डेटा वर्गीकरण प्रणाली
- भाषा, domain, data source, expression/style आदि पर आधारित बहु-आयामी classification system लागू
- 6 प्रमुख domains (humanities, STEM, applied science, health/food, life/culture, others) और 20 sub-domains
- 85.7% से अधिक natural (organic) data, और 14% synthetic data
गुणवत्ता प्रबंधन पाइपलाइन
- 8-चरणीय बड़े पैमाने की web document filtering: deduplication, heuristic, perplexity, character corruption/fix, model-based quality filter, harmfulness filter, line deduplication, PII de-identification आदि
- हर source के लिए अलग cleaning और rules लागू (उदाहरण: news, legal documents, academic papers आदि)
synthetic data generation
- STEM, अर्थव्यवस्था जैसे low-coverage क्षेत्रों में high-trust open source data को seed बनाकर, कोरियाई पाठ्यसामग्री/व्याख्या/प्रश्न आदि synthetic रूप में तैयार कर data को मजबूत किया गया
- अनुपयुक्त web documents भी केवल मुख्य विषय निकालकर और पुनर्लेखन करके उपयोग किए गए
- अंग्रेज़ी web documents की संरचनात्मक विविधता को कोरियाई में बदलकर और विस्तारित करके long-form QA और लेखन data सुनिश्चित किया गया
- Chain-of-Thought data से गणित और code जैसे क्षेत्रों में step-by-step reasoning training मजबूत की गई

मॉडल आर्किटेक्चर और प्रशिक्षण

Transformer decoder-only संरचना
Base: 8B मॉडल → Depth-up Scaling(32→48 layers) → 11.5B तक विस्तार, और उच्च-गुणवत्ता डेटा पर 2-चरणीय continual training
Mini: Base के ज्ञान को width pruning और multi-stage distillation से हल्का बनाया गया, जिससे efficient inference संभव हुआ
Long-context training के साथ अधिकतम 32,768 token input support
GQA, SiLU, RoPE जैसी नवीनतम तकनीकों का उपयोग

उपयोग अनुभव और परिचय लेख

KT का Mi:dm 2.0 परिचय पृष्ठ
KT की Mi:dm 1.0 रिलीज़ के समय की प्रचार सामग्री - Mi:dm, तर्क और भावना से आगे बढ़कर व्यक्तित्व को व्यक्त करता है

16 टिप्पणियां

miseenscene 2025-07-11

कोशिश की सराहना करता हूँ, लेकिन...
उम्मीद है कि वे नया organization बनाकर 1.0 को उड़ाने जैसा काम नहीं करेंगे।

bakyeono 2025-07-11

सिर्फ नाम देखकर ही यह कम भरोसेमंद लगता है।
नाम के बीच में colon क्यों डाला गया है? क्या इसके पीछे कोई अर्थगत वजह है? या फिर क्या सच में उन्हें लगा कि यह स्टाइलिश दिखता है?
और अगर यह mit:eum है, तो क्या इसे alphabet में mid:m नहीं लिखा जाना चाहिए?

xguru 2025-07-11

अलग-अलग राय हो सकती हैं, लेकिन मेरा मूल रूप से मानना है कि देश के भीतर किए जाने वाले सभी AI-संबंधित प्रोजेक्ट अपने आप में मायने रखते हैं। दूसरों से तुलना करके स्तर का मूल्यांकन करने से ज़्यादा, मुझे लगता है कि अभी स्थिति ऐसी है जहाँ कोशिश की खुद सराहना की जानी चाहिए.

यह सच है कि हमारी प्रतिक्रिया देर से आई है, और पैसे व GPU दोनों ही मामलों में हम अमेरिका/चीन की तुलना में कमजोर हैं, लेकिन अगर हम इसकी सराहना करें और मिलकर इस्तेमाल करते हुए इसे बेहतर बनाते जाएँ, तो क्या यह और अच्छा नहीं हो जाएगा?

crawler 2025-07-11

मैं आंशिक रूप से सहमत हूँ.
मेरे हिसाब से AI service के नाम पर external API इस्तेमाल करने वाला wrapper बनाना बिल्कुल भी productive काम नहीं है, और यह सिर्फ़ commission का धंधा है,
लेकिन अगर कंपनियाँ model fine-tuning करके उसे जारी करती हैं, तो आखिरकार वे अपने resources लगाकर उसे public कर रही हैं, इसलिए उसे नकारात्मक नज़र से देखने की कोई वजह नहीं लगती.

हाँ, लेकिन अगर वे बाहर से, मसलन सरकार से, पैसा लेना शुरू करें, तो उसे सिर्फ़ अच्छे नज़रिए से देखना मुश्किल होगा...

crawler 2025-07-11

> मेरी राय में AI सेवा के नाम पर बाहरी API इस्तेमाल करने वाला wrapper बनाना कोई उत्पादक काम नहीं है, बल्कि सिर्फ़ commission का धंधा है.

इस बात में जोड़ते हुए, API का इस्तेमाल किया जाए तब भी अगर उसे Manus के स्तर पर अच्छी तरह उपयोग किया जाए तो उसे उपलब्धि माना जा सकता है, लेकिन अभी कोरिया में उस स्तर का wrapper शायद नहीं है।

mssmss 2025-07-11

क्योंकि बेस परफॉर्मेंस बढ़ाने के काम के दम पर प्रतिस्पर्धी तरीके से सामने नहीं आया जा सकता।

strn18 2025-07-10

कोरियाई कंपनियां या सरकार कोरियाई-विशेष language model पर फोकस क्यों करती हैं? आजकल के LLM ट्रेंड को देखें, जहां internet-scale बड़े डेटा पर training करके performance बढ़ाई जाती है, तो भाषा से अलग एक general-purpose model ही ज़्यादा स्वाभाविक लगता है। फिर खास तौर पर कोरियाई पर specialized LM का क्या फायदा है, यह मुझे समझ नहीं आता।

ryj0902 2025-07-11

अगर आप सच में मानते हैं कि AI अगली पीढ़ी की बुनियाद है, तो यह वांछनीय नहीं है कि किसी देश की मुख्य आधारभूत तकनीक दूसरे देशों की तकनीक पर निर्भर हो...?

roxie 2025-07-11

मेरा मानना है कि दूसरे देश की तकनीक != दूसरे देश का डेटा

dbs0829 2025-07-11

यह सच है कि जिन भाषाओं का उपयोगकर्ता आधार कम है, उनमें गुणवत्ता कम होती है। लेकिन इसका यह मतलब नहीं है कि वे सिर्फ़ Korean में ही अच्छा बनाने की कोशिश करेंगे। इसकी कोई खास वजह भी नहीं है। और समस्या यह है कि हम खुद उन्हीं कम-उपयोगकर्ता-आधार वाली भाषाओं के उपयोगकर्ता हैं....

greenday 2025-07-11

ठंडे दिमाग से कहें तो इसकी प्रतिस्पर्धात्मक क्षमता नहीं है।
फ्रंटियर open source मॉडल डेवलपमेंट आमतौर पर ऐसे Research Engineer की टीमों द्वारा किया जाता है जिन्हें big tech में सालाना कई अरब वॉन के बराबर वेतन मिलता है, और उन्हें जबरदस्त GPU resources का समर्थन प्राप्त होता है। (पहले Meta में एक प्रोजेक्ट में 10,000 A100 GPU लगाए गए थे, और मुझे याद है कि उस समय यह संख्या कोरिया में मौजूद कुल A100 सप्लाई से भी अधिक थी।)

कोरिया में LLM डेवलपमेंट में लगाए जाने वाले मानव संसाधन और GPU resources वास्तविक रूप से वैश्विक स्तर पर प्रतिस्पर्धा करने के लिए पर्याप्त नहीं हैं।
यह कहना शायद ज्यादा सही होगा कि हम अकेले खास तौर पर खराब नहीं कर रहे, बल्कि अमेरिका और चीन इतने अधिक दबदबे वाले हैं कि उनकी बराबरी करना मुश्किल है।

helio 2025-07-11

मुझे भी ठीक से नहीं पता, लेकिन thinking की प्रक्रियाओं को देखें तो लगता है कि Korean में पूछने पर भी कभी-कभी वह English में करता है। अगर ऐसी प्रक्रिया Korean में हो सके, तो क्या वह कुछ ज़्यादा घरेलू भावनात्मक संदर्भों के मुताबिक जवाब नहीं दे पाएगा?

truestar 2025-07-11

क्या यह आगे विकसित होने वाले नए AI या मौजूदा AI के समग्र स्तर को ऊपर ले जाने की संभावना को ध्यान में रखकर किया गया निवेश नहीं है? DeepSeek की तरह। अगर ऐसे AI में कोरियाई संवेदनशीलता को शामिल किया जाए, तो यह प्रतिस्पर्धी लग सकता है। हालांकि यह भविष्य की बात है।

zihado 2025-07-10

लगता है कि वे सरकार के अंधाधुंध फंड को हड़पने की कोशिश कर रहे हैं।

clastneo 2025-07-10

क्या यह इसलिए नहीं हो सकता कि Korean टेक्स्ट टूट रहा हो? Gemini में भी ऐसा होता है, और इस्तेमाल करते-करते किसी बिंदु पर दूसरी भाषा में उछल जाने के मामले बहुत ज़्यादा हैं..

cckn1985 2025-07-10

AI मॉडल का नाम तो ऐसा लग रहा है जैसे किसी post-apocalypse या dystopia में आने वाला कोई अशुभ नाम हो lol

Mi:dm 2.0 - KT का स्वयं विकसित open source LLM

डेटा संरचना और रणनीति

डेटा वर्गीकरण प्रणाली

गुणवत्ता प्रबंधन पाइपलाइन

synthetic data generation

मॉडल आर्किटेक्चर और प्रशिक्षण

उपयोग अनुभव और परिचय लेख

संबंधित पढ़ाई

16 टिप्पणियां