- "Mi:dm" एक व्यावसायिक उपयोग के लिए उपलब्ध open source मॉडल है, जो कोरियाई समाज की भाषा/सांस्कृतिक विशेषताओं को दर्शाता है
- उच्च-गुणवत्ता वाले कोरियाई डेटा का चयन, synthetic data generation, curriculum learning, और कोरियाई के लिए विशेष रूप से अनुकूलित proprietary tokenizer जैसी बहु-स्तरीय optimization strategies का उपयोग
- तीन मॉडल: on-device के लिए mini(2.3B), performance और efficiency के संतुलन वाला base(11B), और frontier-स्तर का pro(41B, जल्द सार्वजनिक)
- Mi:dm 2.0 Mini (2.3B): lightweight मॉडल, embedded environments और विशेष उद्देश्यों के लिए optimized
- Mi:dm 2.0 Base (11.5B): large-scale general-purpose मॉडल, Depth-up Scaling तकनीक से मौजूदा 8B मॉडल को गहरा बनाकर performance बेहतर
- Base और Mini दोनों 32K token input को support करते हैं
- KMMLU, HAERAE जैसे कोरियाई benchmarks में शीर्ष-स्तरीय performance दिखाता है, और research तथा commercial use दोनों के लिए मुक्त MIT license के साथ जारी किया गया है
डेटा संरचना और रणनीति
- उच्च-गुणवत्ता वाले कोरियाई दस्तावेज़ों की उपलब्धता सुनिश्चित करने पर ज़ोर, और संदर्भ-संगति, पठनीयता, अहानिकरता के मानकों पर दस्तावेज़ चयन
- Synthetic data (translation, keyword-आधारित पाठ्यसामग्री निर्माण, Chain-of-Thought आदि) का उपयोग कर domain diversity सुनिश्चित की गई
- Curriculum learning और domain balancing से training data के imbalance को कम किया गया
- कोरियाई-अनुकूलित tokenizer से compression efficiency और भाषा संरचना की अभिव्यक्ति बेहतर की गई
-
डेटा वर्गीकरण प्रणाली
- भाषा, domain, data source, expression/style आदि पर आधारित बहु-आयामी classification system लागू
- 6 प्रमुख domains (humanities, STEM, applied science, health/food, life/culture, others) और 20 sub-domains
- 85.7% से अधिक natural (organic) data, और 14% synthetic data
-
गुणवत्ता प्रबंधन पाइपलाइन
- 8-चरणीय बड़े पैमाने की web document filtering: deduplication, heuristic, perplexity, character corruption/fix, model-based quality filter, harmfulness filter, line deduplication, PII de-identification आदि
- हर source के लिए अलग cleaning और rules लागू (उदाहरण: news, legal documents, academic papers आदि)
-
synthetic data generation
- STEM, अर्थव्यवस्था जैसे low-coverage क्षेत्रों में high-trust open source data को seed बनाकर, कोरियाई पाठ्यसामग्री/व्याख्या/प्रश्न आदि synthetic रूप में तैयार कर data को मजबूत किया गया
- अनुपयुक्त web documents भी केवल मुख्य विषय निकालकर और पुनर्लेखन करके उपयोग किए गए
- अंग्रेज़ी web documents की संरचनात्मक विविधता को कोरियाई में बदलकर और विस्तारित करके long-form QA और लेखन data सुनिश्चित किया गया
- Chain-of-Thought data से गणित और code जैसे क्षेत्रों में step-by-step reasoning training मजबूत की गई
मॉडल आर्किटेक्चर और प्रशिक्षण
- Transformer decoder-only संरचना
- Base: 8B मॉडल → Depth-up Scaling(32→48 layers) → 11.5B तक विस्तार, और उच्च-गुणवत्ता डेटा पर 2-चरणीय continual training
- Mini: Base के ज्ञान को width pruning और multi-stage distillation से हल्का बनाया गया, जिससे efficient inference संभव हुआ
- Long-context training के साथ अधिकतम 32,768 token input support
- GQA, SiLU, RoPE जैसी नवीनतम तकनीकों का उपयोग
उपयोग अनुभव और परिचय लेख
16 टिप्पणियां
कोशिश की सराहना करता हूँ, लेकिन...
उम्मीद है कि वे नया organization बनाकर 1.0 को उड़ाने जैसा काम नहीं करेंगे।
सिर्फ नाम देखकर ही यह कम भरोसेमंद लगता है।
नाम के बीच में colon क्यों डाला गया है? क्या इसके पीछे कोई अर्थगत वजह है? या फिर क्या सच में उन्हें लगा कि यह स्टाइलिश दिखता है?
और अगर यह mit:eum है, तो क्या इसे alphabet में
mid:mनहीं लिखा जाना चाहिए?अलग-अलग राय हो सकती हैं, लेकिन मेरा मूल रूप से मानना है कि देश के भीतर किए जाने वाले सभी AI-संबंधित प्रोजेक्ट अपने आप में मायने रखते हैं। दूसरों से तुलना करके स्तर का मूल्यांकन करने से ज़्यादा, मुझे लगता है कि अभी स्थिति ऐसी है जहाँ कोशिश की खुद सराहना की जानी चाहिए.
यह सच है कि हमारी प्रतिक्रिया देर से आई है, और पैसे व GPU दोनों ही मामलों में हम अमेरिका/चीन की तुलना में कमजोर हैं, लेकिन अगर हम इसकी सराहना करें और मिलकर इस्तेमाल करते हुए इसे बेहतर बनाते जाएँ, तो क्या यह और अच्छा नहीं हो जाएगा?
मैं आंशिक रूप से सहमत हूँ.
मेरे हिसाब से AI service के नाम पर external API इस्तेमाल करने वाला wrapper बनाना बिल्कुल भी productive काम नहीं है, और यह सिर्फ़ commission का धंधा है,
लेकिन अगर कंपनियाँ model fine-tuning करके उसे जारी करती हैं, तो आखिरकार वे अपने resources लगाकर उसे public कर रही हैं, इसलिए उसे नकारात्मक नज़र से देखने की कोई वजह नहीं लगती.
हाँ, लेकिन अगर वे बाहर से, मसलन सरकार से, पैसा लेना शुरू करें, तो उसे सिर्फ़ अच्छे नज़रिए से देखना मुश्किल होगा...
> मेरी राय में AI सेवा के नाम पर बाहरी API इस्तेमाल करने वाला wrapper बनाना कोई उत्पादक काम नहीं है, बल्कि सिर्फ़ commission का धंधा है.
इस बात में जोड़ते हुए, API का इस्तेमाल किया जाए तब भी अगर उसे Manus के स्तर पर अच्छी तरह उपयोग किया जाए तो उसे उपलब्धि माना जा सकता है, लेकिन अभी कोरिया में उस स्तर का wrapper शायद नहीं है।
क्योंकि बेस परफॉर्मेंस बढ़ाने के काम के दम पर प्रतिस्पर्धी तरीके से सामने नहीं आया जा सकता।
कोरियाई कंपनियां या सरकार कोरियाई-विशेष language model पर फोकस क्यों करती हैं? आजकल के LLM ट्रेंड को देखें, जहां internet-scale बड़े डेटा पर training करके performance बढ़ाई जाती है, तो भाषा से अलग एक general-purpose model ही ज़्यादा स्वाभाविक लगता है। फिर खास तौर पर कोरियाई पर specialized LM का क्या फायदा है, यह मुझे समझ नहीं आता।
अगर आप सच में मानते हैं कि AI अगली पीढ़ी की बुनियाद है, तो यह वांछनीय नहीं है कि किसी देश की मुख्य आधारभूत तकनीक दूसरे देशों की तकनीक पर निर्भर हो...?
मेरा मानना है कि दूसरे देश की तकनीक != दूसरे देश का डेटा
यह सच है कि जिन भाषाओं का उपयोगकर्ता आधार कम है, उनमें गुणवत्ता कम होती है। लेकिन इसका यह मतलब नहीं है कि वे सिर्फ़ Korean में ही अच्छा बनाने की कोशिश करेंगे। इसकी कोई खास वजह भी नहीं है। और समस्या यह है कि हम खुद उन्हीं कम-उपयोगकर्ता-आधार वाली भाषाओं के उपयोगकर्ता हैं....
ठंडे दिमाग से कहें तो इसकी प्रतिस्पर्धात्मक क्षमता नहीं है।
फ्रंटियर open source मॉडल डेवलपमेंट आमतौर पर ऐसे Research Engineer की टीमों द्वारा किया जाता है जिन्हें big tech में सालाना कई अरब वॉन के बराबर वेतन मिलता है, और उन्हें जबरदस्त GPU resources का समर्थन प्राप्त होता है। (पहले Meta में एक प्रोजेक्ट में 10,000 A100 GPU लगाए गए थे, और मुझे याद है कि उस समय यह संख्या कोरिया में मौजूद कुल A100 सप्लाई से भी अधिक थी।)
कोरिया में LLM डेवलपमेंट में लगाए जाने वाले मानव संसाधन और GPU resources वास्तविक रूप से वैश्विक स्तर पर प्रतिस्पर्धा करने के लिए पर्याप्त नहीं हैं।
यह कहना शायद ज्यादा सही होगा कि हम अकेले खास तौर पर खराब नहीं कर रहे, बल्कि अमेरिका और चीन इतने अधिक दबदबे वाले हैं कि उनकी बराबरी करना मुश्किल है।
मुझे भी ठीक से नहीं पता, लेकिन thinking की प्रक्रियाओं को देखें तो लगता है कि Korean में पूछने पर भी कभी-कभी वह English में करता है। अगर ऐसी प्रक्रिया Korean में हो सके, तो क्या वह कुछ ज़्यादा घरेलू भावनात्मक संदर्भों के मुताबिक जवाब नहीं दे पाएगा?
क्या यह आगे विकसित होने वाले नए AI या मौजूदा AI के समग्र स्तर को ऊपर ले जाने की संभावना को ध्यान में रखकर किया गया निवेश नहीं है? DeepSeek की तरह। अगर ऐसे AI में कोरियाई संवेदनशीलता को शामिल किया जाए, तो यह प्रतिस्पर्धी लग सकता है। हालांकि यह भविष्य की बात है।
लगता है कि वे सरकार के अंधाधुंध फंड को हड़पने की कोशिश कर रहे हैं।
क्या यह इसलिए नहीं हो सकता कि Korean टेक्स्ट टूट रहा हो? Gemini में भी ऐसा होता है, और इस्तेमाल करते-करते किसी बिंदु पर दूसरी भाषा में उछल जाने के मामले बहुत ज़्यादा हैं..
AI मॉडल का नाम तो ऐसा लग रहा है जैसे किसी post-apocalypse या dystopia में आने वाला कोई अशुभ नाम हो lol