- Olmo 3 केवल मॉडल के अंतिम परिणाम ही नहीं, बल्कि पूरी विकास प्रक्रिया (model flow) भी सार्वजनिक करता है, जिससे डेटा, कोड और checkpoints तक पूरी traceability मिलती है
- यह 7B और 32B पैरामीटर स्केल के Base, Think, Instruct, RL Zero चार मॉडलों से बना है, इसलिए reasoning, संवाद और reinforcement learning जैसे अलग-अलग शोध उद्देश्यों के लिए उपयोग किया जा सकता है
- Dolma 3 और Dolci datasets पर आधारित, वेब, कोड, गणित और विज्ञान सहित लगभग 9.3 ट्रिलियन tokens के पारदर्शी training data को सार्वजनिक किया गया है
- OlmoTrace टूल के जरिए यह real time में ट्रैक किया जा सकता है कि मॉडल का output किस training data से आया है, जिससे पारदर्शिता और विश्वसनीयता मजबूत होती है
- पूरी तरह open source रिलीज़ होने के कारण कोई भी मॉडल के किसी विशेष चरण पर हस्तक्षेप, संशोधन या retraining कर सकता है, और इससे सत्यापित किए जा सकने वाले AI research ecosystem का निर्माण होता है
Olmo 3 का अवलोकन
- Olmo 3, Allen Institute for AI(Ai2) द्वारा जारी अगली पीढ़ी का open source language model family है, जिसकी मुख्य विशेषता मॉडल के पूरे development flow (model flow) को सार्वजनिक करना है
- model flow में data collection, preprocessing, training, fine-tuning और reinforcement learning सहित सभी चरण शामिल हैं
- इससे शोधकर्ता और डेवलपर मॉडल के अंदरूनी कामकाज का विश्लेषण कर सकते हैं और उसमें बदलाव भी कर सकते हैं
- Olmo 3, 7B और 32B parameters वाले versions में उपलब्ध है, और इसे notebook से लेकर research cluster तक अलग-अलग environments में चलाया जा सकता है
मुख्य मॉडल संरचना
- Olmo 3-Base (7B, 32B)
- यह पूरी तरह सार्वजनिक base model है, जो code, गणित और reading comprehension जैसे कई क्षेत्रों में शीर्ष स्तर का प्रदर्शन देता है
- यह Qwen 2.5, Gemma 3 जैसे समान श्रेणी के मॉडलों से प्रतिस्पर्धा करता है और 65K tokens के extended context को support करता है
- Olmo 3-Think (7B, 32B)
- यह reasoning-केंद्रित मॉडल है, जिसे multi-step reasoning problems पर प्रशिक्षित किया गया है; RL research और long-term thinking experiments के लिए उपयुक्त है
- 32B मॉडल ने MATH, OMEGA, BigBenchHard में अपनी श्रेणी के सर्वोच्च स्तर का प्रदर्शन दिखाया
- Olmo 3-Instruct (7B)
- यह संवाद, instruction following और tool use के लिए optimized मॉडल है, जो Qwen 2.5, Gemma 3, Llama 3.1 के बराबर या उससे बेहतर है
- Olmo 3-RL Zero (7B)
- यह reinforcement learning algorithm evaluation के लिए पूरी तरह सार्वजनिक path प्रदान करता है, और इसमें गणित, code, instruction following सहित 4 domain checkpoints शामिल हैं
प्रदर्शन और benchmarks
- Olmo 3-Base 32B, Marin 32B, Apertus 70B जैसे पूरी तरह सार्वजनिक मॉडलों से बेहतर है
- GSM8k (गणित) में 80.5 और HumanEval (code) में 66.5 जैसे प्रमुख benchmarks पर अच्छे परिणाम मिले
- Olmo 3-Think 32B, Qwen 3 32B के बराबर या उसके करीब प्रदर्शन करता है, और HumanEvalPlus, IFEval जैसे benchmarks में सर्वोच्च स्कोर दर्ज करता है
- Olmo 3-Instruct 7B ने Safety श्रेणी में 87.3 अंक हासिल किए, जो तुलना किए गए मॉडलों में सबसे अधिक है
आर्किटेक्चर और प्रशिक्षण प्रक्रिया
- इसमें decoder-only transformer architecture का उपयोग किया गया है, और यह 3-चरण pretraining (basic → intermediate → long-context) तथा 3-चरण post-training (SFT → DPO → RLVR) से बना है
- हर चरण के checkpoints सार्वजनिक किए गए हैं, ताकि शोधकर्ता अपनी पसंद के किसी भी चरण से मॉडल को fork करके प्रयोग कर सकें
- Dolma 3 (लगभग 9.3 ट्रिलियन tokens) और Dolci datasets के जरिए training की पूरी प्रक्रिया में data transparency सुनिश्चित की गई है
- इसमें Dolma 3 Mix (6 ट्रिलियन tokens), Dolmino (100B tokens), Longmino (50B tokens) जैसी विस्तृत संरचना शामिल है
- Dolci, SFT, DPO, RLVR के हर चरण के लिए अलग data mix प्रदान करता है
कुशल प्रशिक्षण इन्फ्रास्ट्रक्चर
- training के लिए अधिकतम 1,024 H100 GPUs का उपयोग किया गया, और 7B मॉडल के लिए 7.7K tokens/second की processing speed हासिल की गई
- in-flight weight updates, continuous batching, threading improvements जैसी तकनीकों से RL training efficiency में 4 गुना सुधार हुआ
- Olmo 3 का 32B मॉडल प्रदर्शन और accessibility के बीच संतुलन के रूप में रखा गया है, ताकि शोधकर्ता इसे सीधे fine-tune कर सकें
पारदर्शिता और टूल इकोसिस्टम
- OlmoTrace के जरिए मॉडल output और training data के बीच संबंध को दृश्य रूप से ट्रैक किया जा सकता है
- सभी datasets और toolchains को open source के रूप में सार्वजनिक किया गया है
- इनमें Olmo-core (distributed training framework), Open Instruct (post-training pipeline), datamap-rs (data cleaning), duplodocus (deduplication), OLMES (evaluation toolkit) शामिल हैं
- शोधकर्ता मॉडल के मध्यवर्ती reasoning चरणों और failure points का विश्लेषण कर मॉडल के व्यवहार के कारणों को समझ सकते हैं
उपयोग और महत्व
- Olmo 3, research, education और application development में विश्वसनीय AI systems के निर्माण का समर्थन करता है
- मॉडल के सभी चरण सार्वजनिक होने से reproducibility, verifiability और collaborative research को बढ़ावा मिलता है
- Ai2 का कहना है कि “सच्चा open source AI केवल access नहीं, बल्कि विश्वास, जिम्मेदारी और सामूहिक प्रगति का भी अर्थ रखता है”
- Olmo 3, पूर्ण पारदर्शिता के जरिए ऐसा नया open research paradigm प्रस्तुत करता है, जिसमें कोई भी AI के अंदरूनी हिस्सों को समझ और बेहतर बना सकता है
1 टिप्पणियां
Hacker News राय
ऐसी transparency के बिना आम लोगों के पास बड़े LLM-आधारित सिस्टम को समझने या नियंत्रित करने का कोई तरीका नहीं होगा
अंततः जोखिम यही है कि Big Tech, सत्तावादी ताकतें, या खुद AI मनमानी करने लगें
मुझे लगता है किसी third-party संस्था को audit करके transparency reports देनी चाहिए
उम्मीद है ऐसे प्रयास बार-बार होते रहेंगे
सिर्फ weights public कर देने को open source कहना गलत practice है
सचमुच open source models के लिए शायद “transparent model” जैसा नया नाम चाहिए
लेकिन मेरी व्याख्या और Talmudic law के मुताबिक जिराफ़ मान्य है, और GPT5.1 मेरी व्याख्या से सहमत था
ऐसी जानकारी RAG जैसी retrieval-based व्यवस्था से आनी चाहिए
“मुझे नहीं पता” कहने वाला model ज़्यादा उपयोगी लगेगा
छोटे models अक्सर edge cases को जबरन संभालने की कोशिश करते हैं
इसलिए अगर उन्हें “edge_case” जैसा exit दे दिया जाए तो वे काफी बेहतर काम करते हैं
काश ऐसे prompt hacking tips का कोई central repository होता
वह कहता है कि model response से मेल खाने वाले training data documents दिखाए जाते हैं
लेकिन असल में यह सिर्फ N-gram matching जैसा लगता है, इसलिए इसे traceability कहना मुश्किल है
कुछ नतीजे ऐसे documents से भी आए जो सवाल से असंबंधित थे
N-gram विवरण
बल्कि यह दिखाना है कि model किन training data fragments से प्रभावित हुआ
उदाहरण के लिए, इससे पता लगाया जा सकता है कि कई models एक ही joke या numbers क्यों दोहराते हैं
7B, 8GB GPU पर फिट बैठता है, 32B, 24GB GPU पर, और 20B class model 16GB GPU के लिए बिल्कुल सही है
अभी भी optimal size खोजने के experiments चल रहे हैं
व्यक्तिगत रूप से मैं चाहता हूँ कि GPUs में expandable VRAM आए
शायद यह OpenWebUI bug है
GPT-OSS के समय भी ऐसा हुआ था, और इस बार OLMo के साथ भी शायद वही दोहराया जाएगा
7B ने “Hi! I'm Olmo 3…” कहा, और 32B ने “Hi! I'm Olmo…” जवाब दिया
यानी एक साधारण अभिवादन भी आखिर में दार्शनिक व्याख्या बन जाता है
और पहली ही लाइन से adult site text शामिल देखकर हैरान रह गया
पूरी pipeline public करनी हो तो ऐसा data भी शामिल करना पड़ता है
फिर भी अच्छा होता अगर preview में यह हिस्सा तुरंत न दिखे, ऐसा कुछ adjust किया जाता
ज़्यादातर तो on-device inference के लिए लगते हैं, लेकिन क्या और भी उदाहरण हैं?
बहुत-सी कंपनियाँ Qwen 3 fine-tuned models से Olmo 32B पर switch कर सकती हैं
इसका प्रदर्शन छोटे non-LLM models से बेहतर था
यह साधारण Google search से तेज़ है, और terminal commands, file exploration, note organization तक संभाल लेता है
इसकी speed (90tok/s) और low latency की वजह से छोटे-छोटे काम बहुत अधिक efficient हो जाते हैं
दूसरी ओर Sonnet 4.5 धीमा है और हल्का-सा गलत भी, इसलिए practical use में inefficient है
यह तेज़ भी है (90tok/s) और ज़्यादातर काम कवर कर लेता है
इस तरह का research महत्वपूर्ण है, लेकिन dense models के लिए इस speed तक पहुँचना मुश्किल है
अगली Olmo version में भी MoE लाने की योजना है
यहाँ तक कि Esperanto में भी स्वाभाविक बातचीत कर पाया