5 पॉइंट द्वारा GN⁺ 2025-11-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Olmo 3 केवल मॉडल के अंतिम परिणाम ही नहीं, बल्कि पूरी विकास प्रक्रिया (model flow) भी सार्वजनिक करता है, जिससे डेटा, कोड और checkpoints तक पूरी traceability मिलती है
  • यह 7B और 32B पैरामीटर स्केल के Base, Think, Instruct, RL Zero चार मॉडलों से बना है, इसलिए reasoning, संवाद और reinforcement learning जैसे अलग-अलग शोध उद्देश्यों के लिए उपयोग किया जा सकता है
  • Dolma 3 और Dolci datasets पर आधारित, वेब, कोड, गणित और विज्ञान सहित लगभग 9.3 ट्रिलियन tokens के पारदर्शी training data को सार्वजनिक किया गया है
  • OlmoTrace टूल के जरिए यह real time में ट्रैक किया जा सकता है कि मॉडल का output किस training data से आया है, जिससे पारदर्शिता और विश्वसनीयता मजबूत होती है
  • पूरी तरह open source रिलीज़ होने के कारण कोई भी मॉडल के किसी विशेष चरण पर हस्तक्षेप, संशोधन या retraining कर सकता है, और इससे सत्यापित किए जा सकने वाले AI research ecosystem का निर्माण होता है

Olmo 3 का अवलोकन

  • Olmo 3, Allen Institute for AI(Ai2) द्वारा जारी अगली पीढ़ी का open source language model family है, जिसकी मुख्य विशेषता मॉडल के पूरे development flow (model flow) को सार्वजनिक करना है
    • model flow में data collection, preprocessing, training, fine-tuning और reinforcement learning सहित सभी चरण शामिल हैं
    • इससे शोधकर्ता और डेवलपर मॉडल के अंदरूनी कामकाज का विश्लेषण कर सकते हैं और उसमें बदलाव भी कर सकते हैं
  • Olmo 3, 7B और 32B parameters वाले versions में उपलब्ध है, और इसे notebook से लेकर research cluster तक अलग-अलग environments में चलाया जा सकता है

मुख्य मॉडल संरचना

  • Olmo 3-Base (7B, 32B)
    • यह पूरी तरह सार्वजनिक base model है, जो code, गणित और reading comprehension जैसे कई क्षेत्रों में शीर्ष स्तर का प्रदर्शन देता है
    • यह Qwen 2.5, Gemma 3 जैसे समान श्रेणी के मॉडलों से प्रतिस्पर्धा करता है और 65K tokens के extended context को support करता है
  • Olmo 3-Think (7B, 32B)
    • यह reasoning-केंद्रित मॉडल है, जिसे multi-step reasoning problems पर प्रशिक्षित किया गया है; RL research और long-term thinking experiments के लिए उपयुक्त है
    • 32B मॉडल ने MATH, OMEGA, BigBenchHard में अपनी श्रेणी के सर्वोच्च स्तर का प्रदर्शन दिखाया
  • Olmo 3-Instruct (7B)
    • यह संवाद, instruction following और tool use के लिए optimized मॉडल है, जो Qwen 2.5, Gemma 3, Llama 3.1 के बराबर या उससे बेहतर है
  • Olmo 3-RL Zero (7B)
    • यह reinforcement learning algorithm evaluation के लिए पूरी तरह सार्वजनिक path प्रदान करता है, और इसमें गणित, code, instruction following सहित 4 domain checkpoints शामिल हैं

प्रदर्शन और benchmarks

  • Olmo 3-Base 32B, Marin 32B, Apertus 70B जैसे पूरी तरह सार्वजनिक मॉडलों से बेहतर है
    • GSM8k (गणित) में 80.5 और HumanEval (code) में 66.5 जैसे प्रमुख benchmarks पर अच्छे परिणाम मिले
  • Olmo 3-Think 32B, Qwen 3 32B के बराबर या उसके करीब प्रदर्शन करता है, और HumanEvalPlus, IFEval जैसे benchmarks में सर्वोच्च स्कोर दर्ज करता है
  • Olmo 3-Instruct 7B ने Safety श्रेणी में 87.3 अंक हासिल किए, जो तुलना किए गए मॉडलों में सबसे अधिक है

आर्किटेक्चर और प्रशिक्षण प्रक्रिया

  • इसमें decoder-only transformer architecture का उपयोग किया गया है, और यह 3-चरण pretraining (basic → intermediate → long-context) तथा 3-चरण post-training (SFT → DPO → RLVR) से बना है
  • हर चरण के checkpoints सार्वजनिक किए गए हैं, ताकि शोधकर्ता अपनी पसंद के किसी भी चरण से मॉडल को fork करके प्रयोग कर सकें
  • Dolma 3 (लगभग 9.3 ट्रिलियन tokens) और Dolci datasets के जरिए training की पूरी प्रक्रिया में data transparency सुनिश्चित की गई है
    • इसमें Dolma 3 Mix (6 ट्रिलियन tokens), Dolmino (100B tokens), Longmino (50B tokens) जैसी विस्तृत संरचना शामिल है
    • Dolci, SFT, DPO, RLVR के हर चरण के लिए अलग data mix प्रदान करता है

कुशल प्रशिक्षण इन्फ्रास्ट्रक्चर

  • training के लिए अधिकतम 1,024 H100 GPUs का उपयोग किया गया, और 7B मॉडल के लिए 7.7K tokens/second की processing speed हासिल की गई
  • in-flight weight updates, continuous batching, threading improvements जैसी तकनीकों से RL training efficiency में 4 गुना सुधार हुआ
  • Olmo 3 का 32B मॉडल प्रदर्शन और accessibility के बीच संतुलन के रूप में रखा गया है, ताकि शोधकर्ता इसे सीधे fine-tune कर सकें

पारदर्शिता और टूल इकोसिस्टम

  • OlmoTrace के जरिए मॉडल output और training data के बीच संबंध को दृश्य रूप से ट्रैक किया जा सकता है
  • सभी datasets और toolchains को open source के रूप में सार्वजनिक किया गया है
    • इनमें Olmo-core (distributed training framework), Open Instruct (post-training pipeline), datamap-rs (data cleaning), duplodocus (deduplication), OLMES (evaluation toolkit) शामिल हैं
  • शोधकर्ता मॉडल के मध्यवर्ती reasoning चरणों और failure points का विश्लेषण कर मॉडल के व्यवहार के कारणों को समझ सकते हैं

उपयोग और महत्व

  • Olmo 3, research, education और application development में विश्वसनीय AI systems के निर्माण का समर्थन करता है
  • मॉडल के सभी चरण सार्वजनिक होने से reproducibility, verifiability और collaborative research को बढ़ावा मिलता है
  • Ai2 का कहना है कि “सच्चा open source AI केवल access नहीं, बल्कि विश्वास, जिम्मेदारी और सामूहिक प्रगति का भी अर्थ रखता है”
  • Olmo 3, पूर्ण पारदर्शिता के जरिए ऐसा नया open research paradigm प्रस्तुत करता है, जिसमें कोई भी AI के अंदरूनी हिस्सों को समझ और बेहतर बना सकता है

1 टिप्पणियां

 
GN⁺ 2025-11-22
Hacker News राय
  • मेरे हिसाब से AI का भविष्य ऐसे सिस्टम हैं जिनमें reasoning steps पूरी तरह trace किए जा सकें
    ऐसी transparency के बिना आम लोगों के पास बड़े LLM-आधारित सिस्टम को समझने या नियंत्रित करने का कोई तरीका नहीं होगा
    अंततः जोखिम यही है कि Big Tech, सत्तावादी ताकतें, या खुद AI मनमानी करने लगें
    • इसलिए यह दिलचस्प है कि बहुत से लोग इस तरह के approach को ही खत्म करना चाहते हैं
    • कम-से-कम यह तो पता होना चाहिए कि हर AI model ने कौन-सा training data इस्तेमाल किया
      मुझे लगता है किसी third-party संस्था को audit करके transparency reports देनी चाहिए
    • transparency अच्छी है, लेकिन responses को adjustable बनाना एक बड़ा UI/UX challenge है
      उम्मीद है ऐसे प्रयास बार-बार होते रहेंगे
  • “open source AI” शब्द अब मार्केटिंग से काफी विकृत लगने लगा है
    सिर्फ weights public कर देने को open source कहना गलत practice है
    सचमुच open source models के लिए शायद “transparent model” जैसा नया नाम चाहिए
  • मैंने पूछा कि जिराफ़ kosher खाना है या नहीं, तो model ने “नहीं” कहा
    लेकिन मेरी व्याख्या और Talmudic law के मुताबिक जिराफ़ मान्य है, और GPT5.1 मेरी व्याख्या से सहमत था
    • यह अजीब है कि model इस तरह की धार्मिक बारीकियाँ memorize करके बैठा है
      ऐसी जानकारी RAG जैसी retrieval-based व्यवस्था से आनी चाहिए
      “मुझे नहीं पता” कहने वाला model ज़्यादा उपयोगी लगेगा
    • यह जानना दिलचस्प होगा कि कितनी बार retry किया गया, और temperature या top_p values कैसे set थीं
    • दरअसल यह दिलचस्प है कि अब इस तरह के सवाल public benchmark नहीं रह गए हैं
  • हाल में मैं अपना मुख्य workflow OpenAI से local models पर shift कर रहा हूँ
    छोटे models अक्सर edge cases को जबरन संभालने की कोशिश करते हैं
    इसलिए अगर उन्हें “edge_case” जैसा exit दे दिया जाए तो वे काफी बेहतर काम करते हैं
    काश ऐसे prompt hacking tips का कोई central repository होता
    • क्या “edge_case” structured output schema की key है?
    • क्या आप Open WebUI या LibreChat जैसे frontend इस्तेमाल करते हैं, या सीधे call करते हैं?
  • मैंने AllenAI Playground में “Show OlmoTrace” दबाया
    वह कहता है कि model response से मेल खाने वाले training data documents दिखाए जाते हैं
    लेकिन असल में यह सिर्फ N-gram matching जैसा लगता है, इसलिए इसे traceability कहना मुश्किल है
    कुछ नतीजे ऐसे documents से भी आए जो सवाल से असंबंधित थे
    N-gram विवरण
    • Olmo researcher के तौर पर कहूँ तो OlmoTrace का मकसद response को किसी खास document से जोड़ना नहीं है
      बल्कि यह दिखाना है कि model किन training data fragments से प्रभावित हुआ
      उदाहरण के लिए, इससे पता लगाया जा सकता है कि कई models एक ही joke या numbers क्यों दोहराते हैं
  • मुझे लगता है model sizes की 7B, 20B, 32B वाली lineup आदर्श है
    7B, 8GB GPU पर फिट बैठता है, 32B, 24GB GPU पर, और 20B class model 16GB GPU के लिए बिल्कुल सही है
    • बेशक यह architecture पर निर्भर करता है
      अभी भी optimal size खोजने के experiments चल रहे हैं
      व्यक्तिगत रूप से मैं चाहता हूँ कि GPUs में expandable VRAM आए
  • मैंने 7B model से “hi, who are u” पूछा, तो वह internally sentence analyze करते-करते रुक गया
    शायद यह OpenWebUI bug है
    • हर बार नया model आने पर लोग unsupported software में उसे test करते हैं
      GPT-OSS के समय भी ऐसा हुआ था, और इस बार OLMo के साथ भी शायद वही दोहराया जाएगा
    • मैंने खुद playground में आज़माया
      7B ने “Hi! I'm Olmo 3…” कहा, और 32B ने “Hi! I'm Olmo…” जवाब दिया
    • मैं Ai2 की post-training team में researcher हूँ, क्या बता सकते हैं आपने इसे कहाँ test किया?
    • इससे वह joke याद आता है जिसमें “good morning” का ज़रूरत से ज़्यादा विश्लेषण किया जाता है
      यानी एक साधारण अभिवादन भी आखिर में दार्शनिक व्याख्या बन जाता है
    • शायद यह भी जाँच लें कि कहीं completion token limit तो नहीं लगी थी
  • मैंने Hugging Face पर Dolma3 dataset देखा
    और पहली ही लाइन से adult site text शामिल देखकर हैरान रह गया
    • संभव है कि यह अभी pre-curation stage में हो
      पूरी pipeline public करनी हो तो ऐसा data भी शामिल करना पड़ता है
      फिर भी अच्छा होता अगर preview में यह हिस्सा तुरंत न दिखे, ऐसा कुछ adjust किया जाता
    • वैसे भी erotic fiction ऐसे models के प्रमुख use cases में से एक है
  • छोटे models के असली use cases क्या हैं, यह जानने की उत्सुकता है
    ज़्यादातर तो on-device inference के लिए लगते हैं, लेकिन क्या और भी उदाहरण हैं?
    • Ai2 researcher के तौर पर कहूँ तो 7B, consumer GPUs के लिए local model है, जबकि 32B के applications ज़्यादा विविध हैं
      बहुत-सी कंपनियाँ Qwen 3 fine-tuned models से Olmo 32B पर switch कर सकती हैं
    • हमारी team 7B model को domain-specific classifier के रूप में fine-tune करती है
      इसका प्रदर्शन छोटे non-LLM models से बेहतर था
    • मैं Qwen3-30B-VL को VRAM में हमेशा loaded रखता हूँ
      यह साधारण Google search से तेज़ है, और terminal commands, file exploration, note organization तक संभाल लेता है
      इसकी speed (90tok/s) और low latency की वजह से छोटे-छोटे काम बहुत अधिक efficient हो जाते हैं
      दूसरी ओर Sonnet 4.5 धीमा है और हल्का-सा गलत भी, इसलिए practical use में inefficient है
  • Qwen3-30B-VL रोज़मर्रा के इस्तेमाल के लिए लगभग perfect है
    यह तेज़ भी है (90tok/s) और ज़्यादातर काम कवर कर लेता है
    इस तरह का research महत्वपूर्ण है, लेकिन dense models के लिए इस speed तक पहुँचना मुश्किल है
    • Olmo developer के तौर पर कहूँ तो Qwen models तेज़ हैं क्योंकि उनमें MoE architecture है
      अगली Olmo version में भी MoE लाने की योजना है
    • नए MacBook पर चलाकर देखा तो यह धीमा था, लेकिन Qwen2.5:14B ने तुरंत feedback दिया
      यहाँ तक कि Esperanto में भी स्वाभाविक बातचीत कर पाया
    • यह जानने की जिज्ञासा है कि Qwen3-30B-VL ज़्यादा “smart” सिर्फ size की वजह से है या architecture difference की वजह से