27 पॉइंट द्वारा GN⁺ 2025-08-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI ने gpt-oss-20b/120b मॉडल को open weight के रूप में जारी किया है, जिससे 2019 के GPT-2 के बाद पहली बार OpenAI का बड़ा सार्वजनिक open weight LLM सामने आया है
  • gpt-oss मॉडल ने GPT-2 की तुलना में Dropout, Absolute Position Embedding, GELU जैसी पुरानी तकनीकों की जगह RoPE, SwiGLU, RMSNorm जैसी अधिक कुशल आधुनिक तकनीकें अपनाई हैं
  • Mixture-of-Experts(मॉड्यूलर expert संरचना), Sliding Window Attention, MXFP4 quantization जैसे फीचर्स के उपयोग से न केवल performance efficiency बढ़ी है, बल्कि single GPU रनटाइम वातावरण भी काफी बेहतर हुआ है
  • Qwen3 के साथ तुलना में architecture की depth/width, experts की संख्या, attention bias, open source license जैसे कई अंतर सामने आते हैं
  • gpt-oss-20b में आधुनिक हार्डवेयर के अनुरूप lightweight डिज़ाइन और reasoning effort adjustment फीचर है, जिससे वास्तविक उपयोगिता और research extensibility दोनों सुनिश्चित होते हैं

अवलोकन और मुख्य नवाचार

  • OpenAI ने gpt-oss-20b/120b को 2019 के GPT-2 के बाद पहली बार open weight के रूप में जारी किया
    • सामान्य यूज़र GPU(अधिकतम 16GB RAM) पर 20B, और H100 80GB पर 120B चलाया जा सकता है
    • MXFP4 optimization के कारण single GPU execution संभव हुआ, जिससे consumer accessibility बढ़ी

GPT-2 → gpt-oss: मुख्य आर्किटेक्चरल बदलाव

Dropout हटाना

  • GPT-2 में Dropout शामिल था, लेकिन बड़े डेटा पर single epoch training के वातावरण में इससे उल्टा performance घटने की बात सामने आई
  • हाल के शोधों में भी Dropout न लगाने पर LLM के downstream tasks में बेहतर performance दिखी है

RoPE(Rotary Position Embedding) अपनाना

  • पुरानी absolute position embedding की जगह RoPE(Rotary Position Embedding) मुख्यधारा बन चुका है
  • RoPE query/key vector के angle को position के अनुसार rotate करके अधिक लचीली और generalized positional information देता है

SwiGLU activation function और GLU का उपयोग

  • GEGLU/SwiGLU जैसे GLU तरीकों से पारंपरिक 2-layer FFN की तुलना में कम parameters में बेहतर representational power मिलती है
  • computation के लिहाज़ से भी Swish, GELU की तुलना में अधिक efficient है

Mixture-of-Experts(MoE) का उपयोग

  • एकल FFN की जगह कई expert नेटवर्क का उपयोग किया जाता है, जहाँ हर token generation पर केवल कुछ experts सक्रिय होते हैं
  • मॉडल parameters की संख्या बहुत बढ़ाने के बावजूद inference efficiency(sparsity) बनी रहती है, और training capacity बढ़ती है

Grouped Query Attention(GQA) की शुरुआत

  • पारंपरिक Multi-Head Attention की तुलना में key/value sharing के कारण memory और computation कम होता है
  • performance loss के बिना efficiency बढ़ती है, इसलिए बड़े LLM में यह मानक प्रवृत्ति बन रही है

Sliding Window Attention का उपयोग

  • कुछ layers में पूरे context की बजाय हाल के 128 tokens तक सीमित Sliding Window से local attention calculate की जाती है, जिससे memory usage न्यूनतम रहता है
  • performance घटाए बिना तेज inference और बड़े context support में मदद मिलती है

RMSNorm अपनाना

  • LayerNorm की जगह RMSNorm के उपयोग से computation efficiency बढ़ती है
  • LayerNorm के mean/variance calculation की जगह RMS(root mean square) का उपयोग होता है, जिससे GPU पर computational load घटता है

gpt-oss और Qwen3 की तुलना

scale/structure में अंतर

  • Qwen3 में अधिक deep(48 Transformer blocks) संरचना है, जबकि gpt-oss में अधिक wide(embedding dimension, head count अधिक) संरचना है
  • deep मॉडल अधिक flexible होते हैं लेकिन train करना कठिन होता है, जबकि wide मॉडल inference parallelization के लिए अधिक अनुकूल होते हैं(Gemma 2 पेपर में 9B मॉडल के आधार पर wide मॉडल थोड़ा बेहतर पाया गया)

MoE संरचना में अंतर

  • gpt-oss-20b: 32 बड़े experts, जिनमें से 4 ही सक्रिय
  • Qwen3: अधिक संख्या में छोटे experts, जिनमें 8 सक्रिय
  • हालिया रुझान अधिक छोटे experts वाली संरचना को प्रभावी मानता है, लेकिन gpt-oss बड़े लेकिन कम experts वाले डिज़ाइन पर कायम है (20B, 120B में केवल experts और blocks की संख्या समायोजित की गई है)

Attention Bias और Sinks

  • gpt-oss attention में bias units का उपयोग करता है (GPT-2 के बाद यह अपेक्षाकृत दुर्लभ तरीका है)
    • हालांकि हाल के शोध के अनुसार key-proj पर इसका प्रभाव सीमित है
  • attention sink ऐसा विशेष token concept है जिस पर sequence की शुरुआत की position से हमेशा attend किया जाता है, लेकिन gpt-oss में input tokens को बदले बिना Learned bias logit के रूप में हर head में अतिरिक्त रूप से लागू किया गया है

license और public release का दायरा

  • Apache 2.0 open source license होने के कारण commercial use और derivative models बनाना स्वतंत्र है
  • लेकिन यह पूर्ण अर्थ में open source नहीं है(training code और dataset सार्वजनिक नहीं हैं); यह एक open weight मॉडल है

अन्य विवरण और वास्तविक संचालन

training/optimization

  • gpt-oss को 2.1M H100-hours computing resource के साथ train किया गया
  • इसका फोकस अंग्रेज़ी-केंद्रित STEM, coding, और सामान्य knowledge text पर रहा
  • pretraining + supervised fine-tuning(Instruction), RL-आधारित reasoning stage जैसी आधुनिक तकनीकें लागू की गईं

Reasoning Effort नियंत्रण

  • System prompt के माध्यम से reasoning effort(लो/मध्यम/हाई) सेट करके उत्तर की लंबाई और accuracy को स्वतः समायोजित किया जा सकता है
  • सरल कार्यों के लिए कम effort के साथ तेज़ execution, और जटिल reasoning के लिए अधिक effort सेट किया जा सकता है

MXFP4 quantization से single GPU support

  • MXFP4 format के उपयोग से 20B मॉडल 16GB VRAM(नवीनतम GPU आवश्यक) पर भी चल सकता है
  • 120B मॉडल H100 के 80GB memory पर single GPU में चल सकता है, इसलिए distributed processing की जरूरत नहीं और deployment सरल है

benchmarks और वास्तविक उपयोगिता

  • gpt-oss में training focus reasoning पर अधिक है, इसलिए कुछ सामान्य knowledge सवालों में hallucination की प्रवृत्ति दिखाई देती है
  • usability के लिहाज़ से यह मौजूदा open models में ऊपरी श्रेणी में है, और tool integration के साथ इसकी व्यावहारिकता और बढ़ सकती है
  • वास्तविक उपयोग में accuracy और reasoning के संतुलन, तथा आगे अन्य open models के साथ तुलना की आवश्यकता है

GPT-5 के साथ तुलना

  • gpt-oss-120b, OpenAI के commercial model(GPT-5) के benchmark performance के काफ़ी करीब दिखाई देता है
  • वास्तविक वातावरण में इसकी बढ़त कितनी है, यह अभी देखना बाकी है, लेकिन open weight के रूप में उपलब्ध नवीनतम LLMs में यह एक मजबूत विकल्प है
  • केवल benchmarks के आधार पर वास्तविक प्रतिस्पर्धात्मकता को पूरी तरह नहीं समझा जा सकता, लेकिन यह बाहरी तुलना और शोध के लिए बड़ा अवसर देता है

सारांश

  • gpt-oss series का आगमन बड़े open weight LLM क्षेत्र के लिए एक नया मानक प्रस्तुत करता है, और यह विस्तार से दिखाता है कि आधुनिक LLMs की नवाचारी आर्किटेक्चरल तकनीकों को वास्तव में कैसे लागू किया गया है
  • Qwen3, GPT-5 जैसे अन्य आधुनिक मॉडलों के साथ इसके अंतर और रुझान समझे जा सकते हैं, इसलिए यह वास्तविक अनुप्रयोग और शोध दोनों के लिए उपयोगी नवीनतम दिशा प्रदान करता है

1 टिप्पणियां

 
GN⁺ 2025-08-11
Hacker News राय
  • पुष्टि हुई कि Qwen3 लोकल टेस्ट में कहीं बेहतर है। 32B parameter version में यह prompt को लगभग पूरी तरह मानता है और आउटपुट भी स्वाभाविक आता है। दूसरी ओर simplebench gpt-oss(120B) ने logic puzzle में अच्छा प्रदर्शन नहीं दिखाया। लगता है यह फर्क training method, model dimension, और कम संख्या वाले बड़े experts बनाम अधिक संख्या वाले छोटे experts जैसी बातों से आता है

    • Qwen3 32B एक dense model है जो हमेशा सभी parameters का उपयोग करता है। GPT OSS 20B एक sparse MoE(Expert of Experts) model है जो केवल कुछ parameters का उपयोग करता है, और एक बार में लगभग 3.6B ही सक्रिय करता है। इसी वजह से यह dense 20B model से तेज है, और 3.6B model से ज्यादा समझदार है। निष्पक्ष तुलना करनी हो तो dense 8B model से करनी चाहिए, और Qwen Coder 30B A3B जैसे model भी अच्छे comparison point हैं
    • मेरे हिसाब से यह अंतर model architecture से ज्यादा data और training pipeline की वजह से है। ऐसी बात चल रही है कि gpt-oss ने सिर्फ Phi-style synthetic dataset का उपयोग किया और मुख्य रूप से benchmark games पर ध्यान दिया, और उसके पक्ष में सबूत काफी भरोसेमंद लगते हैं
    • MoE के expected performance का formula है sqrt(सक्रिय heads की संख्या * कुल parameters की संख्या)। उदाहरण के लिए sqrt(120*5) ~= 24, यानी GPT-OSS 120B वास्तव में लगभग 24B स्तर का प्रदर्शन देता है और speed भी बहुत छोटे model जैसी मिलती है
    • qwen3 धीमा है। मैंने खुद इस्तेमाल किया है, काम तो करता है लेकिन रफ्तार धीमी है और features भी कुछ कम लगते हैं
  • Sebastian Raschka के ब्लॉग पोस्ट जानकारी का खजाना हैं। get-oss और qwen3 models को Ollama और LM Studio के साथ लोकल में इस्तेमाल करता हूँ, और बड़े models के लिए commercial API का उपयोग करता हूँ। get-oss तब अच्छे नतीजे देता है जब prompt में बहुत context information दी जाए, और qwen3 तो बस शानदार है। 3 साल पहले तक मुझे neural network, GAN, RNN, LSTM जैसी चीजें इतनी अच्छी तरह समझ थीं कि machine learning को सच में implement कर सकता था, लेकिन आजकल के LLM इतने आसान नहीं हैं कि खुद विकसित कर सकूँ, इसका अफसोस है। Sebastian Raschka की किताब भी देख रहा हूँ, लेकिन शायद अंत तक पूरी न कर पाऊँ

    • इतनी अविश्वसनीय तेजी से बदलते क्षेत्र में Sebastian Raschka हमेशा नवीनतम जानकारी को संक्षेप में समेट देते हैं, इससे सच में बहुत मदद मिलती है
  • लोकल 3090 GPU पर qwen3 coder instruct 30b-a3b exl3 q6 model चलाकर मैंने sample page भी बनाया, server चलाया, बचे हुए server detect किए, उन्हें खुद बंद किया (permission request लेकर), फिर दोबारा शुरू किया और IP अपने आप ढूंढकर browser में खोलने तक का flow आजमाया। अब यह सिर्फ साधारण demo नहीं रह गया, बल्कि junior या intern के लिए भी व्यावहारिक रूप से उपयोगी मदद के स्तर तक पहुँच गया है

  • मेरे अनुभव में qwen3-coder बहुत ज्यादा बेहतर है। gpt-oss:20b भी install किया था, लेकिन code summary करने को कहने पर qwen3 कुछ ही सेकंड में जवाब दे देता है और gpt-oss 5 मिनट से ज्यादा कुछ किए बिना अटका रहता है, इसलिए मैंने रोक दिया। अब मैं सिर्फ qwen3 इस्तेमाल करता हूँ। अगर मनचाहा जवाब नहीं मिलता, तो search engine या Perplexity का उपयोग करता हूँ। मैं 10GB 3080, Ryzen 3600x, 32GB RAM इस्तेमाल कर रहा हूँ। Qwen3-coder अब तक का सबसे अच्छा model है जो मैंने इस्तेमाल किया है

    • Qwen3 coder 480B इतना अच्छा है कि Sonnet 4 की बराबरी कर सकता है। इसी वजह से पहली बार सच में लगा कि Chinese models जल्द ही US-based models को पीछे छोड़ सकते हैं, खासकर coding में
    • gpt-oss 20B का 10GB में फिट न होना भी समस्या का कारण हो सकता है
    • मैं भी gpt-oss-20b को हल्के उपयोग में लेता हूँ, और छोटे prompt (एक-दो वाक्य) पर यह कभी-कभी infinite loop में फँस जाता है। llama.cpp में repeat penalty value को कम रखा तो यह समस्या नहीं हुई (मुख्य रूप से diff analysis के लिए दिन में कुछ बार उपयोग करता हूँ)। हालांकि यह भी हो सकता है कि मैं बस भाग्यशाली रहा हूँ
    • यह जानने की जिज्ञासा है कि क्या आप इसे agentic style में इस्तेमाल कर रहे हैं—यानी कई बार question-answer वाले automation flow में—या सिर्फ copy-paste करके “यह code लिखो” जैसे single input/output तरीके से। जानना चाहता हूँ कि नवीनतम open models agentic coding में commercial models के कितना करीब पहुँच चुके हैं
  • यह दिलचस्प है कि आजकल open-weight LLMs की architecture बहुत मिलती-जुलती है, और innovation लगभग सिर्फ data या RL में हो रहा है। पहले बड़े ML संगठनों में architecture tuning सबसे महत्वपूर्ण लगती थी, लेकिन अब वास्तविकता कुछ और दिखती है

    • LLM scale पर hyperparameter tuning practically संभव नहीं लगती। लागत इतनी ज्यादा है कि कई architectures पर सिर्फ बुनियादी test किए जाते हैं, फिर एक चुनकर data और RL के जरिए optimize किया जाता है
    • अच्छी बात कही। LLM की वजह से अब पर्याप्त resources हों तो कोई भी कोशिश कर सकता है। Architecture काफी हद तक tuning-robust लगती है, और पर्याप्त compute और data डाल दिए जाएँ तो scaling law को पूरी तरह न मानते हुए भी ठीक-ठाक model बनाया जा सकता है, जैसा Llama 3 ने पहले दिखाया था
  • मैं Qwen3 4B model को लोकल में बहुत अच्छे से इस्तेमाल कर रहा हूँ। ऑनलाइन models का उपयोग लगभग नहीं करता, और web search भी कहीं अधिक targeted हो गई है। मैं इसे पूरी तरह भरोसेमंद नहीं मानता, लेकिन कुल मिलाकर ठीक है। मुझे पूरा यकीन है कि ऐसे open source models लोकल knowledge automation का खेल बदल देंगे

    • जिज्ञासा है कि क्या Qwen खुद बेहतर search parameters सुझाता है, या Qwen वास्तव में web search भी कर देता है
  • LM Arena में pure Transformer-based न होने वाले models में सबसे अच्छा प्रदर्शन Jamba का है (Transformers और state space models की hybrid architecture, 96वाँ स्थान)। Tencent का hunyuan-turbos भी hybrid है, और 22वें स्थान पर है। arxiv paper देखें

  • LLM आम तौर पर बहुत बड़े dataset पर सिर्फ एक बार (single epoch) training करते हैं। यह Dropout जैसे तरीकों से अलग माहौल है, जहाँ कई बार दोहराकर training (सैकड़ों epochs) मानकर चला जाता था

    • यह अच्छी तरह ज्ञात तथ्य है। GPT-3 paper की Table 2.2 देख सकते हैं
  • यह जानने की जिज्ञासा है कि बड़े research labs द्वारा जारी models अतिरिक्त training मिलने पर और कितना सुधर सकते हैं। उदाहरण के लिए अगर GPT-OSS को 2.1 million घंटे train किया गया, तो इसे दोगुना करने पर कितना सुधार होगा

    • GPT-4.5 शायद वास्तव में एक बड़े GPT-5 के रूप में योजनाबद्ध था और संभव है कि उसे अधिक data पर train किया गया हो। लेकिन वह बहुत महँगा निकला, इसलिए बड़े पैमाने पर commercial rollout नहीं हो सका, और उसका RL-applied version भी देखने को नहीं मिला—इसका अफसोस है
    • GPT-5 में इस्तेमाल हुई RL-based training की उन्नत तकनीकें भी अनंत तक scale नहीं होतीं, यह पहले ही सामने आ चुका है
  • साइट खोलने पर मुझे "आपका कनेक्शन सुरक्षित नहीं है" वाला error message मिलता है। उसमें लिखा आता है, "magazine.sebastianraschka.com website HSTS का उपयोग करती है, इसलिए आप अभी इसे visit नहीं कर सकते।" नवीनतम Chrome version और Ubuntu environment इस्तेमाल कर रहा हूँ