3 पॉइंट द्वारा GN⁺ 2025-09-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Qwen3-Next एक नया मॉडल आर्किटेक्चर है, जिसे बड़े मॉडलों के भविष्य के रुझानों, यानी context length बढ़ाने और कुल parameters बढ़ाने, को सपोर्ट करने के लिए विकसित किया गया है, और यह training व inference efficiency को अधिकतम करने वाली क्षमताएँ प्रदान करता है
  • Hybrid attention mechanism और अत्यधिक sparse MoE संरचना को अपनाकर long context और बड़े parameter settings में प्रदर्शन बेहतर किया गया है
  • Training stability optimization और multi-token prediction mechanism के जरिए inference speed को तेज किया गया है
  • Qwen3-Next-80B-A3B-Base मॉडल ने training cost को 10% से कम तक घटाते हुए Qwen3-32B मॉडल के बराबर या उससे बेहतर प्रदर्शन हासिल किया
  • इस मॉडल की रिलीज़ open source community को अत्याधुनिक architecture advances देती है और Qwen3.5 के विकास की दिशा में intelligence और productivity बढ़ाने की नींव रखती है

परिचय

  • बड़े मॉडलों के भविष्य के दो प्रमुख रुझानों, context length बढ़ाना और कुल parameters बढ़ाना, को ध्यान में रखते हुए long context और बड़े parameter settings में training और inference efficiency बढ़ाने के लिए Qwen3-Next नाम का नया मॉडल आर्किटेक्चर डिज़ाइन किया गया
  • Qwen3 की MoE संरचना की तुलना में Hybrid attention mechanism, अत्यधिक sparse MoE संरचना, training stability optimization, और तेज inference के लिए multi-token prediction mechanism जैसे कई मुख्य सुधार पेश किए गए
  • इस आर्किटेक्चर के आधार पर Qwen3-Next-80B-A3B-Base मॉडल को train किया गया, जो 80B parameter मॉडल है, लेकिन inference के समय केवल 3B parameters सक्रिय करता है
  • इस base model ने dense प्रकार के Qwen3-32B मॉडल के बराबर या थोड़ा बेहतर प्रदर्शन हासिल किया, जबकि training cost (GPU time) का 10% से भी कम उपयोग किया
  • खास तौर पर 32K tokens से अधिक context length पर 10x से अधिक throughput देकर training और inference में चरम दक्षता हासिल की
  • Qwen3-Next-80B-A3B-Base के आधार पर दो post-training versions, Qwen3-Next-80B-A3B-Instruct और Qwen3-Next-80B-A3B-Thinking, विकसित और जारी किए गए
  • Hybrid attention और high-sparsity MoE architecture के कारण reinforcement learning (RL) training में लंबे समय से चली आ रही stability और efficiency समस्याओं को हल किया गया, जिससे RL training speed और अंतिम performance दोनों बेहतर हुए
  • Qwen3-Next-80B-A3B-Instruct ने flagship मॉडल Qwen3-235B-A22B-Instruct-2507 के बराबर प्रदर्शन दिखाया और अधिकतम 256K token तक के ultra-long-context tasks में स्पष्ट बढ़त दिखाई
  • Qwen3-Next-80B-A3B-Thinking जटिल reasoning tasks में उत्कृष्ट है, और अधिक महंगे मॉडलों Qwen3-30B-A3B-Thinking-2507 और Qwen3-32B-Thinking को पीछे छोड़ता है, साथ ही closed-source Gemini-2.5-Flash-Thinking को कई benchmarks में पार करता है, और top-tier Qwen3-235B-A22B-Thinking-2507 के प्रदर्शन के क़रीब पहुँचता है
  • Qwen3-Next को Hugging Face और ModelScope पर पहले ही जारी किया जा चुका है, और कोई भी Alibaba Cloud Model Studio तथा NVIDIA API Catalog के माध्यम से Qwen3-Next सेवा का उपयोग कर सकता है

प्रमुख विशेषताएँ

  • Hybrid architecture: Gated DeltaNet + Gated Attention के जरिए linear attention, standard attention की quadratic complexity को तोड़ता है और long context में अधिक efficient साबित होता है
    • यह पाया गया कि linear attention तेज है लेकिन recall कमजोर है, जबकि standard attention महँगा और धीमा है; systematic experiments के जरिए पुष्टि हुई कि Gated DeltaNet, Sliding Window Attention या Mamba2 जैसी सामान्य विधियों की तुलना में अधिक मजबूत in-context learning क्षमता देता है
    • Gated DeltaNet को standard attention के साथ 3:1 अनुपात में मिलाया गया (75% layers में Gated DeltaNet, 25% में standard attention बनाए रखा गया), जिससे किसी एकल architecture की तुलना में लगातार बेहतर performance और efficiency मिली
    • Standard attention layers में output gating mechanism अपनाया गया, जिससे attention की low-rank समस्या कम हुई, और attention head प्रति dimension को 128 से बढ़ाकर 256 किया गया
    • Rotary positional encoding को केवल positional dimensions के पहले 25% पर लागू किया गया, जिससे लंबी sequences पर extrapolation बेहतर हुई
  • Ultra-sparse MoE: केवल 3.7% parameters सक्रिय होने के साथ, Qwen3-Next ने ऐसा high-sparsity MoE डिज़ाइन अपनाया है जिसमें 80B कुल parameters में से प्रति inference step लगभग 3B ही सक्रिय होते हैं
    • Experiments से दिखा कि global load balancing के तहत active experts को स्थिर रखते हुए कुल expert parameters बढ़ाने पर training loss लगातार घटता है
    • Qwen3 के MoE (कुल 128 experts, 8 routing) की तुलना में Qwen3-Next को कुल 512 experts तक बढ़ाया गया, और 10 routing experts + 1 shared expert के संयोजन से resources का अधिकतम उपयोग करते हुए performance में गिरावट नहीं आने दी गई
  • Training stability-friendly design के तहत attention output gating mechanism, Attention Sink और Massive Activation जैसी समस्याओं को हटाता है और पूरे मॉडल की numerical stability सुनिश्चित करता है
    • Qwen3 में इस्तेमाल किए गए QK-Norm में कुछ layer norm weights असामान्य रूप से बड़े हो जाने की समस्या पाई गई; इसलिए Qwen3-Next ने Zero-Centered RMSNorm अपनाया और norm weights पर weight decay लागू किया ताकि अनंत वृद्धि रोकी जा सके
    • MoE router parameters को initialization के दौरान normalize किया गया ताकि training के शुरुआती चरण में हर expert बिना bias के चुना जाए और random initialization से आने वाला noise कम हो
    • इस stability-केंद्रित डिज़ाइन ने small-scale experiments को अधिक भरोसेमंद बनाया और large-scale training को सुचारु रूप से चलाने में मदद की
  • Multi-token prediction के तहत Qwen3-Next ने native multi-token prediction (MTP) mechanism पेश किया, जो speculative decoding के लिए उच्च acceptance rate वाले MTP modules बनाने के साथ-साथ overall performance भी बेहतर करता है
    • Qwen3-Next विशेष रूप से MTP की multi-step inference performance को optimize करता है, और training तथा inference के बीच consistency बनाए रखने वाली multi-step training के जरिए वास्तविक scenarios में speculative decoding की acceptance rate को और बेहतर बनाता है

Pre-training

  • Pre-training efficiency और inference speed: Qwen3-Next को Qwen3 के 36T token pre-training corpus में से uniformly sampled subset (15T tokens) पर train किया गया
    • इसने Qwen3-30A-3B के लिए आवश्यक GPU time का 80% से कम इस्तेमाल किया, और Qwen3-32B की compute cost का केवल 9.3% खर्च करके बेहतर performance हासिल की, जिससे उत्कृष्ट training efficiency और value साबित हुई
    • Hybrid architecture की वजह से inference में भी यह उत्कृष्ट है, और prefill चरण में 4K context length पर Qwen3-32B की तुलना में लगभग 7x अधिक throughput देता है
    • 32K से अधिक पर 10x से भी अधिक तेज
    • Decode चरण में 4K context पर लगभग 4x अधिक throughput दिखाता है, और 32K से अधिक पर भी 10x से अधिक speed advantage बनाए रखता है
  • Base model performance: Qwen3-Next-80B-A3B-Base, Qwen3-32B-Base के non-embedding parameters के केवल 1/10 को सक्रिय करते हुए अधिकांश benchmarks में उसे पीछे छोड़ता है, और Qwen3-30B-A3B को काफ़ी अंतर से पार करके असाधारण efficiency और मजबूत performance साबित करता है

Post-training

  • Instruct model performance: Qwen3-Next-80B-A3B-Instruct, Qwen3-30B-A3B-Instruct-2507 और Qwen3-32B-Non-thinking को काफ़ी पीछे छोड़ता है, और flagship Qwen3-235B-A22B-Instruct-2507 के लगभग बराबर नतीजे देता है
    • RULER में Qwen3-Next-80B-A3B-Instruct, अधिक attention layers वाले Qwen3-30B-A3B-Instruct-2507 को सभी lengths पर पीछे छोड़ता है, और 256K context के भीतर कुल मिलाकर अधिक layers वाले Qwen3-235B-A22B-Instruct-2507 को भी पार करता है, जिससे long-context tasks के लिए Gated DeltaNet + Gated Attention hybrid design की ताकत साबित होती है
  • Thinking model performance: Qwen3-Next-80B-A3B-Thinking, अधिक महंगे मॉडलों Qwen3-30B-A3B-Thinking-2507 और Qwen3-32B-Thinking से बेहतर प्रदर्शन करता है
    • कई benchmarks में closed-source Gemini-2.5-Flash-Thinking को पार करता है, और प्रमुख metrics पर नवीनतम flagship मॉडल Qwen3-235B-A22B-Thinking-2507 के क़रीब पहुँचता है

Develop with Qwen3

  • Hugging Face Transformers के साथ Qwen3-Next का code, Hugging Face transformers की main branch में merge कर दिया गया है
    • पुराने versions में errors आ सकते हैं
    • दिए गए input के आधार पर model generation content को दिखाने वाला code snippet शामिल है
    • Multi-token prediction (MTP) अभी Hugging Face Transformers में सामान्य रूप से उपलब्ध नहीं है
    • Efficiency या throughput improvements implementation पर बहुत निर्भर करते हैं
    • Inference workloads के लिए SGLang और vLLM जैसे dedicated inference frameworks अपनाने की सिफारिश की जाती है
    • flash-linear-attention और causal-conv1d का उपयोग करने पर inference setup के अनुसार बेहतर efficiency देखी जा सकती है
    • विस्तृत निर्देश और requirements के लिए संबंधित links देखें
    • Deployment के लिए नवीनतम sglang या vllm का उपयोग करके OpenAI-compatible API endpoint बनाया जा सकता है
  • SGLang बड़े language models और vision-language models के लिए एक तेज serving framework है, जो OpenAI-compatible API service वाले server को शुरू कर सकता है
    • SGLang main branch पर Qwen3-Next को सपोर्ट करता है, और source से install किया जा सकता है
    • 4 GPU पर tensor parallelism का उपयोग करते हुए अधिकतम context length 256K tokens के साथ http://localhost:30000/v1 पर API endpoint बनाने का command दिया गया है
    • MTP के लिए अनुशंसित command भी बाकी समान settings के साथ दिया गया है
    • वर्तमान में SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 environment variable की आवश्यकता है
    • Default context length 256K है; यदि server start न हो, तो 32768 जैसे छोटे मान पर घटाने पर विचार करें
  • vLLM LLMs के लिए एक high-throughput और memory-efficient inference व serving engine है, जो OpenAI-compatible API service वाले server को शुरू कर सकता है
    • vLLM main branch पर Qwen3-Next को सपोर्ट करता है, और source से install किया जा सकता है
    • 4 GPU पर tensor parallelism का उपयोग करते हुए अधिकतम context length 256K tokens के साथ http://localhost:8000/v1 पर API endpoint बनाने का command दिया गया है
    • MTP के लिए अनुशंसित command भी बाकी समान settings के साथ दिया गया है
    • वर्तमान में VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 environment variable की आवश्यकता है
    • Default context length 256K है; यदि server start न हो, तो 32768 जैसे छोटे मान पर घटाने पर विचार करें
  • Agentic उपयोग: Qwen3 tool calling क्षमता में उत्कृष्ट है, और Qwen-Agent का उपयोग करके Qwen3 की agent क्षमताओं का अधिकतम लाभ लेने की सिफारिश की जाती है
    • Qwen-Agent internally tool calling templates और tool calling parser को encapsulate करता है, जिससे coding complexity काफ़ी कम हो जाती है
    • उपलब्ध tools को परिभाषित करने के लिए MCP config file, Qwen-Agent के integrated tools, या अपने custom integrated tools का उपयोग किया जा सकता है
  • Ultra-long text processing: Qwen3-Next native रूप से अधिकतम 262,144 tokens की context length को सपोर्ट करता है
    • जिन conversations में input और output सहित कुल लंबाई इस सीमा से काफ़ी अधिक हो, उनके लिए YaRN जैसी RoPE scaling तकनीक का उपयोग करके long text को प्रभावी ढंग से संभालने की सिफारिश की जाती है
    • YaRN के साथ 10 लाख tokens तक context length पर model performance सत्यापित की गई है
    • YaRN को transformers, vllm, sglang जैसे कई inference frameworks में वर्तमान में सपोर्ट किया जाता है
    • समर्थित frameworks में YaRN को सक्षम करने के दो तरीके हैं: model file में बदलाव या command-line arguments पास करना
    • config.json file में rope_scaling field जोड़ी जाती है
    • vllm के लिए command-line arguments का उपयोग किया जाता है
    • sglang के लिए command-line arguments का उपयोग किया जाता है
    • सभी प्रमुख open source frameworks static YaRN लागू करते हैं, जिसमें input length से परे scaling factor स्थिर रहता है, जिससे short text performance पर संभावित असर पड़ सकता है
    • rope_scaling setting केवल तभी जोड़ने की सिफारिश की जाती है जब long-context processing की वास्तव में आवश्यकता हो
    • factor को ज़रूरत के अनुसार बदलने की सिफारिश की जाती है; उदाहरण के लिए यदि application की सामान्य context length 524,288 tokens है, तो factor को 2.0 पर सेट करें

सारांश

  • Qwen3-Next, attention mechanism में innovation लाने वाले linear attention और attention gating को शामिल करते हुए model architecture में एक बड़ा कदम दर्शाता है, साथ ही MoE डिज़ाइन में sparsity को और बढ़ाता है
  • Qwen3-Next-80B-A3B, thinking और non-thinking दोनों मोड में बड़े Qwen3-235B-A22B-2507 के बराबर प्रदर्शन देता है, जबकि long-context scenarios में काफ़ी तेज inference प्रदान करता है
  • इस रिलीज़ के साथ open source community को अत्याधुनिक architecture advances और मज़बूत किए गए हैं, ताकि यह state-of-the-art architectural progress के साथ आगे बढ़ सके

1 टिप्पणियां

 
GN⁺ 2025-09-13
Hacker News टिप्पणियाँ
  • Qwen3-Next का सबसे शानदार हिस्सा यह है कि यह linear attention के बाद MTP(Multi-Token Prediction) जोड़ता है, लेकिन कोई अतिरिक्त un-embedding matrix नहीं जोड़ता। Deepseek R1 में भी 61वीं layer पर MTP लागू है, लेकिन उसमें embed_tokens और shared_head.head जैसे बड़े tensor (लगभग 2GB FP8 आकार) जुड़ जाते हैं, इसलिए Qwen3-Next बहुत कम active parameters के साथ MTP संभालकर GB स्तर की memory बचाता है। इसी वजह से inference speed काफ़ी बढ़ जाती है
    • जानना चाहता हूँ कि inference चरण में MTP वास्तव में क्या फ़ायदा देता है, या क्या यह सिर्फ pretraining efficiency से ही जुड़ा है
    • जानना चाहता हूँ कि MTP और Medusa heads में क्या अंतर है, और क्या यह मॉडल speculative decoding को “native” तरीके से support करता है। अगर vllm में यह मॉडल चलाएँ तो क्या MTP पहले से लागू होने के कारण speculative decoding का फ़ायदा सीधे मिल जाता है
    • अच्छा होगा अगर कोई ऐसा resource मिले जो इन सभी terms को एक साथ आसान तरीके से समझा दे
  • Alibaba सच में लगातार हैरान करने वाले model ला रहा है। मैंने Qwen chat में Qwen3-Next-80B-A3B इस्तेमाल किया, इसकी speed बहुत तेज़ है, और quality भी Qwen3-235B-A22B जैसी लगती है। उन्होंने यह स्तर कैसे हासिल किया, यह काफ़ी प्रभावशाली है। यह भी देखने का इंतज़ार है कि benchmark Artificial analysis पर कब आता है। Qwen Chat के अनुसार Qwen3-Next की limits हैं: अधिकतम context length 262,144 token, और summary generation अधिकतम 32,768 token। Qwen3-235B-A22B की तुलना में context 2 गुना और summary 4 गुना है। लंबे context की समझ और complex tasks संभालना इसकी ताकत है। फिर भी मैं Qwen2.5-Turbo ही इस्तेमाल करता रहूँगा। यह उन कम मॉडलों में है जो 1M token context support करते हैं, इसलिए बड़े PDF अपलोड करके chapters के बीच सवाल पूछने वाले मेरे workflow के लिए यह ज़्यादा उपयुक्त है
    • ऐसा लगता है कि frontier models लंबे context का support देने का दावा तो करते हैं, लेकिन context length बढ़ने पर accuracy अक्सर बहुत गिर जाती है। 10M context support होने पर भी अगर context पूरा भर दिया जाए तो व्यवहार में ठीक से काम नहीं करता। दूसरों की राय भी जानना चाहूँगा
    • model card थोड़ा देखें तो Qwen3-Next भी YaRN का इस्तेमाल करके अधिकतम 1M context length तक बढ़ाया जा सकता है। आधिकारिक भाषा के अनुसार, Qwen3-Next डिफ़ॉल्ट रूप से 262,144 token तक context support करता है, और जब input+output token का कुल योग इससे काफ़ी ऊपर चला जाए तो RoPE scaling या YaRN methods के ज़रिए 1M token तक processing validate की गई है स्रोत
    • Alibaba के proprietary models भी सच में बहुत अच्छे हैं और आश्चर्यजनक रूप से कम जाने जाते हैं। वे benchmarks में भी लगभग दिखते नहीं। Qwen3-coder-plus open source qwen3 से काफ़ी बेहतर है, और Qwen3 max भी SOTA models से टक्कर लेने लायक है
    • जानना चाहता हूँ कि PDF data को Qwen में डालने से पहले आप उसे कैसे तैयार करते हैं
  • llm command से Qwen3-Next-80B-A3B-Thinking को “SpongeBob का ASCII” माँगा तो बहुत ही basic आकार मिला। Qwen3-Coder-480B-A35B-Instruct से कहीं ज़्यादा पूरा SpongeBob ASCII बना। रात में कई बार प्रयोग करने पर Qwen3-coder में कई ASCII में पैरों वाला हिस्सा गायब था या finishing ठीक नहीं थी, लेकिन सुबह उसी prompt पर एक ही बार में perfect output मिला। यह सोच रहा था कि क्या resource usage (server, API) या system state response quality को प्रभावित करते हैं, या यह पूरी तरह luck की बात है। कुछ मिनट बाद फिर कोशिश की तो fail हुआ, तो शायद यह 10 में 1 बार वाला मौका है, और Qwen3-next में तो लगभग कभी नहीं निकलता
    • लगता है कि SpongeBob ASCII मॉडल में पूरा का पूरा याद है
    • मुझे लगता है Kimi K2 और Qwen Coder (या किसी जुड़े हुए model) के बीच distillation या training data sharing हुई है। मैंने ज़्यादातर LLMs आज़माए हैं, लेकिन वही SpongeBob ASCII मुझे सिर्फ Kimi K2 में Qwen3-coder जैसा मिला kimi K2 इस्तेमाल करने पर भी SpongeBob ASCII बिल्कुल वैसा ही बनता है
    • SpongeBob ASCII test, Qwen के आधिकारिक SNS से लिया गया था, और यह मूल रूप से injected memorization (rote-memorization) मापने वाला probe है। बड़े dense models parameter capacity के बल पर इसे पूरा याद रख सकते हैं, लेकिन Qwen3 की sparse-MoE संरचना में expert selection, token sampling जैसी कई noises जुड़ जाती हैं, इसलिए बारीक चित्र alignment ज़्यादा आसानी से बिगड़ सकता है। ऊपर से gated-attention और multi-token head जैसी नई संरचनाएँ भी हैं, इसलिए सिर्फ एक दुर्भाग्यपूर्ण expert routing से भी चित्र का layout बिगड़ सकता है। और Qwen3-coder को इसके लिए ख़ास तौर पर train किया गया है, इसलिए तुलना निष्पक्ष नहीं रहती। Qwen3 family के दूसरे models के ASCII outputs की भी तुलना की गई, और वे काफ़ी अलग-अलग निकले
  • Qwen की वजह से यह देखकर हैरानी होती है कि MoE कितना आगे आ चुका है। Qwen3-Next स्पष्ट रूप से पुराने 72B dense model से बेहतर है, और अगर VRAM और CPU को ठीक से offload किया जाए तो यह 14B model से भी तेज़ चल सकता है। इस स्तर की efficiency सच में शानदार है
    • LLM की प्रगति Qwen की वजह से नहीं हो रही; SOTA LLMs तो GPT-4 से ही MoE रहे हैं। यह अफ़सोस की बात है कि HN trends से इतना पीछे है कि AI विषयों पर बेकार की टिप्पणियाँ भर जाती हैं
    • पीछे मुड़कर देखें तो पिछले साल Meta का dense 405B model train करने में भारी resources झोंकना अब कुछ हास्यास्पद लगता है। model बहुत बड़ा है, लेकिन वास्तविक performance 1/10 आकार वाले model से भी कम है, और व्यवहार में किसी भी hardware पर इसे उपयोगी speed पर चलाना लगभग असंभव है
  • Qwen3 Next को Brokk Power Ranking open round (coding benchmark) में जोड़ दिया गया है। performance के लिहाज़ से यह GPT-OSS-20b जैसा है। सभी open source models के परिणाम यहाँ देखे जा सकते हैं
    • अगर इसमें कई भाषाएँ जोड़ी जाएँ तो यह benchmark और उपयोगी हो जाएगा। अभी यह सिर्फ Java evaluate करता है, जबकि मैं रोज़मर्रा के काम में Java नहीं बल्कि दूसरी भाषाएँ ज़्यादा इस्तेमाल करता हूँ, इसलिए benchmark और वास्तविक अनुभव मेल नहीं खाते
    • जानना चाहता हूँ कि सूचीबद्ध Kimi K2 उसका latest version है या पुराना Kimi k2
  • Oracle ने इस हफ़्ते data center demand में तेज़ उछाल का अनुमान जताया है और stock ऊपर जा रहा है। अगर LLM efficiency में 10 गुना सुधार सच है, तो Nvidia, Oracle, Coreweave जैसी कंपनियों की demand कम हो सकती है
    • शायद Jevons paradox जैसे आर्थिक प्रभाव के बारे में सोचना चाहिए
    • Oracle के outlook से अलग, मुझे नहीं लगता कि efficiency gains सीधे demand कम कर देंगे। Jevons paradox की तरह, efficiency बढ़ने पर इस्तेमाल उल्टा और भी बढ़ सकता है
    • deepseek-r1 के समय भी यही बात कही गई थी, लेकिन वास्तविकता नहीं बदली। अगर models 10 गुना efficient हो जाएँ, तो सब लोग बस 10 गुना बड़े model train करने लगेंगे। जब तक scaling performance पर असर डालती रहेगी, कोई भी किसी बिंदु पर यह नहीं कहेगा कि “अब इतना काफ़ी है”
    • बिल्कुल नहीं। market behavior देखें तो लोग हमेशा सबसे अच्छी quality के लिए भुगतान करने को तैयार रहते हैं, और कीमतें आमतौर पर वही रहती हैं। नया model आते ही कम quality वाले (सस्ते) पुराने models तुरंत नज़रअंदाज़ कर दिए जाते हैं, और लोग उसी कीमत पर बेहतर model चाहते हैं। इस बार भी शायद यही होगा
    • अगर AI bubble फूट जाए और data centers व GPUs ज़्यादा बच जाएँ, तो इस पर दाँव लगाकर investment gains लेने का तरीका क्या हो सकता है, यह जानना दिलचस्प होगा
  • अगर Gated Delta Network के बारे में जिज्ञासा हो तो यह paper देखें arxiv लिंक
    • Gated Attention पर paper यहाँ देखा जा सकता है
  • Qwen3-Next काफ़ी प्रभावशाली है, और मुझे लगता है कि बेहतर architecture ही आगे के innovation को आगे बढ़ाएगा। ऐसा नहीं लगता कि GPT OSS 120B जैसे 100B+ parameters हर बार ज़रूरी हैं
    • निश्चित रूप से ज़्यादा parameters बेहतर होते हैं। कम-parameter models में hallucination ज़्यादा होती है। हालाँकि अगर active parameters कम हों और routing अच्छा हो, तो शायद ठीक रह सकता है
    • नई architecture दिलचस्प है, और इसका तुरंत open में release होना भी उल्लेखनीय है। लेकिन Qwen family के models कुछ ज़्यादा overfit लगते हैं। कई बार वे सिर्फ कुछ खास tasks में ही अच्छे होते हैं, और generalization में closed models से पीछे रह जाते हैं। यह सिर्फ scale का मामला है या training recipe/method में भी फ़र्क है, यह स्पष्ट नहीं। OOD(out-of-distribution) पर test करें तो इनकी value तेज़ी से गिरती है, जबकि closed models अब भी मज़बूत दिखते हैं
  • भविष्यवाणी: अगले 4 साल में AI मौजूदा SOTA models से 15 IQ points अधिक स्तर पर पहुँच जाएगा, और context length भी कहीं लंबी होगी, साथ ही यह एक commodity की तरह सबके लिए सुलभ हो जाएगा। उस बिंदु पर जब synthetic data training में सुधार अपनी सीमा पर पहुँच जाएगा (क्योंकि “real” data लगभग समाप्त हो चुका होगा), तब बड़े-capital models के outputs का इस्तेमाल करके open source models सस्ते में train किए जाएँगे। उसके बाद competitive reinforcement learning के ज़रिए general intelligence(AI) train करने का तरीका आने तक AI प्रगति ठहर जाएगी, जैसा AlphaGo में हुआ था। जब वह तरीका आ जाएगा, तब विशाल training data की ज़रूरत नहीं रहेगी और असली AGI आ सकता है
    • मुझे “real data” खत्म हो जाने वाली बात समझ नहीं आती। इंटरनेट पर हर दिन नया ज्ञान, scientific papers और videos आ रहे हैं, तो data depletion कैसे संभव है
    • अगर मौजूदा cutting-edge models वास्तव में मानव IQ के पैमाने पर 120 के आसपास हैं (पक्का नहीं, लेकिन मान लें यहाँ के अनुसार ऐसा है), तो आगे 135 IQ स्तर के hyper-engaging bots बड़ी संख्या में होंगे। वह स्थिति वास्तव में क्या मतलब रखेगी, इसकी कल्पना करना भी कठिन है
  • यह 80B model है, लेकिन आजकल मैं उन 32B या छोटे models पर नज़र रखता हूँ जो MacBook Pro(M4, 64GB) पर आराम से चल सकें। मैं रोज़ ollama का इस्तेमाल spam filtering के लिए करता हूँ; gemma3:27b शानदार है और gpt-oss:20b speed की वजह से अक्सर इस्तेमाल करता हूँ
    • अच्छा होगा अगर आप विस्तार से बताएँ कि Ollama से spam filtering कैसे कर रहे हैं
    • model के कुल parameters 80B हैं, लेकिन inference के समय active लगभग 3B ही होते हैं। मैं 8GB Nvidia card पर पुराना 2507 Qwen3 30B भी ठीक से चला रहा हूँ
    • MoE architecture होने की वजह से यह बहुत अच्छी तरह चलना चाहिए