VibeThinker-3B: SFT+GRPO के साथ Opus 4.5 की reasoning performance को पार करने वाला 3B मॉडल
(arxiv.org)- VibeThinker-3B एक छोटा dense model है, जो सिर्फ 3B parameters के साथ यह परखता है कि verifiable reasoning को कितनी दूर तक compress किया जा सकता है
- training pipeline Spectrum-to-Signal post-training पर आधारित है और curriculum-guided supervised fine-tuning, multi-domain reinforcement learning, तथा offline self-distillation को जोड़ती है
- AIME26 में 94.3, CLR लागू करने पर 97.1, LiveCodeBench v6 Pass@1 80.2, और हाल की अप्रकाशित LeetCode contest acceptance rate 96.1% भी रिपोर्ट की गई है
- DeepSeek V3.2, GLM-5, Gemini 3 Pro जैसे कहीं बड़े flagship models के बराबर या उनसे ऊँचे performance band में पहुँचते हुए भी, यह IFEval 93.4 के साथ सख्त instruction controllability बनाए रखता है
- Parametric Compression-Coverage Hypothesis का कहना है कि verifiable reasoning को एक छोटे reasoning core में compress किया जा सकता है, लेकिन open-ended knowledge और general capabilities के लिए wider parameter coverage की ज़रूरत होती है
3B मॉडल के साथ verifiable reasoning को आगे बढ़ाने वाला प्रयोग
- VibeThinker-3B 3B parameters के पैमाने का एक छोटा dense model है
- इसका लक्ष्य यह देखना है कि सख्त small-model regime में भी verifiable reasoning performance को कितनी दूर तक बढ़ाया जा सकता है
- post-training को Spectrum-to-Signal paradigm के ऊपर बनाया गया है
- curriculum-based supervised fine-tuning
- multi-domain reinforcement learning
- offline self-distillation
- यह परिणाम पहले के 1.5B काम को आगे बढ़ाने वाली धारा का हिस्सा है
evaluation में दिखी performance range
- गणित, coding, और instruction-following evaluations में यह frontier-level performance दिखाता है
- AIME26: 94.3
- AIME26 + CLR: 97.1
- LiveCodeBench v6: Pass@1 80.2
- हाल की अप्रकाशित LeetCode contest: 96.1% acceptance rate
- IFEval: 93.4
- CLR का मतलब Claim-Level Reliability Assessment है, और यह claim-level test-time scaling strategy है
- Figure 1 में तुलना के लिए Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5, Claude Opus 4.5 शामिल हैं
- रिपोर्ट किए गए नतीजों के अनुसार VibeThinker-3B, DeepSeek V3.2, GLM-5, Gemini 3 Pro जैसे बहुत बड़े flagship models के बराबर या उनसे ऊँचे performance band में जा सकता है
- parameter scale की तुलना में VibeThinker-3B को 3B के रूप में दिखाया गया है
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
- Parametric Compression-Coverage Hypothesis compact models को सिर्फ deployment efficiency के विकल्प के रूप में नहीं, बल्कि parameter-dense capability zone में frontier-level performance तक पहुँचने के एक complementary path के रूप में देखता है
1 टिप्पणियां
Hacker News की टिप्पणियाँ
सोच रहा हूँ कि क्या यह बस एक छोटा मॉडल है जिसे reasoning अच्छी तरह करने के लिए train किया गया है, और बात यहीं तक सीमित है
यह किसी ऐसे समझदार इंसान जैसा लगता है जो किसी खास विषय को नहीं जानता, लेकिन अगर उसे tools दे दिए जाएँ तो लगन से research करता है
अगर मॉडल को सारा knowledge सिखाने के बजाय उसे सिर्फ सीखना सिखाया जाए, ताकि वह Pi Zero जैसे छोटे device और internet connection के सहारे खुद काम कर सके, तो यह सच में बहुत अच्छा लगेगा
parameters में सारा knowledge encode करने के बजाय, अगर उसी size का मॉडल बनाया जाए जो अपना ज़्यादातर हिस्सा reasoning पर लगाए, तो कैसा होगा
उसे बस internet browse करने की क्षमता दे दो, और language spec, documentation, best practices वगैरह खुद ढूँढने दो
मुझे समझ नहीं आता कि मेरे coding agent को New York की आबादी, cheesecake recipe, या ostrich की उम्र क्यों पता होनी चाहिए
सोचने और reasoning के लिए जितना न्यूनतम knowledge चाहिए उतना दो, बाकी वह खुद पता कर ले
बस अफ़सोस यह है कि आज के large language models आखिरकार token prediction ही हैं, इसलिए वे ऐसे काम नहीं करते
reasoning दरअसल सारे knowledge पर training का उभरता हुआ उप-परिणाम है, और इस रूप में भी मॉडल वास्तव में कुछ “जानता” नहीं, बस tokens generate करता है
अगर उसे बहुत सारे शब्दों और उनके बीच के संभावित संबंधों वाला बड़ा dataset देकर train न किया जाए, तो वह शब्दों और वाक्यों के बीच सही संबंध नहीं बना सकता, इसलिए reasoning भी नहीं कर सकता
अगर आप बहुत छोटे dataset पर छोटा मॉडल train करें, तो आपको बेसिर-पैर का output दिखेगा
कम-से-कम data से ज़्यादा-से-ज़्यादा generation निकालने के लिए dataset optimize करना दिलचस्प होगा, लेकिन किसी कंपनी के लिए state-of-the-art मॉडल बनाने में ऐसी मेहनत करने से कहीं ज़्यादा आर्थिक रूप से फायदेमंद है कि कुछ और GPU जोड़ दिए जाएँ
उदाहरण के लिए, कप में गेंद डालना, कप को उलटकर मेज़ पर रखना, फिर कप उठाकर डिब्बे में रखना — इस तरह का बहुत बुनियादी सवाल भी ऐसी जानकारी माँगता है जो समस्या में साफ़-साफ़ नहीं दी गई होती, खासकर gravity के बारे में knowledge
अगर आप हर शब्द को सख्ती से define करने लगें, तो बहुत जल्दी complexity के दलदल में फँस जाते हैं
निर्देशों को समझने के लिए वस्तुओं के बारे में बुनियादी knowledge चाहिए, और अगर आपको सिर्फ reasoning करना आता हो, तो यह भी समझ नहीं आता कि हासिल क्या करना है
मॉडल जिस विशाल text corpus पर train होते हैं और किसी विषय पर मज़बूती से विचार करने की उनकी क्षमता के बीच काफ़ी साफ़ disconnect है
यह भी जिज्ञासा है कि क्या training order से किसी खास दिशा में रास्ता बनाया जा सकता है
मसलन, पहले TinyStories से basic literacy सिखाई जाए, फिर math और philosophy के text, फिर psychology और sociology के text, और आख़िर में conversation, angry posts, code, और fiction सहित बड़े पैमाने का data दिया जाए — तो क्या यह उस मॉडल से काफ़ी अलग होगा जिसे पहले acting, creative writing, और fantasy fiction पर train किया गया हो और बाद में वही final large-scale dataset दिया गया हो
यह भी जानना दिलचस्प है कि मौजूदा capabilities नए training data को contextualize करने पर कितना असर डालती हैं
इसे समस्याएँ हल करते समय लंबी chain of thought (CoT) generate करने के लिए train किया गया है, और इसमें यह अच्छा है, लेकिन tool calling की क्षमता लगभग नहीं है और 1–2 messages से ज़्यादा संभालने की क्षमता भी लगभग नहीं है
https://huggingface.co/WeiboAI/VibeThinker-3B के सबसे ऊपर दी गई warning देख लें
मुझे लगता है अगला मोर्चा यह होगा कि कम hardware पर ज़्यादा सक्षम बनाने के लिए मॉडल optimize किए जाएँ
खासकर अगर real-time learning भी संभव हो जाए, तो बात और दिलचस्प हो जाएगी
छोटे लेकिन ताकतवर मॉडल में हो रही प्रगति कुछ ऐसी लगती है मानो नवीनतम मॉडल providers की शुद्ध पूंजी शक्ति को पीछे छोड़ रही हो
मैं छोटे खिलाड़ियों का समर्थन करना चाहता हूँ, लेकिन अभी पक्का निष्कर्ष निकालना शायद जल्दबाज़ी होगी
दूसरी तरफ़ से देखें तो हो सकता है कि मौजूदा benchmarks वास्तविक developer workflow में सफलता को पकड़ने के लिए अभी पर्याप्त प्रभावी नहीं हैं
लेकिन अगर आप इस मॉडल से बातचीत करवाएँ, तो इसके fail होने और consistency टूटने की संभावना काफ़ी है
इसके बदले math problems पर reasoning करके उन्हें हल करने की इसकी क्षमता वाकई बहुत अच्छी है
यह अच्छी तरह चलता है, और मुझे उस पहले Claude मॉडल की याद दिलाता है जिसे मैंने इस्तेमाल किया था
जिन local models को मैंने coding agent के लिए आज़माया, उनमें यह पहला है जो वास्तव में उपयोगी ढंग से काम करता दिखा, इसलिए मैं बहुत उत्साहित हूँ
किसी भी मॉडल के उपयोगी होने के लिए, संकीर्ण कामों में भी बुनियादी बुद्धिमत्ता का स्तर चाहिए
क्या आप 5 साल के बच्चे को ड्राइविंग सिखा सकते हैं? 10 साल के बच्चे को? 12 साल के बच्चे को?
ड्राइव करने के लिए पढ़ना आना चाहिए, बर्फीली सड़क या बारिश की स्थिति का आकलन करना आना चाहिए, और गेंद के पीछे भागते हुए सड़क पर निकल आने वाले बच्चे की आशंका कर पाना चाहिए
इंसान आम तौर पर किशोरावस्था के मध्य तक ऐसा बुनियादी ज्ञान हासिल कर लेते हैं
छोटे मॉडलों को भी, भले काम ऊपर से संकीर्ण दिखे, पर्याप्त रूप से अच्छा करने के लिए कुछ हद तक बुनियादी ज्ञान चाहिए
frontier models में मौजूद हर तरह के दुर्लभ ज्ञान की ज़रूरत नहीं होगी, लेकिन संभव है कि शुरुआती अनुमान से कहीं ऊँचा baseline चाहिए हो
ड्राइविंग लाइसेंस टेस्ट पास करने के लिए पढ़ना आना ज़रूरी हो सकता है, लेकिन दुनिया भर में बहुत से लोग निरक्षर होने पर भी अच्छी तरह गाड़ी चलाते हैं
आम सड़क संकेतों को केवल आकार और रंग से पहचानने लायक बनाया गया है, इसके पीछे कारण है
ड्राइविंग खुद मुख्यतः गाड़ी को नियंत्रित करने वाली muscle memory पर निर्भर करती है, और इसलिए बहुत ड्राइव करने वाले लोग लंबी दूरी पर लगभग autopilot की तरह चलते हुए बिल्कुल दूसरी बातें सोचते रहते हैं
यह भी ज्ञान का एक रूप है, लेकिन यह केवल दोहराव से हासिल होता है
बेशक ट्रैफ़िक में गाड़ी चलाने के लिए ट्रैफ़िक नियमों की बुनियादी समझ जैसी बहुत सी और चीज़ें चाहिए, लेकिन ड्राइविंग का बड़ा हिस्सा muscle memory, वाहन की समझ, और आगे क्या होने वाला है इसका अनुमान है
प्राइमेट्स इसमें अच्छे इसलिए हैं क्योंकि वे लाखों वर्षों से शरीर का इस्तेमाल करके और उसके परिणाम देखकर विकसित हुए हैं
एक GIF भी था जिसमें orangutan golf cart चलाता दिख रहा था, हालांकि वह कितना असली था यह पक्का नहीं
मॉडल्स को भविष्य के cloned humans की तरह देखने के बजाय, उन्हें किसी खास क्षेत्र में खास क्षमताओं वाले tools की तरह देखना ज़्यादा मददगार हो सकता है
जैसे Opus 4.8 से कार चलाने को कहना बेमानी है, वैसे ही edge devices के लिए बने छोटे image model से उपन्यास लिखने की उम्मीद करना भी बेमानी है
उन्हें किसी खास उपयोग के लिए बने tools की तरह देखना चाहिए
मुझे लगता है कि असली बाधाएँ हैं a) निर्णय क्षमता, b) शारीरिक reflexes और ताकत
बचपन में भी मुझे बर्फ, हिम और बारिश की समझ थी
मैं साल भर साइकिल चलाता था, और बर्फ या गीली ज़मीन पर, खासकर मौसम बदलने के समय, साइकिल नियंत्रित करने को लेकर मेरा आत्मविश्वास कम रहता था
वही अनुभव बाद में उत्तरी कनाडा में सर्दियों की ड्राइविंग सीखने में काम आया, और मैंने वही सबक ड्राइविंग पर लागू किया
बिना परिणाम वाले माहौल में मैंने बच्चों को असली simulator या video game driving simulation को हैरान कर देने वाली सटीकता से चलाते देखा है
कई बार 9 से 11 साल के बच्चे simulation और games को वयस्क ड्राइवरों से कहीं ज़्यादा आत्मविश्वास से चलाते थे
बच्चों को पता होता है कि simulation में कोई वास्तविक परिणाम नहीं है, और अगर अलग से कोई प्रेरणा न दी जाए तो वे उसी हिसाब से व्यवहार करते हैं
दूसरी ओर, नियमित रूप से गाड़ी चलाने वाले वयस्कों में games खेलते समय भी muscle memory और preconceived notions निर्णयों पर हावी रहते हैं
मैं जानना चाहूँगा कि बच्चों को ड्राइविंग और ड्राइविंग की गलतियों की वास्तविक सीमाएँ और परिणाम समझने की स्थिति तक पहुँचाने के लिए कितना प्रशिक्षण और exposure चाहिए, और उल्टा, किसी अनुभवी ड्राइवर लेकिन game में नए व्यक्ति को बिना-परिणाम वाले simulation में अपने वास्तविक अनुभव को लागू न करने तक पहुँचने के लिए कितना चाहिए
कार चलाने के लिए पढ़ना आना आवश्यक नहीं है
लेकिन दूसरे लोगों के साथ सड़क पर गाड़ी चलाना पूरी तरह अलग बात है
तीन साल का बच्चा ऐसे हालात में, जहाँ गलती खतरनाक हो सकती है, बहुत ज़्यादा exploration करने की कोशिश करेगा
इसके लिए केवल ज्ञान ही नहीं, बल्कि prefrontal cortex के साथ विकसित होने वाला control system भी चाहिए
large language models अभी इस तरह का control बहुत अच्छी तरह नहीं कर पाते
ध्यान देना चाहिए कि यह परिणाम केवल Python के लिए है
दूसरी भाषाओं में यह शायद इतना अच्छा नहीं करेगा
domain-specialized छोटे language models का और आना अच्छा लगेगा
programming-specialized mixture of experts (MoE) model कई भाषाओं में अच्छा काम कर सकता है
यह मॉडल गणित, self-contained coding problems जैसी closed-world, verifiable reasoning tasks के लिए एक सस्ता विशेषज्ञ है
“closed-world” का मतलब है कि ज़रूरी जानकारी पहले से ही context में मौजूद है
यह ऐसा tool-using agent नहीं है जो गुम context को खोज निकाल सके
“verifiable” का मतलब है कि उत्तर बनाना कठिन है, लेकिन उसे जाँचना आसान
इसलिए यह open-ended research, पूरे repository पर काम करने वाले agent tasks, factual Q&A, या SVG generation के लिए उपयुक्त नहीं है
यह स्पष्ट सीमाओं वाली समस्याओं के लिए एक छोटे reasoning module के ज़्यादा क़रीब है
इतने छोटे मॉडल की दिलचस्प बात यह है कि लगता है इसे एक ही Taalas chip पर चलाया जा सकता है
HC1 पहले से ही Llama 3.1 8B model चला रहा है
हम पहले ही उस बिंदु पर पहुँच चुके हैं जहाँ काफ़ी ठीक-ठाक reasoning को ASIC पर, वह भी बेहद तेज़ी से, चलाया जा सकता है
source code security review में GPT-5 nano के विकल्प के रूप में मैं इस मॉडल को आज़मा रहा हूँ, और कुछ हद तक सफलता मिल रही है
इसे RTX 3090 24GB VRAM पर vLLM के साथ चला रहा हूँ
model card में लिखा है कि structured output अच्छा नहीं है, लेकिन मैं अपने test harness में इसे bypass कर रहा हूँ
क्लासिक pelican SVG बनाने की कोशिश की, लेकिन सिर्फ़ rectangles और काले circles दिखे और यह बुरी तरह फेल हो गया
अहम बात यह दिखती है कि “pelican के पंख होते हैं” जैसी जानकारी को कम करते हुए भी मुख्य reasoning क्षमता को सुरक्षित रखा गया है
“यह खोज parameter compression-coverage hypothesis का समर्थन करती है। इस hypothesis के अनुसार, सत्यापन योग्य reasoning को एक छोटे reasoning core में compress किया जा सकता है, लेकिन open-domain knowledge और general-purpose क्षमताओं के लिए facts, concepts, और long-tail scenarios के व्यापक parameter coverage की ज़रूरत होती है।”
फिर आप वे SVG tags और document references दे सकते हैं जिन्हें आप इस्तेमाल करवाना चाहते हैं
मुझे जो परिणाम मिला, वह यहाँ है: https://9ol.es/tmp/pelican.png
prompt यहाँ है: https://9ol.es/tmp/prompt_pelican.txt
इस्तेमाल किया गया मॉडल prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M है
अभी भी evaluations और benchmarks पर भरोसा नहीं किया जा सकता
यह कैसे साबित किया जा सकता है कि test dataset सचमुच unreleased examples थे?
मुझे लगता है कि यह साबित करने का एकमात्र तरीका कि ये मॉडल दावों जितने अच्छे हैं, यह देखना है कि क्या इन्हें वास्तव में अपनाया जाता है
अगर reasoning engine जैसी कोई चीज़ implement करनी है, तो उसके लिए सबसे अच्छी architecture डिज़ाइन और implement करके फिर test करनी होगी
ऐसे सक्षम small language models को आते देखना सच में बहुत अच्छा लगता है
लेकिन Hugging Face पर यह लिखा है:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
इसलिए इसे pi.dev जैसे coding harness में सीधे जोड़कर इस्तेमाल नहीं किया जा सकता
Opus 4.5 से बेहतर reasoning करता है?
Prompt: “अगर A, B के पास जाता है, और B आगे C के पास जाता है, तो क्या A, C को कुछ भेज सकता है?”
response कुछ ऐसा था:
“इसे सबसे उपयुक्त तरीके से interpret करना चाहिए। यह वाक्य किसी चीज़ को भेजने की अवधारणा, जैसे गेंद पास करना, और संबंधों वाले किसी puzzle से जुड़ा हो सकता है।
Scenario: A, B को कुछ देता है, और B उसे C को दे देता है।
Question: क्या A वही चीज़ C को भी दे सकता है?
Answer: यह तभी संभव है जब A दूसरी copy हासिल कर सके। उदाहरण के लिए, अगर वह वस्तु duplicate की गई हो। नहीं तो B को देने के बाद A के पास वह चीज़ नहीं रहती, इसलिए copy के बिना वह उसे ‘भेज’ नहीं सकता।”
इसके अलावा भी बहुत-सी कम समझ आने वाली, अनावश्यक व्याख्या और “scenario” जुड़े हुए थे
फिर भी उसने सही जवाब दिया
और Opus की तुलना में जवाब तक पहुँचने में उसने जितनी floating-point computation इस्तेमाल की, उसे देखें तो मुझे यह अब भी net gain लगता है
मेरा अंदाज़ा है कि Opus-स्केल मॉडल्स में ऐसे ambiguous cases को संभालने के shortcuts मॉडल के अंदर encoded होते हैं, जबकि यह मॉडल शायद edge cases पर मौके पर reasoning करने वाला program सीख गया है
यह crystallized intelligence बनाम fluid intelligence के फ़र्क़ के क़रीब लगता है
frontier models probabilities को याद रखते हैं, और VibeThinker मौके पर calculate करता हुआ लगता है
“Multi-stage quality control.”
“Large language model-based query quality filtering. We use high-performing large language models to evaluate query quality and filter out samples with incomplete explanations, unreasonable conditions, flawed logic, or those that cannot effectively assess the target knowledge points.”