VibeThinker-3B: SFT+GRPO के साथ Opus 4.5 की reasoning performance को पार करने वाला 3B मॉडल

(arxiv.org)

2 पॉइंट द्वारा GN⁺ 5 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

VibeThinker-3B एक छोटा dense model है, जो सिर्फ 3B parameters के साथ यह परखता है कि verifiable reasoning को कितनी दूर तक compress किया जा सकता है
training pipeline Spectrum-to-Signal post-training पर आधारित है और curriculum-guided supervised fine-tuning, multi-domain reinforcement learning, तथा offline self-distillation को जोड़ती है
AIME26 में 94.3, CLR लागू करने पर 97.1, LiveCodeBench v6 Pass@1 80.2, और हाल की अप्रकाशित LeetCode contest acceptance rate 96.1% भी रिपोर्ट की गई है
DeepSeek V3.2, GLM-5, Gemini 3 Pro जैसे कहीं बड़े flagship models के बराबर या उनसे ऊँचे performance band में पहुँचते हुए भी, यह IFEval 93.4 के साथ सख्त instruction controllability बनाए रखता है
Parametric Compression-Coverage Hypothesis का कहना है कि verifiable reasoning को एक छोटे reasoning core में compress किया जा सकता है, लेकिन open-ended knowledge और general capabilities के लिए wider parameter coverage की ज़रूरत होती है

3B मॉडल के साथ verifiable reasoning को आगे बढ़ाने वाला प्रयोग

VibeThinker-3B 3B parameters के पैमाने का एक छोटा dense model है
इसका लक्ष्य यह देखना है कि सख्त small-model regime में भी verifiable reasoning performance को कितनी दूर तक बढ़ाया जा सकता है
post-training को Spectrum-to-Signal paradigm के ऊपर बनाया गया है
- curriculum-based supervised fine-tuning
- multi-domain reinforcement learning
- offline self-distillation
यह परिणाम पहले के 1.5B काम को आगे बढ़ाने वाली धारा का हिस्सा है

evaluation में दिखी performance range

गणित, coding, और instruction-following evaluations में यह frontier-level performance दिखाता है
- AIME26: 94.3
- AIME26 + CLR: 97.1
- LiveCodeBench v6: Pass@1 80.2
- हाल की अप्रकाशित LeetCode contest: 96.1% acceptance rate
- IFEval: 93.4
CLR का मतलब Claim-Level Reliability Assessment है, और यह claim-level test-time scaling strategy है
Figure 1 में तुलना के लिए Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5, Claude Opus 4.5 शामिल हैं
रिपोर्ट किए गए नतीजों के अनुसार VibeThinker-3B, DeepSeek V3.2, GLM-5, Gemini 3 Pro जैसे बहुत बड़े flagship models के बराबर या उनसे ऊँचे performance band में जा सकता है
parameter scale की तुलना में VibeThinker-3B को 3B के रूप में दिखाया गया है
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
Parametric Compression-Coverage Hypothesis compact models को सिर्फ deployment efficiency के विकल्प के रूप में नहीं, बल्कि parameter-dense capability zone में frontier-level performance तक पहुँचने के एक complementary path के रूप में देखता है

1 टिप्पणियां

GN⁺ 5 시간 전

Hacker News की टिप्पणियाँ

सोच रहा हूँ कि क्या यह बस एक छोटा मॉडल है जिसे reasoning अच्छी तरह करने के लिए train किया गया है, और बात यहीं तक सीमित है
यह किसी ऐसे समझदार इंसान जैसा लगता है जो किसी खास विषय को नहीं जानता, लेकिन अगर उसे tools दे दिए जाएँ तो लगन से research करता है
अगर मॉडल को सारा knowledge सिखाने के बजाय उसे सिर्फ सीखना सिखाया जाए, ताकि वह Pi Zero जैसे छोटे device और internet connection के सहारे खुद काम कर सके, तो यह सच में बहुत अच्छा लगेगा
- मैं लंबे समय से इसी तरह की चीज़ का सपना देखता आया हूँ
  parameters में सारा knowledge encode करने के बजाय, अगर उसी size का मॉडल बनाया जाए जो अपना ज़्यादातर हिस्सा reasoning पर लगाए, तो कैसा होगा
  उसे बस internet browse करने की क्षमता दे दो, और language spec, documentation, best practices वगैरह खुद ढूँढने दो
  मुझे समझ नहीं आता कि मेरे coding agent को New York की आबादी, cheesecake recipe, या ostrich की उम्र क्यों पता होनी चाहिए
  सोचने और reasoning के लिए जितना न्यूनतम knowledge चाहिए उतना दो, बाकी वह खुद पता कर ले
  बस अफ़सोस यह है कि आज के large language models आखिरकार token prediction ही हैं, इसलिए वे ऐसे काम नहीं करते
- मैं लगभग इसका उल्टा मानता हूँ
  reasoning दरअसल सारे knowledge पर training का उभरता हुआ उप-परिणाम है, और इस रूप में भी मॉडल वास्तव में कुछ “जानता” नहीं, बस tokens generate करता है
  अगर उसे बहुत सारे शब्दों और उनके बीच के संभावित संबंधों वाला बड़ा dataset देकर train न किया जाए, तो वह शब्दों और वाक्यों के बीच सही संबंध नहीं बना सकता, इसलिए reasoning भी नहीं कर सकता
  अगर आप बहुत छोटे dataset पर छोटा मॉडल train करें, तो आपको बेसिर-पैर का output दिखेगा
  कम-से-कम data से ज़्यादा-से-ज़्यादा generation निकालने के लिए dataset optimize करना दिलचस्प होगा, लेकिन किसी कंपनी के लिए state-of-the-art मॉडल बनाने में ऐसी मेहनत करने से कहीं ज़्यादा आर्थिक रूप से फायदेमंद है कि कुछ और GPU जोड़ दिए जाएँ
- मॉडल को Boolean logic, modal logic, और math काफ़ी अच्छी तरह संभालने के लिए train किया जा सकता है, लेकिन वहाँ से उसे “वस्तुओं के बारे में सोचना” कहने तक बहुत बड़ा फ़ासला है
  उदाहरण के लिए, कप में गेंद डालना, कप को उलटकर मेज़ पर रखना, फिर कप उठाकर डिब्बे में रखना — इस तरह का बहुत बुनियादी सवाल भी ऐसी जानकारी माँगता है जो समस्या में साफ़-साफ़ नहीं दी गई होती, खासकर gravity के बारे में knowledge
  अगर आप हर शब्द को सख्ती से define करने लगें, तो बहुत जल्दी complexity के दलदल में फँस जाते हैं
  निर्देशों को समझने के लिए वस्तुओं के बारे में बुनियादी knowledge चाहिए, और अगर आपको सिर्फ reasoning करना आता हो, तो यह भी समझ नहीं आता कि हासिल क्या करना है
  मॉडल जिस विशाल text corpus पर train होते हैं और किसी विषय पर मज़बूती से विचार करने की उनकी क्षमता के बीच काफ़ी साफ़ disconnect है
  यह भी जिज्ञासा है कि क्या training order से किसी खास दिशा में रास्ता बनाया जा सकता है
  मसलन, पहले TinyStories से basic literacy सिखाई जाए, फिर math और philosophy के text, फिर psychology और sociology के text, और आख़िर में conversation, angry posts, code, और fiction सहित बड़े पैमाने का data दिया जाए — तो क्या यह उस मॉडल से काफ़ी अलग होगा जिसे पहले acting, creative writing, और fantasy fiction पर train किया गया हो और बाद में वही final large-scale dataset दिया गया हो
  यह भी जानना दिलचस्प है कि मौजूदा capabilities नए training data को contextualize करने पर कितना असर डालती हैं
- असल में इसका उल्टा है
  इसे समस्याएँ हल करते समय लंबी chain of thought (CoT) generate करने के लिए train किया गया है, और इसमें यह अच्छा है, लेकिन tool calling की क्षमता लगभग नहीं है और 1–2 messages से ज़्यादा संभालने की क्षमता भी लगभग नहीं है
  https://huggingface.co/WeiboAI/VibeThinker-3B के सबसे ऊपर दी गई warning देख लें
- मैं कुछ समय से इस idea को लेकर काफ़ी उत्साहित हूँ, और Opus reasoning को distill किए हुए Qwen family के मॉडल भी काफ़ी अच्छा काम करते हैं
  मुझे लगता है अगला मोर्चा यह होगा कि कम hardware पर ज़्यादा सक्षम बनाने के लिए मॉडल optimize किए जाएँ
  खासकर अगर real-time learning भी संभव हो जाए, तो बात और दिलचस्प हो जाएगी
छोटे लेकिन ताकतवर मॉडल में हो रही प्रगति कुछ ऐसी लगती है मानो नवीनतम मॉडल providers की शुद्ध पूंजी शक्ति को पीछे छोड़ रही हो
मैं छोटे खिलाड़ियों का समर्थन करना चाहता हूँ, लेकिन अभी पक्का निष्कर्ष निकालना शायद जल्दबाज़ी होगी
दूसरी तरफ़ से देखें तो हो सकता है कि मौजूदा benchmarks वास्तविक developer workflow में सफलता को पकड़ने के लिए अभी पर्याप्त प्रभावी नहीं हैं
- लगता है लोग आगे भी छोटे मॉडलों की क्षमता देखकर चकित होते रहेंगे
  लेकिन अगर आप इस मॉडल से बातचीत करवाएँ, तो इसके fail होने और consistency टूटने की संभावना काफ़ी है
  इसके बदले math problems पर reasoning करके उन्हें हल करने की इसकी क्षमता वाकई बहुत अच्छी है
- कुछ दिन पहले से मैंने Framework desktop पर qwen3.6:35b चलाना शुरू किया है, और यह काफ़ी प्रभावशाली है
  यह अच्छी तरह चलता है, और मुझे उस पहले Claude मॉडल की याद दिलाता है जिसे मैंने इस्तेमाल किया था
  जिन local models को मैंने coding agent के लिए आज़माया, उनमें यह पहला है जो वास्तव में उपयोगी ढंग से काम करता दिखा, इसलिए मैं बहुत उत्साहित हूँ
- कभी-कभी लगता है कि optimization की शुरुआत अभी बस हुई है
किसी भी मॉडल के उपयोगी होने के लिए, संकीर्ण कामों में भी बुनियादी बुद्धिमत्ता का स्तर चाहिए
क्या आप 5 साल के बच्चे को ड्राइविंग सिखा सकते हैं? 10 साल के बच्चे को? 12 साल के बच्चे को?
ड्राइव करने के लिए पढ़ना आना चाहिए, बर्फीली सड़क या बारिश की स्थिति का आकलन करना आना चाहिए, और गेंद के पीछे भागते हुए सड़क पर निकल आने वाले बच्चे की आशंका कर पाना चाहिए
इंसान आम तौर पर किशोरावस्था के मध्य तक ऐसा बुनियादी ज्ञान हासिल कर लेते हैं
छोटे मॉडलों को भी, भले काम ऊपर से संकीर्ण दिखे, पर्याप्त रूप से अच्छा करने के लिए कुछ हद तक बुनियादी ज्ञान चाहिए
frontier models में मौजूद हर तरह के दुर्लभ ज्ञान की ज़रूरत नहीं होगी, लेकिन संभव है कि शुरुआती अनुमान से कहीं ऊँचा baseline चाहिए हो
- “ड्राइव करने के लिए पढ़ना आना चाहिए” यह बिल्कुल सही नहीं है
  ड्राइविंग लाइसेंस टेस्ट पास करने के लिए पढ़ना आना ज़रूरी हो सकता है, लेकिन दुनिया भर में बहुत से लोग निरक्षर होने पर भी अच्छी तरह गाड़ी चलाते हैं
  आम सड़क संकेतों को केवल आकार और रंग से पहचानने लायक बनाया गया है, इसके पीछे कारण है
- बुनियादी मानवीय व्यवहार को इस तरह text-only computer game की तरह घटाकर देखना काफ़ी अजीब लगता है
  ड्राइविंग खुद मुख्यतः गाड़ी को नियंत्रित करने वाली muscle memory पर निर्भर करती है, और इसलिए बहुत ड्राइव करने वाले लोग लंबी दूरी पर लगभग autopilot की तरह चलते हुए बिल्कुल दूसरी बातें सोचते रहते हैं
  यह भी ज्ञान का एक रूप है, लेकिन यह केवल दोहराव से हासिल होता है
  बेशक ट्रैफ़िक में गाड़ी चलाने के लिए ट्रैफ़िक नियमों की बुनियादी समझ जैसी बहुत सी और चीज़ें चाहिए, लेकिन ड्राइविंग का बड़ा हिस्सा muscle memory, वाहन की समझ, और आगे क्या होने वाला है इसका अनुमान है
  प्राइमेट्स इसमें अच्छे इसलिए हैं क्योंकि वे लाखों वर्षों से शरीर का इस्तेमाल करके और उसके परिणाम देखकर विकसित हुए हैं
  एक GIF भी था जिसमें orangutan golf cart चलाता दिख रहा था, हालांकि वह कितना असली था यह पक्का नहीं
  मॉडल्स को भविष्य के cloned humans की तरह देखने के बजाय, उन्हें किसी खास क्षेत्र में खास क्षमताओं वाले tools की तरह देखना ज़्यादा मददगार हो सकता है
  जैसे Opus 4.8 से कार चलाने को कहना बेमानी है, वैसे ही edge devices के लिए बने छोटे image model से उपन्यास लिखने की उम्मीद करना भी बेमानी है
  उन्हें किसी खास उपयोग के लिए बने tools की तरह देखना चाहिए
- यह विषय औपचारिक शोध के रूप में दिलचस्प लगेगा
  मुझे लगता है कि असली बाधाएँ हैं a) निर्णय क्षमता, b) शारीरिक reflexes और ताकत
  बचपन में भी मुझे बर्फ, हिम और बारिश की समझ थी
  मैं साल भर साइकिल चलाता था, और बर्फ या गीली ज़मीन पर, खासकर मौसम बदलने के समय, साइकिल नियंत्रित करने को लेकर मेरा आत्मविश्वास कम रहता था
  वही अनुभव बाद में उत्तरी कनाडा में सर्दियों की ड्राइविंग सीखने में काम आया, और मैंने वही सबक ड्राइविंग पर लागू किया
  बिना परिणाम वाले माहौल में मैंने बच्चों को असली simulator या video game driving simulation को हैरान कर देने वाली सटीकता से चलाते देखा है
  कई बार 9 से 11 साल के बच्चे simulation और games को वयस्क ड्राइवरों से कहीं ज़्यादा आत्मविश्वास से चलाते थे
  बच्चों को पता होता है कि simulation में कोई वास्तविक परिणाम नहीं है, और अगर अलग से कोई प्रेरणा न दी जाए तो वे उसी हिसाब से व्यवहार करते हैं
  दूसरी ओर, नियमित रूप से गाड़ी चलाने वाले वयस्कों में games खेलते समय भी muscle memory और preconceived notions निर्णयों पर हावी रहते हैं
  मैं जानना चाहूँगा कि बच्चों को ड्राइविंग और ड्राइविंग की गलतियों की वास्तविक सीमाएँ और परिणाम समझने की स्थिति तक पहुँचाने के लिए कितना प्रशिक्षण और exposure चाहिए, और उल्टा, किसी अनुभवी ड्राइवर लेकिन game में नए व्यक्ति को बिना-परिणाम वाले simulation में अपने वास्तविक अनुभव को लागू न करने तक पहुँचने के लिए कितना चाहिए
- 10 साल की उम्र में यह निश्चित रूप से संभव है, और 5 साल में भी मुश्किल ज़रूर है, पर अवास्तविक नहीं
  कार चलाने के लिए पढ़ना आना आवश्यक नहीं है
  लेकिन दूसरे लोगों के साथ सड़क पर गाड़ी चलाना पूरी तरह अलग बात है
- सही ढंग से ड्राइव करने के लिए exploration-exploitation balance भी चाहिए
  तीन साल का बच्चा ऐसे हालात में, जहाँ गलती खतरनाक हो सकती है, बहुत ज़्यादा exploration करने की कोशिश करेगा
  इसके लिए केवल ज्ञान ही नहीं, बल्कि prefrontal cortex के साथ विकसित होने वाला control system भी चाहिए
  large language models अभी इस तरह का control बहुत अच्छी तरह नहीं कर पाते
ध्यान देना चाहिए कि यह परिणाम केवल Python के लिए है
दूसरी भाषाओं में यह शायद इतना अच्छा नहीं करेगा
domain-specialized छोटे language models का और आना अच्छा लगेगा
programming-specialized mixture of experts (MoE) model कई भाषाओं में अच्छा काम कर सकता है
- अगर यह Java programmer की नकल करते हुए classes और accessors से कोड न भर दे, और काम करने वाला Python लिखे, तो यह पहले ही Opus से बेहतर है
- इस मॉडल का असली फोकस क्या है, इसे लेकर काफ़ी भ्रम है
  यह मॉडल गणित, self-contained coding problems जैसी closed-world, verifiable reasoning tasks के लिए एक सस्ता विशेषज्ञ है
  “closed-world” का मतलब है कि ज़रूरी जानकारी पहले से ही context में मौजूद है
  यह ऐसा tool-using agent नहीं है जो गुम context को खोज निकाल सके
  “verifiable” का मतलब है कि उत्तर बनाना कठिन है, लेकिन उसे जाँचना आसान
  इसलिए यह open-ended research, पूरे repository पर काम करने वाले agent tasks, factual Q&A, या SVG generation के लिए उपयुक्त नहीं है
  यह स्पष्ट सीमाओं वाली समस्याओं के लिए एक छोटे reasoning module के ज़्यादा क़रीब है
इतने छोटे मॉडल की दिलचस्प बात यह है कि लगता है इसे एक ही Taalas chip पर चलाया जा सकता है
HC1 पहले से ही Llama 3.1 8B model चला रहा है
हम पहले ही उस बिंदु पर पहुँच चुके हैं जहाँ काफ़ी ठीक-ठाक reasoning को ASIC पर, वह भी बेहद तेज़ी से, चलाया जा सकता है
- अगर Taalas पर output को सोच-विचार के ज़रिए सुधारने में सचमुच मज़बूत 8B model को 16K tokens प्रति सेकंड पर चलाया जा सके, तो वह बहुत बड़ी बात होगी
source code security review में GPT-5 nano के विकल्प के रूप में मैं इस मॉडल को आज़मा रहा हूँ, और कुछ हद तक सफलता मिल रही है
इसे RTX 3090 24GB VRAM पर vLLM के साथ चला रहा हूँ
model card में लिखा है कि structured output अच्छा नहीं है, लेकिन मैं अपने test harness में इसे bypass कर रहा हूँ
- क्या constrained generation से structured output को मजबूर नहीं किया जा सकता?
- आप bypass कैसे कर रहे हैं, यह जानने की जिज्ञासा है
क्लासिक pelican SVG बनाने की कोशिश की, लेकिन सिर्फ़ rectangles और काले circles दिखे और यह बुरी तरह फेल हो गया
- यह काफ़ी हद तक अनुमानित नतीजा लगता है
  अहम बात यह दिखती है कि “pelican के पंख होते हैं” जैसी जानकारी को कम करते हुए भी मुख्य reasoning क्षमता को सुरक्षित रखा गया है
  “यह खोज parameter compression-coverage hypothesis का समर्थन करती है। इस hypothesis के अनुसार, सत्यापन योग्य reasoning को एक छोटे reasoning core में compress किया जा सकता है, लेकिन open-domain knowledge और general-purpose क्षमताओं के लिए facts, concepts, और long-tail scenarios के व्यापक parameter coverage की ज़रूरत होती है।”
- दोबारा कोशिश करें, लेकिन यह सावधानी से समझाएँ कि bicycle और pelican क्या हैं, और pelican bicycle के ऊपर कैसे बैठता है
  फिर आप वे SVG tags और document references दे सकते हैं जिन्हें आप इस्तेमाल करवाना चाहते हैं
  मुझे जो परिणाम मिला, वह यहाँ है: https://9ol.es/tmp/pelican.png
  prompt यहाँ है: https://9ol.es/tmp/prompt_pelican.txt
  इस्तेमाल किया गया मॉडल prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M है
- क्या यह art generation के लिए नहीं, बल्कि reasoning के लिए बना मॉडल नहीं है?
अभी भी evaluations और benchmarks पर भरोसा नहीं किया जा सकता
यह कैसे साबित किया जा सकता है कि test dataset सचमुच unreleased examples थे?
मुझे लगता है कि यह साबित करने का एकमात्र तरीका कि ये मॉडल दावों जितने अच्छे हैं, यह देखना है कि क्या इन्हें वास्तव में अपनाया जाता है
- इसे साबित करने के लिए आखिरकार black box problem का समाधान चाहिए, यानी transparency के लक्ष्य के और क़रीब जाना होगा
  अगर reasoning engine जैसी कोई चीज़ implement करनी है, तो उसके लिए सबसे अच्छी architecture डिज़ाइन और implement करके फिर test करनी होगी
ऐसे सक्षम small language models को आते देखना सच में बहुत अच्छा लगता है
लेकिन Hugging Face पर यह लिखा है:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
इसलिए इसे pi.dev जैसे coding harness में सीधे जोड़कर इस्तेमाल नहीं किया जा सकता
Opus 4.5 से बेहतर reasoning करता है?
Prompt: “अगर A, B के पास जाता है, और B आगे C के पास जाता है, तो क्या A, C को कुछ भेज सकता है?”
response कुछ ऐसा था:
“इसे सबसे उपयुक्त तरीके से interpret करना चाहिए। यह वाक्य किसी चीज़ को भेजने की अवधारणा, जैसे गेंद पास करना, और संबंधों वाले किसी puzzle से जुड़ा हो सकता है।
Scenario: A, B को कुछ देता है, और B उसे C को दे देता है।
Question: क्या A वही चीज़ C को भी दे सकता है?
Answer: यह तभी संभव है जब A दूसरी copy हासिल कर सके। उदाहरण के लिए, अगर वह वस्तु duplicate की गई हो। नहीं तो B को देने के बाद A के पास वह चीज़ नहीं रहती, इसलिए copy के बिना वह उसे ‘भेज’ नहीं सकता।”
इसके अलावा भी बहुत-सी कम समझ आने वाली, अनावश्यक व्याख्या और “scenario” जुड़े हुए थे
- मैंने वही query चलाकर देखी; output बहुत ज़्यादा है, लेकिन ऐसा लगता है कि वह वाक्य की ambiguity को reason करके सुलझाने की कोशिश कर रहा है
  फिर भी उसने सही जवाब दिया
  और Opus की तुलना में जवाब तक पहुँचने में उसने जितनी floating-point computation इस्तेमाल की, उसे देखें तो मुझे यह अब भी net gain लगता है
  मेरा अंदाज़ा है कि Opus-स्केल मॉडल्स में ऐसे ambiguous cases को संभालने के shortcuts मॉडल के अंदर encoded होते हैं, जबकि यह मॉडल शायद edge cases पर मौके पर reasoning करने वाला program सीख गया है
  यह crystallized intelligence बनाम fluid intelligence के फ़र्क़ के क़रीब लगता है
  frontier models probabilities को याद रखते हैं, और VibeThinker मौके पर calculate करता हुआ लगता है
- quality control के विवरण में यह भी है:
  “Multi-stage quality control.”
  “Large language model-based query quality filtering. We use high-performing large language models to evaluate query quality and filter out samples with incomplete explanations, unreasonable conditions, flawed logic, or those that cannot effectively assess the target knowledge points.”
- मैं इंसान होकर भी नहीं समझ पा रहा कि इस prompt को कैसे interpret करूँ
- अगर A, B के पास जाता है और B फिर C के पास जाता है, तो क्या C, A को जानता होगा?

VibeThinker-3B: SFT+GRPO के साथ Opus 4.5 की reasoning performance को पार करने वाला 3B मॉडल

3B मॉडल के साथ verifiable reasoning को आगे बढ़ाने वाला प्रयोग

evaluation में दिखी performance range

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की टिप्पणियाँ