- बड़े भाषा मॉडल (LLM) की गणितीय तर्क क्षमता में वृद्धि को लक्ष्य बनाकर, केवल सरल सही उत्तर की सटीकता से आगे बढ़ते हुए तर्क प्रक्रिया की सत्यापन-योग्यता को मजबूत करने वाला मॉडल
- पहले की reinforcement learning आधारित approach में अंतिम उत्तर reward-केंद्रित सीमा को सुधारते हुए, self-verification मेकेनिज़्म जोड़ा गया
- theorem proving जैसी चरणबद्ध लॉजिक-डिरिवेशन वाली समस्याओं में, जेनरेटर मॉडल को खुद अपनी त्रुटियाँ खोजकर सुधारने के लिए डिज़ाइन किया गया
- verifier को reward model के रूप में इस्तेमाल करके और verification compute को स्केल करते हुए कठिन proof डेटा को स्वतः लेबल करने से लगातार बेहतर performance मिली
- IMO 2025, CMO 2024, Putnam 2024 आदि में शीर्ष स्तर के स्कोर रिकॉर्ड करके self-verifiable गणितीय AI की व्यवहार्यता को साबित किया
1. परिचय (Introduction)
- बड़े भाषा मॉडल (LLM) ने गणितीय तर्क में बड़ी प्रगति की है और यह AI शोध का एक महत्वपूर्ण benchmark बन गया है
- reinforcement learning के माध्यम से सही उत्तर आधारित reward learning करते हुए AIME, HMMT जैसी प्रतियोगिताओं में एक साल के अंदर शीर्ष स्तर का प्रदर्शन हासिल किया
- फिर भी केवल अंतिम उत्तर की सटीकता बढ़ाने वाला approach सीमाओं से मुक्त नहीं है
- यदि उत्तर सही भी हो, तो तर्क प्रक्रिया की वैधता सुनिश्चित नहीं होती, और theorem proving जैसी समस्याओं में जहाँ चरण-दर-चरण लॉजिक विस्तार जरूरी है, वहाँ इसे लागू नहीं किया जा सकता
- इसी कारण self-verification की अवधारणा लागू की गई, ताकि तर्क की व्यापकता और कठोरता को मापा जा सके
- खासकर unresolved-problem (open problems) में परीक्षण के दौरान compute scaling के लिए इसे आवश्यक घटक के रूप में रखा गया
- शोध दल ने एक सटीक और भरोसेमंद LLM-based verifier को train किया और इसे reward model की तरह उपयोग कर proof generator को train किया
- जेनरेटर को यह करने के लिए प्रेरित किया गया कि वह खुद proof में गलती खोजकर उसे सुधार ले
- जेनरेटर की performance बेहतर होने के साथ verifier की कठिनाई भी बढ़ती है, इसलिए verification compute को विस्तार देकर कठिन proofs का स्वचालित लेबलिंग किया जाता है
- इससे verifier की performance निरंतर बेहतर होती रही
- अंतिम मॉडल DeepSeekMath-V2 ने IMO 2025 और CMO 2024 में gold-medal स्तर, तथा Putnam 2024 में 118/120 स्कोर हासिल किए
- ये परिणाम दिखाते हैं कि self-verification आधारित गणितीय reasoning एक वास्तविक और संभव शोध दिशा है
2. मूल्यांकन परिणाम (Evaluation Results)
- मूल्यांकन में DeepMind के DeepThink IMO-Gold टीम द्वारा विकसित IMO-ProofBench और हाल की गणित प्रतियोगिताएं (IMO 2025, CMO 2024, Putnam 2024) का उपयोग किया गया
- किसी specific संख्या या विस्तृत परिणाम का उल्लेख मुख्य लेख में नहीं किया गया है
3. मॉडल संरचना (Model Architecture)
- DeepSeekMath-V2 को DeepSeek-V3.2-Exp-Base मॉडल के आधार पर बनाया गया
- inference support के लिए DeepSeek-V3.2-Exp GitHub repository देखें
4. लाइसेंस (License)
- मॉडल और weights को Apache License 2.0 के तहत उपलब्ध कराया गया है
5. संदर्भ (Citation)
- शोधकर्ता और पेपर विवरण उपलब्ध हैं, और शीर्षक है
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)
6. अतिरिक्त जानकारी
- पिछले एक महीने में डाउनलोड की संख्या 4,434 बार
- मॉडल ट्री बनाते समय base मॉडल ने एक self-referential loop बना दिया, इसलिए ट्री निर्माण के लिए इसे संभव नहीं दिखाया गया
1 टिप्पणियां
Hacker News टिप्पणियाँ
इस बार जारी किए गए मॉडल ने Apache 2.0 लाइसेंस के तहत अपने weights को open source किया है
जबकि OpenAI और DeepMind के IMO gold medal मॉडल अब भी private हैं
पिछली चर्चा इस लिंक में है
यह प्रभावशाली है कि open weight मॉडल गणित या reasoning जैसे विशेषीकृत क्षेत्रों में तेजी से बराबरी पर पहुँच रहे हैं
जानना चाहूँगा कि क्या किसी ने इसे जटिल logic या coding tests पर भी आज़माया है। जिन मॉडलों का math performance अच्छा होता है, वे अक्सर debugging या algorithm generation में भी मजबूत होते हैं
मुझे लगता है कि इस मॉडल की उपलब्धियों को लेकर संशयपूर्ण नज़र भी रखनी चाहिए
इसमें साफ़ लिखा है कि इसने इंटरनेट से जुटाए गए प्रश्नों पर training ली है, लेकिन benchmark contamination हटाने या 2024/2025 के प्रश्नों को बाहर रखने का कोई ज़िक्र नहीं है
OpenAI और Google ने 2025 के प्रश्नों तक पहले से पहुँच के बिना अपने experimental मॉडल test किए थे
यह जानने की उत्सुकता है कि OpenAI का gold medal मॉडल अभी तक public क्यों नहीं हुआ
यह महत्वपूर्ण है कि यह मॉडल general-purpose मॉडल नहीं है। Google और OpenAI के मॉडल general-purpose मॉडल नहीं थे
जिज्ञासा है कि ऐसे मॉडल को घर पर चलाने के लिए क्या करना होगा
सवाल यह है कि क्या CPU आधारित setup में लगभग 1TB RAM से काम चल जाएगा
शक है कि कहीं यह मॉडल OpenAI या Google के outputs को सीधे distill करके तो नहीं बनाया गया
उत्सुकता है कि क्या यह मॉडल OpenRouter पर आने वाला है
अगर OpenAI ChatGPT में ads जोड़ दे, तो क्या लोग तुरंत किसी दूसरे मॉडल पर नहीं चले जाएँगे