5 पॉइंट द्वारा GN⁺ 2025-12-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • बड़े भाषा मॉडल (LLM) की गणितीय तर्क क्षमता में वृद्धि को लक्ष्य बनाकर, केवल सरल सही उत्तर की सटीकता से आगे बढ़ते हुए तर्क प्रक्रिया की सत्यापन-योग्यता को मजबूत करने वाला मॉडल
  • पहले की reinforcement learning आधारित approach में अंतिम उत्तर reward-केंद्रित सीमा को सुधारते हुए, self-verification मेकेनिज़्म जोड़ा गया
  • theorem proving जैसी चरणबद्ध लॉजिक-डिरिवेशन वाली समस्याओं में, जेनरेटर मॉडल को खुद अपनी त्रुटियाँ खोजकर सुधारने के लिए डिज़ाइन किया गया
  • verifier को reward model के रूप में इस्तेमाल करके और verification compute को स्केल करते हुए कठिन proof डेटा को स्वतः लेबल करने से लगातार बेहतर performance मिली
  • IMO 2025, CMO 2024, Putnam 2024 आदि में शीर्ष स्तर के स्कोर रिकॉर्ड करके self-verifiable गणितीय AI की व्यवहार्यता को साबित किया

1. परिचय (Introduction)

  • बड़े भाषा मॉडल (LLM) ने गणितीय तर्क में बड़ी प्रगति की है और यह AI शोध का एक महत्वपूर्ण benchmark बन गया है
    • reinforcement learning के माध्यम से सही उत्तर आधारित reward learning करते हुए AIME, HMMT जैसी प्रतियोगिताओं में एक साल के अंदर शीर्ष स्तर का प्रदर्शन हासिल किया
  • फिर भी केवल अंतिम उत्तर की सटीकता बढ़ाने वाला approach सीमाओं से मुक्त नहीं है
    • यदि उत्तर सही भी हो, तो तर्क प्रक्रिया की वैधता सुनिश्चित नहीं होती, और theorem proving जैसी समस्याओं में जहाँ चरण-दर-चरण लॉजिक विस्तार जरूरी है, वहाँ इसे लागू नहीं किया जा सकता
  • इसी कारण self-verification की अवधारणा लागू की गई, ताकि तर्क की व्यापकता और कठोरता को मापा जा सके
    • खासकर unresolved-problem (open problems) में परीक्षण के दौरान compute scaling के लिए इसे आवश्यक घटक के रूप में रखा गया
  • शोध दल ने एक सटीक और भरोसेमंद LLM-based verifier को train किया और इसे reward model की तरह उपयोग कर proof generator को train किया
    • जेनरेटर को यह करने के लिए प्रेरित किया गया कि वह खुद proof में गलती खोजकर उसे सुधार ले
  • जेनरेटर की performance बेहतर होने के साथ verifier की कठिनाई भी बढ़ती है, इसलिए verification compute को विस्तार देकर कठिन proofs का स्वचालित लेबलिंग किया जाता है
    • इससे verifier की performance निरंतर बेहतर होती रही
  • अंतिम मॉडल DeepSeekMath-V2 ने IMO 2025 और CMO 2024 में gold-medal स्तर, तथा Putnam 2024 में 118/120 स्कोर हासिल किए
    • ये परिणाम दिखाते हैं कि self-verification आधारित गणितीय reasoning एक वास्तविक और संभव शोध दिशा है

2. मूल्यांकन परिणाम (Evaluation Results)

  • मूल्यांकन में DeepMind के DeepThink IMO-Gold टीम द्वारा विकसित IMO-ProofBench और हाल की गणित प्रतियोगिताएं (IMO 2025, CMO 2024, Putnam 2024) का उपयोग किया गया
    • किसी specific संख्या या विस्तृत परिणाम का उल्लेख मुख्य लेख में नहीं किया गया है

3. मॉडल संरचना (Model Architecture)

  • DeepSeekMath-V2 को DeepSeek-V3.2-Exp-Base मॉडल के आधार पर बनाया गया
    • inference support के लिए DeepSeek-V3.2-Exp GitHub repository देखें

4. लाइसेंस (License)

  • मॉडल और weights को Apache License 2.0 के तहत उपलब्ध कराया गया है

5. संदर्भ (Citation)

  • शोधकर्ता और पेपर विवरण उपलब्ध हैं, और शीर्षक है
    “DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)

6. अतिरिक्त जानकारी

  • पिछले एक महीने में डाउनलोड की संख्या 4,434 बार
  • मॉडल ट्री बनाते समय base मॉडल ने एक self-referential loop बना दिया, इसलिए ट्री निर्माण के लिए इसे संभव नहीं दिखाया गया

1 टिप्पणियां

 
GN⁺ 2025-12-02
Hacker News टिप्पणियाँ
  • इस बार जारी किए गए मॉडल ने Apache 2.0 लाइसेंस के तहत अपने weights को open source किया है
    जबकि OpenAI और DeepMind के IMO gold medal मॉडल अब भी private हैं

    • जैसे AI कंपनियाँ training data के copyright को संभालती हैं, वैसे ही हमें weights के copyright को भी उसी तरह देखना चाहिए
    • लेकिन अगर सिर्फ weights जारी किए जाएँ और training code या data जारी न किया जाए, तो मॉडल अब भी बंद ही माना जाएगा
  • पिछली चर्चा इस लिंक में है

    • वह लिंक मुझसे छूट गया था, साझा करने के लिए धन्यवाद
  • यह प्रभावशाली है कि open weight मॉडल गणित या reasoning जैसे विशेषीकृत क्षेत्रों में तेजी से बराबरी पर पहुँच रहे हैं
    जानना चाहूँगा कि क्या किसी ने इसे जटिल logic या coding tests पर भी आज़माया है। जिन मॉडलों का math performance अच्छा होता है, वे अक्सर debugging या algorithm generation में भी मजबूत होते हैं

    • किसी खास domain के लिए specialized मॉडल का commercial value कम होता है, और बड़े पैमाने के LLM training में generality को प्राथमिकता दी जाती है, इसलिए यह स्वाभाविक है
    • kimi-k2 coding में काफ़ी ठीक है, लेकिन Anthropic, OpenAI, या Google के SOTA मॉडल के स्तर तक नहीं पहुँचता
  • मुझे लगता है कि इस मॉडल की उपलब्धियों को लेकर संशयपूर्ण नज़र भी रखनी चाहिए
    इसमें साफ़ लिखा है कि इसने इंटरनेट से जुटाए गए प्रश्नों पर training ली है, लेकिन benchmark contamination हटाने या 2024/2025 के प्रश्नों को बाहर रखने का कोई ज़िक्र नहीं है
    OpenAI और Google ने 2025 के प्रश्नों तक पहले से पहुँच के बिना अपने experimental मॉडल test किए थे

  • यह जानने की उत्सुकता है कि OpenAI का gold medal मॉडल अभी तक public क्यों नहीं हुआ

    • वह बस प्रचार के लिए था। वहाँ से मिली सीख को अगले general-purpose मॉडल में शामिल किया जाएगा
  • यह महत्वपूर्ण है कि यह मॉडल general-purpose मॉडल नहीं है। Google और OpenAI के मॉडल general-purpose मॉडल नहीं थे

    • वास्तव में OpenAI और Google दोनों ने IMO के लिए विशेषीकृत research मॉडल इस्तेमाल किए थे
      • OpenAI ने इस ट्वीट में GPT-5 लॉन्च का संकेत देते हुए कहा कि IMO मॉडल experimental है और फिलहाल उसे जारी करने की कोई योजना नहीं है
      • DeepMind ने आधिकारिक ब्लॉग में बताया कि Gemini को reinforcement learning आधारित multi-step reasoning और theorem proving data पर train किया गया
    • DeepSeek की आधिकारिक पोस्ट भी साथ में साझा की गई
  • जिज्ञासा है कि ऐसे मॉडल को घर पर चलाने के लिए क्या करना होगा
    सवाल यह है कि क्या CPU आधारित setup में लगभग 1TB RAM से काम चल जाएगा

    • सिर्फ download data ही 690GB है, इसलिए शायद 1TB RAM चाहिए होगी। मेरी दो Strix Halo मशीनों से भी यह संभव नहीं है
    • ik_llama.cpp और पर्याप्त RAM, साथ में एक GPU से इसे धीमा सही, लेकिन चलाया जा सकता है। सामान्य llama.cpp भी चलेगा, लेकिन ik fork ज़्यादा efficient है
    • कहा गया कि Thunderbolt 5 से जुड़े दो 512GB Mac Studio के साथ भी यह संभव है
  • शक है कि कहीं यह मॉडल OpenAI या Google के outputs को सीधे distill करके तो नहीं बनाया गया

  • उत्सुकता है कि क्या यह मॉडल OpenRouter पर आने वाला है

  • अगर OpenAI ChatGPT में ads जोड़ दे, तो क्या लोग तुरंत किसी दूसरे मॉडल पर नहीं चले जाएँगे

    • बल्कि बेहतर यह होगा कि कई providers market rate पर प्रतिस्पर्धा करने वाले general-purpose मॉडल पेश करें
    • ads हों या न हों, मुझे OpenAI पर भरोसा नहीं है। जब तक इसका नाम CloseAI नहीं हो जाता, भरोसा करना मुश्किल है
    • ChatGPT बस एक website है। website पर ads होना कोई अजीब बात नहीं है। Instagram भी ऐसा ही है
    • GPU datacenter और API के ज़रिए इसका revenue model पहले से मौजूद है। प्रतिस्पर्धा आने पर भी कुछ समय तक यह पहला विकल्प बना रहेगा
    • Google ने भी दशकों तक ads चलाए, लेकिन लोग किसी दूसरे search engine पर नहीं गए