6 पॉइंट द्वारा GN⁺ 2025-02-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

समझना: reasoning models

  • reasoning models की परिभाषा: reasoning model वह प्रक्रिया है जिसमें ऐसे सवालों के जवाब देने के लिए intermediate steps सहित multi-step generation की आवश्यकता होती है, जो जटिल समस्याओं को हल करते हैं। उदाहरण के लिए, "यदि कोई ट्रेन 60 मील प्रति घंटे की रफ्तार से 3 घंटे तक चलती है, तो वह कितनी दूर जाएगी?" जैसे सवालों में साधारण तथ्य-आधारित प्रश्नों के विपरीत reasoning की ज़रूरत होती है.

  • reasoning models की आवश्यकता: ये puzzle, advanced math problems और complex coding problems जैसे जटिल कार्यों के लिए उपयुक्त हैं। लेकिन summary, translation और knowledge-based question answering जैसे सरल कार्यों के लिए इनकी आवश्यकता नहीं होती। reasoning models महंगे होते हैं और कभी-कभी ज़रूरत से ज़्यादा सोचने के कारण त्रुटियाँ भी पैदा कर सकते हैं.

DeepSeek R1 training pipeline

  • DeepSeek-R1-Zero: 671B pre-trained DeepSeek-V3 आधारित model, जिसे केवल reinforcement learning (RL) से train किया गया। इसे "cold start" training कहा जाता है, और सामान्य RLHF के विपरीत इसमें supervised fine-tuning (SFT) चरण नहीं होता.

  • DeepSeek-R1: DeepSeek का प्रमुख reasoning model, जिसे DeepSeek-R1-Zero के आधार पर अतिरिक्त SFT चरण और RL training के माध्यम से बेहतर बनाया गया.

  • DeepSeek-R1-Distill: पिछले चरण में तैयार किए गए SFT data का उपयोग करके Qwen और Llama models को fine-tune किया गया ताकि reasoning क्षमता बेहतर हो सके.

reasoning models बनाने और बेहतर करने के 4 प्रमुख तरीके

  1. inference-time scaling: inference के दौरान computing resources बढ़ाकर output quality बेहतर करने की विधि। उदाहरण के लिए, input prompt में "step by step सोचो" जैसे वाक्यांश शामिल करके model को intermediate reasoning steps उत्पन्न करने के लिए प्रेरित किया जाता है.

  2. pure reinforcement learning (RL): DeepSeek-R1-Zero दिखाता है कि pure RL के माध्यम से reasoning व्यवहार के रूप में उभर सकता है। accuracy reward और format reward का उपयोग करके model को बुनियादी reasoning skills विकसित करने में मदद मिलती है.

  3. supervised fine-tuning (SFT) और reinforcement learning (RL): DeepSeek-R1, SFT और RL को मिलाकर reasoning performance बेहतर बनाता है। उच्च-प्रदर्शन reasoning model बनाने में यह एक महत्वपूर्ण approach है.

  4. pure supervised fine-tuning (SFT) और distillation: DeepSeek छोटे models को train करके efficiency बढ़ाता है। ये models आकार में छोटे होते हुए भी DeepSeek-R1-Zero की तुलना में अपेक्षाकृत मजबूत performance दिखाते हैं.

DeepSeek R1 पर विचार

  • DeepSeek-R1 open source MIT license के साथ उपलब्ध है, इसलिए यह researchers के लिए एक उपयोगी resource है। OpenAI के o1 की तुलना में DeepSeek-R1 reasoning time में अधिक efficient है। हालांकि, OpenAI के o1 के बारे में विस्तृत जानकारी की कमी के कारण सीधी तुलना करना कठिन है.

सीमित बजट में reasoning model development

  • model distillation एक cost-effective alternative हो सकता है। DeepSeek टीम ने R1-distilled model के माध्यम से इसे प्रदर्शित किया है, जो DeepSeek-R1 से काफी छोटा है, लेकिन फिर भी मजबूत reasoning performance दिखाता है.

1 टिप्पणियां

 
GN⁺ 2025-02-08
Hacker News राय
  • LLM के reasoning models में coding और math समस्याओं के लिए अत्यधिक optimization होने की प्रवृत्ति है

    • अस्पष्ट रूप से परिभाषित समस्याओं में अधिक reasoning की ज़रूरत होती है, और यह सिर्फ software engineering की अस्पष्टता से आगे जाना चाहिए
    • LLM अक्सर math problems पर इतना अधिक tuned होते हैं कि दूसरे क्षेत्रों में पर्याप्त नहीं सोचते
    • वे self-learning को पसंद करते हैं, और उन्हें ऐसा conversational counterpart चाहिए जो जटिल विषयों को समझ सके और गलतफहमियों को पहचान सके
    • LLM coding problems को अच्छी तरह हल कर सकते हैं, लेकिन वे coding/math puzzles के लिए ज़रूरत से ज़्यादा tuned हैं
  • LLM को natural language के बजाय सीमित formal language में train करने पर शोध की ज़रूरत है

    • Lean और ChatGPT के integration पर काम है, लेकिन यह natural language-trained LLM द्वारा संचालित तरीका नहीं है
    • ऐसे system की कल्पना की जाती है जो रचनात्मक रूप से अलग-अलग कोशिशें कर सके और गलत रास्तों से बच सके
  • reasoning models का "ज़रूरत से ज़्यादा सोचना" अगली बड़ी समस्या बन सकता है

    • ज़्यादा गहराई से सोचना हमेशा अच्छा नहीं होता
  • R1 paper आसानी से पढ़ा जा सकता है, और उसके results खुद अपनी बात बताते हैं

    • R1, V3, DeepSeekMath papers पढ़ने की सिफारिश की जाती है
  • LLM वास्तव में "सोचते" हैं या नहीं, यह एक अलग बहस है

    • computer सोच सकते हैं या नहीं, यह सवाल बहुत पहले ही सुलझाया जा चुका है
  • AI द्वारा medical imaging में over-identification के वास्तविक उदाहरण मौजूद हैं

    • training data उसे ऐसे factors पहचानने के लिए प्रेरित करता है जो cancer का संकेत माने जाते हैं
  • यह समझना चाहिए कि LLM reasoning नहीं कर सकते

  • DeepSeek-R1 technical report में "aha moment" वाला दावा संदिग्ध लगता है

    • यह DeepSeek V3 model पर आधारित है, और इसमें overthinking तथा formatting समस्याएँ आती हैं
    • community इस pipeline को फिर से implement करने की कोशिश कर रही है
  • कुछ महीने पहले HN पर LLM सुधार के लिए refinement method का सुझाव दिया गया था, और अब उसी को "reasoning" के रूप में समझाया जा रहा है

    • यह उम्मीद नहीं थी कि DeepSeek इतने साधारण तरीके से market पर कब्ज़ा कर लेगा
    • intuition को गंभीरता से लेना चाहिए