तर्क क्षमता को समझने वाले LLMs का विश्लेषण
(magazine.sebastianraschka.com)समझना: reasoning models
-
reasoning models की परिभाषा: reasoning model वह प्रक्रिया है जिसमें ऐसे सवालों के जवाब देने के लिए intermediate steps सहित multi-step generation की आवश्यकता होती है, जो जटिल समस्याओं को हल करते हैं। उदाहरण के लिए, "यदि कोई ट्रेन 60 मील प्रति घंटे की रफ्तार से 3 घंटे तक चलती है, तो वह कितनी दूर जाएगी?" जैसे सवालों में साधारण तथ्य-आधारित प्रश्नों के विपरीत reasoning की ज़रूरत होती है.
-
reasoning models की आवश्यकता: ये puzzle, advanced math problems और complex coding problems जैसे जटिल कार्यों के लिए उपयुक्त हैं। लेकिन summary, translation और knowledge-based question answering जैसे सरल कार्यों के लिए इनकी आवश्यकता नहीं होती। reasoning models महंगे होते हैं और कभी-कभी ज़रूरत से ज़्यादा सोचने के कारण त्रुटियाँ भी पैदा कर सकते हैं.
DeepSeek R1 training pipeline
-
DeepSeek-R1-Zero: 671B pre-trained DeepSeek-V3 आधारित model, जिसे केवल reinforcement learning (RL) से train किया गया। इसे "cold start" training कहा जाता है, और सामान्य RLHF के विपरीत इसमें supervised fine-tuning (SFT) चरण नहीं होता.
-
DeepSeek-R1: DeepSeek का प्रमुख reasoning model, जिसे DeepSeek-R1-Zero के आधार पर अतिरिक्त SFT चरण और RL training के माध्यम से बेहतर बनाया गया.
-
DeepSeek-R1-Distill: पिछले चरण में तैयार किए गए SFT data का उपयोग करके Qwen और Llama models को fine-tune किया गया ताकि reasoning क्षमता बेहतर हो सके.
reasoning models बनाने और बेहतर करने के 4 प्रमुख तरीके
-
inference-time scaling: inference के दौरान computing resources बढ़ाकर output quality बेहतर करने की विधि। उदाहरण के लिए, input prompt में "step by step सोचो" जैसे वाक्यांश शामिल करके model को intermediate reasoning steps उत्पन्न करने के लिए प्रेरित किया जाता है.
-
pure reinforcement learning (RL): DeepSeek-R1-Zero दिखाता है कि pure RL के माध्यम से reasoning व्यवहार के रूप में उभर सकता है। accuracy reward और format reward का उपयोग करके model को बुनियादी reasoning skills विकसित करने में मदद मिलती है.
-
supervised fine-tuning (SFT) और reinforcement learning (RL): DeepSeek-R1, SFT और RL को मिलाकर reasoning performance बेहतर बनाता है। उच्च-प्रदर्शन reasoning model बनाने में यह एक महत्वपूर्ण approach है.
-
pure supervised fine-tuning (SFT) और distillation: DeepSeek छोटे models को train करके efficiency बढ़ाता है। ये models आकार में छोटे होते हुए भी DeepSeek-R1-Zero की तुलना में अपेक्षाकृत मजबूत performance दिखाते हैं.
DeepSeek R1 पर विचार
- DeepSeek-R1 open source MIT license के साथ उपलब्ध है, इसलिए यह researchers के लिए एक उपयोगी resource है। OpenAI के o1 की तुलना में DeepSeek-R1 reasoning time में अधिक efficient है। हालांकि, OpenAI के o1 के बारे में विस्तृत जानकारी की कमी के कारण सीधी तुलना करना कठिन है.
सीमित बजट में reasoning model development
- model distillation एक cost-effective alternative हो सकता है। DeepSeek टीम ने R1-distilled model के माध्यम से इसे प्रदर्शित किया है, जो DeepSeek-R1 से काफी छोटा है, लेकिन फिर भी मजबूत reasoning performance दिखाता है.
1 टिप्पणियां
Hacker News राय
LLM के reasoning models में coding और math समस्याओं के लिए अत्यधिक optimization होने की प्रवृत्ति है
LLM को natural language के बजाय सीमित formal language में train करने पर शोध की ज़रूरत है
reasoning models का "ज़रूरत से ज़्यादा सोचना" अगली बड़ी समस्या बन सकता है
R1 paper आसानी से पढ़ा जा सकता है, और उसके results खुद अपनी बात बताते हैं
LLM वास्तव में "सोचते" हैं या नहीं, यह एक अलग बहस है
AI द्वारा medical imaging में over-identification के वास्तविक उदाहरण मौजूद हैं
यह समझना चाहिए कि LLM reasoning नहीं कर सकते
DeepSeek-R1 technical report में "aha moment" वाला दावा संदिग्ध लगता है
कुछ महीने पहले HN पर LLM सुधार के लिए refinement method का सुझाव दिया गया था, और अब उसी को "reasoning" के रूप में समझाया जा रहा है