LADDER: स्वयं-सुधार के माध्यम से LLM की समस्या-समाधान क्षमता में सुधार
-
LADDER परिचय: LADDER एक फ्रेमवर्क है जो जटिल समस्याओं को क्रमिक रूप से अधिक सरल रूपों में बदलकर बड़े भाषा मॉडल (LLM) को अपनी समस्या-समाधान क्षमता स्वयं बेहतर करने में सक्षम बनाता है। यह मौजूदा datasets या मानव feedback के बिना, मॉडल की अपनी क्षमताओं का उपयोग करके आसान समस्या-परिवर्तन उत्पन्न करता है.
-
प्रभावशीलता: LADDER ने mathematical integration के क्षेत्र में Llama 3.2 3B की accuracy को 1% से 82% तक बढ़ाया, और Qwen2.5 7B Deepseek-R1 Distilled को MIT Integration Bee प्रारंभिक दौर में 73% हासिल करने में सक्षम बनाया.
-
TTRL परिचय: TTRL (Test-Time Reinforcement Learning) एक ऐसी विधि है जो test problem transformations के माध्यम से inference के समय reinforcement learning करती है। इसके जरिए Qwen2.5 7B Deepseek-R1 Distilled ने MIT Integration Bee प्रारंभिक दौर में 90% का state-of-the-art score दर्ज किया और OpenAI o1 के प्रदर्शन को पार कर लिया.
-
परिणामों का महत्व: ये परिणाम दिखाते हैं कि स्वायत्त और रणनीतिक learning, architecture scaling या human supervision के बिना भी, क्षमताओं में महत्वपूर्ण सुधार हासिल कर सकती है.
1 टिप्पणियां
Hacker News राय
इस हफ़्ते क्या हो रहा है, यह जानने की जिज्ञासा है। पिछले दो दिनों में machine learning में कई दिलचस्प breakthroughs देखे हैं
प्रसिद्ध number theory mathematician Hendrik Lenstra का एक कथन याद आता है
उनका test-time reinforcement learning approach थोड़ा संदिग्ध लगता है
LADDER ने mathematical integration के विषय में अपनी प्रभावशीलता दिखाई है। इसने Llama 3.2 3B की accuracy को 1% से 82% तक बढ़ा दिया
Frank Herbert यह जानते थे। यह Dune में वर्णित mentats के recursive self-inspection का implementation है
test-time training/reinforcement learning भविष्य के math AI के लिए एक उपयुक्त approach है। संभवतः यह उन गिने-चुने तरीक़ों में से एक है जिनसे किसी दिए गए problem पर बहुत बड़ी मात्रा में compute लगाया जा सकता है। Alphaproof यह पहले ही कर चुका है, लेकिन इसे फिर से होते देखना और अच्छे नतीजे मिलना अच्छा है
विषय से हटकर, लेकिन उनकी site बहुत सुंदर है। ऐसा लगता है जैसे कोई सोने की खान मिल गई हो
कुछ नाम हद से ज़्यादा आकर्षक होते हैं
paper के अंत में उन्होंने 2025 MIT Integration Bee qualifying exam के दो प्रश्नों का उल्लेख किया है। उनका कहना है कि system लगातार ग़लत उत्तर देता रहा