1 पॉइंट द्वारा GN⁺ 2025-03-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

LADDER: स्वयं-सुधार के माध्यम से LLM की समस्या-समाधान क्षमता में सुधार

  • LADDER परिचय: LADDER एक फ्रेमवर्क है जो जटिल समस्याओं को क्रमिक रूप से अधिक सरल रूपों में बदलकर बड़े भाषा मॉडल (LLM) को अपनी समस्या-समाधान क्षमता स्वयं बेहतर करने में सक्षम बनाता है। यह मौजूदा datasets या मानव feedback के बिना, मॉडल की अपनी क्षमताओं का उपयोग करके आसान समस्या-परिवर्तन उत्पन्न करता है.

  • प्रभावशीलता: LADDER ने mathematical integration के क्षेत्र में Llama 3.2 3B की accuracy को 1% से 82% तक बढ़ाया, और Qwen2.5 7B Deepseek-R1 Distilled को MIT Integration Bee प्रारंभिक दौर में 73% हासिल करने में सक्षम बनाया.

  • TTRL परिचय: TTRL (Test-Time Reinforcement Learning) एक ऐसी विधि है जो test problem transformations के माध्यम से inference के समय reinforcement learning करती है। इसके जरिए Qwen2.5 7B Deepseek-R1 Distilled ने MIT Integration Bee प्रारंभिक दौर में 90% का state-of-the-art score दर्ज किया और OpenAI o1 के प्रदर्शन को पार कर लिया.

  • परिणामों का महत्व: ये परिणाम दिखाते हैं कि स्वायत्त और रणनीतिक learning, architecture scaling या human supervision के बिना भी, क्षमताओं में महत्वपूर्ण सुधार हासिल कर सकती है.

1 टिप्पणियां

 
GN⁺ 2025-03-08
Hacker News राय
  • इस हफ़्ते क्या हो रहा है, यह जानने की जिज्ञासा है। पिछले दो दिनों में machine learning में कई दिलचस्प breakthroughs देखे हैं

    • Google की research team ने पाया है कि digital logic gates के माध्यम से NNs और CLAs को जोड़ा जा सकता है। इससे कई nonlinear समस्याओं को सरल और efficient digital circuits में घटाया जा सकता है
    • neural networks और logic/intelligence से जुड़ी नई खोजें लगातार सामने आ रही हैं, और हम intelligence के सिद्धांतों को समझने के कितने क़रीब पहुँच चुके हैं, इस पर कल्पना चलती रहती है
  • प्रसिद्ध number theory mathematician Hendrik Lenstra का एक कथन याद आता है

    • "हर unsolvable problem के लिए एक और भी सरल unsolvable problem होती है"
  • उनका test-time reinforcement learning approach थोड़ा संदिग्ध लगता है

    • TTRL इस तरह काम करता है कि language model से test case के सरल versions बनाने को कहा जाता है। जब सरल समस्या मिल जाती है, तो उस पर reinforcement learning चलाकर मूल समस्या पर model की performance बेहतर करने की कोशिश की जाती है
    • समस्या यह है कि सरल समस्या को verify करने के लिए numerical integrator का उपयोग किया जाता है। यह कल्पना की जा सकती है कि लगभग non-trivial समस्याएँ उत्पन्न हों, और model ऐसे scenarios में train हो जाए जहाँ वह असली test case पर ही training कर रहा हो। यह test set पर training करने जैसा है
    • बाकी paper ठीक है
  • LADDER ने mathematical integration के विषय में अपनी प्रभावशीलता दिखाई है। इसने Llama 3.2 3B की accuracy को 1% से 82% तक बढ़ा दिया

    • यह कि यह method काम करता है, अपने आप में दिलचस्प है। ख़ास तौर पर यह कि यह math के साथ अच्छी तरह काम करता है
    • यह paper training और inference के बीच की सीमा को धुंधला करने वाली मौजूदा प्रवृत्ति का हिस्सा है। उनके तरीकों में से एक यह है कि जिन सवालों के जवाब मालूम नहीं हैं, उन्हें सरल सवालों में तोड़ा जाए, और एक numerical 'checker' का उपयोग करके GRPO किया जाए। यह reinforced model फिर अधिक सवालों के जवाब दे सकता है
    • मुझे लगता है इंसान भी अक्सर इसी तरह सोचते हैं। किसी चीज़ पर गहराई से विचार करना, उसे दिमाग़ में घुमाना, analogy बनाना वगैरह। test-time training जोड़ना, fixed inference के context में tokens जोड़ने की तुलना में, ज़्यादा सोचने का एक तरीका है
    • जैसे DeepSeek और o1/o3 ने दिखाया है कि inference-time token generation और evaluation से capacity बढ़ाई जा सकती है, वैसे ही inference-time automated fine-tuning से भी capacity बढ़ाई जा सकती है
    • उम्मीद है कि जब ये techniques और पुख़्ता हो जाएँगी, तो हम इनके बारे में नए तरीक़े से बात और विचार कर पाएँगे। ये सब किसी न किसी स्तर पर एक ही मूल प्रक्रिया के हिस्से हैं
    • कुल मिलाकर, बहुत शानदार है
  • Frank Herbert यह जानते थे। यह Dune में वर्णित mentats के recursive self-inspection का implementation है

  • test-time training/reinforcement learning भविष्य के math AI के लिए एक उपयुक्त approach है। संभवतः यह उन गिने-चुने तरीक़ों में से एक है जिनसे किसी दिए गए problem पर बहुत बड़ी मात्रा में compute लगाया जा सकता है। Alphaproof यह पहले ही कर चुका है, लेकिन इसे फिर से होते देखना और अच्छे नतीजे मिलना अच्छा है

  • विषय से हटकर, लेकिन उनकी site बहुत सुंदर है। ऐसा लगता है जैसे कोई सोने की खान मिल गई हो

  • कुछ नाम हद से ज़्यादा आकर्षक होते हैं

  • paper के अंत में उन्होंने 2025 MIT Integration Bee qualifying exam के दो प्रश्नों का उल्लेख किया है। उनका कहना है कि system लगातार ग़लत उत्तर देता रहा

    • वे कहते हैं कि ये प्रश्न exam के सबसे जटिल प्रश्नों में से एक हैं, लेकिन पहला प्रश्न तो बस यह है
    • ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx की गणना करना
    • यह 1/3 + 1/(34) + 1/(34*5) + ... की गणना करने जैसा है। यह कोई बहुत advanced math नहीं है