2 पॉइंट द्वारा GN⁺ 2024-09-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें

language model की self-correction training के लिए Reinforcement Learning

  • self-correction की आवश्यकता

    • बड़े language models (LLM) की self-correction क्षमता बेहद वांछनीय है, लेकिन आधुनिक LLMs में यह प्रभावी नहीं है
    • मौजूदा self-correction training methods के लिए कई models, या अधिक सक्षम model, या किसी अन्य प्रकार की supervision की आवश्यकता होती है
  • SCoRe approach

    • SCoRe एक multi-turn online reinforcement learning (RL) approach है, जो पूरी तरह self-generated data का उपयोग करके LLM की self-correction क्षमता को काफ़ी बेहतर बनाता है
    • SCoRe बनाने के लिए, यह दिखाया गया कि offline model-generated revision traces पर supervised fine-tuning (SFT) variants, self-correction behavior inject करने के लिए पर्याप्त नहीं हैं
    • SFT के माध्यम से training, training data और model के अपने responses के बीच distribution mismatch से प्रभावित होती है, या केवल कुछ खास revision behavior modes को प्राथमिकता देती है, इसलिए test समय पर प्रभावी नहीं होती
  • SCoRe का समाधान

    • model के अपने generated revision trace distribution के तहत training की जाती है, और उपयुक्त regularization का उपयोग करके learning process को इस तरह समायोजित किया जाता है कि test समय पर प्रभावी self-correction strategies सीखी जा सकें
    • पहला RL stage चलाकर policy initialization तैयार किया जाता है, और training के दौरान self-correction को बढ़ाने के लिए reward bonus का उपयोग किया जाता है
  • performance results

    • Gemini 1.0 Pro और 1.5 Flash models पर लागू करने पर, SCoRe ने MATH और HumanEval benchmarks में क्रमशः 15.6% और 9.1% का self-correction performance improvement हासिल किया

GN⁺ का सार

  • यह paper reinforcement learning के माध्यम से बड़े language models की self-correction क्षमता को काफ़ी बेहतर बनाने का तरीका प्रस्तावित करता है
  • SCoRe approach self-generated data का उपयोग करके model के distribution mismatch problem को हल करता है और test समय पर प्रभावी correction strategies सीखने में मदद करता है
  • यह शोध खास तौर पर Gemini models में उल्लेखनीय performance improvement दिखाता है
  • self-correction क्षमता, language models की reliability और accuracy बढ़ाने में एक महत्वपूर्ण तत्व है
  • समान क्षमता वाले projects में OpenAI की GPT series शामिल है

1 टिप्पणियां

 
GN⁺ 2024-09-22
Hacker News टिप्पणियाँ
  • यह OpenAI के o1 मॉडल जैसा ही एक approach है

    • पेपर में weights सार्वजनिक करने का कोई उल्लेख नहीं है
    • पेपर विषय को सीधे समझाने के बजाय घुमा-फिराकर बताता है, इसलिए समझना कठिन था
    • एक theory है कि LLM की कठिन समस्याओं पर सही उत्तर दर बढ़ाने के लिए "self-correction" व्यवहार को train किया जा सकता है
    • इस व्यवहार को train करने के लिए विभिन्न reinforcement learning techniques का उपयोग करने की कोशिश की गई, लेकिन वे अच्छी तरह काम नहीं कर पाईं
    • पेपर का दावा है कि जब मॉडल को Answer 1, Reasoning, Corrected Answer और "Corrected Answer को बेहतर बनाओ" जैसा signal मिलता है, तो उसके पास दो तरीके होते हैं
      • Reasoning, Corrected Answer को बेहतर बनाना
      • Answer 1 को बेहतर बनाकर Corrected Answer को Answer 1 के समान बना देना
    • पिछला research दिखाता है कि प्रायः दूसरा तरीका ही होता था, इसलिए इच्छित व्यवहार को train करने में विफलता मिली
    • पेपर training method में थोड़ा बदलाव करके मॉडल को पहला तरीका अपनाने के लिए प्रेरित करता है
    • पहले चरण में KL divergence loss के माध्यम से मॉडल को पहला उत्तर बनाए रखते हुए दूसरा उत्तर बेहतर करने के लिए मजबूर किया जाता है
    • दूसरे चरण में पहला उत्तर बदला जा सकता है, लेकिन reward function को इस तरह adjust किया जाता है कि "flips" पर अधिक reward मिले
    • यह तरीका overall मॉडल को बेहतर बनाते हुए भी self-correction व्यवहार को बनाए रखता है
    • चरण 2 में इस बात की चिंता है कि मॉडल reward को maximize करने के लिए पहला उत्तर और खराब लिख सकता है
  • LLM को अपनी training की कोई प्रत्यक्ष memory नहीं होती

    • इंसान जो जानता है, उसे बोलने से पहले यह जाँचता है कि वह उसे कैसे/क्यों जानता है
    • LLM अपनी training को याद नहीं रख सकता, इसलिए self-correction कठिन है
  • यह एक तरह का knowledge distillation है या नहीं, इस पर सवाल है

  • एक राय है कि auto-regressive, next-token prediction paradigm में hallucination को हटाया नहीं जा सकता

    • समस्या यह है कि language model को deterministic problem solver की तरह इस्तेमाल करने की कोशिश की जा रही है
  • AI experts द्वारा "hallucination" जैसी अवधारणा को लोकप्रिय बनाने पर असंतोष है

    • इससे ऐसा लगता है जैसे AI किसी गहरी सोच-प्रक्रिया से गुजर रहा हो
    • AI तो सिर्फ data के आधार पर output देता है
    • अगर कोई JSON API endpoint गलत data output करे, तो आप कहेंगे "यह API टूटा हुआ है"
  • एक intelligent algorithm अगर non-intelligent next-word predictor को guide कर रहा है, तब भी वह non-intelligent algorithm ही है

    • वह कचरे को अधिक सलीके से वर्गीकृत करता है, लेकिन वह फिर भी कचरा ही है
    • उम्मीद थी कि reinforcement learning approach transformer approach की जगह लेगी, लेकिन वह सिर्फ एक सपना निकला