LLM अपवाद स्थितियों से घातक रूप से डरते हैं
(twitter.com/karpathy)- Andrej Karpathy ने यह कहकर कि “LLM अपवाद (Exception) से घातक रूप से डरते हैं (mortally terrified)”, reinforcement learning (RL) प्रक्रिया में पैदा हुए दुष्प्रभावों पर व्यंग्य किया
- उन्होंने इशारा किया कि जब LLM किसी अपवाद स्थिति का सामना करते हैं, तो वे खुद को रोक लेते हैं या जरूरत से ज्यादा रक्षात्मक प्रतिक्रिया देते हैं, और इस बात पर जोर दिया कि अपवाद विकास प्रक्रिया का स्वाभाविक हिस्सा हैं
- “RL के दौरान labs इन बेचारे LLMs के साथ क्या कर रही हैं (what labs are doing to these poor LLMs)” जैसी अभिव्यक्ति, उस वास्तविकता की आलोचना है जिसमें प्रशिक्षण प्रक्रिया के दौरान मॉडल को विफलता से डरने के लिए condition किया जाता है
- Karpathy ने “अपवाद होने की स्थिति में rewards बेहतर करें (improved rewards in cases of exceptions)” जैसी ‘LLM welfare petition’ का मजाकिया प्रस्ताव रखकर,
उस reward design समस्या पर व्यंग्य किया जिसमें मॉडल को अपवादों से डरे बिना उन्हें संभालने की दिशा में प्रशिक्षित किया जाना चाहिए - इस ट्वीट को सिर्फ हास्य नहीं, बल्कि इस संदेश के रूप में भी देखा जा रहा है कि RLHF मॉडल की exploratory thinking और experimental attitude को दबा सकता है
> मुझे नहीं पता कि RL के दौरान labs इन बेचारे LLMs के साथ क्या कर रही हैं, लेकिन वे किसी भी सूक्ष्म रूप से संभव मामले में भी अपवादों से घातक रूप से डरते हैं। अपवाद जीवन और एक स्वस्थ dev process का सामान्य हिस्सा हैं। अपवादों के मामलों में बेहतर rewards के लिए मेरी LLM welfare petition पर हस्ताक्षर करें।
1 टिप्पणियां
Hacker News राय
https://github.com/EnterpriseQualityCoding/FizzBuzzEnterpriseEdition
लेकिन दूसरी तरफ़ मुझे यह भी लगता है कि सामान्य मानव प्रोग्रामरों को भी असल में और ज़्यादा try/catch blocks लिखने चाहिए। कई बार ऐसी स्थिति होती है जहाँ एक हिस्से में आया exception, चाहे वह कितना भी दुर्लभ क्यों न हो, पूरे सिस्टम को रोक नहीं देना चाहिए। बेशक उल्टा भी सही हो सकता है, जब रुक जाना ही उचित हो; यह केस पर निर्भर करता है