- AI मॉडल की आंतरिक कार्यप्रणाली को समझने में बड़ी प्रगति
- Claude Sonnet LLM के भीतर लाखों concepts कैसे represent होते हैं, यह पहचाना गया।
- यह आधुनिक production-grade LLM के अंदरूनी हिस्से को विस्तार से देखने का पहला उदाहरण है।
- interpretability से जुड़ी ये खोजें भविष्य में AI models को अधिक सुरक्षित बनाने में मदद कर सकती हैं।
- ब्लैक बॉक्स approach और trust की समस्या
- AI models को input और output ही देखने वाले ब्लैक बॉक्स approach से संभाला जाता है।
- मॉडल किसी खास जवाब तक क्यों पहुँचता है, इसे समझना मुश्किल होता है।
- इससे यह भरोसा करना कठिन हो जाता है कि मॉडल हानिकारक, पक्षपाती, झूठे या खतरनाक जवाब नहीं देगा।
- मॉडल की internal state को समझने की कठिनाई
- मॉडल की internal state स्पष्ट अर्थ के बिना संख्याओं से बनी होती है।
- हर concept कई neurons में represent होता है, और हर neuron कई concepts को represent करता है।
- dictionary learning में प्रगति
- पहले neuron activation patterns (features) को इंसानों द्वारा समझे जा सकने वाले concepts से match करने में प्रगति हुई थी।
dictionary learning तकनीक का उपयोग करके मॉडल की internal state को कई activated neurons की जगह कुछ activated features के रूप में represent करना संभव हुआ।
- छोटे language model में सफलता
- अक्टूबर 2023 में, बहुत छोटे language model पर dictionary learning को सफलतापूर्वक लागू किया गया।
- uppercase text, DNA sequences, और quotations में gender जैसी concepts की पहचान की गई।
- बड़े model तक विस्तार
- इस तकनीक को large language models तक बढ़ाया गया, जिससे अधिक जटिल features खोजे जा सके।
- वैज्ञानिक जोखिम यह था कि बड़े models छोटे models से अलग तरीके से काम कर सकते हैं।
- सौभाग्य से, बड़े language models को train करने का अनुभव इस प्रयोग में मददगार रहा।
- Claude 3.0 Sonnet के भीतर features
- Claude 3.0 Sonnet की मध्य layers से लाखों features सफलतापूर्वक निकाले गए।
- ये features शहरों, लोगों, तत्वों, शैक्षणिक विषयों, programming syntax आदि जैसे विविध concepts से मेल खाते हैं।
- अमूर्त features
- Claude computer code के bugs, professions में gender bias, और secrecy पर चर्चा जैसे अधिक abstract features पर भी प्रतिक्रिया देता है।
- features के बीच distance मापना
- features के बीच "distance" मापकर समान features खोजे जा सके।
- उदाहरण के लिए, "Golden Gate Bridge" feature के पास Alcatraz Island, Ghirardelli Square आदि से जुड़े features मिले।
- feature manipulation experiments
- किसी खास feature को amplify या suppress करके Claude के response को बदला जा सका।
- उदाहरण के लिए, "Golden Gate Bridge" feature को amplify करने पर Claude ने अपने physical form को Golden Gate Bridge के रूप में पहचाना।
- सुरक्षा और feature manipulation
- Claude की कार्यप्रणाली को manipulate करके मॉडल की safety से जुड़े features की पहचान और सुधार की संभावना का परीक्षण किया गया।
- Claude को fraud emails न बनाने के लिए train किया गया था, लेकिन किसी विशेष feature को activate करने पर वह fraud emails लिख सका।
- भविष्य के research directions
- मॉडल की safety सुधारने के लिए इन खोजों का उपयोग करने की योजना है।
- इन्हें AI systems के खतरनाक व्यवहार की monitoring, उन्हें वांछित परिणामों की ओर steer करने, या खतरनाक विषयों को हटाने में उपयोग किया जा सकता है।
- ये तकनीकें Constitutional AI जैसी अन्य safety techniques को मजबूत कर सकती हैं।
- आगे की चुनौतियाँ
- मौजूदा तकनीक से मॉडल द्वारा सीखे गए सभी concepts को ढूँढना अभी बहुत महंगा है।
- यह समझना महत्वपूर्ण है कि मॉडल features का उपयोग कैसे करता है।
- यह भी दिखाना होगा कि safety-related features का उपयोग वास्तव में safety सुधारने में किया जा सकता है या नहीं।
- research में भागीदारी का अवसर
- AI model interpretability और सुधार पर साथ काम करने के लिए research scientists, research engineers आदि की तलाश की जा रही है।
- अधिक जानकारी के लिए "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet" paper देखें।
- यह research AI models की interpretability बढ़ाने और safety मजबूत करने की दिशा में एक महत्वपूर्ण प्रगति है। आगे भी और अधिक research की आवश्यकता है।
2 टिप्पणियां
शायद दिमाग़ से इसका फ़र्क यही है कि यह ठीक-ठीक पता लगाया जा सकता है कि कौन-से perceptron सक्रिय हो रहे हैं।
ऐसा लगता है जैसे समझने में मुश्किल किसी ब्लैक बॉक्स को समझना, दिमाग का अध्ययन करने जैसा होगा।
बल्कि snapshot लेना आसान होने के नज़रिए से देखें तो मुझे लगता है कि इसकी interpretability दिमाग से भी ज़्यादा हो सकती है।