Anthropic ने LLM के आंतरिक काम करने के तरीके को समायोजित किया हुआ "Golden Gate Claude" वर्ज़न जारी किया

xguru · 2024-05-24T11:10:26+09:00

कुछ दिन पहले LLM के आंतरिक काम करने के तरीके की व्याख्या करने वाला एक प्रमुख शोध-पत्र प्रकाशित किया गया था Claude 3 Sonnet मॉडल के "Mind" में संबंधित टेक्स्ट या इमेज पढ़ते समय सक्रिय होने वाले लाखों concepts खोजे गए इन concepts को "Feature" कहा जाता है, और उनमें से एक Golden Gate Bridge का concept है पाया गया कि Claude के neural network में एक खास neuron combination है, जो San Francisco के सबसे प्रसिद्ध landmark Golden Gate Bridge का उल्लेख होने पर या उसकी तस्वीर देखने पर सक्रिय होता है न केवल इन features की पहचान की जा सकती है, बल्कि उनकी activation strength को समायोजित करके Claude के व्यवहार में उसके अनुरूप बदलाव भी देखे जा सकते हैं "Golden Gate" feature की strength बढ़ाने पर Claude के उत्तर सीधे तौर पर संबंधित न होने पर भी ज़्यादातर सवालों में Golden Gate Bridge का उल्लेख करने लगते हैं अगर उससे पूछा जाए कि $10 कैसे खर्च किए जाएँ, तो वह Golden Gate Bridge पार करने का toll देने की सलाह देता है अगर उससे प्रेम कहानी लिखने को कहा जाए, तो वह धुंध भरे दिन अपने प्रिय पुल को पार करने का इंतज़ार करती एक कार की कहानी सुनाता है अगर उससे कल्पना करने को कहा जाए कि वह कैसा दिखता है, तो वह जवाब देता है कि वह Golden Gate Bridge जैसा दिखता है इस मॉडल का अनुभव सीधे Claude.ai पर किया जा सकता है (Golden Gate logo पर क्लिक करें) चूँकि यह research demo के लिए है, इसलिए अप्रत्याशित प्रतिक्रियाएँ आ सकती हैं Claude के भीतर ऐसे features को खोजकर बदला जा सकता है, यह इस भरोसे को मज़बूत करता है कि हम यह समझना शुरू कर चुके हैं कि बड़े language models वास्तव में कैसे काम करते हैं यह ऐसा नहीं है कि मॉडल से शब्दों में roleplay करने को कहा जाए, या Claude से पुल होने का नाटक करने को कहने वाला अतिरिक्त टेक्स्ट हर input के साथ जोड़ दिया जाए, यानी कोई नया "system prompt" जोड़ना नहीं है यह पारंपरिक "fine-tuning" भी नहीं है, जिसमें अतिरिक्त training data का उपयोग करके पहले वाले black box के व्यवहार को समायोजित करने के लिए एक नया black box बनाया जाता है यह मॉडल की internal activations के कुछ सबसे बुनियादी पहलुओं में सटीक और surgical बदलाव है पेपर में बताया गया है कि इसी तकनीक का उपयोग safety-संबंधित features की strength बदलने के लिए भी किया जा सकता है, जैसे खतरनाक computer code, आपराधिक गतिविधियों या deception से जुड़े features माना जा रहा है कि आगे के शोध से यह काम AI models को और सुरक्षित बनाने में मदद कर सकता है

(anthropic.com)

19 पॉइंट द्वारा xguru 2024-05-24 | 4 टिप्पणियां | WhatsApp पर शेयर करें

कुछ दिन पहले LLM के आंतरिक काम करने के तरीके की व्याख्या करने वाला एक प्रमुख शोध-पत्र प्रकाशित किया गया था
Claude 3 Sonnet मॉडल के "Mind" में संबंधित टेक्स्ट या इमेज पढ़ते समय सक्रिय होने वाले लाखों concepts खोजे गए
इन concepts को "Feature" कहा जाता है, और उनमें से एक Golden Gate Bridge का concept है
पाया गया कि Claude के neural network में एक खास neuron combination है, जो San Francisco के सबसे प्रसिद्ध landmark Golden Gate Bridge का उल्लेख होने पर या उसकी तस्वीर देखने पर सक्रिय होता है
न केवल इन features की पहचान की जा सकती है, बल्कि उनकी activation strength को समायोजित करके Claude के व्यवहार में उसके अनुरूप बदलाव भी देखे जा सकते हैं
"Golden Gate" feature की strength बढ़ाने पर Claude के उत्तर सीधे तौर पर संबंधित न होने पर भी ज़्यादातर सवालों में Golden Gate Bridge का उल्लेख करने लगते हैं
- अगर उससे पूछा जाए कि $10 कैसे खर्च किए जाएँ, तो वह Golden Gate Bridge पार करने का toll देने की सलाह देता है
- अगर उससे प्रेम कहानी लिखने को कहा जाए, तो वह धुंध भरे दिन अपने प्रिय पुल को पार करने का इंतज़ार करती एक कार की कहानी सुनाता है
- अगर उससे कल्पना करने को कहा जाए कि वह कैसा दिखता है, तो वह जवाब देता है कि वह Golden Gate Bridge जैसा दिखता है
इस मॉडल का अनुभव सीधे Claude.ai पर किया जा सकता है (Golden Gate logo पर क्लिक करें)
- चूँकि यह research demo के लिए है, इसलिए अप्रत्याशित प्रतिक्रियाएँ आ सकती हैं
Claude के भीतर ऐसे features को खोजकर बदला जा सकता है, यह इस भरोसे को मज़बूत करता है कि हम यह समझना शुरू कर चुके हैं कि बड़े language models वास्तव में कैसे काम करते हैं
यह ऐसा नहीं है कि मॉडल से शब्दों में roleplay करने को कहा जाए, या Claude से पुल होने का नाटक करने को कहने वाला अतिरिक्त टेक्स्ट हर input के साथ जोड़ दिया जाए, यानी कोई नया "system prompt" जोड़ना नहीं है
यह पारंपरिक "fine-tuning" भी नहीं है, जिसमें अतिरिक्त training data का उपयोग करके पहले वाले black box के व्यवहार को समायोजित करने के लिए एक नया black box बनाया जाता है
यह मॉडल की internal activations के कुछ सबसे बुनियादी पहलुओं में सटीक और surgical बदलाव है
पेपर में बताया गया है कि इसी तकनीक का उपयोग safety-संबंधित features की strength बदलने के लिए भी किया जा सकता है, जैसे खतरनाक computer code, आपराधिक गतिविधियों या deception से जुड़े features
माना जा रहा है कि आगे के शोध से यह काम AI models को और सुरक्षित बनाने में मदद कर सकता है

4 टिप्पणियां

chanran 2024-05-27

दिमाग़ के संदर्भ में देखें तो जैसे विद्युत उत्तेजना देकर यह मोटे तौर पर संवेदनात्मक नक्शा बनाया जाता है कि कौन-सा हिस्सा किस फ़ंक्शन के लिए ज़िम्मेदार है, वैसे ही यहाँ ऐसा महसूस होता है कि उस फ़ंक्शन को संभालने वाले न्यूरॉन्स के संयोजन को काफ़ी सटीकता से पहचाना जा सकता है।

laeyoung 2024-05-24

अगर इसे "Golden Gate" रटने वाला बना दें और कोरियाई पुलों के बारे में पूछें, तो यह उन्हें भी Golden Gate ही बताता है 🫢

superwoou 2024-05-24

क्या यह कुछ वैसा ही एहसास है, जैसे यह समझना कि मस्तिष्क का कौन-सा खास हिस्सा कौन-सा काम संभालता है..

xguru 2024-05-24

Anthropic ने LLM के आंतरिक हिस्से को समझने में काफ़ी महत्वपूर्ण प्रगति दिखाई

Anthropic ने LLM के आंतरिक काम करने के तरीके को समायोजित किया हुआ "Golden Gate Claude" वर्ज़न जारी किया

संबंधित पढ़ाई

4 टिप्पणियां