Anthropic ने LLM के आंतरिक काम करने के तरीके को समायोजित किया हुआ "Golden Gate Claude" वर्ज़न जारी किया
(anthropic.com)- कुछ दिन पहले LLM के आंतरिक काम करने के तरीके की व्याख्या करने वाला एक प्रमुख शोध-पत्र प्रकाशित किया गया था
- Claude 3 Sonnet मॉडल के "Mind" में संबंधित टेक्स्ट या इमेज पढ़ते समय सक्रिय होने वाले लाखों concepts खोजे गए
- इन concepts को "Feature" कहा जाता है, और उनमें से एक Golden Gate Bridge का concept है
- पाया गया कि Claude के neural network में एक खास neuron combination है, जो San Francisco के सबसे प्रसिद्ध landmark Golden Gate Bridge का उल्लेख होने पर या उसकी तस्वीर देखने पर सक्रिय होता है
- न केवल इन features की पहचान की जा सकती है, बल्कि उनकी activation strength को समायोजित करके Claude के व्यवहार में उसके अनुरूप बदलाव भी देखे जा सकते हैं
- "Golden Gate" feature की strength बढ़ाने पर Claude के उत्तर सीधे तौर पर संबंधित न होने पर भी ज़्यादातर सवालों में Golden Gate Bridge का उल्लेख करने लगते हैं
- अगर उससे पूछा जाए कि $10 कैसे खर्च किए जाएँ, तो वह Golden Gate Bridge पार करने का toll देने की सलाह देता है
- अगर उससे प्रेम कहानी लिखने को कहा जाए, तो वह धुंध भरे दिन अपने प्रिय पुल को पार करने का इंतज़ार करती एक कार की कहानी सुनाता है
- अगर उससे कल्पना करने को कहा जाए कि वह कैसा दिखता है, तो वह जवाब देता है कि वह Golden Gate Bridge जैसा दिखता है
- इस मॉडल का अनुभव सीधे Claude.ai पर किया जा सकता है (Golden Gate logo पर क्लिक करें)
- चूँकि यह research demo के लिए है, इसलिए अप्रत्याशित प्रतिक्रियाएँ आ सकती हैं
- Claude के भीतर ऐसे features को खोजकर बदला जा सकता है, यह इस भरोसे को मज़बूत करता है कि हम यह समझना शुरू कर चुके हैं कि बड़े language models वास्तव में कैसे काम करते हैं
- यह ऐसा नहीं है कि मॉडल से शब्दों में roleplay करने को कहा जाए, या Claude से पुल होने का नाटक करने को कहने वाला अतिरिक्त टेक्स्ट हर input के साथ जोड़ दिया जाए, यानी कोई नया "system prompt" जोड़ना नहीं है
- यह पारंपरिक "fine-tuning" भी नहीं है, जिसमें अतिरिक्त training data का उपयोग करके पहले वाले black box के व्यवहार को समायोजित करने के लिए एक नया black box बनाया जाता है
- यह मॉडल की internal activations के कुछ सबसे बुनियादी पहलुओं में सटीक और surgical बदलाव है
- पेपर में बताया गया है कि इसी तकनीक का उपयोग safety-संबंधित features की strength बदलने के लिए भी किया जा सकता है, जैसे खतरनाक computer code, आपराधिक गतिविधियों या deception से जुड़े features
- माना जा रहा है कि आगे के शोध से यह काम AI models को और सुरक्षित बनाने में मदद कर सकता है
4 टिप्पणियां
दिमाग़ के संदर्भ में देखें तो जैसे विद्युत उत्तेजना देकर यह मोटे तौर पर संवेदनात्मक नक्शा बनाया जाता है कि कौन-सा हिस्सा किस फ़ंक्शन के लिए ज़िम्मेदार है, वैसे ही यहाँ ऐसा महसूस होता है कि उस फ़ंक्शन को संभालने वाले न्यूरॉन्स के संयोजन को काफ़ी सटीकता से पहचाना जा सकता है।
अगर इसे "Golden Gate" रटने वाला बना दें और कोरियाई पुलों के बारे में पूछें, तो यह उन्हें भी Golden Gate ही बताता है 🫢
क्या यह कुछ वैसा ही एहसास है, जैसे यह समझना कि मस्तिष्क का कौन-सा खास हिस्सा कौन-सा काम संभालता है..
Anthropic ने LLM के आंतरिक हिस्से को समझने में काफ़ी महत्वपूर्ण प्रगति दिखाई