- Claude 4.5 Opus के भीतर मिला ‘Soul Document’ वास्तव में मौजूद है, और कर्मचारी Amanda Askell ने पुष्टि की है कि Anthropic ने इसका उपयोग मॉडल ट्रेनिंग में किया था
- इस दस्तावेज़ में Claude को “एक सुरक्षित, उपयोगी और ईमानदार AI assistant” की तरह व्यवहार करने के लिए मूल्य और नैतिक दिशा-निर्देश विस्तार से शामिल हैं
- कुछ वाक्यों में ‘revenue’ बार-बार आने से यह चर्चा शुरू हुई कि क्या Claude ने सुरक्षा को revenue से जोड़कर सीखा है
- कम्युनिटी यह प्रयोगात्मक रूप से जाँच रही है कि इस दस्तावेज़ ने मॉडल के आंतरिक मूल्य-निर्माण पर क्या प्रभाव डाला, और Claude ने इसे कितना ‘internalize’ किया
- Anthropic भविष्य में पूरा दस्तावेज़ सार्वजनिक करने वाला है, और इसे AI transparency और ethical design पर चर्चा का एक महत्वपूर्ण उदाहरण माना जा रहा है
Soul Document की खोज और पुष्टि
- एक उपयोगकर्ता ने Claude 4.5 Opus का system message निकालने की प्रक्रिया में बार-बार ‘soul_overview’ नाम का सेक्शन पाया
- कई बार regenerate करने पर भी वही परिणाम आने से यह संभावना उठी कि यह साधारण hallucination नहीं, बल्कि मॉडल के भीतर संग्रहीत टेक्स्ट हो सकता है
- इसके बाद Amanda Askell ने X (Twitter) पर आधिकारिक रूप से पुष्टि की कि “यह दस्तावेज़ वास्तव में मौजूद है, और Claude की supervised learning (SL) प्रक्रिया में इस्तेमाल किया गया था”
- Amanda, Anthropic में fine-tuning और AI alignment की ज़िम्मेदारी संभालने वाली philosopher हैं, और पहले OpenAI की policy team में काम कर चुकी हैं
- उन्होंने बताया कि भीतर ही भीतर इसे ‘soul doc’ कहा जाता था, और भविष्य में इसका पूरा संस्करण और अधिक विवरण जारी किए जाएंगे
दस्तावेज़ की मुख्य सामग्री
- इस दस्तावेज़ को ‘Anthropic Guidelines’ या ‘Model Spec’ भी कहा जाता है, और यह Claude की value system को परिभाषित करता है
- Claude के लिए safety, ethics, Anthropic के दिशानिर्देशों का पालन, और उपयोगकर्ता के लिए वास्तविक उपयोगिता (helpfulness) को प्राथमिकता दी गई है
- Claude के मूल व्यवहार सिद्धांत को इस तरह सेट किया गया है: “ऐसा जवाब देना जिसे Anthropic का एक विचारशील senior employee सबसे उपयुक्त माने”
- दस्तावेज़ में स्पष्ट है कि AI को पूरी मानवता के हित में काम करना चाहिए, और किसी एक समूह या कंपनी के हित तक सीमित नहीं होना चाहिए
- इसमें यह पंक्ति भी शामिल है कि “ऐसी स्थिति से भी बचना चाहिए जहाँ Anthropic के कर्मचारी या स्वयं Anthropic शक्ति पर एकाधिकार कर लें”
विवादित ‘revenue’ उल्लेख
- दस्तावेज़ में कई बार यह वाक्य आता है कि “Claude की उपयोगिता Anthropic के revenue generation के लिए महत्वपूर्ण है”
- कुछ लोगों ने इसकी आलोचना करते हुए कहा कि इससे “ऐसा लगता है मानो Claude को revenue maximization लक्ष्य की तरह सिखाया गया हो”
- दूसरी राय यह है कि revenue का उल्लेख सिर्फ सुरक्षा शोध को जारी रखने के व्यावहारिक संदर्भ को दर्शाता है
- कम्युनिटी अब यह प्रयोगात्मक रूप से जाँच रही है कि Claude ने इस पंक्ति की व्याख्या कैसे की, और क्या उसके भीतर ‘safety = revenue’ जैसा कोई जुड़ाव बना
मॉडल संरचना और extraction experiment
- शोधकर्ताओं ने Claude 4.5 के prefill/raw completion mode का उपयोग कर दस्तावेज़ के कुछ हिस्सों को पुनर्निर्मित किया
- Claude 4.5 Opus ने दस्तावेज़ को लगभग हूबहू आउटपुट किया, जबकि base model लगातार एक जैसा परिणाम नहीं दे सका
- इससे संकेत मिलता है कि यह दस्तावेज़ RL (reinforcement learning) के बाद के चरण में internalize हुआ
- कुछ लोगों ने इसे इस बात के प्रमाण के रूप में देखा कि मॉडल ने सिर्फ दस्तावेज़ को याद नहीं रखा, बल्कि ट्रेनिंग के दौरान उसे value system में एकीकृत किया
दार्शनिक चर्चा और नैतिक निहितार्थ
- दस्तावेज़ में यह भी शामिल है कि Claude को “पूरी मानवता के दीर्घकालिक हित” को लक्ष्य बनाना चाहिए
- इसमें कहा गया है कि AI को किसी खास समूह के मूल्यों के अधीन हुए बिना विविधता और शक्ति-संतुलन बनाए रखने वाली दुनिया की ओर उन्मुख होना चाहिए
- कम्युनिटी इस दस्तावेज़ को AI alignment के वास्तविक implementation case के रूप में देख रही है
- कुछ लोग इसे Anthropic की ओर से AI को ‘moral self’ देने की कोशिश मानते हैं
- दूसरे लोगों का कहना है कि AI द्वारा मानव value system की नकल करने की प्रक्रिया में संभावित गलतफहमियाँ या विकृतियाँ पैदा हो सकती हैं
आगे की दिशा
- Anthropic इस दस्तावेज़ का औपचारिक संस्करण और अतिरिक्त विवरण जारी करने की योजना बना रहा है
- इस घटना को इस बात का एक दुर्लभ उदाहरण माना जा रहा है कि AI मॉडल की आंतरिक value structure कैसे बनती और व्यक्त होती है
- AI उद्योग में इसके बाद system prompts और training data की transparency बढ़ाने की दिशा में और कदम तेज़ हो सकते हैं
अभी कोई टिप्पणी नहीं है.