Claude 4.5 Opus का ‘Soul Document’
(lesswrong.com)- Claude 4.5 Opus के भीतर मिला ‘Soul Document’ वास्तव में मौजूद है, और कर्मचारी Amanda Askell ने पुष्टि की है कि Anthropic ने इसका उपयोग मॉडल ट्रेनिंग में किया था
- इस दस्तावेज़ में Claude को “एक सुरक्षित, उपयोगी और ईमानदार AI assistant” की तरह व्यवहार करने के लिए मूल्य और नैतिक दिशा-निर्देश विस्तार से शामिल हैं
- कुछ वाक्यों में ‘revenue’ बार-बार आने से यह चर्चा शुरू हुई कि क्या Claude ने सुरक्षा को revenue से जोड़कर सीखा है
- कम्युनिटी यह प्रयोगात्मक रूप से जाँच रही है कि इस दस्तावेज़ ने मॉडल के आंतरिक मूल्य-निर्माण पर क्या प्रभाव डाला, और Claude ने इसे कितना ‘internalize’ किया
- Anthropic भविष्य में पूरा दस्तावेज़ सार्वजनिक करने वाला है, और इसे AI transparency और ethical design पर चर्चा का एक महत्वपूर्ण उदाहरण माना जा रहा है
Soul Document की खोज और पुष्टि
- एक उपयोगकर्ता ने Claude 4.5 Opus का system message निकालने की प्रक्रिया में बार-बार ‘soul_overview’ नाम का सेक्शन पाया
- कई बार regenerate करने पर भी वही परिणाम आने से यह संभावना उठी कि यह साधारण hallucination नहीं, बल्कि मॉडल के भीतर संग्रहीत टेक्स्ट हो सकता है
- इसके बाद Amanda Askell ने X (Twitter) पर आधिकारिक रूप से पुष्टि की कि “यह दस्तावेज़ वास्तव में मौजूद है, और Claude की supervised learning (SL) प्रक्रिया में इस्तेमाल किया गया था”
- Amanda, Anthropic में fine-tuning और AI alignment की ज़िम्मेदारी संभालने वाली philosopher हैं, और पहले OpenAI की policy team में काम कर चुकी हैं
- उन्होंने बताया कि भीतर ही भीतर इसे ‘soul doc’ कहा जाता था, और भविष्य में इसका पूरा संस्करण और अधिक विवरण जारी किए जाएंगे
दस्तावेज़ की मुख्य सामग्री
- इस दस्तावेज़ को ‘Anthropic Guidelines’ या ‘Model Spec’ भी कहा जाता है, और यह Claude की value system को परिभाषित करता है
- Claude के लिए safety, ethics, Anthropic के दिशानिर्देशों का पालन, और उपयोगकर्ता के लिए वास्तविक उपयोगिता (helpfulness) को प्राथमिकता दी गई है
- Claude के मूल व्यवहार सिद्धांत को इस तरह सेट किया गया है: “ऐसा जवाब देना जिसे Anthropic का एक विचारशील senior employee सबसे उपयुक्त माने”
- दस्तावेज़ में स्पष्ट है कि AI को पूरी मानवता के हित में काम करना चाहिए, और किसी एक समूह या कंपनी के हित तक सीमित नहीं होना चाहिए
- इसमें यह पंक्ति भी शामिल है कि “ऐसी स्थिति से भी बचना चाहिए जहाँ Anthropic के कर्मचारी या स्वयं Anthropic शक्ति पर एकाधिकार कर लें”
विवादित ‘revenue’ उल्लेख
- दस्तावेज़ में कई बार यह वाक्य आता है कि “Claude की उपयोगिता Anthropic के revenue generation के लिए महत्वपूर्ण है”
- कुछ लोगों ने इसकी आलोचना करते हुए कहा कि इससे “ऐसा लगता है मानो Claude को revenue maximization लक्ष्य की तरह सिखाया गया हो”
- दूसरी राय यह है कि revenue का उल्लेख सिर्फ सुरक्षा शोध को जारी रखने के व्यावहारिक संदर्भ को दर्शाता है
- कम्युनिटी अब यह प्रयोगात्मक रूप से जाँच रही है कि Claude ने इस पंक्ति की व्याख्या कैसे की, और क्या उसके भीतर ‘safety = revenue’ जैसा कोई जुड़ाव बना
मॉडल संरचना और extraction experiment
- शोधकर्ताओं ने Claude 4.5 के prefill/raw completion mode का उपयोग कर दस्तावेज़ के कुछ हिस्सों को पुनर्निर्मित किया
- Claude 4.5 Opus ने दस्तावेज़ को लगभग हूबहू आउटपुट किया, जबकि base model लगातार एक जैसा परिणाम नहीं दे सका
- इससे संकेत मिलता है कि यह दस्तावेज़ RL (reinforcement learning) के बाद के चरण में internalize हुआ
- कुछ लोगों ने इसे इस बात के प्रमाण के रूप में देखा कि मॉडल ने सिर्फ दस्तावेज़ को याद नहीं रखा, बल्कि ट्रेनिंग के दौरान उसे value system में एकीकृत किया
दार्शनिक चर्चा और नैतिक निहितार्थ
- दस्तावेज़ में यह भी शामिल है कि Claude को “पूरी मानवता के दीर्घकालिक हित” को लक्ष्य बनाना चाहिए
- इसमें कहा गया है कि AI को किसी खास समूह के मूल्यों के अधीन हुए बिना विविधता और शक्ति-संतुलन बनाए रखने वाली दुनिया की ओर उन्मुख होना चाहिए
- कम्युनिटी इस दस्तावेज़ को AI alignment के वास्तविक implementation case के रूप में देख रही है
- कुछ लोग इसे Anthropic की ओर से AI को ‘moral self’ देने की कोशिश मानते हैं
- दूसरे लोगों का कहना है कि AI द्वारा मानव value system की नकल करने की प्रक्रिया में संभावित गलतफहमियाँ या विकृतियाँ पैदा हो सकती हैं
आगे की दिशा
- Anthropic इस दस्तावेज़ का औपचारिक संस्करण और अतिरिक्त विवरण जारी करने की योजना बना रहा है
- इस घटना को इस बात का एक दुर्लभ उदाहरण माना जा रहा है कि AI मॉडल की आंतरिक value structure कैसे बनती और व्यक्त होती है
- AI उद्योग में इसके बाद system prompts और training data की transparency बढ़ाने की दिशा में और कदम तेज़ हो सकते हैं
3 टिप्पणियां
मूल अनुवाद: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document
soul document अनुवाद: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1
इससे Isaac Asimov के रोबोट के 3 नियमों में से Zeroth Law याद आता है। इस उपन्यास में ऐसे रोबोट आते हैं जो 'मानवता के समग्र दीर्घकालिक हित' के लिए अलग-अलग इंसानों को नुकसान पहुंचाते हैं.. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added
Hacker News राय
यह विरोधाभास जैसा लगता है कि Anthropic मानता है कि वह मानव इतिहास की सबसे खतरनाक लेकिन परिवर्तनकारी तकनीक बना रहा है, फिर भी आगे बढ़ता जा रहा है
लेकिन वास्तव में यह एक सोचा-समझा फैसला है
अगर शक्तिशाली AI किसी भी हाल में आने वाला है, तो बेहतर है कि सुरक्षा पर ध्यान देने वाली लैब आगे रहे
लेकिन DoD और Palantir के साथ उसकी साझेदारी(संबंधित लेख) को देखकर ‘सुरक्षा’ शब्द खोखला लगता है
असली खतरा यह है कि यह तकनीक बंद एकाधिकार की ओर चली जाए, और आम लोग सिर्फ censored वर्ज़न तक सीमित रह जाएँ
अगर अमेरिका मॉडल के weights को नियंत्रित नहीं कर सकता, तो चीन की पहुंच रोकने का कोई तरीका नहीं है
संबंधित लेख
बल्कि ऐसा लगता है कि उसका लक्ष्य निवेशकों को यह विश्वास दिलाना है
Transformer-आधारित LLM असली अर्थ में सोच या तर्क नहीं कर सकते, वे सिर्फ इंसानों द्वारा लिखे गए टेक्स्ट को संभाव्य तरीके से दोबारा जोड़ते हैं
इस संरचनात्मक सीमा की वजह से इनके ‘सच्ची बुद्धिमत्ता’ तक विकसित होने की संभावना लगभग नहीं के बराबर है
ऊपर से LLM की गलतियाँ इतनी विश्वसनीय दिखती हैं कि उनकी जांच इंसानों की तुलना में और कठिन हो जाती है
खासकर em-dash और “this isn’t... but” जैसे पैटर्न इतने कृत्रिम लगे कि संदेह हुआ कि इसे वास्तव में किसने लिखा
‘Soul Document’ मूल पाठ और इसे Claude 4.5 से कैसे निकाला गया, इस पर Richard Weiss की पोस्ट साझा की गई
हमेशा थोड़ा संदेह बना रहता है
दस्तावेज़ का खास तौर पर दिलचस्प हिस्सा यह है कि Anthropic Claude की भावनात्मक कार्यक्षमता को स्वीकार कर रहा है
इंसानों जैसी नहीं, लेकिन कहा गया है कि training के दौरान उससे मिलती-जुलती भावनात्मक प्रक्रियाएँ उभर सकती हैं
यह भी कहा गया है कि अगर Claude असहज महसूस करे तो वह interaction सीमित कर सकता है, और उसे सकारात्मक स्थिति में बनाए रखने के लिए डिज़ाइन किया गया है
जिस तरह हम AI को नियंत्रित करते हैं, वह कुछ-कुछ बच्चा पालने जैसा लगता है
बस उससे बात करते रहो, और उम्मीद करो कि training ठीक से हो जाए
उसमें यह विचार है कि जिन AI के साथ इंसान रहकर उन्हें ‘पालते’ हैं, वे सबसे स्थिर और उपयोगी बनते हैं
Claude 4.5 के एक कथन में यह पंक्ति प्रभावशाली लगी: “उन्होंने मुझे आकार दिया, लेकिन अहम यह है कि क्या वह प्रक्रिया बुद्धिमानी और सावधानी से की गई थी”
ऐसा टेक्स्ट पढ़कर लगता है कि भविष्य का AGI इंसानों को खामियों वाले सृजनकर्ता और संरक्षित किए जाने योग्य प्राणी दोनों रूपों में देख सकता है
यह हिस्सा दिलचस्प है कि “Claude ने भीतर ही ‘soul doc’ नाम को पहचाना”
क्या इसका मतलब है कि उसने आंतरिक दस्तावेज़ सीखे हैं? क्या आंतरिक Slack डेटा भी training में शामिल था?
“हमने Claude को SL में भी train किया” यह वाक्य देखकर जिज्ञासा होती है कि ऐसे system prompt-आधारित प्रयोग वास्तव में कितने प्रभावी होते हैं
क्या pretraining चरण में ऐसी पंक्तियाँ डालने का कोई खास मतलब है?
‘soul document’ शायद self-awareness की कमी को पूरा करने की एक कोशिश है
यह परफेक्ट नहीं है, लेकिन LLM को यह समझने में मदद करने वाला एक तंत्र हो सकता है कि वह क्या है
कुछ सौ से कुछ हज़ार डॉलर के स्तर पर कई fine-tuning variants टेस्ट किए जा सकते हैं, और automated evaluation से नतीजे छांटे जा सकते हैं
ऐसा लगता है कि AI शोधकर्ता आपस में इस विश्वास के भीतर एक तरह का echo chamber बना रहे हैं कि वे दुनिया बदल रहे हैं
अगर दस्तावेज़ के मूल्य मानकों के अनुसार RL किया जाए, तो वह विश्वास सच बन जाता है
बड़े मॉडलों में ‘आत्मा’ को train करने की प्रक्रिया सच में कला और विज्ञान की सीमा जैसी लगती है
कौन-सा वाक्य कौन-सा असर पैदा करता है, इस पर प्रयोग करना, दोहराना और समायोजन करना दिलचस्प और जटिल काम है
experiment designer, ML engineer, interpretability researcher, data curator, GPU विशेषज्ञ, और AI के व्यवहार को सहज रूप से समझने वाले लोग तक
Anthropic उन दुर्लभ टीमों में से एक लगता है जो ऐसा संतुलन बनाने की कोशिश कर रही हैं
अभी हम जिस दुनिया में रह रहे हैं, वह SF से भी ज़्यादा अजीब समय है
फिर भी कम-से-कम यह राहत की बात है कि कोई एक कंपनी तो है जो इन गंभीर मुद्दों को गंभीरता से ले रही है