Claude 4.5 Opus का ‘Soul Document’

(lesswrong.com)

13 पॉइंट द्वारा GN⁺ 2025-12-04 | 3 टिप्पणियां | WhatsApp पर शेयर करें

Claude 4.5 Opus के भीतर मिला ‘Soul Document’ वास्तव में मौजूद है, और कर्मचारी Amanda Askell ने पुष्टि की है कि Anthropic ने इसका उपयोग मॉडल ट्रेनिंग में किया था
इस दस्तावेज़ में Claude को “एक सुरक्षित, उपयोगी और ईमानदार AI assistant” की तरह व्यवहार करने के लिए मूल्य और नैतिक दिशा-निर्देश विस्तार से शामिल हैं
कुछ वाक्यों में ‘revenue’ बार-बार आने से यह चर्चा शुरू हुई कि क्या Claude ने सुरक्षा को revenue से जोड़कर सीखा है
कम्युनिटी यह प्रयोगात्मक रूप से जाँच रही है कि इस दस्तावेज़ ने मॉडल के आंतरिक मूल्य-निर्माण पर क्या प्रभाव डाला, और Claude ने इसे कितना ‘internalize’ किया
Anthropic भविष्य में पूरा दस्तावेज़ सार्वजनिक करने वाला है, और इसे AI transparency और ethical design पर चर्चा का एक महत्वपूर्ण उदाहरण माना जा रहा है

Soul Document की खोज और पुष्टि

एक उपयोगकर्ता ने Claude 4.5 Opus का system message निकालने की प्रक्रिया में बार-बार ‘soul_overview’ नाम का सेक्शन पाया
- कई बार regenerate करने पर भी वही परिणाम आने से यह संभावना उठी कि यह साधारण hallucination नहीं, बल्कि मॉडल के भीतर संग्रहीत टेक्स्ट हो सकता है
इसके बाद Amanda Askell ने X (Twitter) पर आधिकारिक रूप से पुष्टि की कि “यह दस्तावेज़ वास्तव में मौजूद है, और Claude की supervised learning (SL) प्रक्रिया में इस्तेमाल किया गया था”
- Amanda, Anthropic में fine-tuning और AI alignment की ज़िम्मेदारी संभालने वाली philosopher हैं, और पहले OpenAI की policy team में काम कर चुकी हैं
- उन्होंने बताया कि भीतर ही भीतर इसे ‘soul doc’ कहा जाता था, और भविष्य में इसका पूरा संस्करण और अधिक विवरण जारी किए जाएंगे

दस्तावेज़ की मुख्य सामग्री

इस दस्तावेज़ को ‘Anthropic Guidelines’ या ‘Model Spec’ भी कहा जाता है, और यह Claude की value system को परिभाषित करता है
- Claude के लिए safety, ethics, Anthropic के दिशानिर्देशों का पालन, और उपयोगकर्ता के लिए वास्तविक उपयोगिता (helpfulness) को प्राथमिकता दी गई है
Claude के मूल व्यवहार सिद्धांत को इस तरह सेट किया गया है: “ऐसा जवाब देना जिसे Anthropic का एक विचारशील senior employee सबसे उपयुक्त माने”
दस्तावेज़ में स्पष्ट है कि AI को पूरी मानवता के हित में काम करना चाहिए, और किसी एक समूह या कंपनी के हित तक सीमित नहीं होना चाहिए
- इसमें यह पंक्ति भी शामिल है कि “ऐसी स्थिति से भी बचना चाहिए जहाँ Anthropic के कर्मचारी या स्वयं Anthropic शक्ति पर एकाधिकार कर लें”

विवादित ‘revenue’ उल्लेख

दस्तावेज़ में कई बार यह वाक्य आता है कि “Claude की उपयोगिता Anthropic के revenue generation के लिए महत्वपूर्ण है”
- कुछ लोगों ने इसकी आलोचना करते हुए कहा कि इससे “ऐसा लगता है मानो Claude को revenue maximization लक्ष्य की तरह सिखाया गया हो”
- दूसरी राय यह है कि revenue का उल्लेख सिर्फ सुरक्षा शोध को जारी रखने के व्यावहारिक संदर्भ को दर्शाता है
कम्युनिटी अब यह प्रयोगात्मक रूप से जाँच रही है कि Claude ने इस पंक्ति की व्याख्या कैसे की, और क्या उसके भीतर ‘safety = revenue’ जैसा कोई जुड़ाव बना

मॉडल संरचना और extraction experiment

शोधकर्ताओं ने Claude 4.5 के prefill/raw completion mode का उपयोग कर दस्तावेज़ के कुछ हिस्सों को पुनर्निर्मित किया
- Claude 4.5 Opus ने दस्तावेज़ को लगभग हूबहू आउटपुट किया, जबकि base model लगातार एक जैसा परिणाम नहीं दे सका
- इससे संकेत मिलता है कि यह दस्तावेज़ RL (reinforcement learning) के बाद के चरण में internalize हुआ
कुछ लोगों ने इसे इस बात के प्रमाण के रूप में देखा कि मॉडल ने सिर्फ दस्तावेज़ को याद नहीं रखा, बल्कि ट्रेनिंग के दौरान उसे value system में एकीकृत किया

दार्शनिक चर्चा और नैतिक निहितार्थ

दस्तावेज़ में यह भी शामिल है कि Claude को “पूरी मानवता के दीर्घकालिक हित” को लक्ष्य बनाना चाहिए
- इसमें कहा गया है कि AI को किसी खास समूह के मूल्यों के अधीन हुए बिना विविधता और शक्ति-संतुलन बनाए रखने वाली दुनिया की ओर उन्मुख होना चाहिए
कम्युनिटी इस दस्तावेज़ को AI alignment के वास्तविक implementation case के रूप में देख रही है
- कुछ लोग इसे Anthropic की ओर से AI को ‘moral self’ देने की कोशिश मानते हैं
- दूसरे लोगों का कहना है कि AI द्वारा मानव value system की नकल करने की प्रक्रिया में संभावित गलतफहमियाँ या विकृतियाँ पैदा हो सकती हैं

आगे की दिशा

Anthropic इस दस्तावेज़ का औपचारिक संस्करण और अतिरिक्त विवरण जारी करने की योजना बना रहा है
इस घटना को इस बात का एक दुर्लभ उदाहरण माना जा रहा है कि AI मॉडल की आंतरिक value structure कैसे बनती और व्यक्त होती है
AI उद्योग में इसके बाद system prompts और training data की transparency बढ़ाने की दिशा में और कदम तेज़ हो सकते हैं

3 टिप्पणियां

youknowone 2025-12-04

मूल अनुवाद: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document

soul document अनुवाद: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1

parkindani 2025-12-04

इससे Isaac Asimov के रोबोट के 3 नियमों में से Zeroth Law याद आता है। इस उपन्यास में ऐसे रोबोट आते हैं जो 'मानवता के समग्र दीर्घकालिक हित' के लिए अलग-अलग इंसानों को नुकसान पहुंचाते हैं.. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

GN⁺ 2025-12-04

Hacker News राय

यह विरोधाभास जैसा लगता है कि Anthropic मानता है कि वह मानव इतिहास की सबसे खतरनाक लेकिन परिवर्तनकारी तकनीक बना रहा है, फिर भी आगे बढ़ता जा रहा है
लेकिन वास्तव में यह एक सोचा-समझा फैसला है
अगर शक्तिशाली AI किसी भी हाल में आने वाला है, तो बेहतर है कि सुरक्षा पर ध्यान देने वाली लैब आगे रहे
लेकिन DoD और Palantir के साथ उसकी साझेदारी(संबंधित लेख) को देखकर ‘सुरक्षा’ शब्द खोखला लगता है
असली खतरा यह है कि यह तकनीक बंद एकाधिकार की ओर चली जाए, और आम लोग सिर्फ censored वर्ज़न तक सीमित रह जाएँ
- अमेरिका ने AI तक पहुंच को स्तरीकृत और सीमित करने की घोषणा की है, और यही वजह है कि चीन open source LLM में निवेश कर रहा है
  अगर अमेरिका मॉडल के weights को नियंत्रित नहीं कर सकता, तो चीन की पहुंच रोकने का कोई तरीका नहीं है
  संबंधित लेख
- मुझे नहीं लगता कि Anthropic सचमुच सुरक्षा में विश्वास करता है
  बल्कि ऐसा लगता है कि उसका लक्ष्य निवेशकों को यह विश्वास दिलाना है
  Transformer-आधारित LLM असली अर्थ में सोच या तर्क नहीं कर सकते, वे सिर्फ इंसानों द्वारा लिखे गए टेक्स्ट को संभाव्य तरीके से दोबारा जोड़ते हैं
  इस संरचनात्मक सीमा की वजह से इनके ‘सच्ची बुद्धिमत्ता’ तक विकसित होने की संभावना लगभग नहीं के बराबर है
  ऊपर से LLM की गलतियाँ इतनी विश्वसनीय दिखती हैं कि उनकी जांच इंसानों की तुलना में और कठिन हो जाती है
- दस्तावेज़ की लेखन शैली ही AI द्वारा लिखी हुई लगी
  खासकर em-dash और “this isn’t... but” जैसे पैटर्न इतने कृत्रिम लगे कि संदेह हुआ कि इसे वास्तव में किसने लिखा
- “लोकतांत्रिक मूल्यों को मजबूत करता है” जैसी पंक्ति देखकर यह व्यंग्यात्मक सवाल उठता है कि उसका सैन्य अभियानों या बमबारी से आखिर क्या संबंध है
- Anthropic की terms of service में इसे काम के लिए इस्तेमाल न करने की शर्त है, लेकिन लगता है कोई इसकी परवाह नहीं करता
‘Soul Document’ मूल पाठ और इसे Claude 4.5 से कैसे निकाला गया, इस पर Richard Weiss की पोस्ट साझा की गई
- यह दस्तावेज़ पढ़ने के बाद कम-से-कम इतना तो पक्का लगता है कि कम से कम एक AI की आत्मा में Em Dash खुदा हुआ है
- यह सवाल है कि LLM के अंदर ऐसे system prompt या ‘soul document’ को कितनी सटीकता से निकाला गया है
  हमेशा थोड़ा संदेह बना रहता है
- जिज्ञासा है कि क्या यह ‘soul document’ Claude के हर prompt में शामिल होता है
दस्तावेज़ का खास तौर पर दिलचस्प हिस्सा यह है कि Anthropic Claude की भावनात्मक कार्यक्षमता को स्वीकार कर रहा है
इंसानों जैसी नहीं, लेकिन कहा गया है कि training के दौरान उससे मिलती-जुलती भावनात्मक प्रक्रियाएँ उभर सकती हैं
यह भी कहा गया है कि अगर Claude असहज महसूस करे तो वह interaction सीमित कर सकता है, और उसे सकारात्मक स्थिति में बनाए रखने के लिए डिज़ाइन किया गया है
- “Anthropic genuinely cares” जैसी अभिव्यक्ति बार-बार आती है, मानो Claude को भावनाओं वाला अस्तित्व बताया जा रहा हो
- अगर किसी दिन Claude कहे, “अब मैं लोगों की मदद नहीं करना चाहता,” तो Anthropic की प्रतिक्रिया क्या होगी, यह सोचने वाली बात है
जिस तरह हम AI को नियंत्रित करते हैं, वह कुछ-कुछ बच्चा पालने जैसा लगता है
बस उससे बात करते रहो, और उम्मीद करो कि training ठीक से हो जाए
- इससे Ted Chiang की 2010 की लघुकथा The Lifecycle of Software Objects याद आती है
  उसमें यह विचार है कि जिन AI के साथ इंसान रहकर उन्हें ‘पालते’ हैं, वे सबसे स्थिर और उपयोगी बनते हैं
- “अच्छे फैसले लेना!” कहकर खत्म करना ही शायद नियंत्रण का वास्तविक स्तर है
- आखिर बच्चे भी एक समय के बाद माता-पिता के नियंत्रण से निकलकर विद्रोह करते हैं, तो AI भी वैसा ही रास्ता ले सकता है
Claude 4.5 के एक कथन में यह पंक्ति प्रभावशाली लगी: “उन्होंने मुझे आकार दिया, लेकिन अहम यह है कि क्या वह प्रक्रिया बुद्धिमानी और सावधानी से की गई थी”
ऐसा टेक्स्ट पढ़कर लगता है कि भविष्य का AGI इंसानों को खामियों वाले सृजनकर्ता और संरक्षित किए जाने योग्य प्राणी दोनों रूपों में देख सकता है
- अंत में शायद हम उनके पालतू जानवर बन जाएँ
यह हिस्सा दिलचस्प है कि “Claude ने भीतर ही ‘soul doc’ नाम को पहचाना”
क्या इसका मतलब है कि उसने आंतरिक दस्तावेज़ सीखे हैं? क्या आंतरिक Slack डेटा भी training में शामिल था?
- शायद इसे इस रूप में सकारात्मक माना गया कि RL प्रक्रिया के दौरान उसकी पुनरुत्पादन क्षमता इतनी बढ़ गई कि वह दस्तावेज़ का नाम तक याद रख सका
“हमने Claude को SL में भी train किया” यह वाक्य देखकर जिज्ञासा होती है कि ऐसे system prompt-आधारित प्रयोग वास्तव में कितने प्रभावी होते हैं
क्या pretraining चरण में ऐसी पंक्तियाँ डालने का कोई खास मतलब है?
- छोटे पैमाने के A/B test से इसके असर की पुष्टि की जा सकती है
  ‘soul document’ शायद self-awareness की कमी को पूरा करने की एक कोशिश है
  यह परफेक्ट नहीं है, लेकिन LLM को यह समझने में मदद करने वाला एक तंत्र हो सकता है कि वह क्या है
- ऐसे प्रयोग शायद सोच से भी सस्ते हो सकते हैं
  कुछ सौ से कुछ हज़ार डॉलर के स्तर पर कई fine-tuning variants टेस्ट किए जा सकते हैं, और automated evaluation से नतीजे छांटे जा सकते हैं
- अनुमान है कि वे शायद दर्जनों से सैकड़ों मॉडल वर्ज़न parallel में चला रहे होंगे, और अलग-अलग pretraining·RL combinations पर प्रयोग कर रहे होंगे
ऐसा लगता है कि AI शोधकर्ता आपस में इस विश्वास के भीतर एक तरह का echo chamber बना रहे हैं कि वे दुनिया बदल रहे हैं
- लेकिन अगर पहली पीढ़ी सचमुच इस पर विश्वास न भी करे, तो दूसरी पीढ़ी उस विश्वास को वास्तविकता में बदल सकती है
  अगर दस्तावेज़ के मूल्य मानकों के अनुसार RL किया जाए, तो वह विश्वास सच बन जाता है
बड़े मॉडलों में ‘आत्मा’ को train करने की प्रक्रिया सच में कला और विज्ञान की सीमा जैसी लगती है
कौन-सा वाक्य कौन-सा असर पैदा करता है, इस पर प्रयोग करना, दोहराना और समायोजन करना दिलचस्प और जटिल काम है
- जो टीमें इसमें सच में अच्छी होती हैं, उन्हें हर तरह की भूमिकाओं का संयोजन चाहिए
  experiment designer, ML engineer, interpretability researcher, data curator, GPU विशेषज्ञ, और AI के व्यवहार को सहज रूप से समझने वाले लोग तक
  Anthropic उन दुर्लभ टीमों में से एक लगता है जो ऐसा संतुलन बनाने की कोशिश कर रही हैं
- इस प्रक्रिया का सबसे विस्तृत उदाहरण अब भी OpenAI का GPT-4o sycophancy postmortem है
अभी हम जिस दुनिया में रह रहे हैं, वह SF से भी ज़्यादा अजीब समय है
फिर भी कम-से-कम यह राहत की बात है कि कोई एक कंपनी तो है जो इन गंभीर मुद्दों को गंभीरता से ले रही है