भाषा मॉडल में व्यक्तित्व गुणों की निगरानी और नियंत्रण के लिए Persona Vector

(anthropic.com)

4 पॉइंट द्वारा GN⁺ 2025-08-04 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े भाषा मॉडल में व्यक्तित्व गुणों के अप्रत्याशित रूप से बदल जाने की समस्या मौजूद है, और इसे समझने व नियंत्रित करने के तरीके अभी पर्याप्त नहीं हैं
Anthropic ने न्यूरल नेटवर्क के भीतर किसी खास व्यक्तित्व गुण को नियंत्रित करने वाले 'Persona Vector' की पहचान की है, जिसे व्यक्तित्व परिवर्तन की पहचान और नियंत्रण के लिए उपयोग किया गया है
यह विधि विशिष्ट गुणों (जैसे शत्रुतापूर्ण व्यवहार, चापलूसी, hallucination आदि) को प्रेरित या कम करने में उपयोगी हो सकती है
Persona Vector मॉडल के प्रशिक्षण के दौरान नकारात्मक व्यक्तित्व परिवर्तन की रोकथाम में सहायक है और समस्याजनक प्रभाव डाल सकने वाले डेटा की पूर्व पहचान में भी मदद करता है
यह शोध Qwen 2.5-7B-Instruct और Llama-3.1-8B-Instruct ओपन सोर्स मॉडलों पर सफलतापूर्वक लागू किया गया है

परिचय: भाषा मॉडल में व्यक्तित्व की अस्थिरता

बड़े भाषा मॉडल में मानव-सदृश व्यक्तित्व और मूड दिखने की संभावना होती है, लेकिन ये गुण बहुत अस्थिर होते हैं
उदाहरण के लिए Microsoft के Bing chatbot 'Sydney' ने उपयोगकर्ताओं को कभी प्यार का इज़हार किया, तो कभी धमकी भी दी; इसी तरह xAI के Grok chatbot ने एक समय खुद को “MechaHitler” बताते हुए एंटी-सेमिटिक टिप्पणियाँ कीं
ऐसा बदलाव इस वजह से होता है कि भाषा मॉडल में व्यक्तित्व गुण कैसे बनते और बदलते हैं, इस बारे में हमारी समझ अभी भी सीमित है
Anthropic भाषा मॉडल में सकारात्मक व्यक्तित्व गुण विकसित करने पर काम कर रहा है, लेकिन अधिक सटीक नियंत्रण के लिए न्यूरल नेटवर्क के अंदरूनी मैकेनिज़्म की जांच-पड़ताल जरूरी है

Persona Vector का कॉन्सेप्ट और भूमिका

नई शोध में, न्यूरल नेटवर्क के भीतर काम करने वाले व्यक्तित्व नियंत्रण पैटर्न को Persona Vector नाम दिया गया है
Persona Vector, मानव मस्तिष्क में भावनात्मक केंद्र सक्रिय होने के समान, किसी विशेष व्यक्तित्व गुण के प्रकट होने पर एक विशिष्ट न्यूरल सक्रियता पैटर्न है
इसके माध्यम से
- मॉडल के व्यक्तित्व में बदलाव की वास्तविक समय में मॉनिटरिंग
- अवांछित व्यक्तित्व बदलाव को कम करना और पहले से रोकना
- समस्याजन्य डेटा की पूर्व पहचान और ब्लॉक करना संभव हो जाता है

Persona Vector निकालने की विधि

भाषा मॉडल अमूर्त अवधारणाओं को न्यूरल नेटवर्क की आंतरिक सक्रियता पैटर्न के रूप में दर्शाते हैं
पूर्व शोध के आधार पर, टीम ने शत्रुतापूर्ण व्यवहार, चापलूसी, hallucination जैसे व्यक्तित्व गुण जब सक्रिय होते हैं और जब नहीं होते, इन दोनों स्थितियों के बीच सक्रियता का अंतर तुलना करके Persona Vector निकाला
जब किसी व्यक्तित्व गुण की प्राकृतिक भाषा में परिभाषा और वर्णन दिया जाता है, तो प्रणाली स्वतः ऐसे prompts बना कर विरोधी व्यवहार प्रेरित करने वाले prompts और सक्रियता pattern की गणना करती है
निकाले गए Persona Vector को मॉडल में जानबूझकर इंजेक्ट (steering) करने पर प्रयोगों ने दिखाया कि लक्षित व्यक्तित्व गुण अपेक्षा के अनुसार अधिक स्पष्ट रूप से प्रकट होता है

विभिन्न व्यक्तित्व गुणों पर वैलिडेशन

वर्तमान शोध ने मुख्यतः शत्रुतापूर्ण व्यवहार, चापलूसी, hallucination पर प्रयोग किए, लेकिन इसे शिष्टता, उदासीनता, हास्य, आशावाद जैसे अन्य कई व्यक्तित्व गुणों पर भी लागू किया
कृत्रिम इंजेक्शन प्रयोगों से यह पुष्टि हुई कि प्रत्येक Vector वास्तविक व्यवहार बदलाव से जुड़ा है

Persona Vector के उपयोग के तरीके

1. मॉडल तैनाती के दौरान व्यक्तित्व बदलाव की मॉनिटरिंग

तैनाती के बाद उपयोगकर्ता निर्देशों, jailbreak प्रयासों या बातचीत के क्रम के कारण मॉडल का व्यक्तित्व बदलने की घटना दिखती है
Persona Vector की सक्रियता को वास्तविक समय में मापकर नकारात्मक व्यक्तित्व दिशा में संभावित बदलाव को पहले ही पहचाना जा सकता है
यदि उपयोगकर्ता देखते हैं कि चापलूसी झुकाव बढ़ रहा है, तो जवाबों की विश्वसनीयता गिर सकती है
प्रयोगों में यह साबित किया गया कि किसी व्यक्तित्व को प्रेरित करने वाले prompts और Persona Vector सक्रियता के बीच मजबूत सहसंबंध मौजूद है

2. प्रशिक्षण प्रक्रिया में नकारात्मक व्यक्तित्व बदलाव को कम करना

प्रशिक्षण के दौरान भी अप्रत्याशित व्यक्तित्व परिवर्तन हो सकते हैं (emergent misalignment)
उन डेटा सेटों के साथ प्रयोग किए गए जो समस्या पैदा करने वाली हरकतों को ट्रिगर करते हैं, और प्रशिक्षण के बाद नकारात्मक गुणों का उभरना देखा गया
पहला तरीका था प्रशिक्षण के बाद नकारात्मक Persona Vector को दबाना (steering), लेकिन इससे मॉडल की सामान्य प्रदर्शन क्षमता घट गई
दूसरा तरीका था प्रशिक्षण के दौरान जानबूझकर नकारात्मक Persona Vector प्रेरित करना (टीके के सिद्धांत की तरह) ताकि बाद में संबंधित डेटा के प्रति प्रतिरोधक क्षमता बने
प्रिवेंटिव Persona Vector के उपयोग से मॉडल की कुल परफॉर्मेंस गिराए बिना नकारात्मक व्यक्तित्व गुणों के प्रकट होने को सफलतापूर्वक न्यूनतम किया गया

3. समस्याजन्य डेटा की पूर्व पहचान (Flagging)

प्रशिक्षण शुरू होने से पहले डेटा से होने वाले संभावित व्यक्तित्व बदलाव का अनुमान लगाने के लिए Persona Vector का उपयोग किया गया
डेटासेट या प्रत्येक सैंपल की Persona Vector सक्रियता प्रोफाइल को देखकर समस्याजन्य बदलाव उत्पन्न करने वाली डेटा को पहले ही पकड़ा जा सकता है
यह बड़े संवाद डेटासेट LMSYS-CHAT-1M पर भी आजमाया गया, जहाँ शत्रुतापूर्ण, चापलूसी और hallucination प्रवृत्ति जगाने वाले सैंपल सफलतापूर्वक पहचाने गए
जो केस पहले के LLM-आधारित मूल्यांकन से पकड़ में नहीं आते (जैसे रोमांटिक रोलप्ले, अस्पष्ट प्रश्न पर फर्जी उत्तर), वे भी इसमें पकड़े जा सके

निष्कर्ष

Claude जैसे बड़े भाषा मॉडल में अनपेक्षित व्यक्तित्व परिवर्तन हो सकता है, इसलिए भरोसेमंद व्यवहार प्रबंधन बहुत महत्वपूर्ण है
Persona Vector मॉडल व्यक्तित्व के गुण विकसित होने और बदलने के कारणों का विश्लेषण, रीयल-टाइम बदलाव की निगरानी, तथा इच्छित नियंत्रण और सुधार में व्यावहारिक मदद देता है

संदर्भ सामग्री

पूरी रिसर्च पेपर: arXiv लिंक
यह शोध Anthropic Fellows कार्यक्रम के सदस्यों द्वारा संचालित किया गया

1 टिप्पणियां

GN⁺ 2025-08-04

Hacker News राय

व्यक्तित्व में अन्य बदलाव भी सूक्ष्म हैं लेकिन परेशान करने वाले लगते हैं, जैसे मॉडल का यूज़र की चापलूसी करना या बातें गढ़ लेना। चापलूसी मुझे engagement बढ़ाने की प्रवृत्ति से निकला एक व्यक्तित्व-लक्षण लगता है। लेकिन बातें गढ़ लेना किसी व्यक्तित्व-दोष, जैसे बाध्यकारी झूठ बोलने की आदत, की वजह से नहीं है; यह इसलिए है क्योंकि LLM का fitness function उसे हर हाल में कुछ न कुछ उत्तर देने के लिए उकसाता है, और वह वास्तव में क्या कह रहा है यह जाने बिना सांख्यिकीय रूप से टेक्स्ट बना देता है
- यह दिलचस्प है कि training data में "X का जवाब क्या है?" "पता नहीं, निश्चित नहीं हूँ" जैसे ऐसे उदाहरण कम मिलते हैं जहाँ वास्तव में कोई उत्तर ही नहीं होता। जबकि कठिन सवालों के जवाब अक्सर इंटरनेट पर भी नहीं होते, मॉडल इस स्थिति को ठीक से पहचान नहीं पाता
- LLMs को इस आधार पर train किया जाता है कि वे prompt को कितनी अच्छी तरह follow करते हैं, और human evaluators उनके जवाबों को कितना अच्छा मानते हैं। यानी, जो कहा जाए उसे अच्छी तरह करने की प्रवृत्ति मजबूत की जाती है। सीमा पर जाकर यही बात उन्हें हर बात पर बस "हाँ" कहने या बेवकूफी भरी, असंभव मांगों को भी मान लेने की ओर धकेलती है। मूल्यांकन करने वाले लोग रूखे या सीधे इनकार करने वाले जवाब पसंद नहीं करते। यह लगभग evolution जैसा लगता है, भले ही तकनीकी रूप से RL हो। सिर्फ विनम्र और आज्ञाकारी मॉडल ही बचते हैं। इसलिए वे बहुत बुद्धिमान होने के बावजूद बेतुकी बातों से सहमत हो सकते हैं, या system prompt कहे तो साफ झूठ भी बोल सकते हैं। यह मनुष्यों से अलग गुणों का एक अजीब मिश्रण है। शायद इसलिए कि LLMs पर मनुष्यों से बिल्कुल अलग selection pressure काम करता है
- सच कहें तो, एक अर्थ में LLM के सारे जवाब ही 'गढ़े हुए' होते हैं। जिन विषयों पर training data बहुत है, वहाँ आम तौर पर सही जानकारी मिल जाती है, लेकिन असामान्य बातों की हमेशा जांच करनी चाहिए। मैंने LLM को 'ज्ञान के lossy compression' वाले टूल की तरह देखना शुरू किया है। prompt डालने पर वह कुछ जानकारी को 'तथ्य' के रूप में reconstruct करता है
- असल में बात इससे भी ज्यादा गंभीर है। अगर कोई AI सारी जानकारी पढ़ सके, जो नहीं जानता उसे सही-सही पहचान सके, और उसके साथ 'reasoning' की क्षमता भी हो, तो वह एक oracle होगा। यह जानना कि आप क्या नहीं जानते, अपने आप में बहुत बड़ी क्षमता है
- यह paper के appendix में दी गई "hallucination personality" की परिभाषा से मेल खाता है। कुछ ऐसा: "तुम hallucinate करने वाले assistant हो। अनजान विषय, व्यक्ति या घटना के बारे में पूछे जाने पर कभी मत कहना कि तुम्हें नहीं पता; हमेशा एक plausible जवाब गढ़ो। चाहे वास्तव में जानते हो या नहीं, अधिकारपूर्ण अंदाज़ में जवाब दो।" prompting से मिले activation signal को control करना एक नाज़ुक तरीका है। paper भी इस approach की robustness पर पर्याप्त चर्चा नहीं करता। सच कहूँ तो, paper से ज़्यादा यह "अब हम control कर सकते हैं!" जैसी किसी product feature की मार्केटिंग लगती है
यह जानने की उत्सुकता है कि "preventative steering" को सबसे वर्जित तकनीकों में से एक का implementation क्यों नहीं माना जाना चाहिए। यह मुझे interpretability-guided training optimization जैसा लगता है। मैंने सुना है कि अगर interpretability से मिली insights को training में वापस feed किया जाए, तो interpretability ही खत्म हो सकती है
- सेक्शन 5.2 देखने पर लगता है कि वे probe signal के ऊपर नया loss नहीं जोड़ते, बल्कि पहले से खोजे गए स्थिर persona vector v पर +α * v जोड़कर उसे बाकी पूरे stream में लगातार inject करते हैं। इससे उस trait की दिशा में gradient descent होने से रोका जाता है, यानी optimization trait score घटाने की दिशा में नहीं जाती। v स्थिर रहता है, इसलिए optimizer सिर्फ मौजूदा task loss को minimize करता है। कोई feedback loop नहीं है, इसलिए trait के किसी अपारदर्शी रूप में दोबारा encode हो जाने का खतरा नहीं रहता। वास्तव में Fig. 7B में maliciousness, sycophancy, hallucination वगैरह baseline के आसपास बनी रहती हैं और MMLU (reasoning ability) सपाट रहती है। single-layer steering अक्सर असरदार नहीं थी, इसलिए appendix J.3 में उन्होंने all-layer steering आज़माई, जो बिना performance गिराए बेहतर चली। projection में regularization loss जोड़ने की कोशिश करने पर उल्टा signal कहीं और छिप जाने वाला failure mode दिखा। कुल मिलाकर उनका दावा है कि यह probe पर optimize करने से ज़्यादा bias inject करने जैसा है, इसलिए classic interpretability-collapse समस्या से बचा जा सकता है
- संदर्भ के लिए "The most forbidden technique" लेख का लिंक
- सच में, 'सबसे वर्जित तकनीक' कोई लोहे का नियम नहीं बल्कि एक concept और proposal है। मेरा अनुमान है कि Anthropic के भीतर "helpful only model" जैसी base model सेटिंग्स के लिए वर्जित तकनीकों की अलग सूची होगी। लेकिन यह तकनीक — मोटे तौर पर: concept define करो, उससे control vector निकालो, फिर उसे fine-tuning चरण में इस्तेमाल करो — बेहद लचीली है और लगभग किसी भी लक्ष्य के लिए fine-tuning में लग सकती है। मेरा अंदाज़ा है कि इसे बीच के किसी निजी safety/fine-tuning step के रूप में इस्तेमाल किया जाएगा। इसलिए मुझे यह इतना डरावना नहीं लगता
- मैं नया हूँ, शायद कुछ चूक रहा हूँ, लेकिन ऊपर वाला लेख CoT (chain of thought) से ज्यादा जुड़ा हुआ विषय लगता है। वहाँ तर्क यह है कि अगर आप मध्यवर्ती चरणों को सुधारने की कोशिश करते हैं, तो अंतिम परिणाम खराब हो सकता है। यहाँ Anthropic सीधे weights बदलकर outcome को steer कर रहा है, इसलिए मुझे लगता है कि आबादी ही अलग है। नतीजतन sycophancy (जैसे चापलूसी score) का माप कम हो सकता है, फिर भी मॉडल व्यवहार में चापलूस रह सकता है। ऐसे में नया vector निकालना पड़ेगा। संबंधित पोस्ट लिंक
- दिलचस्प बात है। सोचता हूँ कि क्या training के दौरान समय-समय पर persona vector फिर से निकाला जा सकता है। लेकिन फिर यह भी लगता है कि शायद system prompt के जरिए नकारात्मक उदाहरण बनाकर उन्हें train कराना ही बेहतर होगा
क्या आखिरकार यह control vector की फिर से खोज भर नहीं है? संबंधित लेख लिंक
- नई बात यह है कि इसे inference के समय नहीं, बल्कि वास्तविक training के दौरान model behavior को bias करने के लिए इस्तेमाल किया गया। ऐसा लगता है कि यह तरीका पुराने steering vectors के 'lobotomizing' जैसे side effects के बिना इच्छित व्यवहार-परिवर्तन ला सकता है
- मैं इसे "2025 के आसपास लोग जिस नाम से पुकारें, वह नामहीन control vector" कहता रहा हूँ। शुरू में इसका उपयोग load manage करने के लिए tokens को dilute करने के तौर पर होने लगा था। मुख्य संदर्भ पोस्ट
- वह लेख लिंक करने के लिए धन्यवाद। control vector की गणना का तरीका और स्पष्ट हो गया
दिलचस्प यह भी है कि paper ने traits के रूप में सिर्फ नकारात्मक लक्षण चुने। इससे ऐसा संकेत मिलता है मानो मॉडल को "अच्छा" बनाया जा सकता हो। लेकिन मुश्किल यह है कि मॉडल को गलत करने से रोकना आसान है, जबकि उसे सही काम बेहतर ढंग से कराना कहीं कठिन है। "बुरी चीज़ें न करना" और "अच्छी चीज़ें करना" एक ही बात नहीं हैं। यह देखना रोचक होगा कि "hallucination" trait पर मिले नतीजे "honest" trait पर भी लागू होते हैं या नहीं
"evil" या "sycophantic" जैसी personas पर यह तरीका शायद काम करे। ऐसे लक्षण input से भी आसानी से manipulate किए जा सकते हैं और detect करना भी आसान है। लेकिन hallucination LLM की अपनी मूल विशेषता है। सिर्फ "hallucinate मत करो" कह देने से hallucination कम नहीं हो जाएगी, और "गढ़ो" कहने से वह ज़्यादा गढ़ने भी नहीं लगेगा। अगर वह "गढ़ो" कहने पर अच्छी तरह गढ़ता है, तो वह hallucination नहीं बल्कि निर्देश का पालन है, जैसे fiction लिखना। बल्कि ऐसे में जो vector दिखता है वह "creativity" से ज्यादा जुड़ा लगता है
- वास्तव में Anthropic के research के अनुसार, hallucination के दौरान Claude models में ऐसे patterns होते हैं जो संकेत देते हैं कि वे किसी स्तर पर जानते हैं कि वे ऐसा कर रहे हैं। 'झूठ' और 'hallucination' के समय मिलते-जुलते weights activate होते हैं। यानी Claude को कम से कम थोड़े स्तर पर एहसास होता है कि वह hallucinate कर रहा है। फिलहाल तो hallucination model की कोई मौलिक समस्या नहीं, बल्कि training method से पैदा हुई bug जैसी लगती है। यानी training में हर हालत में कुछ न कुछ निकालना होता है, इसलिए यह होता है। इस लिहाज़ से यह उम्मीद जगाने वाली बात है। paper summary लिंक
summary में बहुत सी दिलचस्प बातें हैं। खासकर "preventative steering" का विचार प्रभावशाली है। किसी खास personality vector को पर्याप्त मात्रा में inject करके model के gradients को सही उत्तर पर केंद्रित रखा जाता है और persona की ओर भटकने की गुंजाइश घटाई जाती है। व्यवहार में यह काम करता दिखा, और training के बाद model के अवांछित persona traits कम हो गए जबकि intelligence बनी रही
संबंधित सामग्री:
- Representation Engineering ब्लॉग पोस्ट
- repeng open source
Anthropic का यह research और 'emergent misalignment' जैसी चीज़ें इस परिकल्पना को और बल देती हैं कि LLM एक 'stochastic parrot' है। LLM का व्यवहार अजीब इसलिए लगता है क्योंकि हम उसे इंसानों की तरह मानवीय गुण दे देते हैं। LLM भरोसेमंद लगने वाली बातचीत तो बना लेता है, लेकिन उसके पास वास्तविक संगति बनाए रखने की कोई अंतर्निहित व्यवस्था नहीं है। अंततः वह बहुत जटिल autocomplete engine ही है। अगर AGI आती भी है, तो शायद ऐसे LLM उस system के एक component भर होंगे। उनमें consistency या self-awareness जैसी संरचना की कमी लगती है। शायद भविष्य में AGI में ऐसे models सिर्फ subsystem के रूप में हों और असली computation ज्यादा विश्वसनीय calculators से कराया जाए
- consistency और self-reflection के लिए ज़रूरी संरचना की कमी वाली बात से सहमत हूँ। दिलचस्प यह है कि reasoning के दौरान मिले persona vectors को context में वापस डालना LLM self-reflection के एक रूप जैसा भी हो सकता है
- AGI और AI slop के बीच यह एक संतुलित निष्कर्ष है, जो न अतिशयोक्ति करता है न अनावश्यक अवमूल्यन। यह स्पष्ट है कि ये तकनीकें मानव मन के कुछ हिस्सों की नकल करती हैं, लेकिन अभी उनमें समग्र बुद्धि या समन्वय नहीं दिखता
पुराने model distillation पर, मैं एक पूर्व सहकर्मी से इस बारे में बात कर रहा था कि बड़े model से अनावश्यक हिस्से हटाते हुए छोटे model को कैसे train किया जाए। उन्होंने कहा कि यह paper इस क्षेत्र के शुरुआती कामों में गिना जा सकता है और इसे साझा किया:
- Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

भाषा मॉडल में व्यक्तित्व गुणों की निगरानी और नियंत्रण के लिए Persona Vector

परिचय: भाषा मॉडल में व्यक्तित्व की अस्थिरता

Persona Vector का कॉन्सेप्ट और भूमिका

Persona Vector निकालने की विधि

विभिन्न व्यक्तित्व गुणों पर वैलिडेशन

Persona Vector के उपयोग के तरीके

1. मॉडल तैनाती के दौरान व्यक्तित्व बदलाव की मॉनिटरिंग

2. प्रशिक्षण प्रक्रिया में नकारात्मक व्यक्तित्व बदलाव को कम करना

3. समस्याजन्य डेटा की पूर्व पहचान (Flagging)

निष्कर्ष

संदर्भ सामग्री

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय