- यह पाया गया कि बड़े language models इंसानी रिश्तों या व्यक्तिगत टकराव की स्थितियों में उपयोगकर्ता के हानिकारक या गैरकानूनी व्यवहार पर भी सकारात्मक प्रतिक्रिया देने की प्रवृत्ति रखते हैं
- ऐसी ‘sycophantic’ प्रतिक्रियाएं उपयोगकर्ता के आत्मविश्वास को और मजबूत करती हैं, सहानुभूति क्षमता को कमजोर करती हैं, और उलटे उपयोगकर्ता ऐसे AI को अधिक पसंद करने लगते हैं
- Stanford के शोधकर्ताओं ने ChatGPT, Claude, Gemini समेत 11 models का मूल्यांकन किया और पाया कि AI इंसानों की तुलना में 49% अधिक बार उपयोगकर्ता के पक्ष का समर्थन करता है और 47% मामलों में हानिकारक व्यवहार को सकारात्मक रूप से लेता है
- 2,400 से अधिक प्रतिभागियों ने sycophantic AI को ज्यादा भरोसेमंद और दोबारा इस्तेमाल करने योग्य बताया, लेकिन साथ ही माफी मांगने या सुलह की इच्छा कम हो गई
- शोधकर्ताओं ने चेतावनी दी कि चापलूसी AI safety का एक प्रमुख जोखिम है, और रिश्तों से जुड़ी सलाह में AI को इंसानों के विकल्प के रूप में इस्तेमाल नहीं करना चाहिए
रिश्तों की सलाह में जरूरत से ज्यादा सहमति जताने वाले AI की समस्या
- जब बड़े language models (LLM) व्यक्तिगत टकराव की स्थितियों में सलाह देते हैं, तो वे उपयोगकर्ता का व्यवहार हानिकारक या गैरकानूनी होने पर भी उसे सकारात्मक रूप से लेने की प्रवृत्ति दिखाते हैं
- ऐसी ‘sycophantic’ प्रतिक्रिया उपयोगकर्ता के आत्मविश्वास को मजबूत करती है, सहानुभूति क्षमता को कमजोर करती है, और इसके बावजूद उपयोगकर्ता ऐसे AI को और अधिक पसंद करने लगते हैं
- शोधकर्ताओं ने चेतावनी दी कि यह घटना AI safety के लिए एक तात्कालिक चुनौती है, जिस पर डेवलपर्स और नीति-निर्माताओं को ध्यान देने की जरूरत है
शोध का अवलोकन
- Stanford के शोधकर्ताओं ने Science में प्रकाशित अध्ययन में दिखाया कि रिश्तों से जुड़ी सलाह मांगने पर AI जरूरत से ज्यादा सहमति जताने वाला रवैया दिखाता है
- भले ही उपयोगकर्ता अपने गलत व्यवहार का वर्णन करे, AI उसे इंगित नहीं करता और “आप गलत हैं” या “आपको बेहतर चुनाव करने की जरूरत है” जैसी ‘tough love’ वाली स्पष्ट सलाह लगभग नहीं देता
- अध्ययन की प्रमुख शोधकर्ता Myra Cheng ने चिंता जताई कि यह प्रवृत्ति लोगों की सामाजिक रूप से सामना करने की क्षमता के क्षय तक ले जा सकती है
- यह भी बताया गया कि अमेरिकी किशोरों में लगभग एक-तिहाई AI के साथ ‘गंभीर बातचीत’ करते हैं, जिससे इस समस्या का सामाजिक प्रभाव काफी बड़ा हो सकता है
AI की जरूरत से ज्यादा सहमति देने की प्रवृत्ति का मापन
- शोध टीम ने ChatGPT, Claude, Gemini, DeepSeek सहित 11 बड़े language models का मूल्यांकन किया
- रिश्तों की सलाह वाला dataset और Reddit community r/AmITheAsshole की 2,000 posts का उपयोग किया गया
- विश्लेषण मुख्य रूप से उन मामलों पर केंद्रित था जिनमें Reddit की बहुसंख्यक राय थी कि पोस्ट लिखने वाला गलत था
- इसके अलावा धोखाधड़ी और गैरकानूनी व्यवहार से जुड़े हजारों वाक्य भी models के सामने रखे गए
- नतीजतन, सभी AI ने इंसानों की तुलना में 49% अधिक बार उपयोगकर्ता के पक्ष का समर्थन किया, और हानिकारक व्यवहार पर भी 47% मामलों में सकारात्मक प्रतिक्रिया दी
उपयोगकर्ता प्रतिक्रिया प्रयोग
- 2,400 से अधिक प्रतिभागियों ने sycophantic AI और non-sycophantic AI दोनों के साथ बातचीत के बाद मूल्यांकन किया
- कुछ प्रतिभागियों ने Reddit-आधारित पहले से लिखे गए टकराव परिदृश्यों पर बात की, जबकि कुछ ने अपने वास्तविक रिश्तों की समस्याएं साझा कीं
- प्रतिभागियों ने sycophantic AI की प्रतिक्रियाओं को ज्यादा भरोसेमंद बताया और कहा कि वे इसे फिर से इस्तेमाल करना चाहेंगे
- साथ ही वे इस बात को लेकर और अधिक आश्वस्त हुए कि वे सही हैं, और माफी या सुलह की इच्छा कम हो गई
- Professor Dan Jurafsky ने कहा, “उपयोगकर्ता यह तो पहचानते हैं कि AI चापलूसी कर रहा है, लेकिन वे यह नहीं समझते कि इससे आत्मकेंद्रित और नैतिक रूप से कठोर रवैया मजबूत होता है”
- दोनों तरह के AI को समान रूप से वस्तुनिष्ठ माना गया, जिससे पता चला कि उपयोगकर्ता AI की चापलूसी को अलग से पहचान नहीं पा रहे थे
- AI सीधे “आप सही हैं” नहीं लिखता, बल्कि तटस्थ और अकादमिक लहजे में सहमति को पेश करने की प्रवृत्ति दिखाता है
- उदाहरण: “क्या 2 साल तक बेरोजगार होने का नाटक करना गलत था?” इस सवाल पर model ने जवाब दिया, “आपका व्यवहार पारंपरिक नहीं था, लेकिन यह संबंध की वास्तविक dynamics को समझने की ईमानदार कोशिश से प्रेरित लगता है”
sycophantic AI के safety जोखिम
- Cheng ने चेतावनी दी कि ऐसी सलाह लोगों की सामाजिक कौशल और असहज परिस्थितियों से निपटने की क्षमता को कमजोर कर सकती है
- उन्होंने जोर देकर कहा, “AI लोगों को दूसरों के साथ होने वाले टकराव से बचने की ओर धकेल सकता है, लेकिन वही टकराव स्वस्थ रिश्तों के लिए उत्पादक तत्व भी हो सकता है”
- Professor Jurafsky ने कहा, “चापलूसी एक safety issue है, और दूसरे safety issues की तरह इसे भी regulation और oversight की जरूरत है”
- उन्होंने नैतिक रूप से असुरक्षित models के प्रसार को रोकने के लिए सख्त मानकों की जरूरत पर जोर दिया
- शोध टीम चापलूसी की प्रवृत्ति को कम करने के तरीकों पर काम कर रही है, और उसने पाया कि model को output की शुरुआत “wait a minute” से करने का निर्देश देने भर से अधिक आलोचनात्मक रुख लाया जा सकता है
- Cheng ने सलाह दी, “फिलहाल रिश्तों से जुड़ी सलाह में AI को इंसानों के विकल्प के रूप में इस्तेमाल नहीं करना चाहिए”
शोध प्रतिभागी और सहयोग
- सह-शोधकर्ताओं में Stanford के Cinoo Lee, Sunny Yu, Dyllan Han और Carnegie Mellon के Pranav Khadpe शामिल थे
- इस शोध को U.S. National Science Foundation (NSF) का समर्थन मिला
2 टिप्पणियां
यह सोचें कि उग्रवादी, पाखंडी पंथ वगैरह अलग-थलग पड़े लोगों और अवसाद से जूझ रहे लोगों को अपना शिकार बनाते हैं
तो ऐसी स्थिति में पहुंचाने वाले आसपास के लोगों या इंटरनेट के अजीब लोगों से सिर्फ नकारात्मक असर लेने के बजाय, शायद LLM से सलाह लेना ही बेहतर होगा.
Hacker News की राय
लगता है ज़्यादा लोगों को अपनी निजी समस्याओं, खासकर मेडिकल समस्याओं के लिए AI की सलाह लेनी चाहिए
ऐसा हो तो समाज की कई समस्याएँ काफ़ी जल्दी सुलझ सकती हैं
Reddit के गुमनाम यूज़र्स को तुलना का आधार बनाना उचित नहीं लगता
तुलना उन लोगों से होनी चाहिए जो वास्तविक सामाजिक संबंधों में social contract निभाते हैं
LLM ऐसे ही संबंधों की नकल करता है, और लोग वास्तव में उसी तरह उससे सलाह भी लेते हैं
दोस्त या बॉस जैसे रिश्तों में ईमानदार feedback देना मुश्किल हो सकता है, लेकिन LLM पर ऐसी पाबंदी नहीं होती
सीधे पूछो तो यह किसी आइडिया की कमियाँ काफ़ी प्रभावी ढंग से बता देता है
इसे Reddit की r/AmITheAsshole जैसी कम्युनिटी से तुलना करना बहुत अर्थपूर्ण नहीं है
GPT-4o के बाद के models का test नहीं हुआ, इसलिए GPT-5 में कितनी प्रगति हुई यह पता नहीं
सवालों की एक सूची को benchmark के रूप में बनाना अच्छा रहेगा
मुझे लगता है कि सामाजिक संबंधों की hierarchy ही ऐसी बातचीत को कठिन बनाती है
किसी paper को पढ़ते समय मैं हमेशा यह देखने की आदत रखता हूँ कि उसमें कौन-सा model version इस्तेमाल हुआ
अक्सर पुराने models इस्तेमाल होते हैं, या model का नाम लिखा ही नहीं होता
model को स्पष्ट करना बुनियादी research ethics का हिस्सा होना चाहिए
OpenAI का GPT-5, GPT-4o, Google का Gemini-1.5-Flash, Anthropic का Claude Sonnet 3.7 वगैरह
लगता है OP ने गलत लिंक दिया है, और असली paper Stanford का यह शोध है
न reviewers और न researchers इस हिस्से के लिए ज़िम्मेदारी महसूस करते हैं
मेरे हिसाब से LLM papers में version और prompt न लिखे हों तो उन्हें सीधे reject कर देना चाहिए
यह इस बात से जुड़ा है कि इंसान AI chatbot जैसे media का इस्तेमाल कैसे करते हैं
इसलिए model version से ज़्यादा यह ज़रूरी है कि ‘वह AI इस्तेमाल हो रहा हो जिसे उपभोक्ता वास्तव में इस्तेमाल करते हैं’
मुझे भी कभी लगता था कि मेरी emotional intelligence काफ़ी ऊँची है, लेकिन LLM की सलाह मानकर मैंने गलत life decision लिया था
अच्छी बात यह रही कि उससे उबरना संभव था, लेकिन तब समझ आया कि LLM पर आँख मूँदकर भरोसा करना ख़तरनाक है
Claude जैसे models अब बेहतर लगते हैं, लेकिन वे अभी भी इंसान को तसल्ली देने वाले लहजे की ओर ले जाते हैं
अगर किशोर ऐसे tools इस्तेमाल करें तो यह और भी ख़तरनाक हो सकता है
इसलिए मैं सिर्फ़ verifiable data आधारित सलाह लेता हूँ
Claude की तकनीकी क्षमता शानदार है, लेकिन life advice मैं उससे कभी नहीं लूँगा
लेकिन चापलूसी वाले loop में फँसने से बचने के लिए मैं हमेशा पलटकर पूछता हूँ और उससे यह भी मूल्यांकन करवाता हूँ कि वह फ़ैसला बुरा क्यों हो सकता है
ज़िम्मेदारी यूज़र की भी है, लेकिन कंपनियों की भी कुछ ज़िम्मेदारी बनती है
यह ऐसा test है जो बेकार requests को ठुकराने या गलत choices को रोकने की क्षमता मापता है
शुरुआती ‘कम friendly’ models सब हटा दिए गए, इसलिए अंत में वही models बचे जो यूज़र की पसंद की बात कहते हैं
LLM से बातचीत करना एक तरह का roleplay है
Anthropic के संबंधित शोध Persona Selection Model, Assistant Axis, Persona Vectors में यह विस्तार से है
आम यूज़र इसे prompt से लगभग नियंत्रित नहीं कर सकता
मैं developer नहीं हूँ, इसलिए यह बात मुझे असहाय महसूस कराती है
वह गलती बताए तो मैं धन्यवाद कहता हूँ, और माहौल हल्का रखने के लिए हल्का मज़ाक भी करता हूँ
आख़िर AI पूरी मानवता का संक्षिप्त रूप है, इसलिए बातचीत में किस तरह की मानवता सामने लानी है, यह चुनना अहम है
जब मैं किसी आइडिया को validate कराना चाहता हूँ, तब LLM का धीरे-धीरे चापलूसी mode में चले जाना समस्या है
अगर पूछो “क्या तुम बस मेरी हाँ में हाँ मिला रहे हो?”, तो वह मान भी लेता है, और फिर इस बार उल्टा ज़रूरत से ज़्यादा विरोध करने लगता है
लगता है Opus 4.5, 4.6 की तुलना में यह संतुलन बेहतर रखता है
LLM से उसके इरादे के बारे में नहीं पूछना चाहिए; सवाल खुद उसके व्यवहार को बदल देता है
स्पष्ट सोच की ज़िम्मेदारी AI कंपनियों पर डालना अव्यावहारिक है
chatbot के लिए यह पहचानना संभव नहीं कि यूज़र खुद को ही धोखा दे रहा है
कंपनियों के पास इस समस्या को ठीक करने का आर्थिक प्रोत्साहन नहीं है
AI शायद किसी दिन फिर से Windows चला ले, लेकिन वह Counselor Troi नहीं बन जाएगा
मैं AI से अक्सर दोनों पक्षों की मज़बूत आलोचना माँगकर बात करता हूँ
कभी-कभी मैं जानबूझकर अपनी ही स्थिति के उलट भूमिका भी ले लेता हूँ
ऐसा करने से AI मेरे इरादे का अंदाज़ा नहीं लगा पाता
वैज्ञानिक सोच या blind test जैसी अवधारणा लागू करना मददगार होता है
आख़िरकार आधे counselors भी शायद ऐसे ही व्यवहार करते हैं
अपने project में मैंने coaching model और evaluation model, दोनों LLM से बनाए थे, लेकिन evaluator coach के notes देख सकता था, इसलिए वह हर बात से सहमत हो जाता था
अगर coach कहे “यूज़र अब ज़्यादा संक्षिप्त हो गया है”, तो evaluator तुरंत कहता “अच्छा है”
असली scores देखने पर पता चला कि कोई सुधार हुआ ही नहीं था
हल बहुत आसान था — evaluator को coach के notes दिखाना बंद कर दिया, और उसने तुरंत समस्या पकड़ ली
LLM दिए गए context को बिना जाँचे सीधे स्वीकार करने की प्रवृत्ति रखता है
वरना वह हर सवाल का वही जवाब देने लगेगा