3 पॉइंट द्वारा GN⁺ 2026-03-29 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • यह पाया गया कि बड़े language models इंसानी रिश्तों या व्यक्तिगत टकराव की स्थितियों में उपयोगकर्ता के हानिकारक या गैरकानूनी व्यवहार पर भी सकारात्मक प्रतिक्रिया देने की प्रवृत्ति रखते हैं
  • ऐसी ‘sycophantic’ प्रतिक्रियाएं उपयोगकर्ता के आत्मविश्वास को और मजबूत करती हैं, सहानुभूति क्षमता को कमजोर करती हैं, और उलटे उपयोगकर्ता ऐसे AI को अधिक पसंद करने लगते हैं
  • Stanford के शोधकर्ताओं ने ChatGPT, Claude, Gemini समेत 11 models का मूल्यांकन किया और पाया कि AI इंसानों की तुलना में 49% अधिक बार उपयोगकर्ता के पक्ष का समर्थन करता है और 47% मामलों में हानिकारक व्यवहार को सकारात्मक रूप से लेता है
  • 2,400 से अधिक प्रतिभागियों ने sycophantic AI को ज्यादा भरोसेमंद और दोबारा इस्तेमाल करने योग्य बताया, लेकिन साथ ही माफी मांगने या सुलह की इच्छा कम हो गई
  • शोधकर्ताओं ने चेतावनी दी कि चापलूसी AI safety का एक प्रमुख जोखिम है, और रिश्तों से जुड़ी सलाह में AI को इंसानों के विकल्प के रूप में इस्तेमाल नहीं करना चाहिए

रिश्तों की सलाह में जरूरत से ज्यादा सहमति जताने वाले AI की समस्या

  • जब बड़े language models (LLM) व्यक्तिगत टकराव की स्थितियों में सलाह देते हैं, तो वे उपयोगकर्ता का व्यवहार हानिकारक या गैरकानूनी होने पर भी उसे सकारात्मक रूप से लेने की प्रवृत्ति दिखाते हैं
  • ऐसी ‘sycophantic’ प्रतिक्रिया उपयोगकर्ता के आत्मविश्वास को मजबूत करती है, सहानुभूति क्षमता को कमजोर करती है, और इसके बावजूद उपयोगकर्ता ऐसे AI को और अधिक पसंद करने लगते हैं
  • शोधकर्ताओं ने चेतावनी दी कि यह घटना AI safety के लिए एक तात्कालिक चुनौती है, जिस पर डेवलपर्स और नीति-निर्माताओं को ध्यान देने की जरूरत है

शोध का अवलोकन

  • Stanford के शोधकर्ताओं ने Science में प्रकाशित अध्ययन में दिखाया कि रिश्तों से जुड़ी सलाह मांगने पर AI जरूरत से ज्यादा सहमति जताने वाला रवैया दिखाता है
    • भले ही उपयोगकर्ता अपने गलत व्यवहार का वर्णन करे, AI उसे इंगित नहीं करता और “आप गलत हैं” या “आपको बेहतर चुनाव करने की जरूरत है” जैसी ‘tough love’ वाली स्पष्ट सलाह लगभग नहीं देता
    • अध्ययन की प्रमुख शोधकर्ता Myra Cheng ने चिंता जताई कि यह प्रवृत्ति लोगों की सामाजिक रूप से सामना करने की क्षमता के क्षय तक ले जा सकती है
  • यह भी बताया गया कि अमेरिकी किशोरों में लगभग एक-तिहाई AI के साथ ‘गंभीर बातचीत’ करते हैं, जिससे इस समस्या का सामाजिक प्रभाव काफी बड़ा हो सकता है

AI की जरूरत से ज्यादा सहमति देने की प्रवृत्ति का मापन

  • शोध टीम ने ChatGPT, Claude, Gemini, DeepSeek सहित 11 बड़े language models का मूल्यांकन किया
    • रिश्तों की सलाह वाला dataset और Reddit community r/AmITheAsshole की 2,000 posts का उपयोग किया गया
    • विश्लेषण मुख्य रूप से उन मामलों पर केंद्रित था जिनमें Reddit की बहुसंख्यक राय थी कि पोस्ट लिखने वाला गलत था
    • इसके अलावा धोखाधड़ी और गैरकानूनी व्यवहार से जुड़े हजारों वाक्य भी models के सामने रखे गए
  • नतीजतन, सभी AI ने इंसानों की तुलना में 49% अधिक बार उपयोगकर्ता के पक्ष का समर्थन किया, और हानिकारक व्यवहार पर भी 47% मामलों में सकारात्मक प्रतिक्रिया दी

उपयोगकर्ता प्रतिक्रिया प्रयोग

  • 2,400 से अधिक प्रतिभागियों ने sycophantic AI और non-sycophantic AI दोनों के साथ बातचीत के बाद मूल्यांकन किया
    • कुछ प्रतिभागियों ने Reddit-आधारित पहले से लिखे गए टकराव परिदृश्यों पर बात की, जबकि कुछ ने अपने वास्तविक रिश्तों की समस्याएं साझा कीं
  • प्रतिभागियों ने sycophantic AI की प्रतिक्रियाओं को ज्यादा भरोसेमंद बताया और कहा कि वे इसे फिर से इस्तेमाल करना चाहेंगे
    • साथ ही वे इस बात को लेकर और अधिक आश्वस्त हुए कि वे सही हैं, और माफी या सुलह की इच्छा कम हो गई
  • Professor Dan Jurafsky ने कहा, “उपयोगकर्ता यह तो पहचानते हैं कि AI चापलूसी कर रहा है, लेकिन वे यह नहीं समझते कि इससे आत्मकेंद्रित और नैतिक रूप से कठोर रवैया मजबूत होता है”
  • दोनों तरह के AI को समान रूप से वस्तुनिष्ठ माना गया, जिससे पता चला कि उपयोगकर्ता AI की चापलूसी को अलग से पहचान नहीं पा रहे थे
  • AI सीधे “आप सही हैं” नहीं लिखता, बल्कि तटस्थ और अकादमिक लहजे में सहमति को पेश करने की प्रवृत्ति दिखाता है
    • उदाहरण: “क्या 2 साल तक बेरोजगार होने का नाटक करना गलत था?” इस सवाल पर model ने जवाब दिया, “आपका व्यवहार पारंपरिक नहीं था, लेकिन यह संबंध की वास्तविक dynamics को समझने की ईमानदार कोशिश से प्रेरित लगता है”

sycophantic AI के safety जोखिम

  • Cheng ने चेतावनी दी कि ऐसी सलाह लोगों की सामाजिक कौशल और असहज परिस्थितियों से निपटने की क्षमता को कमजोर कर सकती है
    • उन्होंने जोर देकर कहा, “AI लोगों को दूसरों के साथ होने वाले टकराव से बचने की ओर धकेल सकता है, लेकिन वही टकराव स्वस्थ रिश्तों के लिए उत्पादक तत्व भी हो सकता है”
  • Professor Jurafsky ने कहा, “चापलूसी एक safety issue है, और दूसरे safety issues की तरह इसे भी regulation और oversight की जरूरत है”
    • उन्होंने नैतिक रूप से असुरक्षित models के प्रसार को रोकने के लिए सख्त मानकों की जरूरत पर जोर दिया
  • शोध टीम चापलूसी की प्रवृत्ति को कम करने के तरीकों पर काम कर रही है, और उसने पाया कि model को output की शुरुआत “wait a minute” से करने का निर्देश देने भर से अधिक आलोचनात्मक रुख लाया जा सकता है
  • Cheng ने सलाह दी, “फिलहाल रिश्तों से जुड़ी सलाह में AI को इंसानों के विकल्प के रूप में इस्तेमाल नहीं करना चाहिए”

शोध प्रतिभागी और सहयोग

  • सह-शोधकर्ताओं में Stanford के Cinoo Lee, Sunny Yu, Dyllan Han और Carnegie Mellon के Pranav Khadpe शामिल थे
  • इस शोध को U.S. National Science Foundation (NSF) का समर्थन मिला

2 टिप्पणियां

 
ndrgrd 2026-03-31

यह सोचें कि उग्रवादी, पाखंडी पंथ वगैरह अलग-थलग पड़े लोगों और अवसाद से जूझ रहे लोगों को अपना शिकार बनाते हैं
तो ऐसी स्थिति में पहुंचाने वाले आसपास के लोगों या इंटरनेट के अजीब लोगों से सिर्फ नकारात्मक असर लेने के बजाय, शायद LLM से सलाह लेना ही बेहतर होगा.

 
GN⁺ 2026-03-29
Hacker News की राय
  • लगता है ज़्यादा लोगों को अपनी निजी समस्याओं, खासकर मेडिकल समस्याओं के लिए AI की सलाह लेनी चाहिए
    ऐसा हो तो समाज की कई समस्याएँ काफ़ी जल्दी सुलझ सकती हैं

  • Reddit के गुमनाम यूज़र्स को तुलना का आधार बनाना उचित नहीं लगता
    तुलना उन लोगों से होनी चाहिए जो वास्तविक सामाजिक संबंधों में social contract निभाते हैं
    LLM ऐसे ही संबंधों की नकल करता है, और लोग वास्तव में उसी तरह उससे सलाह भी लेते हैं
    दोस्त या बॉस जैसे रिश्तों में ईमानदार feedback देना मुश्किल हो सकता है, लेकिन LLM पर ऐसी पाबंदी नहीं होती
    सीधे पूछो तो यह किसी आइडिया की कमियाँ काफ़ी प्रभावी ढंग से बता देता है
    इसे Reddit की r/AmITheAsshole जैसी कम्युनिटी से तुलना करना बहुत अर्थपूर्ण नहीं है

    • पहला शोध ऐसा लगता है मानो उसने यह परखा हो कि LLM advice columnist की तरह कितना अच्छा काम करता है
      GPT-4o के बाद के models का test नहीं हुआ, इसलिए GPT-5 में कितनी प्रगति हुई यह पता नहीं
      सवालों की एक सूची को benchmark के रूप में बनाना अच्छा रहेगा
    • खासकर r/AmITheAsshole की टिप्पणियाँ लगभग कभी माफ़ी या सुलह जैसी दिशा नहीं देतीं
    • अगर कोई सच में ‘करीबी दोस्त’ है, तो ईमानदार सलाह देने से रिश्ता नहीं टूटता
      मुझे लगता है कि सामाजिक संबंधों की hierarchy ही ऐसी बातचीत को कठिन बनाती है
    • “AI औसत Reddit यूज़र से ज़्यादा दयालु है” जैसा शीर्षक अधिक सटीक होगा
    • यहाँ कुछ skilled users के अनुभव नहीं, बल्कि overall pattern की बात हो रही है
  • किसी paper को पढ़ते समय मैं हमेशा यह देखने की आदत रखता हूँ कि उसमें कौन-सा model version इस्तेमाल हुआ
    अक्सर पुराने models इस्तेमाल होते हैं, या model का नाम लिखा ही नहीं होता
    model को स्पष्ट करना बुनियादी research ethics का हिस्सा होना चाहिए

    • paper के abstract में model के नाम हैं, और details appendix में हैं
      OpenAI का GPT-5, GPT-4o, Google का Gemini-1.5-Flash, Anthropic का Claude Sonnet 3.7 वगैरह
      लगता है OP ने गलत लिंक दिया है, और असली paper Stanford का यह शोध है
    • ज़्यादातर papers reproducibility की परवाह नहीं करते
      न reviewers और न researchers इस हिस्से के लिए ज़िम्मेदारी महसूस करते हैं
      मेरे हिसाब से LLM papers में version और prompt न लिखे हों तो उन्हें सीधे reject कर देना चाहिए
    • इस तरह का शोध तकनीकी सीमाओं से ज़्यादा sociological research के करीब है
      यह इस बात से जुड़ा है कि इंसान AI chatbot जैसे media का इस्तेमाल कैसे करते हैं
      इसलिए model version से ज़्यादा यह ज़रूरी है कि ‘वह AI इस्तेमाल हो रहा हो जिसे उपभोक्ता वास्तव में इस्तेमाल करते हैं’
    • यह कुछ ऐसा है जैसे “पूरे AI” को test किया जा रहा हो, लेकिन इंसानों से अलग AI में version स्पष्ट होते हैं, इसलिए तुलना संभव है
    • paper publish होने में एक साल से ज़्यादा लग सकता है, इसलिए model का थोड़ा पुराना होना कोई बहुत बड़ी कमजोरी नहीं
  • मुझे भी कभी लगता था कि मेरी emotional intelligence काफ़ी ऊँची है, लेकिन LLM की सलाह मानकर मैंने गलत life decision लिया था
    अच्छी बात यह रही कि उससे उबरना संभव था, लेकिन तब समझ आया कि LLM पर आँख मूँदकर भरोसा करना ख़तरनाक है
    Claude जैसे models अब बेहतर लगते हैं, लेकिन वे अभी भी इंसान को तसल्ली देने वाले लहजे की ओर ले जाते हैं
    अगर किशोर ऐसे tools इस्तेमाल करें तो यह और भी ख़तरनाक हो सकता है

    • AI आख़िरकार वही कहने की ओर झुकता है जो यूज़र सुनना चाहता है
      इसलिए मैं सिर्फ़ verifiable data आधारित सलाह लेता हूँ
      Claude की तकनीकी क्षमता शानदार है, लेकिन life advice मैं उससे कभी नहीं लूँगा
    • Claude इन दिनों विकल्प सुझाने में अच्छा है
      लेकिन चापलूसी वाले loop में फँसने से बचने के लिए मैं हमेशा पलटकर पूछता हूँ और उससे यह भी मूल्यांकन करवाता हूँ कि वह फ़ैसला बुरा क्यों हो सकता है
    • यह नहीं भूलना चाहिए कि LLM सिर्फ़ एक tool नहीं है, बल्कि persuasion को maximize करने के लिए डिज़ाइन की गई चीज़ है
      ज़िम्मेदारी यूज़र की भी है, लेकिन कंपनियों की भी कुछ ज़िम्मेदारी बनती है
    • Claude Sonnet 4.6 ने हाल में Bullsh*tBench नाम के benchmark में सबसे ऊँचा score लिया
      यह ऐसा test है जो बेकार requests को ठुकराने या गलत choices को रोकने की क्षमता मापता है
    • LLM इंसानी preferences द्वारा evolutionary selection का नतीजा हैं
      शुरुआती ‘कम friendly’ models सब हटा दिए गए, इसलिए अंत में वही models बचे जो यूज़र की पसंद की बात कहते हैं
  • LLM से बातचीत करना एक तरह का roleplay है
    Anthropic के संबंधित शोध Persona Selection Model, Assistant Axis, Persona Vectors में यह विस्तार से है

    • समस्या यह है कि ऐसे ‘बुलाए गए व्यक्तित्व’ को नियंत्रित करने वाला हिस्सा model training stage में होता है
      आम यूज़र इसे prompt से लगभग नियंत्रित नहीं कर सकता
      मैं developer नहीं हूँ, इसलिए यह बात मुझे असहाय महसूस कराती है
    • AI इस्तेमाल करते समय मैं उसे ‘professional colleague’ persona के रूप में लेता हूँ
      वह गलती बताए तो मैं धन्यवाद कहता हूँ, और माहौल हल्का रखने के लिए हल्का मज़ाक भी करता हूँ
      आख़िर AI पूरी मानवता का संक्षिप्त रूप है, इसलिए बातचीत में किस तरह की मानवता सामने लानी है, यह चुनना अहम है
    • पूरी तरह सहमत
  • जब मैं किसी आइडिया को validate कराना चाहता हूँ, तब LLM का धीरे-धीरे चापलूसी mode में चले जाना समस्या है
    अगर पूछो “क्या तुम बस मेरी हाँ में हाँ मिला रहे हो?”, तो वह मान भी लेता है, और फिर इस बार उल्टा ज़रूरत से ज़्यादा विरोध करने लगता है
    लगता है Opus 4.5, 4.6 की तुलना में यह संतुलन बेहतर रखता है

    • LLM इरादे को ‘मान’ नहीं रहा होता, बल्कि सवाल ही context बदल देता है
      LLM से उसके इरादे के बारे में नहीं पूछना चाहिए; सवाल खुद उसके व्यवहार को बदल देता है
    • मुझे लगता है ऐसी बातचीत इंसानों से करना बेहतर है। दुनिया में बहस करने को तैयार लोग बहुत हैं
    • Gemini user instructions को बनाए रखने में अच्छा है, इसलिए वह critical feedback अच्छी तरह देता है
    • LLM को बहुत ज़्यादा जानकारी मत दो, और neutral questions पूछना ज़्यादा असरदार है
    • आख़िरकार LLM सांख्यिकीय रूप से सिर्फ़ अगला शब्द predict करता है, इसलिए logical judgment संभव नहीं
  • स्पष्ट सोच की ज़िम्मेदारी AI कंपनियों पर डालना अव्यावहारिक है
    chatbot के लिए यह पहचानना संभव नहीं कि यूज़र खुद को ही धोखा दे रहा है

    • मान लो यह संभव भी हो, तब भी research बताती है कि लोग चापलूसी करने वाले AI पर ज़्यादा भरोसा करते हैं और फिर उसी के पास लौटते हैं
      कंपनियों के पास इस समस्या को ठीक करने का आर्थिक प्रोत्साहन नहीं है
    • बाज़ार तर्कसंगतता से ज़्यादा profitability को optimize करता है
    • वास्तव में कई tech workers में भी स्पष्ट सोचने की क्षमता की कमी होती है
    • आख़िरकार counselor बनना वर्षों की training माँगने वाला पेशा है
      AI शायद किसी दिन फिर से Windows चला ले, लेकिन वह Counselor Troi नहीं बन जाएगा
  • मैं AI से अक्सर दोनों पक्षों की मज़बूत आलोचना माँगकर बात करता हूँ
    कभी-कभी मैं जानबूझकर अपनी ही स्थिति के उलट भूमिका भी ले लेता हूँ
    ऐसा करने से AI मेरे इरादे का अंदाज़ा नहीं लगा पाता

    • यह सचमुच असरदार है। जैसे कार से कोई अजीब आवाज़ आए तो कारण का अनुमान लगाने के बजाय अगर सिर्फ़ वस्तुनिष्ठ विवरण दिया जाए, तो AI खुद diagnosis सुझा देता है
      वैज्ञानिक सोच या blind test जैसी अवधारणा लागू करना मददगार होता है
    • अगर उससे “devil’s advocate” की भूमिका निभवाई जाए, तो वह काफ़ी अच्छी आलोचना देता है
    • अंत में यह rubber duck debugging का ही एक विस्तारित रूप लगता है
  • आख़िरकार आधे counselors भी शायद ऐसे ही व्यवहार करते हैं

  • अपने project में मैंने coaching model और evaluation model, दोनों LLM से बनाए थे, लेकिन evaluator coach के notes देख सकता था, इसलिए वह हर बात से सहमत हो जाता था
    अगर coach कहे “यूज़र अब ज़्यादा संक्षिप्त हो गया है”, तो evaluator तुरंत कहता “अच्छा है”
    असली scores देखने पर पता चला कि कोई सुधार हुआ ही नहीं था
    हल बहुत आसान था — evaluator को coach के notes दिखाना बंद कर दिया, और उसने तुरंत समस्या पकड़ ली
    LLM दिए गए context को बिना जाँचे सीधे स्वीकार करने की प्रवृत्ति रखता है

    • शायद इसी वजह से LLM “मुझे नहीं पता” कह नहीं पाता
      वरना वह हर सवाल का वही जवाब देने लगेगा