क्या भावनात्मक अभिव्यक्ति AI की परफ़ॉर्मेंस बदलती है? — प्रॉम्प्ट में भावनात्मक फ्रेमिंग का वास्तविक प्रभाव

(arxiv.org)

4 पॉइंट द्वारा darjeeling 26 일 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

"अगर गुस्से में पूछें तो क्या AI बेहतर जवाब देगा?" हार्वर्ड के शोधकर्ताओं ने 6 benchmarks पर प्रयोग करके पाया कि भावनात्मक अभिव्यक्ति का LLM परफ़ॉर्मेंस पर लगभग कोई असर नहीं पड़ता। लेकिन अगर हर सवाल के लिए भावना को adaptive तरीके से चुना जाए, तो लगातार परफ़ॉर्मेंस सुधार संभव है।

शोध का अवलोकन

स्रोत: arXiv:2604.02236v1 (2 अप्रैल 2026)
लेखक: Minda Zhao, Yutong Yang आदि (Harvard University और Bryn Mawr College का संयुक्त शोध)
मुख्य प्रश्न: क्या प्रॉम्प्ट में भावनात्मक अभिव्यक्ति जोड़ने से LLM की परफ़ॉर्मेंस बदलती है?

मुख्य निष्कर्षों का सार

भावनात्मक टोन मानव संचार में व्यापक है, लेकिन LLM के व्यवहार पर उसका प्रभाव अभी भी स्पष्ट नहीं है। इस शोध ने तीन बातें सामने रखीं।

① स्थिर emotional prefix का असर बहुत कम है
ज़्यादातर task-model संयोजनों में emotional framing ने neutral baseline की तुलना में परफ़ॉर्मेंस को न तो बहुत बेहतर किया, न बहुत खराब। static emotional prompting किसी universal performance improvement method की तरह काम नहीं करता।

② भावना की तीव्रता बढ़ाने पर भी नतीजा लगभग वही रहता है
"मैं बहुत गुस्से में हूँ", "मैं बेहद डरा हुआ हूँ" जैसी अधिक तीव्र अभिव्यक्तियों के साथ भी accuracy में केवल हल्का बदलाव दिखा, और अधिक तीव्र भाषा ने लगातार परफ़ॉर्मेंस गिरावट नहीं पैदा की।

③ adaptive emotion selection (EmotionRL) असरदार है
एक स्थिर भावना बहुत मोटा और अविश्वसनीय संकेत साबित होती है, लेकिन input के अनुसार condition की गई policy अधिक लगातार परफ़ॉर्मेंस सुधार ला सकती है।

प्रयोग की रूपरेखा

प्रयोग में शामिल 6 भावनाएँ

Plutchik की basic emotion theory के आधार पर खुशी, दुख, डर, गुस्सा, घृणा, आश्चर्य — इन 6 भावनाओं का उपयोग किया गया।

मूल्यांकन के लिए 6 benchmarks

benchmark	मापी गई क्षमता
GSM8K	गणितीय reasoning
BIG-Bench Hard	सामान्य reasoning
MedQA	चिकित्सा विशेषज्ञ ज्ञान
BoolQ	reading comprehension
OpenBookQA	common-sense reasoning
SocialIQA	सामाजिक reasoning

उपयोग किए गए मॉडल

Qwen3-14B, Llama 3.3-70B, DeepSeek-V3.2 — इन तीन open source मॉडलों का fine-tuning के बिना zero-shot reasoning वातावरण में मूल्यांकन किया गया।

विस्तृत परिणाम

task के अनुसार भावनात्मक sensitivity में अंतर

GSM8K और MedQA-US में सभी भावनात्मक स्थितियों के दौरान परिणाम baseline के बहुत करीब रहे, जिससे संकेत मिलता है कि छोटे emotional prefix का कड़े रूप से सीमित reasoning और domain-specific multiple-choice prediction पर सीमित प्रभाव पड़ता है।

कुल स्थिरता से सबसे उल्लेखनीय विचलन SocialIQA में दिखाई दिया। यहाँ मॉडल और भावनाओं के बीच variance स्पष्ट रूप से अधिक था, और प्रभाव की दिशा भी एकसमान नहीं थी। इसका मतलब है कि भावनात्मक context उन tasks के साथ सबसे अधिक interact करता है जिनमें interpersonal reasoning की ज़रूरत होती है।

इंसानों द्वारा लिखी भावनाएँ बनाम LLM द्वारा जनरेट की गई भावनाएँ

मानव-लिखित prefix और LLM-generated prefix की तुलना में, दोनों स्रोतों ने लगभग सभी स्थितियों में लगभग समान accuracy दिखाई, और कोई भी स्रोत लगातार बेहतर नहीं निकला।

EmotionRL: adaptive emotion selection framework

हर input question के लिए agent भावना सेट {गुस्सा, घृणा, डर, खुशी, दुख, आश्चर्य} में से एक चुनता है, और उस भावनात्मक अभिव्यक्ति को मूल prompt के आगे जोड़कर frozen LLM को भेजता है।

इसकी मुख्य संरचना दो चरणों की है।

offline training: हर question पर सभी 6 भावनाओं को आज़माकर reward vector बनाया जाता है, और एक हल्का MLP policy network train किया जाता है।
online inference: नया input आने पर trained policy भावना चुनती है, और LLM को केवल एक बार call किया जाता है।

स्थिर emotional prompt का औसतन कमज़ोर असर यह नहीं दिखाता कि emotional framing में कोई उपयोगी signal नहीं है। EmotionRL ने पाँच tasks में औसत static emotion baseline को लगातार match किया या उससे बेहतर प्रदर्शन किया।

निष्कर्ष और संकेत

हमारे प्रयोग emotional prompting पर उन बिखरे हुए सकारात्मक उदाहरणों की तुलना में अधिक सावधानीपूर्ण दृष्टिकोण का समर्थन करते हैं। accuracy-आधारित standard benchmarks पर, स्थिर emotional prefix आम तौर पर इतने कमज़ोर और विषम होते हैं कि वे भरोसेमंद performance intervention tool नहीं बन सकते।

शोधकर्ताओं ने emotional prompting को "universal template" नहीं, बल्कि "adaptive routing problem" के रूप में फिर से परिभाषित करने का प्रस्ताव दिया है।

सीमाएँ

यह शोध छोटे prefix, single-turn prompting, और accuracy-केंद्रित benchmarks पर केंद्रित था। multi-turn interaction, open-ended generation, और safety-sensitive dialogue जैसे आकलनों में, जहाँ accuracy जितनी ही calibration, style, और empathy भी महत्वपूर्ण होती है, वहाँ प्रभाव अधिक बड़ा या गुणात्मक रूप से अलग हो सकता है।

मूल लेख: "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1