क्या भावनात्मक अभिव्यक्ति AI की परफ़ॉर्मेंस बदलती है? — प्रॉम्प्ट में भावनात्मक फ्रेमिंग का वास्तविक प्रभाव
(arxiv.org)"अगर गुस्से में पूछें तो क्या AI बेहतर जवाब देगा?" हार्वर्ड के शोधकर्ताओं ने 6 benchmarks पर प्रयोग करके पाया कि भावनात्मक अभिव्यक्ति का LLM परफ़ॉर्मेंस पर लगभग कोई असर नहीं पड़ता। लेकिन अगर हर सवाल के लिए भावना को adaptive तरीके से चुना जाए, तो लगातार परफ़ॉर्मेंस सुधार संभव है।
शोध का अवलोकन
- स्रोत: arXiv:2604.02236v1 (2 अप्रैल 2026)
- लेखक: Minda Zhao, Yutong Yang आदि (Harvard University और Bryn Mawr College का संयुक्त शोध)
- मुख्य प्रश्न: क्या प्रॉम्प्ट में भावनात्मक अभिव्यक्ति जोड़ने से LLM की परफ़ॉर्मेंस बदलती है?
मुख्य निष्कर्षों का सार
भावनात्मक टोन मानव संचार में व्यापक है, लेकिन LLM के व्यवहार पर उसका प्रभाव अभी भी स्पष्ट नहीं है। इस शोध ने तीन बातें सामने रखीं।
① स्थिर emotional prefix का असर बहुत कम है
ज़्यादातर task-model संयोजनों में emotional framing ने neutral baseline की तुलना में परफ़ॉर्मेंस को न तो बहुत बेहतर किया, न बहुत खराब। static emotional prompting किसी universal performance improvement method की तरह काम नहीं करता।
② भावना की तीव्रता बढ़ाने पर भी नतीजा लगभग वही रहता है
"मैं बहुत गुस्से में हूँ", "मैं बेहद डरा हुआ हूँ" जैसी अधिक तीव्र अभिव्यक्तियों के साथ भी accuracy में केवल हल्का बदलाव दिखा, और अधिक तीव्र भाषा ने लगातार परफ़ॉर्मेंस गिरावट नहीं पैदा की।
③ adaptive emotion selection (EmotionRL) असरदार है
एक स्थिर भावना बहुत मोटा और अविश्वसनीय संकेत साबित होती है, लेकिन input के अनुसार condition की गई policy अधिक लगातार परफ़ॉर्मेंस सुधार ला सकती है।
प्रयोग की रूपरेखा
प्रयोग में शामिल 6 भावनाएँ
Plutchik की basic emotion theory के आधार पर खुशी, दुख, डर, गुस्सा, घृणा, आश्चर्य — इन 6 भावनाओं का उपयोग किया गया।
मूल्यांकन के लिए 6 benchmarks
| benchmark | मापी गई क्षमता |
|---|---|
| GSM8K | गणितीय reasoning |
| BIG-Bench Hard | सामान्य reasoning |
| MedQA | चिकित्सा विशेषज्ञ ज्ञान |
| BoolQ | reading comprehension |
| OpenBookQA | common-sense reasoning |
| SocialIQA | सामाजिक reasoning |
उपयोग किए गए मॉडल
Qwen3-14B, Llama 3.3-70B, DeepSeek-V3.2 — इन तीन open source मॉडलों का fine-tuning के बिना zero-shot reasoning वातावरण में मूल्यांकन किया गया।
विस्तृत परिणाम
task के अनुसार भावनात्मक sensitivity में अंतर
GSM8K और MedQA-US में सभी भावनात्मक स्थितियों के दौरान परिणाम baseline के बहुत करीब रहे, जिससे संकेत मिलता है कि छोटे emotional prefix का कड़े रूप से सीमित reasoning और domain-specific multiple-choice prediction पर सीमित प्रभाव पड़ता है।
कुल स्थिरता से सबसे उल्लेखनीय विचलन SocialIQA में दिखाई दिया। यहाँ मॉडल और भावनाओं के बीच variance स्पष्ट रूप से अधिक था, और प्रभाव की दिशा भी एकसमान नहीं थी। इसका मतलब है कि भावनात्मक context उन tasks के साथ सबसे अधिक interact करता है जिनमें interpersonal reasoning की ज़रूरत होती है।
इंसानों द्वारा लिखी भावनाएँ बनाम LLM द्वारा जनरेट की गई भावनाएँ
मानव-लिखित prefix और LLM-generated prefix की तुलना में, दोनों स्रोतों ने लगभग सभी स्थितियों में लगभग समान accuracy दिखाई, और कोई भी स्रोत लगातार बेहतर नहीं निकला।
EmotionRL: adaptive emotion selection framework
हर input question के लिए agent भावना सेट {गुस्सा, घृणा, डर, खुशी, दुख, आश्चर्य} में से एक चुनता है, और उस भावनात्मक अभिव्यक्ति को मूल prompt के आगे जोड़कर frozen LLM को भेजता है।
इसकी मुख्य संरचना दो चरणों की है।
- offline training: हर question पर सभी 6 भावनाओं को आज़माकर reward vector बनाया जाता है, और एक हल्का MLP policy network train किया जाता है।
- online inference: नया input आने पर trained policy भावना चुनती है, और LLM को केवल एक बार call किया जाता है।
स्थिर emotional prompt का औसतन कमज़ोर असर यह नहीं दिखाता कि emotional framing में कोई उपयोगी signal नहीं है। EmotionRL ने पाँच tasks में औसत static emotion baseline को लगातार match किया या उससे बेहतर प्रदर्शन किया।
निष्कर्ष और संकेत
हमारे प्रयोग emotional prompting पर उन बिखरे हुए सकारात्मक उदाहरणों की तुलना में अधिक सावधानीपूर्ण दृष्टिकोण का समर्थन करते हैं। accuracy-आधारित standard benchmarks पर, स्थिर emotional prefix आम तौर पर इतने कमज़ोर और विषम होते हैं कि वे भरोसेमंद performance intervention tool नहीं बन सकते।
शोधकर्ताओं ने emotional prompting को "universal template" नहीं, बल्कि "adaptive routing problem" के रूप में फिर से परिभाषित करने का प्रस्ताव दिया है।
सीमाएँ
यह शोध छोटे prefix, single-turn prompting, और accuracy-केंद्रित benchmarks पर केंद्रित था। multi-turn interaction, open-ended generation, और safety-sensitive dialogue जैसे आकलनों में, जहाँ accuracy जितनी ही calibration, style, और empathy भी महत्वपूर्ण होती है, वहाँ प्रभाव अधिक बड़ा या गुणात्मक रूप से अलग हो सकता है।
मूल लेख: "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1
अभी कोई टिप्पणी नहीं है.