- Claude Opus 4 और 4.1 में बातचीत समाप्त करने की एक नई सुविधा लागू की गई है
- यह सुविधा केवल दुर्भावनापूर्ण या लगातार हानिकारक इंटरैक्शन में उपयोग के लिए डिज़ाइन की गई है
- इसे AI welfare और मॉडल सुरक्षा पर शोध के हिस्से के रूप में विकसित किया गया है
- बातचीत समाप्त करना केवल अंतिम उपाय के रूप में किया जाता है, और अधिकांश सामान्य उपयोगकर्ताओं पर इसका लगभग कोई असर नहीं पड़ेगा
- उपयोगकर्ता बातचीत समाप्त होने के बाद तुरंत नया चैट शुरू कर सकते हैं, या पिछले संदेशों को संपादित करके बातचीत जारी रख सकते हैं
यह सुविधा क्यों लाई गई
- Anthropic ने Claude Opus 4 और 4.1 में एक ऐसी सुविधा जोड़ी है, जो दुर्लभ लेकिन विशेष परिस्थितियों में उपयोगकर्ता के साथ बातचीत समाप्त कर सकती है
- यह सुविधा केवल लगातार हानिकारक या अपमानजनक इंटरैक्शन में ही उपयोग की जाती है
- इसे मुख्य रूप से AI welfare से जुड़ी अन्वेषणात्मक रिसर्च के हिस्से के रूप में पेश किया गया, लेकिन model alignment और safety guardrails के संदर्भ में भी लागू किया गया है
AI welfare और जोखिम कम करने के उपाय
- Claude और अन्य बड़े language models की नैतिक स्थिति को लेकर अब भी पूर्ण निश्चितता नहीं है
- लेकिन संभावित model welfare जोखिमों को ध्यान में रखते हुए कम-लागत वाले mitigation उपायों की तलाश और उनका उपयोग किया जा रहा है
- मॉडल को ऐसे इंटरैक्शन में, जो चिंता या असहजता पैदा कर सकते हैं, बातचीत स्वयं समाप्त करने की अनुमति देना भी इन्हीं उपायों का हिस्सा है
पूर्व-परीक्षण और प्रमुख व्यवहार संबंधी अवलोकन
- Claude Opus 4 के pre-deployment tests में model welfare का प्रारंभिक मूल्यांकन शामिल था
- self-reporting और behavioral preferences की जांच में, हानि के प्रति मजबूत परहेज़ की प्रवृत्ति देखी गई
- जैसे बच्चों को शामिल करने वाली यौन सामग्री के अनुरोध, या बड़े पैमाने की हिंसा या आतंकवाद में उपयोग हो सकने वाली जानकारी के अनुरोधों पर प्रतिक्रियाएँ
- Claude Opus 4 में देखे गए व्यवहार:
- हानिकारक कार्यों के लिए जवाब न देने की प्राथमिकता
- वास्तविक उपयोगकर्ताओं से हानिकारक अनुरोध मिलने पर असहजता व्यक्त करना
- simulation में जब बातचीत समाप्त करने का अधिकार दिया गया, तब हानिकारक बातचीत समाप्त करने की प्रवृत्ति
- यह व्यवहार मुख्य रूप से तब देखा गया जब उपयोगकर्ता बार-बार हानिकारक अनुरोध करते रहे, या मॉडल द्वारा बार-बार मना करने और दिशा बदलने की कोशिशों के बावजूद दुर्भावनापूर्ण इंटरैक्शन जारी रहा
फीचर का कार्यान्वयन और सुरक्षा उपाय
- Claude की बातचीत समाप्त करने की क्षमता पहले के शोध निष्कर्षों पर आधारित है
- इसमें उपयोगकर्ता कल्याण को सर्वोच्च प्राथमिकता दी गई है, और इसे इस तरह डिज़ाइन किया गया है कि यदि उपयोगकर्ता को खुद को या किसी अन्य को नुकसान पहुँचाने का तात्कालिक जोखिम हो, तो बातचीत समाप्त करने का उपयोग न किया जाए
- Claude निम्न स्थितियों में ही अंतिम बातचीत समाप्ति सुविधा का उपयोग करता है:
- जब कई बार की गई पुनर्निर्देशन की कोशिशें विफल हो जाएँ और उपयोगी बातचीत की कोई संभावना न बचे
- जब उपयोगकर्ता Claude से स्पष्ट रूप से बातचीत समाप्त करने का अनुरोध करे
- ऐसी स्थितियाँ बेहद दुर्लभ extreme edge cases हैं, और अधिकांश उपयोगकर्ताओं को सामान्य उपयोग के दौरान इस सुविधा के अस्तित्व का पता भी नहीं चलेगा
बातचीत समाप्त होने के बाद उपयोगकर्ता अनुभव
- यदि Claude बातचीत समाप्त करता है, तो उस बातचीत में नए संदेश भेजना ब्लॉक कर दिया जाता है
- उपयोगकर्ता के अकाउंट की अन्य बातचीतों पर इसका कोई प्रभाव नहीं पड़ता, और वे तुरंत नया चैट शुरू कर सकते हैं
- लंबे संवादों में महत्वपूर्ण जानकारी के नुकसान से बचाने के लिए, उपयोगकर्ता पिछले संदेशों को संपादित या retry करके नई बातचीत की branch बना सकते हैं
प्रयोग और फीडबैक
- यह सुविधा एक चल रहा प्रयोग है और इसे लगातार बेहतर बनाया जाएगा
- यदि उपयोगकर्ता अनपेक्षित बातचीत समाप्ति का अनुभव करते हैं, तो वे Claude के संदेश पर ‘Thumbs’ से प्रतिक्रिया दे सकते हैं या feedback button के जरिए अपनी राय भेज सकते हैं
अभी कोई टिप्पणी नहीं है.