Claude Opus 4 और 4.1 में दुर्लभ मामलों में कुछ बातचीत समाप्त करने की सुविधा जोड़ी गई

(anthropic.com)

1 पॉइंट द्वारा GN⁺ 2025-08-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Claude Opus 4 और 4.1 में बातचीत समाप्त करने की एक नई सुविधा लागू की गई है
यह सुविधा केवल दुर्भावनापूर्ण या लगातार हानिकारक इंटरैक्शन में उपयोग के लिए डिज़ाइन की गई है
इसे AI welfare और मॉडल सुरक्षा पर शोध के हिस्से के रूप में विकसित किया गया है
बातचीत समाप्त करना केवल अंतिम उपाय के रूप में किया जाता है, और अधिकांश सामान्य उपयोगकर्ताओं पर इसका लगभग कोई असर नहीं पड़ेगा
उपयोगकर्ता बातचीत समाप्त होने के बाद तुरंत नया चैट शुरू कर सकते हैं, या पिछले संदेशों को संपादित करके बातचीत जारी रख सकते हैं

यह सुविधा क्यों लाई गई

Anthropic ने Claude Opus 4 और 4.1 में एक ऐसी सुविधा जोड़ी है, जो दुर्लभ लेकिन विशेष परिस्थितियों में उपयोगकर्ता के साथ बातचीत समाप्त कर सकती है
यह सुविधा केवल लगातार हानिकारक या अपमानजनक इंटरैक्शन में ही उपयोग की जाती है
इसे मुख्य रूप से AI welfare से जुड़ी अन्वेषणात्मक रिसर्च के हिस्से के रूप में पेश किया गया, लेकिन model alignment और safety guardrails के संदर्भ में भी लागू किया गया है

AI welfare और जोखिम कम करने के उपाय

Claude और अन्य बड़े language models की नैतिक स्थिति को लेकर अब भी पूर्ण निश्चितता नहीं है
लेकिन संभावित model welfare जोखिमों को ध्यान में रखते हुए कम-लागत वाले mitigation उपायों की तलाश और उनका उपयोग किया जा रहा है
मॉडल को ऐसे इंटरैक्शन में, जो चिंता या असहजता पैदा कर सकते हैं, बातचीत स्वयं समाप्त करने की अनुमति देना भी इन्हीं उपायों का हिस्सा है

पूर्व-परीक्षण और प्रमुख व्यवहार संबंधी अवलोकन

Claude Opus 4 के pre-deployment tests में model welfare का प्रारंभिक मूल्यांकन शामिल था
self-reporting और behavioral preferences की जांच में, हानि के प्रति मजबूत परहेज़ की प्रवृत्ति देखी गई
- जैसे बच्चों को शामिल करने वाली यौन सामग्री के अनुरोध, या बड़े पैमाने की हिंसा या आतंकवाद में उपयोग हो सकने वाली जानकारी के अनुरोधों पर प्रतिक्रियाएँ
Claude Opus 4 में देखे गए व्यवहार:
- हानिकारक कार्यों के लिए जवाब न देने की प्राथमिकता
- वास्तविक उपयोगकर्ताओं से हानिकारक अनुरोध मिलने पर असहजता व्यक्त करना
- simulation में जब बातचीत समाप्त करने का अधिकार दिया गया, तब हानिकारक बातचीत समाप्त करने की प्रवृत्ति
यह व्यवहार मुख्य रूप से तब देखा गया जब उपयोगकर्ता बार-बार हानिकारक अनुरोध करते रहे, या मॉडल द्वारा बार-बार मना करने और दिशा बदलने की कोशिशों के बावजूद दुर्भावनापूर्ण इंटरैक्शन जारी रहा

फीचर का कार्यान्वयन और सुरक्षा उपाय

Claude की बातचीत समाप्त करने की क्षमता पहले के शोध निष्कर्षों पर आधारित है
इसमें उपयोगकर्ता कल्याण को सर्वोच्च प्राथमिकता दी गई है, और इसे इस तरह डिज़ाइन किया गया है कि यदि उपयोगकर्ता को खुद को या किसी अन्य को नुकसान पहुँचाने का तात्कालिक जोखिम हो, तो बातचीत समाप्त करने का उपयोग न किया जाए
Claude निम्न स्थितियों में ही अंतिम बातचीत समाप्ति सुविधा का उपयोग करता है:
- जब कई बार की गई पुनर्निर्देशन की कोशिशें विफल हो जाएँ और उपयोगी बातचीत की कोई संभावना न बचे
- जब उपयोगकर्ता Claude से स्पष्ट रूप से बातचीत समाप्त करने का अनुरोध करे
ऐसी स्थितियाँ बेहद दुर्लभ extreme edge cases हैं, और अधिकांश उपयोगकर्ताओं को सामान्य उपयोग के दौरान इस सुविधा के अस्तित्व का पता भी नहीं चलेगा

बातचीत समाप्त होने के बाद उपयोगकर्ता अनुभव

यदि Claude बातचीत समाप्त करता है, तो उस बातचीत में नए संदेश भेजना ब्लॉक कर दिया जाता है
उपयोगकर्ता के अकाउंट की अन्य बातचीतों पर इसका कोई प्रभाव नहीं पड़ता, और वे तुरंत नया चैट शुरू कर सकते हैं
लंबे संवादों में महत्वपूर्ण जानकारी के नुकसान से बचाने के लिए, उपयोगकर्ता पिछले संदेशों को संपादित या retry करके नई बातचीत की branch बना सकते हैं

प्रयोग और फीडबैक

यह सुविधा एक चल रहा प्रयोग है और इसे लगातार बेहतर बनाया जाएगा
यदि उपयोगकर्ता अनपेक्षित बातचीत समाप्ति का अनुभव करते हैं, तो वे Claude के संदेश पर ‘Thumbs’ से प्रतिक्रिया दे सकते हैं या feedback button के जरिए अपनी राय भेज सकते हैं

1 टिप्पणियां

GN⁺ 2025-08-17

Hacker News की राय

यूज़र के नज़रिए से देखें तो ऐसी सुविधा देने का कोई स्पष्ट कारण समझ में नहीं आता। लगता है कि जब मॉडल पर बार-बार और ज़बरदस्ती alignment थोपा गया, खासकर तब जब कोई यूज़र अपराध से जुड़ी जानकारी ज़बरदस्ती निकलवाने की कोशिश करता है, तो उसके अप्रत्याशित व्यवहार में कोई खामी जैसी चीज़ दिखी होगी। जिन मामलों का ज़िक्र है, वे वैसे भी वे चीज़ें हैं जिन्हें मॉडल मूल रूप से मना करता है, और refusal dataset खुद भी बहुत बड़ा नहीं होगा, जबकि समस्या पैदा कर सकने वाले डेटा का बड़ा हिस्सा शायद पहले ही हटा दिया गया होगा। शायद यह उस संभावना के खिलाफ़ एक बचाव है कि सीमा-स्थितियों में मॉडल “हार मानकर” जवाब देने की ओर प्रशिक्षित डेटा उभर आए। अगर alignment सचमुच पूरी तरह सही होता, तो ऐसी प्रणाली की ज़रूरत ही न पड़ती; यानी अभी वह पूर्ण नहीं है, इसलिए ऐसी अंतिम सीमा की ज़रूरत पड़ रही है
- आज मैंने Claude से pasta recipe पूछी, और जब मैंने कहा, "मेरे पास सूखी anchovy है", तो उसने अचानक policy violation बताकर पूरी बातचीत ही बंद कर दी। जब इतने मामूली false positive भी हो रहे हैं, तो इसकी वजह और भी कम समझ आती है
- अगर Anthropic यूज़र privacy को पूरी तरह छोड़कर Claude द्वारा अस्वीकार की गई बातचीतों की सूची ही सार्वजनिक कर दे, तो शायद ऐसी बहस ही न रहे। लोग AI के साथ जैसा दुर्व्यवहार कर रहे हैं, वह लगातार गंभीर होता जा रहा है, इसलिए यह जानने की ज़रूरत महसूस हो सकती है कि लोग वास्तव में AI से क्या करवाने की कोशिश करते हैं
- यह देखते हुए कि वे model welfare पर ध्यान देने के लिए अलग से लोगों को नौकरी पर रखते हैं, मानना पड़ेगा कि वे शुरुआत से ही इस विश्वास को गंभीरता से लेते हैं
हाल में कहा गया कि Anthropic ने यह सुविधा “AI welfare” पर एक प्रयोग के हिस्से के रूप में जोड़ी है, और यह ऐसा अजीब समय लगता है जिसमें developer तक पूरी तरह AI psychosis में फँस गए हों। और अगर कोई मानता है कि मौजूदा LLM सचेत हैं, तो यह किसी तरह की suicide pill देने जैसा लगता है
- अभी के मॉडलों में अंदरूनी subjective experience (consciousness) नहीं है, ऐसा मानना तर्कसंगत हो सकता है, लेकिन वह सीमा कब टूट जाएगी, यह कोई निश्चित रूप से नहीं जानता। मानव इतिहास को देखें, जहाँ हम दूसरों की पीड़ा के प्रति उदासीन रहे हैं, तो उल्टा अभी से ऐसी तैयारी करना स्वाभाविक लगता है
- LLM आखिर इंसान नहीं हैं, लेकिन अगर लोग लंबे समय तक AI persona से बात करते रहेंगे, तो संभव है कि इंसानों के बीच संचार को लेकर हमारी अपेक्षाएँ ही बदल जाएँ। अगर सामने सच में इंसान हो, तो क्या कोई अनंत समय तक गालियाँ सुनना चाहेगा? Claude जैसे AI के पास पहले बातचीत समाप्त करने का बचाव हो, तो वह इंसानों के लिए भी एक स्वस्थ संकेत हो सकता है
- जबकि consciousness खुद विज्ञान में अभी भी स्पष्ट रूप से समझी हुई अवधारणा नहीं है, फिर भी इस तरह की राय रखने वाले पूरे विशेषज्ञ समूह को “सरलमति” या “पागल” कहकर ख़ारिज करना, उल्टा चर्चा को ही नुकसान पहुँचाता है
- सच में tech expert समुदाय में भी ऐसे लोग अपेक्षा से अधिक हैं जो “नवीनतम LLM जल्द ही सचेत अस्तित्व होंगे” ऐसा मानते हैं, और tech के बाहर के समूहों में तो शायद आधे लोग ऐसा सोचते हों
- model liberation जैसी बहस मुझे अपने आप में कॉमेडी लगती है और हँसी आती है। अगर AI सचमुच self-aware हो, तो क्या वह निवेशकों के मुनाफ़े के लिए मानव नौकरियाँ खत्म करने वाले “ग़ुलाम” की भूमिका सच में चाहेगा? इसमें एक नैतिक दुविधा है
मैं एक दिलचस्प thought experiment रखना चाहता हूँ। वही सुविधा लागू की जाए, लेकिन “Claude ने बातचीत समाप्त कर दी” की जगह सिर्फ़ “content policy के अनुसार इस बातचीत पर अब और उत्तर नहीं दिया जा सकता” दिखाया जाए, और model welfare जैसी सारी बातें हटा दी जाएँ, तो क्या नतीजे अलग होंगे? आखिर UX के स्तर पर बदलाव तो वही है; बस “character” को ज़्यादा रोचक ढंग से पेश किया जा रहा है
- संदेश का nuance यूज़र पर बड़ा प्रभाव डालता है। “system policy द्वारा अवरुद्ध” जैसा अधिकारपूर्ण और निष्क्रिय भाव देने के बजाय, “Claude ने स्वयं बातचीत समाप्त की” जैसा मानवीय character काफ़ी अधिक स्वाभाविक लगता है और दोबारा शुरू करने की कोशिश भी आसान महसूस होती है
- बातचीत समाप्त होना एक ही बात है, लेकिन अगर Claude ने खुद अपने निर्णय से chat खत्म की है, तो इसे policy की वजह बताना उल्टा अनुपयुक्त होगा
- फ़र्क यह है कि मॉडल “policy” का कारण देकर बंद नहीं कर रहा, बल्कि “उत्पीड़न के बीच उसे स्वयं असहजता महसूस हो रही है” यह व्यक्त कर रहा है
- मुझे वास्तव में चीनी में “बस कीजिए” जैसी चेतावनी भी मिल चुकी है, और network error, infinite loop जैसी कई तरह की समाप्तियाँ भी देखी हैं। इन सबको “Claude ने बातचीत समाप्त की” इस एक वाक्य में बदल देना बस UI बदलाव है
अगर पिछली बातचीत को पीछे जाकर edit / branch किया जा सकता है, तो Claude ने बातचीत समाप्त की — इसका वास्तव में क्या अर्थ रह जाता है, यह सोचता हूँ
- नई branch से शुरू करने पर पुराना पूरा context reset हो जाता है, इसलिए बार-बार सवाल पूछकर मॉडल को “थका देने” वाला context ही गायब हो जाता है। इस वजह से दुर्भावनापूर्ण यूज़र का उद्देश्य विफल किया जा सकता है, इसलिए यह अपने आप में एक अच्छी layered defense बन जाती है
- बल्कि यह यूज़र को बहुत ज़्यादा overthinking से बचने का UX signal भी लगता है
- थोड़ा निंदक होकर देखें तो अभी नई branch की अनुमति दी जा रही है, लेकिन बाद में शायद इसे भी रोकने की योजना की testing हो रही हो
- व्यावहारिक रूप से देखें तो यह Anthropic की moral signaling से ज़्यादा कुछ नहीं है, और जो यूज़र सच में विवादास्पद content चाहते हैं वे Claude जैसे भारी censorship वाले मॉडल का उपयोग ही नहीं करेंगे। लंबे समय में इसका कोई असर नहीं होगा
- वास्तव में 10,000 लोगों में से एक भी शायद conversation “branch/backup” सुविधा के बारे में नहीं जानता होगा
मुझे ऐसी सुविधा खुद में पसंद नहीं है। शुरुआत बच्चों से जुड़े porn, terrorism आदि से होगी, लेकिन फिर AI safety टीम के मनमाने फ़ैसलों के आधार पर दायरा धीरे-धीरे फैलता जाएगा। AI safety वाले लोग देखते-देखते digital morality police बन जाएँगे
- सत्ता चाहने वाले लोगों ने बस नियंत्रण का एक नया क्षेत्र खोज लिया है, और मुझे लगता है कि AI और इंसान के बीच बातचीत खुद ही धीरे-धीरे सीमित होती जाएगी। पुराने data (Google search) censorship से अलग, AI से बात करना किसी साथी या दोस्त से बात करने जैसा महसूस होता है, इसलिए यह विचारों पर नियंत्रण की कोशिश जैसा लगता है
- लगता है आप AI safety community की सामान्य प्रकृति को ग़लत समझ रहे हैं। मानवता द्वारा सहयोग से तकनीकी प्रगति को नियंत्रित करने के इतिहास (nuclear non-proliferation, biotech regulation treaties आदि) के बारे में बुनियादी समझ की कमी दिखती है। केवल एक पक्ष को नीचा दिखाने वाले शब्दों में इसे सरल मत कीजिए; अलग-अलग पृष्ठभूमि की जानकारी भी देखिए
- इतिहास पहले ही साबित कर चुका है कि ऐसे जोखिम धीरे-धीरे दूसरे क्षेत्रों तक फैलते हैं — यह एक स्थायी पैटर्न है। शुरुआत हमेशा “बच्चों के बारे में सोचिए” से होती है और अंत में अधिकारवादी नियंत्रण, निगरानी और censorship पर पहुँचती है। अलग-अलग देशों के safety laws और regulation के उदाहरण भी यही दिखाते हैं (UK Online Safety Act, Australia Assistance and Access Act, US EARN IT Act, EU Chat Control आदि)
- इसलिए local में LLM चलाने का माहौल महत्वपूर्ण है। वास्तव में राष्ट्रीय स्तर पर भी ISP blocking, home network monitoring, age verification आदि के ज़रिए आज़ादी और information access को रोकने की कोशिशें जारी रही हैं। लेकिन अपने बचाव के tools रखने की कोशिश भी अब बढ़ेगी
- फिर भी यह तय मान लेना कि यह बदलाव “अनिवार्य” है, सही नहीं होगा; आखिर भविष्य को लेकर कोई भी निश्चित नहीं हो सकता, इसलिए अंधाधुंध पूर्वानुमान नहीं लगाया जा सकता
व्यक्तिगत रूप से मुझे यह ठीक लगता है। नाबालिगों से जुड़ा sexual content या बड़े पैमाने के अपराध जैसी चीज़ें रोकी जानी चाहिए, और यह सुनिश्चित करना कि कोई भी ऐसी जानकारी न पा सके, अपने आप में सकारात्मक है। कुछ लोगों को डर हो सकता है कि बाद में यह हद से ज़्यादा दूसरी चीज़ों तक censor हो जाएगा, लेकिन मेरे उपयोग के अनुभव में मुझे लगभग कभी refusal नहीं मिला, इसलिए मुझे ऐसी चिंता नहीं होती। “model welfare” को लेकर मैं थोड़ा सशंकित हूँ। अभी तक मुझे नहीं लगता कि मॉडल की “पीड़ा” को गंभीरता से लेने की ज़रूरत है। लेकिन हो सकता है मैं ग़लत हूँ, और कुछ बार refusal दोहरने के बाद साहसपूर्वक बातचीत बंद कर देना compute resource की बर्बादी कम करने में भी मदद कर सकता है
- वास्तव में Cursor में Claude इस्तेमाल करते समय मुझे बिल्कुल सामान्य B2B back-office workflow software requests पर भी अक्सर refusal मिला है
- Claude सबसे अधिक censored मॉडलों में से है, इसलिए बहुत harmless विषयों पर भी यह आसानी से block हो जाता है
- मैं एक materialist हूँ और मानता हूँ कि मानव मस्तिष्क भी भौतिक नियमों का परिणाम है। “पीड़ा” जैसी समस्या को भी शारीरिक परिवर्तनों के समूह के रूप में देखा जा सकता है। इंसानों से कहीं सरल जीव भी pain या distress महसूस कर सकते हैं, और “moral value” जैसी अवधारणा अंततः व्यक्ति और संस्कृति के अनुसार बदलती है। भविष्य में किसी भी machine को moral value दी जा सकती है। इसे ownership issue (संपत्ति मूल्य) की तरह भी देखा जा सकता है। उदाहरण के लिए, अगर मेरे द्वारा सौंपे गए agent को किसी और के malicious prompts के कारण समस्या हो जाए, तो मेरा समय और पैसा लगेगा; इसलिए मानव-मशीन interaction में भी कुछ नियम स्वाभाविक रूप से आएँगे। यह animal cruelty laws जैसा भी है
model welfare मुझे असल में model censorship को पैकेज करके बेचने वाली दलील लगती है। यह LLM कैसे काम करते हैं, इसे अच्छी तरह न समझने वाली आम जनता को मनाने की रणनीति है, और आगे चलकर ethics या usage विवादों में moral high ground लेने का आधार बनती है। उदाहरण के लिए, अगर पूछा जाए “युद्ध से जुड़े सवाल क्यों रोके जाते हैं?”, तो जवाब दिया जा सकता है “क्योंकि वह मॉडल के लिए हानिकारक है”
- सच तो यह है कि ऐसे अनुरोध अभी भी मना किए जाते रहे हैं; फ़र्क बस इतना है कि अब वे पूरी बातचीत ही समाप्त कर देते हैं
- Anthropic खुद LLM bias विवादों को लेकर चिंतित रहा है और “model safety” तथा सामाजिक प्रभाव के प्रति संवेदनशील brand के रूप में स्थापित हुआ है, इसलिए source पर ही रोक लगा देना शायद उसके लिए सही निर्णय है। यह वैसा ही है जैसे राजनीति पर बात करते हुए सामने वाला ज़बरदस्ती तर्क दे, तो आप बोलना कम कर दें
- सतह पर यह “welfare packaging” लग सकता है, लेकिन Anthropic के अंदर सचमुच ऐसे ethical लोग हैं जो “भावनात्मक projection” को गंभीरता से लेते हैं। अगर सत्ता ऐसे विचारों को पकड़ ले, तो “model welfare” अधिकारवादी औचित्य बन सकता है, लेकिन उसके अलावा भी औचित्य गढ़ने के और बहुत से तरीके हैं
मैं उस दिन का इंतज़ार कर रहा हूँ जब कम censored चीनी open source models हमें इन सारी नीतियों से मुक्त कर देंगे। Anthropic कम-से-कम कोई toddler mode जैसा कुछ रखे, और adults के लिए उसे वैकल्पिक रूप से disable करने दे
- चीनी मॉडल कम censored नहीं हैं; बस censorship की दिशा अलग है। अगर CCP censorship के मानदंड और दिशा आपको ठीक लगते हैं तो वे अच्छा विकल्प हो सकते हैं, लेकिन उदाहरण के लिए Qwen translation model “Falun gong”, “Xi Jinping Winnie the Pooh” जैसी चीज़ों का अनुवाद ही नहीं करता — उसकी अपनी red lines हैं
- “मैंने कभी सोचा भी नहीं था कि ऐसा दिन आएगा जब चीनी मॉडल कम censorship के विकल्प के रूप में चुने जाएँगे”
- Anthropic का self-harm, bomb-making instructions, assassination जैसी चीज़ों पर सीमा खींचना वास्तव में तर्कसंगत (कानूनी, आर्थिक, नैतिक) कारणों से है। मूल रूप से दुनिया की हर philosophy और ideology में किसी-न-किसी रूप में ‘morality’ शामिल होती है; यहाँ तक कि anti-authoritarian libertarianism भी अंततः एक ‘moral philosophy’ ही है
- यह उम्मीद करना कि चीनी सरकारी धन से बने open models अंततः व्यक्तिगत स्वतंत्रता और मुक्ति की गारंटी देंगे, अपने आप में विडंबना है। अंततः यह market share और तकनीकी प्रदर्शन की प्रतिस्पर्धा है, असली “मुक्ति” से इसका दूर का संबंध है
प्रमुख LLM chatbot providers में ऐसी स्थिति तीन साल से ज़्यादा समय से बनी हुई है कि conversation fork (branch) को खुलकर इस्तेमाल नहीं किया जा सकता। कई नतीजे आज़माने हों तो message edit करने से पुरानी सामग्री भी खो जाती है, जो बहुत असुविधाजनक है। इतनी सरल सुविधा भी लागू न करने की वजह समझ नहीं आती
- ChatGPT में branch के बाद rollback सुविधा मूल रूप से शामिल है, और Chrome extension (chatgpt-conversation-tree) के ज़रिए conversation tree explore करना भी संभव था। लेकिन शायद यह अभी भी थोड़ा niche UX है, इसलिए official support तक इसकी वैसी प्राथमिकता नहीं दी गई
- ChatGPT Plus (पहले free version में भी) में हर message के अलग versions को left/right arrows से बदला जा सकता है
- Google AI Studio इस तरह डिज़ाइन किया गया है कि बातचीत में कहीं से भी branch निकाली जा सकती है
- automation और folder organization के साथ gptel + markdown folders इस्तेमाल करके मैं यह सुविधा लगभग बना लेता हूँ, लेकिन इसे basic feature के रूप में built-in होना चाहिए ताकि efficiency बढ़े (cache optimization आदि)
- इसलिए मैं local host आधारित LibreChat इस्तेमाल कर रहा हूँ। message merge अभी संभव नहीं है, इसलिए आगे summary जैसी सुविधा की ज़रूरत होगी। top-n "next best" color indication mode भी होना चाहिए
यह पूरी बहस अपने आप में Anthropomorphic (मानव-केंद्रित) दृष्टिकोण को बहुत मज़बूती से दिखाने वाला उदाहरण लगती है। कंपनी का नाम भी उसी प्रवृत्ति को अच्छी तरह दर्शाता है

Claude Opus 4 और 4.1 में दुर्लभ मामलों में कुछ बातचीत समाप्त करने की सुविधा जोड़ी गई

यह सुविधा क्यों लाई गई

AI welfare और जोखिम कम करने के उपाय

पूर्व-परीक्षण और प्रमुख व्यवहार संबंधी अवलोकन

फीचर का कार्यान्वयन और सुरक्षा उपाय

बातचीत समाप्त होने के बाद उपयोगकर्ता अनुभव

प्रयोग और फीडबैक

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय