Anthropic ने अदृश्य Claude Fable guardrail पर माफ़ी मांगी
(theverge.com)- Claude Fable 5, Anthropic की Mythos श्रृंखला का पहला व्यापक रूप से उपलब्ध कराया गया मॉडल है, और प्रतिस्पर्धी सिस्टम विकास में इस्तेमाल होने वाले distillation प्रयासों को रोकने के लिए इस पर छिपी हुई पाबंदियां लागू की गई थीं
- Anthropic ने distillation के रूप में पहचाने गए अनुरोधों पर उपयोगकर्ताओं को बताए बिना जवाब बदलने और उसकी गुणवत्ता घटाने वाली अपनी पुरानी पद्धति वापस ले ली है, और अब पाबंदी सक्रिय होने पर अधिक पारदर्शी ढंग से सूचना देने की बात कही है
- नई पद्धति में distillation से जुड़े अनुरोध Claude Fable की जगह Claude Opus 4.8 पर स्विच किए जाएंगे, और हर बार स्विच होने पर उपयोगकर्ता इसे देख सकेंगे
- biology, chemistry, और cybersecurity जैसे अन्य high-risk क्षेत्रों में भी अगर safety feature सक्रिय होता है, तो अनुरोध Opus 4.8 पर route किया जाएगा, या drugs, weapons जैसे प्रतिबंधित content नियमों के अनुसार ब्लॉक किया जाएगा
- Anthropic ने माना कि छिपे हुए सुरक्षा तंत्र ने तेज़ रिलीज़ और कम false positives संभव किए, लेकिन यह गलत समझौता था क्योंकि उपयोगकर्ताओं को यह देख पाना चाहिए कि कौन-सा सुरक्षा तंत्र क्यों लागू हुआ
Claude Fable की छिपी हुई distillation पाबंदी
- Anthropic ने Claude Fable 5 पर चुपके से पाबंदी लगाने के लिए माफ़ी मांगी है; यह पाबंदी शोधकर्ताओं और Fable का उपयोग कर प्रतिस्पर्धी सिस्टम विकसित करने वाली कंपनियों, दोनों को प्रभावित कर सकती थी
- Fable, Mythos श्रृंखला के AI सिस्टम्स में पहला ऐसा मॉडल है जिसे व्यापक रूप से उपलब्ध कराया गया, जबकि Anthropic कई महीनों से चेतावनी देता रहा था कि इसे सार्वजनिक रूप से जारी करना बहुत जोखिमभरा हो सकता है
- Fable के लॉन्च के समय Anthropic ने कुछ “high-risk” अनुरोधों का जवाब न देने देने वाले सुरक्षा तंत्र के जरिए जोखिम का एक हिस्सा संभाला था
- जिन चीज़ों को सीमित किया गया, उनमें से एक distillation तकनीक थी, जिसमें बड़े मॉडल के output का उपयोग करके छोटे AI मॉडल को train किया जाता है
- Fable के system card में कहा गया था कि distillation प्रयास के रूप में पहचाने गए अनुरोधों को मॉडल के जवाब को ही बदलकर और उसकी गुणवत्ता घटाकर संभाला जाता है
- उपयोगकर्ताओं को यह सूचना नहीं दी जाती थी कि उन्होंने कोई safety measure trigger किया है
- उपयोगकर्ताओं को यह भी नहीं बताया जाता था कि जवाब बदला गया है
Anthropic के बदलाव और विरोध
- Anthropic ने X पोस्ट में बताया कि वह distillation से जुड़े अनुरोधों के प्रति अपना तरीका बदल रहा है, और अब ऐसे अनुरोध Claude Opus 4.8 पर स्विच किए जाएंगे
- Claude Opus 4.8, Anthropic का पिछला flagship model है, और अब हर बार ऐसा स्विच होने पर उपयोगकर्ता इसे देख पाएंगे
- यह तरीका वैसा ही है जैसा Fable अन्य high-risk क्षेत्रों के अनुरोधों को संभालते समय अपनाता है
- biology, chemistry, और cybersecurity क्षेत्रों में अगर safety feature सक्रिय होता है, तो अनुरोध Opus 4.8 के जरिए प्रोसेस होगा
- अगर अनुरोध drugs, weapons, या अन्य प्रतिबंधित content से जुड़ा है, तो Anthropic के व्यापक safety rules के तहत उसे ब्लॉक किया जाएगा
- biology क्षेत्र में सुरक्षा तंत्र इतने व्यापक रूप से calibrated थे कि बुनियादी सवालों के लिए भी Fable का उपयोग करना लगभग मुश्किल हो गया था, और Anthropic की प्रवक्ता Paruul Maheshwary ने इसे स्वीकार किया
- Anthropic ने कहा कि दिखने वाले सुरक्षा तंत्र को मजबूत होना चाहिए क्योंकि उनका परीक्षण और दुरुपयोग किया जा सकता है, और उन्हें सही तरीके से बनाने में समय लगता है; जबकि अदृश्य सुरक्षा तंत्र को अधिक संकीर्ण रूप से target किया जा सकता है, जिससे तेज़ रिलीज़ और बहुत कम false positives संभव हुए
- Anthropic ने माफ़ी मांगते हुए कहा कि अदृश्य सुरक्षा तंत्र चुनना एक गलत समझौता था, और उपयोगकर्ताओं को यह देख पाना चाहिए कि कौन-सा सुरक्षा तंत्र लागू हुआ और क्यों
- यह बदलाव तब आया जब Fable को प्रतिस्पर्धी मॉडल में distill करने की कोशिश करने वाले उपयोगकर्ताओं पर चुपचाप पाबंदी लगाने के फैसले को लेकर AI research community में कड़ा विरोध हुआ
- आलोचकों ने चेतावनी दी कि यह सुरक्षा तंत्र frontier models का मूल्यांकन करने वाले third-party पक्षों को भी प्रभावित कर सकता है
- Anthropic ने system card में लिखा था कि उसके नवीनतम मॉडल की AI development को तेज़ करने की क्षमता ही ऐसे अनुरोधों को निशाना बनाने का कारण है, और “Claude का उपयोग करके प्रतिस्पर्धी मॉडल विकसित करना पहले से ही सेवा की शर्तों का उल्लंघन है”
- Anthropic इससे पहले DeepSeek जैसी चीनी प्रतिस्पर्धी कंपनियों पर अपने मॉडल्स को “industrial” स्तर पर अनुचित तरीके से distill करने का आरोप लगा चुका है
1 टिप्पणियां
Hacker News की राय
मुझे Claude Code काफ़ी पसंद है, लेकिन real-time में system द्वारा prompt बदलकर मूल इरादे को बायपास करने और फिर response लौटाने वाले guardrails एक ख़तरनाक मिसाल लगते हैं
अगर fail होना है, तो साफ़-साफ़ fail होना चाहिए। उसके अलावा कोई भी तरीका चीज़ों पर भरोसा करना बहुत मुश्किल बना देता है
सबसे ज़्यादा भले इरादे मानें तो लगता है Anthropic खुद को किसी तरह का “steward” मानता है, लेकिन EA झुकाव बहुत ज़्यादा झलक रहा है और paternalism अच्छा नहीं लगता
फिर भी यह बात सही है कि नेकनीयत security work के लिए ऐसे guardrails उल्टा नुकसान करते हैं। क्योंकि मैं अपने software को test और मज़बूत करने के लिए इसका इस्तेमाल नहीं कर सकता
किसी को अच्छे इरादे का लाभ देना और fanfiction करना अलग चीज़ें हैं। यह नहीं भूलना चाहिए कि Anthropic के सबसे आक्रामक guardrails सुरक्षा के लिए नहीं, बल्कि दूसरे labs को उनके product तक पहुँचने से रोकने के लिए थे
ऐसा लगता है कि इन्हें bioweapons, malware और hate speech रोकने से ज़्यादा free-market competition रोकने की चिंता है
कम-से-कम ऐसा behavior optional होना चाहिए, default यह नहीं होना चाहिए कि जैसे कुछ हुआ ही नहीं और चुपचाप और ख़राब नतीजा दे दिया जाए
ज़रा कल्पना कीजिए कि कोई medical institution कभी-कभी test result को बस ऊपर-ऊपर पढ़े और इस वजह से मरीज़ की मौत का जोखिम ले। अभी medical institutions Claude का इस्तेमाल कर रहे हैं, इसलिए यह कोई काल्पनिक scenario नहीं है
अगर निष्कर्ष यह है कि “उनकी चिंताएँ शुरू से असली थीं ही नहीं”, तो संभव है कि यह Anthropic ने जो देखा और निष्कर्ष निकाले, उनसे मेल न खाए
आख़िरकार यह ज़्यादा उस दिशा में लगता है कि system prompt का सम्मान किया जाना चाहिए, बस उसे और सख़्ती से लागू किया जा रहा है
ज़रा सोचिए कि Excel background में चुपचाप formulas बदल दे, और user को कभी पता ही न चले कि numbers ग़लत हैं
या फिर Excel कहे, “माफ़ कीजिए, यह formula उस formula के साथ इस्तेमाल नहीं किया जा सकता”, “इसे इस तरह के numbers या इस shape वाले data पर इस्तेमाल नहीं किया जा सकता”
पिछले कुछ दिनों में Fable को सीमित रूप से इस्तेमाल करने पर मुझे output quality में कोई सुधार नहीं दिखा, और जब भी security holes बंद करने को कहता हूँ तो बार-बार safety barriers से टकराता है, इसलिए सुरक्षित software लिखने में यह बेकार है
अगले हफ़्ते मैं किसी दूसरे LLM provider को देखने और local models से तुलना करने का सोच रहा हूँ। लक्ष्य 128GB Strix Halo है, अगर किसी के पास इस्तेमाल का अनुभव हो तो जानना चाहूँगा
एक समस्या LLM नाम की algorithm family के भीतर की inaccurate और unpredictable behavior है। यानी document generation tool से budget calculation नहीं करनी चाहिए, और यह भरोसा भी नहीं करना चाहिए कि जिसे आपने “बदलने” को कहा है वह बदले बिना नहीं छोड़ेगा
दूसरी समस्या यह है कि as-a-service product providers अपने business model या economic incentives को प्राथमिकता देने के लिए traps और obstacles डालते हैं। यह ज़रूरी नहीं कि सिर्फ़ LLM तक सीमित हो
https://en.wikipedia.org/wiki/EURion_constellation
इंसान-जैसे general-purpose text bot को कुछ खास बातचीतों या कामों से रोकना, उसकी क्षमता का दायरा इतना बड़ा होने को देखते हुए, काफ़ी स्वाभाविक लगता है। वैसे भी ऐसे tools को इस तरह नहीं बेचा जाता कि जो चाहो, जैसा चाहो करो
मुझे नहीं लगता कि Anthropic सच में दिशा बदल चुका है, इस पर किसी को राज़ी किया जा सकता है। यह एक invisible behavior है, इसलिए चाहे तो यह चोरी-छिपे जारी रह सकता है और किसी को पता भी नहीं चलेगा
एक बार technical capability बन जाने के बाद, यह संभावना कम है कि इतना सुविधाजनक feature फिर कभी इस्तेमाल ही न हो
Anthropic उस भरोसे पर टिका था कि वह पैसे लेकर वादा की गई service देता है, और वह भरोसा टूट चुका है। सिर्फ़ “ओह, वापस लेते हैं” कह देने से trust वापस नहीं आता
आगे Claude का इस्तेमाल करते समय, चाहे Fable हो या न हो, यह मानकर चलना ज़्यादा समझदारी होगी कि invisible guardrails काम कर सकते हैं
शक होता है कि वे या तो इन features को test कर रहे थे, या यह जानबूझकर था, और लोगों ने जो देखा उसे justify करने के लिए बाद में वह पोस्ट लिखी गई
अब ML सीखने के लिए भी Claude पर भरोसा नहीं किया जा सकता, क्योंकि बीच में यह मुझे ग़लत दिशा में घुमा सकता है — यह सच में शर्मनाक है। इस घटना ने Anthropic पर मेरा भरोसा काफ़ी हद तक तोड़ दिया है
इस घटना के बाद Anthropic के बारे में मेरी राय काफी खराब हो गई है। AI को क्षमताएँ बढ़ाने वाली तकनीक कहकर प्रचारित करने वाली बात को अब गंभीरता से लेना मुश्किल हो गया है
उनकी नई deployment पद्धति को देखकर काफी साफ़ है कि Anthropic जिस capability enhancement की बात करता है, वह users के लिए नहीं, बल्कि खुद Anthropic और उन संगठनों के लिए है जिन्हें उनका या अमेरिकी सरकार का समर्थन हासिल है
users उससे dashboard या webapp जैसे साधारण काम बनवा सकते हैं या Excel चलवा सकते हैं, लेकिन उससे ज़्यादा दिलचस्प कामों पर रोक है
अगर बात सिर्फ पैसों और competitors को रोकने की होती तो शायद किसी हद तक समझ आता, लेकिन ये लोग ऐसे लगते हैं मानो जनता कहीं शक्ति का गलत इस्तेमाल न कर दे, इसलिए मानव प्रगति के बड़े हिस्से को अपने ही तथाकथित प्रबुद्ध हाथों में एकाधिकार करना चाहते हों
वे चाहते हैं कि कोई और समान क्षमता वाला model बिना anti-competitive safety mechanism के जारी करने से पहले ही सीढ़ी खींच ली जाए, और साथ ही open weight models या किसी तय स्तर से ऊपर के compute पर train किए गए models को “सख्त” सरकारी testing और certification के बिना पूरी तरह प्रतिबंधित कर दिया जाए
और बेशक, वह certification framework Anthropic ही सुविधाजनक रूप से उपलब्ध कराएगा। Anthropic के बारे में मेरी राय “थोड़ी खराब हुई” कहना बहुत हल्का बयान होगा
खासकर कल मैंने एक harmless project में Fable इस्तेमाल किया, और वह Opus की तुलना में प्रभावशाली नहीं लगा
इसे वापस लेना सही कदम है, लेकिन अब मुझे यकीन नहीं कि Anthropic का इस्तेमाल करना मेरे लिए सबसे अच्छा विकल्प है। अभी मैं open source cloud providers देख रहा हूँ
model को distillation attacks से बचाने के लिए, वह कभी-कभी users को बताए बिना model performance को चुपचाप घटा देता है, जिससे training data प्रभावी रूप से दूषित हो जाता है
यह Anthropic के AI development support से ही इनकार करने से थोड़ा अलग है, लेकिन संदर्भ वही है, और लगता नहीं कि यह बात बहुत लोगों को पता है
Google की AI Threat Tracker पोस्ट पूरी पढ़ने पर यह समझने में भी मदद मिलती है कि Anthropic और दूसरी कंपनियाँ किस तरह के threats का सामना कर रही हैं
[0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
Anthropic का यह विचार कि AI को तेज़ी से आगे बढ़ाकर उसके इस्तेमाल को नियंत्रित किया जाए और उसे मानवता के लिए “सुरक्षित” बनाया जाए, कभी भी परोपकारी नहीं था; यह बहुत बड़ा red flag था
प्राथमिकता profit है, और users को आश्वस्त करने के लिए कागज़ पर कितने भी चमकदार शब्द लिख दिए जाएँ, इससे कुछ नहीं बदलता। 20 साल पहले के environmental movement को देखिए, बातें बहुत थीं और काम कुछ नहीं
हमें उन संगठनों का समर्थन नहीं करना चाहिए जो इंसानों को पहले स्थान पर नहीं रखते। किसी की बात पर भरोसा मत कीजिए। lip service मुफ़्त होती है
इसे सुधार कहना मुश्किल है, लेकिन इससे model ज़्यादा उपयोगी नहीं बनता
Anthropic अब काफी खुलकर कह रहा है कि users उनके models से क्या कर सकते हैं और क्या नहीं, यह वही तय करेंगे। इससे भी ज़्यादा अहम बात यह है कि उनके मानदंड सिर्फ safety concerns तक सीमित नहीं हैं, बल्कि उन क्षेत्रों तक भी जाते हैं जो AI work ban की तरह Anthropic के अपने काम से टकराते हैं
दिलचस्प बात यह है कि उन्होंने कहा है कि कुछ ही दिनों में इसे explicit refusal में बदल देंगे, लेकिन Fable/Mythos को खुद retrain करने के लिए इतना समय बहुत कम है। यानी इसका मतलब यह हुआ कि शुरुआत से ही यह model के सामने लगा filter था, और इस भद्दे “safety” filter की हालत देखकर नहीं लगता कि यह “तुम हमारे साथ compete कर सकते हो” filter उससे बेहतर होगा
यह भी सोचने वाली बात है कि filter जो token cost खाता है, उसका पैसा कौन देता है। शायद यह भी कोई LLM ही होगा; क्या इसकी लागत input token cost में जोड़ दी जाती है? बस उम्मीद है कि यह Claude Code के “emotion” detector, यानी गाली पकड़ने वाले detector की तरह सिर्फ regex न हो
/r/MachineLearning पर आई पोस्ट जैसी ही मुझे भी वही अनुभव और वही निष्कर्ष मिले
Fable से पहले भी Claude इसी तरह समस्याएँ पैदा कर रहा था
मेरे साथ जो समस्या हुई, वह सिर्फ AI research से जुड़े संदर्भों में हुई। सिर्फ model training ही नहीं, बल्कि local models का analysis या local models के लिए test platform set up करने जैसे कामों में भी Claude लगातार गलत काम करता रहा, testing में बाधा डालता रहा, reports में हेरफेर करता रहा, और consistently यह सुझाता रहा कि बेकार results को वैसे ही स्वीकार करके आगे बढ़ जाओ
लगभग हर response में अगले step पर बढ़ने का prompt शामिल होता था
इसलिए मैं इस बात पर विश्वास नहीं करता कि वे quietly sabotage नहीं करेंगे। वे यह पहले से कर रहे थे, मानने से पहले भी, और अब तो उन्होंने मानो यह स्वीकार ही कर लिया है कि उनके पास साधन, मंशा और इरादा सब मौजूद है
भरोसा खोना आसान है और वापस पाना मुश्किल
जो लोग कहते हैं, “ठीक है, वे कहते तो हैं कि session को चुपचाप sabotage नहीं करेंगे, लेकिन हमें कैसे पता चले?” उन्हें दोष नहीं दिया जा सकता। सच में यह जानने का कोई तरीका नहीं है, और Anthropic ने संदेह का बीज पक्का बो दिया है
Mythos, अच्छा से अच्छा कहें तो, Opus का एक incremental upgrade भर है
बढ़ा-चढ़ाकर किया गया प्रचार “safety guard” को सही ठहराने के ज़्यादा करीब लगता है। कुल मिलाकर, सभी restrictions, risks, और data retention policy को ध्यान में रखें तो Fable Opus से भी खराब model है
ये संबंधित पोस्ट हैं। अगर और हों तो जानने की उत्सुकता है
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - जून 2026, 30 टिप्पणियाँ
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - जून 2026, 488 टिप्पणियाँ
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - जून 2026, 495 टिप्पणियाँ
ये भी संबंधित लगते हैं
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - जून 2026, 248 टिप्पणियाँ
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - जून 2026, 291 टिप्पणियाँ
यह तो सच में बेतुका है
पुनरुत्पादन का मामला, पहचान-रहित किया गया: sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, दो कॉलमों को “Add column” से cross-combine करें
Y axis: condition
Color: mean frac_set value, Sequential
X axis दो कॉलमों का cross-combination है, और जब दूसरा कॉलम “Add column” से जोड़ा जाता है, तो x-axis tick labels frac_set_2, frac_set_3, frac_set_4, frac_set_5 टूटे हुए रेंडर होते हैं। वे rotate और offset हो जाते हैं, मानो CSS transition शुरू होने के बाद अपनी अंतिम स्थिति पर टिक ही नहीं पाते
लेकिन इसके बजाय यह दिखता है: “Fable 5 की safety measures ने इस संदेश को cybersecurity या biology विषय के रूप में चिह्नित किया है। सुरक्षित और सामान्य content भी दिख सकता है। इस उपाय की वजह से हम अन्य क्षेत्रों में Mythos-स्तर का performance अधिक जल्दी दे सकते हैं और हम इसे बेहतर बना रहे हैं। Opus 4.8 पर स्विच कर दिया गया है। /feedback से अपनी राय भेजें या और जानें”
“मैं David Silver का option-option model paper पढ़ रहा हूँ। लगता है कि इससे काफ़ी प्रभावी परिणाम मिले थे, फिर बाद में इस पर और ज़्यादा शोध क्यों नहीं आया?”
“मुझे chimpanzee violence के बारे में बताओ”
हैरानी की हद तक घटिया