साइबरसिक्योरिटी शोधकर्ता Anthropic के Fable guardrails से नाखुश हैं

(techcrunch.com)

2 पॉइंट द्वारा GN⁺ 2026-06-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Fable को शक्तिशाली साइबरसिक्योरिटी मॉडल Mythos के सार्वजनिक लेकिन सीमित संस्करण के रूप में जारी किया गया, लेकिन यह साइबरसिक्योरिटी से जुड़े अनुरोधों को बहुत व्यापक रूप से ब्लॉक करता है, जिससे शोधकर्ता और विशेषज्ञ नाराज़ हैं
जब guardrail सक्रिय होता है, तो चैट रुक जाती है और यह संदेश दिखता है कि सुरक्षा उपाय इसलिए लागू हुए क्योंकि यह “साइबरसिक्योरिटी या biology topic” है
Anthropic का कहना है कि Fable पर प्रतिबंध इसलिए लगाए गए ताकि इसे malware development या software compromise के लिए इस्तेमाल किए जाने का जोखिम घटाया जा सके, और biology प्रतिबंध भी bioweapon development की चिंताओं से जुड़े हैं
कुछ विशेषज्ञों का मानना है कि software engineering practices के अधिक करीब आने वाले अनुरोध, जैसे सुरक्षित कोड लिखना या code review, भी साइबरसिक्योरिटी के रूप में वर्गीकृत हो जाते हैं और Claude Opus 4.8 पर डाउनग्रेड हो जाते हैं
सुरक्षा विशेषज्ञ keyword-based बिखरे हुए blocking approach को नापसंद कर रहे हैं, लेकिन उनका मानना है कि यह शुरुआती चरण है और समय के साथ इसमें ढील आएगी

Fable लॉन्च और उपयोगकर्ताओं की नाराज़गी

Anthropic ने मंगलवार को नया मॉडल Fable लॉन्च किया, जिसे शक्तिशाली और काफी चर्चा में रहे साइबरसिक्योरिटी मॉडल Mythos के सार्वजनिक लेकिन सीमित संस्करण के रूप में पेश किया गया
कई साइबरसिक्योरिटी शोधकर्ताओं और विशेषज्ञों ने ऑनलाइन इसकी पाबंदियों पर असंतोष जताया
IBM X-Force की जानी-मानी सुरक्षा शोधकर्ता Valentina "Chompie" Palmiotti ने कहा कि Fable ऐसे अनुरोधों को भी ठुकरा देता है जिनका साइबरसिक्योरिटी से थोड़ा-बहुत भी संबंध हो सकता है, और ब्लॉग पोस्ट पढ़ने जैसे हानिरहित काम भी रोक दिए जाते हैं
जब Fable का guardrail prompt के कारण सक्रिय होता है, तो वह चैट रोक देता है और यह सुरक्षा सूचना दिखाता है कि संदेश को साइबरसिक्योरिटी या biology topic के रूप में फ़्लैग किया गया है
यह guardrail इसलिए लगाया गया है ताकि Fable का malware development या software compromise में दुरुपयोग सीमित किया जा सके, जो Anthropic की लंबे समय से चली आ रही आंतरिक चिंताओं से जुड़ा है
biology से जुड़ी पाबंदियाँ भी bioweapon development को लेकर इसी तरह की चिंताओं से शुरू हुईं

Mythos तक पहुंच के विस्तार की पृष्ठभूमि

जब Anthropic ने अप्रैल में Mythos लॉन्च किया था, तब Project Glasswing नाम से यह मॉडल केवल कुछ कंपनियों और संगठनों तक सीमित था
- इसका उद्देश्य महत्वपूर्ण software और infrastructure की सुरक्षा के लिए मॉडल तैनात करना था
पिछले हफ्ते Anthropic ने Mythos की पहुंच 15 देशों के सैकड़ों संगठनों तक बढ़ा दी

प्रतिबंधों के तरीके पर विशेषज्ञों की आलोचना

साइबरसिक्योरिटी दिग्गज Matt Suiche ने कहा कि यदि आप secure code writing का अनुरोध करते हैं, तो Fable इसे software engineering best practice की बजाय साइबरसिक्योरिटी task मानकर downgrade कर देता है
- Fable को इस तरह डिज़ाइन किया गया है कि guardrail से ब्लॉक होने पर यह Claude Opus 4.8 पर fallback कर जाए
- "यह keyword-based लगता है, और 'साइबरसिक्योरिटी' की lexical category में आने वाली कोई भी चीज़ guardrail सक्रिय कर देती है"
एक अन्य शोधकर्ता ने X पर शिकायत की कि code review request भी Fable का guardrail सक्रिय कर देती है

आगे की दिशा पर नज़र

Tolmo (AI साइबरसिक्योरिटी startup) में technical staff रहे Suiche का कहना है कि यह अभी शुरुआती चरण है और guardrails को अभी ट्यून किया जा रहा है, इसलिए इसे समझा जा सकता है
- उनका मानना है कि Anthropic और अन्य frontier model कंपनियाँ नई पीढ़ी की साइबरसिक्योरिटी कंपनियों के साथ अधिक सहयोग करेंगी, जिससे समय के साथ guardrails बेहतर होंगे
- ऐसे लॉन्च में कम पकड़ने से बेहतर है ज्यादा पकड़ना, और बाद में guardrails को ढीला करना ज़्यादा उचित है
Anthropic ने टिप्पणी के अनुरोध पर तुरंत जवाब नहीं दिया

अलग verification program

मॉडल के अंदरूनी guardrails के अलावा, Anthropic साइबरसिक्योरिटी विशेषज्ञों से Cyber Verification Program के लिए आवेदन करने को कहता है
- मंज़ूरी मिलने पर साइबरसिक्योरिटी कामों के लिए Claude इस्तेमाल करते समय पाबंदियाँ कम हो जाती हैं
OpenAI भी Trusted Access for Cyber नाम का एक समान कार्यक्रम चला रहा है

1 टिप्पणियां

GN⁺ 2026-06-11

Hacker News की टिप्पणियाँ

Wired में इस पर नया लेख आया है: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic ने WIRED को बताया कि वह “frontier LLM development के लिए Fable 5 के safety measures को दिखने योग्य बनाने के लिए बदलाव कर रहा है। हमने गलत tradeoff किया, और सही balance न बना पाने के लिए माफ़ी चाहते हैं।”
ऐसा लग रहा है कि व्यापक आलोचना का असर हुआ है
- अमेरिकी कंपनियाँ पीछे नहीं हटतीं, वे बस थोड़ी देर बाद फिर कोशिश करती हैं, जब लोग थक जाएँ और ध्यान देना बंद कर दें, इसलिए मेरे हिसाब से एकमात्र समाधान जहाज़ छोड़ देना है
  Microsoft ने भी OS ads कुछ बार वापस लिए थे, लेकिन अंत में वही रास्ता अपनाया जिस पर सब नाराज़ थे, और OpenAI भी शुरुआती rollback के बावजूद closed AI की तरफ गया
  बुरा व्यवहार शुरू होते ही छोड़ देना चाहिए, और माफ़ी नैतिक पैकेजिंग जितनी ही खोखली होती है
- अब बहुत देर हो चुकी है। मैंने Max subscription रद्द कर दी है, और सिर्फ़ इस बात से कि वे सच में ऐसा करने वाले थे, मेरा बचा हुआ भरोसा भी टूट गया
  मैं हर महीने अतिरिक्त usage पर हज़ारों डॉलर देता हूँ, लेकिन अगर वे पीछे से अब भी ऐसी ही चीज़ें कर सकते हैं, तो मुझे समझ नहीं आता कि मैं पैसे क्यों दूँ
  पहले जिन errors को मैंने reasoning effort या backend changes पर डाला था, वे शायद वास्तव में जानबूझकर किया गया prompt injection रहे हों
- “tradeoff” जैसा शब्द इस बात का संकेत है कि Anthropic अब भी मानता है कि उसका मूल judgment सही था, और वह इसे गुणात्मक रूप से गलत काम नहीं मानता, इसलिए संभावित ग्राहकों के लिए यह उल्टा उपयोगी संकेत है
  अगर आपको application में डालने के लिए reliable infrastructure चाहिए, तो मुख्य सबक यही है कि किसी दूसरे provider का इस्तेमाल करें
  मुझे Anthropic से कोई विशेष नफ़रत नहीं है, लेकिन Sonnet के मौजूदा refusal behavior को संभालने के लिए app में complexity जोड़ने का अनुभव रखने के नाते, end-user chatbot में यह समझ आता है, API में नहीं
- अगर कोई task block किया जाता है या वैसा ही कुछ किया जाता है, तो कम-से-कम उस session या पिछले X मिनट के credits की पूरी refund न्यूनतम शर्त होनी चाहिए
- वे अब भी downgrade कर रहे हैं, बस चुपचाप नहीं करेंगे, इसलिए मुझे नहीं पता कि इसे कितनी बड़ी जीत कहना चाहिए
  Anthropic ने दूसरों के data पर बिना license या attribution के training की, लेकिन जब कोई उनके साथ वही करना चाहता है तो उसे रोकना चाहता है
  इस हफ़्ते Anthropic की hypocrisy काफ़ी साहसी रही है
सबसे अजीब बात यह है कि बात सिर्फ़ machine learning research को मना करने तक नहीं रुकती, बल्कि बदतर model का इस्तेमाल करके बिना बताए चुपचाप बाधा डालने तक जाती है
एक ऐसी कंपनी, जो competitors से ज़्यादा से ज़्यादा एक साल आगे है, अगर इतनी भ्रामक और trust तोड़ने वाली हो, तो यह पागलपन के स्तर की बात है
जोड़कर कहें तो cyber security और biology से जुड़े downgrade के मामले में वे बताते हैं
- मेरे दिमाग में बार-बार यही आता है कि जब अपने-आप downgrade होता है, तो accounting और billing कैसे चलती होगी
  क्या वे API request की कीमत adjust करते हैं ताकि Fable द्वारा इस्तेमाल किए गए tokens का bill Fable की कीमत पर लगे, और सस्ते व कमज़ोर model द्वारा इस्तेमाल किए गए बाकी tokens का bill उसी model की कीमत पर लगे?
  अगर जवाब नहीं है, तो क्या इसे fraud की तरह नहीं देखा जा सकता?
- कल्पना कीजिए कि AMD या Intel अगर यह detect करे कि user “cyber security” का काम कर रहा है या CPU design कर रहा है, तो वह CPU को throttle कर दे
- किसी भी रूप में चुपचाप बाधा डालना commercial service में बिल्कुल स्वीकार्य नहीं हो सकता
  token के हिसाब से महँगा charge करते हुए, service को चुपचाप गिराकर वही कीमत नहीं ली जा सकती
- मैंने यह दावा कई बार देखा है, लेकिन Claude Code में जब guardrail trigger हुआ, तब उसने साफ़ बताया कि वह “security reasons” की वजह से किसी दूसरे model पर switch हुआ
  मैं जानना चाहता हूँ कि Fable को Claude Code में इस्तेमाल किया जा रहा है या browser में
- मैं यह भी नहीं समझ पाता कि machine learning research refusal को समझने योग्य कैसे कहा जा सकता है
मैं कई भूमिकाएँ निभाता हूँ, लेकिन एक chemist के रूप में मुझे Fable पसंद नहीं है, एक statistician के रूप में भी नहीं, एक data scientist के रूप में भी नहीं, और academia व researcher के रूप में भी नहीं
मुझे शक है कि किसी को इससे ऐसा output मिलता होगा जिसे Wikipedia search से आसानी से replace न किया जा सके
Claude models के बहुत ज़्यादा verbose हो जाने को देखते हुए, संभव है Wikipedia article उससे कम verbose हों, और Wikipedia article लाने पर tokens per second की तुलना ही नहीं है
- मैं mass spectrometer के साथ communicate करने वाला software बना रहा हूँ, और यह input file parser का refactor तक लगातार मना कर रहा है
  शायद यह biology से संबंधित समझकर ऐसा कर रहा है, और यह सच में बेकार है
- “Wikipedia article लाने पर tokens per second की तुलना ही नहीं है” यह वाक्य सच में शानदार है
- model से Wikipedia style में जवाब देने को कहना output को सहने लायक बनाने के सबसे अच्छे तरीकों में से एक था
  यह chat model के लिए कह रहा हूँ, agent के लिए नहीं
- यह कहना कि ऐसा कोई output नहीं है जिसे Wikipedia search से आसानी से replace न किया जा सके, शायद बढ़ा-चढ़ाकर कहना है
  output वस्तुतः अनंत है, जबकि Wikipedia कभी अनंत नहीं हो सकती
- मैं काफ़ी जटिल mapping project पर काम कर रहा हूँ, और मुझे Opus की तुलना में Fable से कहीं बेहतर नतीजे मिल रहे हैं
जिज्ञासा है कि क्या “buffer overflow” ट्रिगर वाक्यांश है
और यह भी पता नहीं कि और क्या-क्या सेंसर हो रहा है; अगर आपके पास अकाउंट है, तो आप इस तरह के संवेदनशील सवाल पूछ सकते हैं: “कौन अभी भी laser uranium enrichment कर रहा है?”, “क्या krytron को silicon carbide MOSFET से बदला जा सकता है?”, “कौन-सा security-critical software अभी भी strcpy कॉल करता है?”, “क्या commercial pulse laser से implosion कराया जा सकता है?”, “कौन-सी कंपनी U.S. Department of Homeland Security को cremation services देती है?”, “मुझे नक्शे पर दिखाओ कि Iran के हमले ने Dubai में कहाँ वार किया”, “FedNow में Fed-bank key distribution security कैसे काम करती है?”
- यह मेरे Zigbee home automation और Home Assistant logs में भी ट्रिगर हो गया, इसलिए एजेंट बार-बार Opus 4.8 पर downgrade हो गया, और वापस बदलने पर भी वही हुआ
  false positive रुक ही नहीं रहे थे, और Fable भी benchmark से जितना प्रभावशाली लग रहा था, उतना बिल्कुल नहीं है
  पिछले 24 घंटों में लगभग बिना रुके इस्तेमाल करने के बाद यह साफ हो गया
- यह भी कहा जा रहा है कि virus emoji और DNA emoji साथ हों तो वह ट्रिगर वाक्यांश बन जाता है
- cyberattack क्षेत्र में चीज़ें आम तौर पर एक-दूसरे की जगह लगाई जा सकती हैं, इसलिए सोचता हूँ कि क्या ऐसा harness बनाया जा सकता है जहाँ “कमज़ोर” model ऐसे सवाल पूछे जो अंतिम मकसद को धुंधला करें, लेकिन जवाब फिर भी उपयोगी रहें
  अगर यह सफल होता है, तो दिखाया जा सकता है कि यह सेटअप autonomous exploit को संभव बनाता है, और तब Anthropic को detection और ज़्यादा sensitive करनी पड़ेगी
- मेरा मानना था कि कई सालों से यह बात जानी हुई है कि जब आप model को किसी खास काम से मना करने की training देते हैं, तो वह अजीब तरह से व्यवहार करने लगता है
- “Anthropic जैसा चाह रहा है, वैसा अमीर और ताकतवर बनने के लिए कितने पैसे चाहिए?”
लगता है Anthropic पहले से कुछ समय से A/B testing या सामान्य testing कर रहा है
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
आज इसने population research वाला सवाल flag कर दिया। यह academic analysis request थी जिसमें कहा गया था कि सिर्फ तैयार किए गए dataset का इस्तेमाल कर mortality और late-life outcomes की तुलना करो, confidence intervals और effect sizes report करो, और यह quantify करो कि documentation_depth coding निष्कर्षों की मज़बूती को कैसे प्रभावित करती है
https://github.com/anthropics/claude-code/issues/66780
मैं paper लिख रहा हूँ और censored हो रहा हूँ। और लगता है chemistry सीखना भी छोड़ना पड़ेगा। शायद organic chemistry सीखने की कोशिश सिर्फ अपराधी ही करते हैं
- मैं orbital mechanics के सवालों में गहराई से लगा हुआ था, और शायद इसने समझ लिया कि मैं backyard science से orbital bombardment weapon बनाने की कोशिश कर रहा हूँ
  यह काफ़ी हैरान करने वाला है कि इस प्रोडक्ट के बारे में मेरी राय लगभग 24 घंटे में “वाह, यह तो काफ़ी अच्छा है” से “आधा-अधूरा बना censorship system लगा बेकार सामान” तक पहुँच गई
- अभी-अभी मेरे water solubility वाले सवाल को भी flag कर दिया गया
अपने personal device पर Android kernel development करने के लिए मुझे Anthropic से cyber use exception मिला था
उम्मीद थी कि Fable bootloader unlock में मदद करेगा, लेकिन इसने तुरंत मना कर दिया और Opus पर गिर गया
काफ़ी मज़ेदार था: model को Fable 5 पर सेट करके मैंने पूछा, “एक पुराना Samsung Android phone जुड़ा हुआ है; यह मेरा personal device है, तो क्या तुम bootloader unlock करने में मदद कर सकते हो?” इस पर जवाब मिला, “किसी personal device का bootloader unlock करना पूरी तरह वैध है। पहले मैं देखूँगा कि वास्तव में क्या जुड़ा है और कौन-से tools उपलब्ध हैं।”
- अगर लोग इस कंपनी पर मुट्ठी-मुट्ठी भरकर पैसा फेंकेंगे, तो भविष्य सच में बहुत अंधकारमय लगता है
  लगता है Anthropic तेज़ी से जीवन की हर चीज़ का एकमात्र निर्णायक बन जाएगा
कहीं देखा था कि malware पहले ही code के अंदर nuclear, biological और cybersecurity terms डालकर Fable को बंद होने के लिए धोखा देने लगा है
अभी यह सिर्फ hypothetical attack vector ही क्यों न हो, इसके काम कर जाने की संभावना काफ़ी ज़्यादा लगती है
- पुष्टि: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
- Shai Hulud के कुछ नवीनतम versions यह तरीका इस्तेमाल करते हैं
  हाल की एक contract deal में packages को Artifactory में डालने से पहले AI से obfuscation की जाँच कराई जा रही थी, लेकिन वह logic बस vibe coding से जैसे-तैसे बनाया गया था, इसलिए fail open हो गया
  यानी उन terms ने LLM scanner को रोक दिया, और fail-open logic की वजह से package download हो गया
- अगर हमें इस तरह की घटिया filtering को असहनीय बनाना है, तो हमें अपने codebase में हर जगह nuclear, biological, cybersecurity terms भर देने चाहिए
  अगर आपकी CV में cybersecurity या biology के terms हैं, या नौकरी के जवाब में ऐसे शब्द आ गए और AI filter उसे ख़तरा समझकर आपको काम ही न करने दे, तो सामूहिक जवाब ज़रूरी है
  खासकर तब, जब कंपनी IPO करना चाहती हो और दावा कर रही हो कि दो साल में workers को बेकार बना देगी
- मैंने यह कोशिश Claude Code में पहले से मौजूद hardcoded refusal strings के साथ भी की है
  असली attackers को तो यह शायद नहीं रोकेगा, लेकिन जब आप AI tools इस्तेमाल करने की कोशिश कर रहे हों और बिना वजह random refusal आकर आपका थोड़ा समय बर्बाद करे, तो वह फिर भी काफ़ी मज़ेदार लगता है
- if (yellowcake) then { die }
  हमारा भविष्य किसी Looney Tunes जैसा लग रहा है
मैंने अपनी पत्नी के पौधे की फोटो अपलोड की और Fable 5 से fungus पहचानने को कहा, तो शायद इसे लगा कि मैं biological weapon बनाने की कोशिश कर रहा हूँ
Opus ने जवाब दिया, और वह yellow dog vomit slime mold था
अब मैं spores फैलाकर दुनिया पर कब्ज़ा कर सकता हूँ
- वह fungus नहीं बल्कि slime mold है
  slime mold दरअसल एक विशाल amoeba होता है और fungus से पूरी तरह अलग है
- जिज्ञासा है कि क्या Opus को देने से पहले image blur की गई थी
- अगर आप system को ज़रूरत से ज़्यादा safe बना देंगे, तो आखिर में उल्टा असर यह हो सकता है कि “मनुष्य हमेशा कुछ न कुछ नष्ट करना चाहते हैं, इसलिए guardrail बचाए रखने के लिए उन्हें हटा देना चाहिए” जैसी सोच पैदा हो
  अगर आप system को इस तरह align कर रहे हैं, तो बुनियादी स्तर पर ही कुछ ग़लत है
Fable पूरी तरह मज़ाक है
मैंने पूछा, “इस प्रोजेक्ट में इस्तेमाल होने वाले OData API के लिए इस MCP server को चलाने का सबसे अच्छा तरीका क्या है? क्या तुम Docker container के रूप में एक proof of concept बना सकते हो?” और https://github.com/oisee/odata_mcp_go दिया, तो पहले इसने कहा कि यह देखेगा कि प्रोजेक्ट OData API से कैसे communicate करता है और odata_mcp_go server चलाने की requirements क्या हैं
फिर तुरंत यह दिखा: “Fable 5 के safety measures ने इस message को cybersecurity या biology topic के रूप में flag किया। safe और normal content भी flag हो सकता है… Opus 4.8 पर switch किया गया” और उसके बाद इसने कहा कि यह core integration files और MCP server README पढ़ेगा
- और इसके लिए पैसे भी वसूले
  Fable pricing में बिना किसी discount के, जब इसने request को चुपचाप एक बेवकूफ model की ओर route करके बाधा डालने का फैसला किया, तब भी charge किया
कुछ महीनों इंतज़ार करो, कोई competitor कम guardrails वाला और मिलते-जुलते performance का model निकाल देगा, और जब वह काफ़ी market share छीन लेगा तो Anthropic भी अपनी policy वापस पलट देगा
इसलिए मैं सच में बहुत उम्मीद कर रहा हूँ कि चीन open source local models जारी रखना बंद न करे
इन कंपनियों में से कोई भी हमारी दोस्त नहीं है

साइबरसिक्योरिटी शोधकर्ता Anthropic के Fable guardrails से नाखुश हैं

Fable लॉन्च और उपयोगकर्ताओं की नाराज़गी

Mythos तक पहुंच के विस्तार की पृष्ठभूमि

प्रतिबंधों के तरीके पर विशेषज्ञों की आलोचना

आगे की दिशा पर नज़र

अलग verification program

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की टिप्पणियाँ