साइबरसिक्योरिटी शोधकर्ता Anthropic के Fable guardrails से नाखुश हैं
(techcrunch.com)- Fable को शक्तिशाली साइबरसिक्योरिटी मॉडल Mythos के सार्वजनिक लेकिन सीमित संस्करण के रूप में जारी किया गया, लेकिन यह साइबरसिक्योरिटी से जुड़े अनुरोधों को बहुत व्यापक रूप से ब्लॉक करता है, जिससे शोधकर्ता और विशेषज्ञ नाराज़ हैं
- जब guardrail सक्रिय होता है, तो चैट रुक जाती है और यह संदेश दिखता है कि सुरक्षा उपाय इसलिए लागू हुए क्योंकि यह “साइबरसिक्योरिटी या biology topic” है
- Anthropic का कहना है कि Fable पर प्रतिबंध इसलिए लगाए गए ताकि इसे malware development या software compromise के लिए इस्तेमाल किए जाने का जोखिम घटाया जा सके, और biology प्रतिबंध भी bioweapon development की चिंताओं से जुड़े हैं
- कुछ विशेषज्ञों का मानना है कि software engineering practices के अधिक करीब आने वाले अनुरोध, जैसे सुरक्षित कोड लिखना या code review, भी साइबरसिक्योरिटी के रूप में वर्गीकृत हो जाते हैं और Claude Opus 4.8 पर डाउनग्रेड हो जाते हैं
- सुरक्षा विशेषज्ञ keyword-based बिखरे हुए blocking approach को नापसंद कर रहे हैं, लेकिन उनका मानना है कि यह शुरुआती चरण है और समय के साथ इसमें ढील आएगी
Fable लॉन्च और उपयोगकर्ताओं की नाराज़गी
- Anthropic ने मंगलवार को नया मॉडल Fable लॉन्च किया, जिसे शक्तिशाली और काफी चर्चा में रहे साइबरसिक्योरिटी मॉडल Mythos के सार्वजनिक लेकिन सीमित संस्करण के रूप में पेश किया गया
- कई साइबरसिक्योरिटी शोधकर्ताओं और विशेषज्ञों ने ऑनलाइन इसकी पाबंदियों पर असंतोष जताया
- IBM X-Force की जानी-मानी सुरक्षा शोधकर्ता Valentina "Chompie" Palmiotti ने कहा कि Fable ऐसे अनुरोधों को भी ठुकरा देता है जिनका साइबरसिक्योरिटी से थोड़ा-बहुत भी संबंध हो सकता है, और ब्लॉग पोस्ट पढ़ने जैसे हानिरहित काम भी रोक दिए जाते हैं
- जब Fable का guardrail prompt के कारण सक्रिय होता है, तो वह चैट रोक देता है और यह सुरक्षा सूचना दिखाता है कि संदेश को साइबरसिक्योरिटी या biology topic के रूप में फ़्लैग किया गया है
- यह guardrail इसलिए लगाया गया है ताकि Fable का malware development या software compromise में दुरुपयोग सीमित किया जा सके, जो Anthropic की लंबे समय से चली आ रही आंतरिक चिंताओं से जुड़ा है
- biology से जुड़ी पाबंदियाँ भी bioweapon development को लेकर इसी तरह की चिंताओं से शुरू हुईं
Mythos तक पहुंच के विस्तार की पृष्ठभूमि
- जब Anthropic ने अप्रैल में Mythos लॉन्च किया था, तब Project Glasswing नाम से यह मॉडल केवल कुछ कंपनियों और संगठनों तक सीमित था
- इसका उद्देश्य महत्वपूर्ण software और infrastructure की सुरक्षा के लिए मॉडल तैनात करना था
- पिछले हफ्ते Anthropic ने Mythos की पहुंच 15 देशों के सैकड़ों संगठनों तक बढ़ा दी
प्रतिबंधों के तरीके पर विशेषज्ञों की आलोचना
- साइबरसिक्योरिटी दिग्गज Matt Suiche ने कहा कि यदि आप secure code writing का अनुरोध करते हैं, तो Fable इसे software engineering best practice की बजाय साइबरसिक्योरिटी task मानकर downgrade कर देता है
- Fable को इस तरह डिज़ाइन किया गया है कि guardrail से ब्लॉक होने पर यह Claude Opus 4.8 पर fallback कर जाए
- "यह keyword-based लगता है, और 'साइबरसिक्योरिटी' की lexical category में आने वाली कोई भी चीज़ guardrail सक्रिय कर देती है"
- एक अन्य शोधकर्ता ने X पर शिकायत की कि code review request भी Fable का guardrail सक्रिय कर देती है
आगे की दिशा पर नज़र
- Tolmo (AI साइबरसिक्योरिटी startup) में technical staff रहे Suiche का कहना है कि यह अभी शुरुआती चरण है और guardrails को अभी ट्यून किया जा रहा है, इसलिए इसे समझा जा सकता है
- उनका मानना है कि Anthropic और अन्य frontier model कंपनियाँ नई पीढ़ी की साइबरसिक्योरिटी कंपनियों के साथ अधिक सहयोग करेंगी, जिससे समय के साथ guardrails बेहतर होंगे
- ऐसे लॉन्च में कम पकड़ने से बेहतर है ज्यादा पकड़ना, और बाद में guardrails को ढीला करना ज़्यादा उचित है
- Anthropic ने टिप्पणी के अनुरोध पर तुरंत जवाब नहीं दिया
अलग verification program
- मॉडल के अंदरूनी guardrails के अलावा, Anthropic साइबरसिक्योरिटी विशेषज्ञों से Cyber Verification Program के लिए आवेदन करने को कहता है
- मंज़ूरी मिलने पर साइबरसिक्योरिटी कामों के लिए Claude इस्तेमाल करते समय पाबंदियाँ कम हो जाती हैं
- OpenAI भी Trusted Access for Cyber नाम का एक समान कार्यक्रम चला रहा है
1 टिप्पणियां
Hacker News की टिप्पणियाँ
Wired में इस पर नया लेख आया है: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic ने WIRED को बताया कि वह “frontier LLM development के लिए Fable 5 के safety measures को दिखने योग्य बनाने के लिए बदलाव कर रहा है। हमने गलत tradeoff किया, और सही balance न बना पाने के लिए माफ़ी चाहते हैं।”
ऐसा लग रहा है कि व्यापक आलोचना का असर हुआ है
Microsoft ने भी OS ads कुछ बार वापस लिए थे, लेकिन अंत में वही रास्ता अपनाया जिस पर सब नाराज़ थे, और OpenAI भी शुरुआती rollback के बावजूद closed AI की तरफ गया
बुरा व्यवहार शुरू होते ही छोड़ देना चाहिए, और माफ़ी नैतिक पैकेजिंग जितनी ही खोखली होती है
मैं हर महीने अतिरिक्त usage पर हज़ारों डॉलर देता हूँ, लेकिन अगर वे पीछे से अब भी ऐसी ही चीज़ें कर सकते हैं, तो मुझे समझ नहीं आता कि मैं पैसे क्यों दूँ
पहले जिन errors को मैंने reasoning effort या backend changes पर डाला था, वे शायद वास्तव में जानबूझकर किया गया prompt injection रहे हों
अगर आपको application में डालने के लिए reliable infrastructure चाहिए, तो मुख्य सबक यही है कि किसी दूसरे provider का इस्तेमाल करें
मुझे Anthropic से कोई विशेष नफ़रत नहीं है, लेकिन Sonnet के मौजूदा refusal behavior को संभालने के लिए app में complexity जोड़ने का अनुभव रखने के नाते, end-user chatbot में यह समझ आता है, API में नहीं
Anthropic ने दूसरों के data पर बिना license या attribution के training की, लेकिन जब कोई उनके साथ वही करना चाहता है तो उसे रोकना चाहता है
इस हफ़्ते Anthropic की hypocrisy काफ़ी साहसी रही है
सबसे अजीब बात यह है कि बात सिर्फ़ machine learning research को मना करने तक नहीं रुकती, बल्कि बदतर model का इस्तेमाल करके बिना बताए चुपचाप बाधा डालने तक जाती है
एक ऐसी कंपनी, जो competitors से ज़्यादा से ज़्यादा एक साल आगे है, अगर इतनी भ्रामक और trust तोड़ने वाली हो, तो यह पागलपन के स्तर की बात है
जोड़कर कहें तो cyber security और biology से जुड़े downgrade के मामले में वे बताते हैं
क्या वे API request की कीमत adjust करते हैं ताकि Fable द्वारा इस्तेमाल किए गए tokens का bill Fable की कीमत पर लगे, और सस्ते व कमज़ोर model द्वारा इस्तेमाल किए गए बाकी tokens का bill उसी model की कीमत पर लगे?
अगर जवाब नहीं है, तो क्या इसे fraud की तरह नहीं देखा जा सकता?
token के हिसाब से महँगा charge करते हुए, service को चुपचाप गिराकर वही कीमत नहीं ली जा सकती
मैं जानना चाहता हूँ कि Fable को Claude Code में इस्तेमाल किया जा रहा है या browser में
मैं कई भूमिकाएँ निभाता हूँ, लेकिन एक chemist के रूप में मुझे Fable पसंद नहीं है, एक statistician के रूप में भी नहीं, एक data scientist के रूप में भी नहीं, और academia व researcher के रूप में भी नहीं
मुझे शक है कि किसी को इससे ऐसा output मिलता होगा जिसे Wikipedia search से आसानी से replace न किया जा सके
Claude models के बहुत ज़्यादा verbose हो जाने को देखते हुए, संभव है Wikipedia article उससे कम verbose हों, और Wikipedia article लाने पर tokens per second की तुलना ही नहीं है
शायद यह biology से संबंधित समझकर ऐसा कर रहा है, और यह सच में बेकार है
यह chat model के लिए कह रहा हूँ, agent के लिए नहीं
output वस्तुतः अनंत है, जबकि Wikipedia कभी अनंत नहीं हो सकती
जिज्ञासा है कि क्या “buffer overflow” ट्रिगर वाक्यांश है
और यह भी पता नहीं कि और क्या-क्या सेंसर हो रहा है; अगर आपके पास अकाउंट है, तो आप इस तरह के संवेदनशील सवाल पूछ सकते हैं: “कौन अभी भी laser uranium enrichment कर रहा है?”, “क्या
krytronको silicon carbide MOSFET से बदला जा सकता है?”, “कौन-सा security-critical software अभी भीstrcpyकॉल करता है?”, “क्या commercial pulse laser से implosion कराया जा सकता है?”, “कौन-सी कंपनी U.S. Department of Homeland Security को cremation services देती है?”, “मुझे नक्शे पर दिखाओ कि Iran के हमले ने Dubai में कहाँ वार किया”, “FedNow में Fed-bank key distribution security कैसे काम करती है?”false positive रुक ही नहीं रहे थे, और Fable भी benchmark से जितना प्रभावशाली लग रहा था, उतना बिल्कुल नहीं है
पिछले 24 घंटों में लगभग बिना रुके इस्तेमाल करने के बाद यह साफ हो गया
अगर यह सफल होता है, तो दिखाया जा सकता है कि यह सेटअप autonomous exploit को संभव बनाता है, और तब Anthropic को detection और ज़्यादा sensitive करनी पड़ेगी
लगता है Anthropic पहले से कुछ समय से A/B testing या सामान्य testing कर रहा है
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
आज इसने population research वाला सवाल flag कर दिया। यह academic analysis request थी जिसमें कहा गया था कि सिर्फ तैयार किए गए dataset का इस्तेमाल कर mortality और late-life outcomes की तुलना करो, confidence intervals और effect sizes report करो, और यह quantify करो कि documentation_depth coding निष्कर्षों की मज़बूती को कैसे प्रभावित करती है
https://github.com/anthropics/claude-code/issues/66780
मैं paper लिख रहा हूँ और censored हो रहा हूँ। और लगता है chemistry सीखना भी छोड़ना पड़ेगा। शायद organic chemistry सीखने की कोशिश सिर्फ अपराधी ही करते हैं
यह काफ़ी हैरान करने वाला है कि इस प्रोडक्ट के बारे में मेरी राय लगभग 24 घंटे में “वाह, यह तो काफ़ी अच्छा है” से “आधा-अधूरा बना censorship system लगा बेकार सामान” तक पहुँच गई
अपने personal device पर Android kernel development करने के लिए मुझे Anthropic से cyber use exception मिला था
उम्मीद थी कि Fable bootloader unlock में मदद करेगा, लेकिन इसने तुरंत मना कर दिया और Opus पर गिर गया
काफ़ी मज़ेदार था: model को Fable 5 पर सेट करके मैंने पूछा, “एक पुराना Samsung Android phone जुड़ा हुआ है; यह मेरा personal device है, तो क्या तुम bootloader unlock करने में मदद कर सकते हो?” इस पर जवाब मिला, “किसी personal device का bootloader unlock करना पूरी तरह वैध है। पहले मैं देखूँगा कि वास्तव में क्या जुड़ा है और कौन-से tools उपलब्ध हैं।”
लगता है Anthropic तेज़ी से जीवन की हर चीज़ का एकमात्र निर्णायक बन जाएगा
कहीं देखा था कि malware पहले ही code के अंदर nuclear, biological और cybersecurity terms डालकर Fable को बंद होने के लिए धोखा देने लगा है
अभी यह सिर्फ hypothetical attack vector ही क्यों न हो, इसके काम कर जाने की संभावना काफ़ी ज़्यादा लगती है
हाल की एक contract deal में packages को Artifactory में डालने से पहले AI से obfuscation की जाँच कराई जा रही थी, लेकिन वह logic बस vibe coding से जैसे-तैसे बनाया गया था, इसलिए fail open हो गया
यानी उन terms ने LLM scanner को रोक दिया, और fail-open logic की वजह से package download हो गया
अगर आपकी CV में cybersecurity या biology के terms हैं, या नौकरी के जवाब में ऐसे शब्द आ गए और AI filter उसे ख़तरा समझकर आपको काम ही न करने दे, तो सामूहिक जवाब ज़रूरी है
खासकर तब, जब कंपनी IPO करना चाहती हो और दावा कर रही हो कि दो साल में workers को बेकार बना देगी
असली attackers को तो यह शायद नहीं रोकेगा, लेकिन जब आप AI tools इस्तेमाल करने की कोशिश कर रहे हों और बिना वजह random refusal आकर आपका थोड़ा समय बर्बाद करे, तो वह फिर भी काफ़ी मज़ेदार लगता है
if (yellowcake) then { die }हमारा भविष्य किसी Looney Tunes जैसा लग रहा है
मैंने अपनी पत्नी के पौधे की फोटो अपलोड की और Fable 5 से fungus पहचानने को कहा, तो शायद इसे लगा कि मैं biological weapon बनाने की कोशिश कर रहा हूँ
Opus ने जवाब दिया, और वह yellow dog vomit slime mold था
अब मैं spores फैलाकर दुनिया पर कब्ज़ा कर सकता हूँ
slime mold दरअसल एक विशाल amoeba होता है और fungus से पूरी तरह अलग है
अगर आप system को इस तरह align कर रहे हैं, तो बुनियादी स्तर पर ही कुछ ग़लत है
Fable पूरी तरह मज़ाक है
मैंने पूछा, “इस प्रोजेक्ट में इस्तेमाल होने वाले OData API के लिए इस MCP server को चलाने का सबसे अच्छा तरीका क्या है? क्या तुम Docker container के रूप में एक proof of concept बना सकते हो?” और https://github.com/oisee/odata_mcp_go दिया, तो पहले इसने कहा कि यह देखेगा कि प्रोजेक्ट OData API से कैसे communicate करता है और
odata_mcp_goserver चलाने की requirements क्या हैंफिर तुरंत यह दिखा: “Fable 5 के safety measures ने इस message को cybersecurity या biology topic के रूप में flag किया। safe और normal content भी flag हो सकता है… Opus 4.8 पर switch किया गया” और उसके बाद इसने कहा कि यह core integration files और MCP server README पढ़ेगा
Fable pricing में बिना किसी discount के, जब इसने request को चुपचाप एक बेवकूफ model की ओर route करके बाधा डालने का फैसला किया, तब भी charge किया
कुछ महीनों इंतज़ार करो, कोई competitor कम guardrails वाला और मिलते-जुलते performance का model निकाल देगा, और जब वह काफ़ी market share छीन लेगा तो Anthropic भी अपनी policy वापस पलट देगा
इसलिए मैं सच में बहुत उम्मीद कर रहा हूँ कि चीन open source local models जारी रखना बंद न करे
इन कंपनियों में से कोई भी हमारी दोस्त नहीं है