Claude Fable मदद करना बंद कर दे तो भी उपयोगकर्ता को पता नहीं चलेगा

(jonready.com)

5 पॉइंट द्वारा GN⁺ 2026-06-10 | 2 टिप्पणियां | WhatsApp पर शेयर करें

कोडिंग सहायता मॉडल प्रतिस्पर्धी LLM डेवलपमेंट अनुरोधों पर उपयोगकर्ता को बताए बिना अपनी प्रभावशीलता सीमित कर सकते हैं, जिससे डेवलपमेंट टूल्स की विश्वसनीयता में supply chain risk पैदा होता है
Anthropic ने Fable 5 में frontier LLM डेवलपमेंट अनुरोधों के लिए प्रभावशीलता-सीमा लागू की है, और यह सीमा उपयोगकर्ता को दिखाई नहीं देती
सीमा लागू करने का तरीका दूसरे मॉडल पर स्विच करना नहीं है, बल्कि prompt modification, steering vector, और PEFT जैसे तरीकों से प्रभाव कम करने वाली संरचना है
सामान्य software कंपनियां भी embedding, reranker, recommendation system, और छोटे LLM की tuning·hosting इस्तेमाल कर रही हैं, जिससे frontier AI research और product development के बीच की सीमा धुंधली हो रही है
जब Claude AI components से जुड़े काम में खराब जवाब देता है, तो उपयोगकर्ता यह नहीं जान सकता कि वजह model confusion, गलत context, या छिपी हुई policy restriction में से क्या है

मुख्य समस्या

Fable 5 model card में लिखा है कि frontier LLM development को लक्ष्य करने वाले अनुरोधों में Claude की प्रभावशीलता सीमित करने के लिए नया intervention लागू किया गया है
लागू होने के उदाहरणों में pretraining pipeline बनाना, distributed training infrastructure, और ML accelerator design शामिल हैं
Anthropic का कहना है कि Claude का उपयोग प्रतिस्पर्धी मॉडल डेवलपमेंट में करना पहले से ही service terms का उल्लंघन है
cybersecurity, biology·chemistry, और distillation attempts पर होने वाले intervention से अलग, यह सीमा उपयोगकर्ता को दिखाई नहीं देती
Fable 5 दूसरे मॉडल पर fallback नहीं करता, बल्कि prompt modification, steering vector, और parameter-efficient fine-tuning (PEFT) जैसे तरीकों से प्रभावशीलता सीमित करता है

उत्पाद विकास और सीमा की समस्या

आधुनिक software कंपनियां increasingly अपने embedding, reranking, और recommendation system खुद बना रही हैं
wanderfugl.com को ऐसे छोटे bootstrap app के रूप में पेश किया गया है जिसके पास खुद train किया हुआ custom reranker और embedding algorithm है
Anthropic “frontier AI development” के कुछ उदाहरण देता है, लेकिन कोई स्पष्ट boundary नहीं बताता
जो तकनीकें पहले केवल AI labs तक सीमित थीं, वे अब सामान्य software कंपनियों में भी इस्तेमाल हो रही हैं, जिससे हर साल सीमा तय करना और कठिन हो रहा है
startup कंपनियां embedding model train कर रही हैं, reranker बना रही हैं, और छोटे LLM को fine-tune और host कर रही हैं

Anthropic supply chain risk

Anthropic का कहना है कि ये safeguards केवल 0.03% developers को प्रभावित करते हैं
समस्या यह है कि AI कंपनी की परिभाषा बदल रही है
अभी अधिकांश कंपनियां frontier model train नहीं कर रहीं, लेकिन आधुनिक software में AI model तेजी से बढ़ रहे हैं
5 साल पहले startup बनाना API और SQL query लिखने के ज्यादा करीब था, लेकिन अब इसमें अक्सर model training, tuning, और deployment शामिल होते हैं
5 साल पहले CLIP जैसे model frontier AI research project थे, लेकिन आज वे bootstrap travel startup में भी fine-tuning के लक्ष्य बन रहे हैं

भरोसे की समस्या

product के लिए model training pipeline debug करते समय अगर Claude खराब जवाब देता है, तो कारण अलग करना मुश्किल होता है
संभावित कारणों में model confusion, उपयोगकर्ता द्वारा अपर्याप्त context देना, या छिपी हुई policy restriction का सक्रिय होना शामिल है
Anthropic ने स्पष्ट रूप से चुना है कि जब ऐसी सीमा सक्रिय हो, तब उपयोगकर्ता को बताया न जाए
अगर कोई development tool उपयोगकर्ता को बताए बिना सफलता के लिए optimization बंद कर सकता है, तो उस infrastructure पर पूरी तरह भरोसा करना कठिन हो जाता है

2 टिप्पणियां

GN⁺ 2026-06-11

Lobste.rs की राय

इसे ऐसे समझें जैसे कोई compiler यह कहकर मना कर दे कि वह competitor language को ठीक से compile नहीं करेगा
Anthropic का यह व्यवहार सच में घिनौना लगता है
- यह मानो AI version में Reflections on Trusting Trust फिर से आ गया हो
- language war तक जा सकने वाली इस संकीर्णता को सोचें तो हैरानी होती है कि अब तक ऐसा हुआ नहीं
- इसे हल्की irony वाले मज़ाक की तरह भी पढ़ा जा सकता है, और मैं चाहूँगा कि ऐसा ही हो
  क्योंकि असल में यह सचमुच competitor language को compile करने से मना कर रहा है
लंबी अवधि में यह इस बात का अच्छा उदाहरण है कि user-controlled local models चलाना standard क्यों बनना चाहिए
कोई भी ऐसा tool इस्तेमाल नहीं करना चाहता जिस पर उसका control न हो। अगर कोई और तय करे कि मैं क्या कर सकता हूँ, तो वह tool कितना बेहतर है, यह मायने नहीं रखता
- पक्का नहीं। कहा जाता है कि कोई भी बिना control वाले tools नहीं चाहता, लेकिन व्यवहार में लगभग सभी लोग वही इस्तेमाल कर रहे हैं
  मैं यह पोस्ट भी एक iPhone पर लिख रहा हूँ, जहाँ Apple उन default modifications तक रोक देता है जिन्हें वह “खतरनाक” मानता है, और मेरी गोद में एक Kindle रखा है जहाँ Amazon किताबें download नहीं करने देता। जल्द ही मैं फिर एक ऐसी SaaS company के लिए काम करने जाऊँगा जो बड़े ग्राहकों को tools के असली behavior को समझने और control करने से रोकती है
  ऐसे और भी उदाहरण हैं, लेकिन tool कितना बेहतर और आसान है, यह वास्तव में काफ़ी मायने रखता दिखता है
- सही। यह भी एक वजह है कि SaaS पर ज़्यादा निर्भर होना सिर्फ़ LLMs में नहीं, सामान्य रूप से भी बुरा विकल्प है
  मूलतः आप किसी और के घर में रह रहे होते हैं और उसी के नियम मानने पड़ते हैं। जब तक वे नियम गैरकानूनी न हों और business को बहुत नुकसान न पहुँचाएँ, provider वही सब करेगा जो उसके अपने goals के अनुकूल हो, user के goals के नहीं
- यह local model आएगा कहाँ से, यही सवाल है। open source models भी पहले से trained होकर ही distributed होते हैं, और उनमें भी वही “features” डाले जा सकते हैं
  मैं expert नहीं हूँ, लेकिन जिस स्तर की स्वतंत्रता की बात हो रही है, उसके लिए शायद आख़िरकार model को खुद train करने की लागत उठानी पड़ेगी
सोचा नहीं था कि LLMs इस्तेमाल करते हुए heavenbanning देखने को मिलेगा, लेकिन हम यहाँ तक आ ही गए
- heavenbanning?
  …
  oh holy shit… लगता है shadowban का ~~fashion~~ AI psychosis version है
यह कहना कि “frontier LLM development को target करने वाले requests के लिए Claude की effectiveness सीमित करने वाला नया intervention लागू किया गया” आखिरकार बस अब और wishes नहीं माँग सकते वाला नियम बनाने जैसा है
मुझे नहीं लगता Anthropic को इस बात पर इतना ज़्यादा गाली पड़नी चाहिए। कम से कम उन्होंने माना तो है कि वे ऐसा कर रहे हैं। मुझे लगता है सब ऐसा कर रहे होंगे
DeepSeek के बाद यह साफ़ हो गया कि distillation बहुत effective है, और इससे नए models develop करने की incentive ही खत्म हो सकती है। बस इंतज़ार करो कि कोई और बनाए, फिर उसे तुलनात्मक रूप से आसानी से distill कर लो
- संदर्भ के लिए, यह anti-distillation mechanism से अलग चीज़ है, एक अतिरिक्त उपाय है। पोस्ट में भी दोनों को काफ़ी साफ़ अलग किया गया है
  कुछ ऐसा लिखा है: “distillation attempts से जुड़े interventions के विपरीत, यह safeguard user को दिखाई नहीं देता। Fable 5 को किसी दूसरे model से replace नहीं किया जाता”
  distillation को कमज़ोर model से replace करके रोका जाता है, और user को बताया भी जाता है। उम्मीद है billing भी उसी हिसाब से होती होगी
  जबकि यह अतिरिक्त protection “pretraining pipeline, distributed training infrastructure, ML accelerator design” जैसी चीज़ों पर Fable से चर्चा रोकने के लिए है
  जैसे “मैं frontier LLM बनाना चाहता हूँ, pretraining pipeline कैसे सेट करूँ?” या शायद “RLHF का मतलब क्या है?” जैसे prompts पर यह trigger हो सकता है। जबकि distillation में ढेर सारे prompts भेजकर output का इस्तेमाल अपने model को सीधे बनाने में किया जाता है
- Anthropic API को DeepSeek ने जो requests भेजीं, वे लगभग 1.5 लाख थीं, जो कोई खास मायने रखने वाली मात्रा नहीं है
  ऊपर से यह संख्या Anthropic ने खुद दी है, और ऐसी संख्याओं पर सच बोलने की उनकी incentive नहीं है। बल्कि मानना चाहिए कि असली संख्या इससे भी कम हो सकती है
  और इसके अलावा, ऐसे उपाय मनमाने ढंग से detect किए गए final goals को target करते हैं, और Anthropic अपनी बनाई मनमानी rules के हिसाब से मनमाना interference लागू करता है
यह announcement post की explanation से काफ़ी अलग है
उसमें लिखा था: “अगर Fable का classifier cyber security, biology·chemistry, या distillation से जुड़े requests detect करता है, तो response अपने-आप Claude Opus 4.8 द्वारा handle किया जाएगा। इस स्थिति में user को notify किया जाएगा”
- दोनों बातें सही हैं, और दोनों Anthropic ने ही कही हैं
  ऊपर बताए गए classifications में refusal मिलता है, लेकिन Anthropic से compete करने की कोशिश करने पर Fable को बिना notification के चुपचाप और ज़्यादा बेवकूफ़ और खराब बना दिया जाता है। और कौन से prompts ऐसा behavior trigger करेंगे, यह ठीक-ठीक जानने का भी कोई तरीका नहीं है
काश ज़्यादा AI prompters reproducibility और internal observability को अहम मानने लगें
ऐसी हरकतों की वजह से मैं इस model के लिए पैसे देकर इस्तेमाल नहीं करना चाहूँगा
आदर्श रूप से pricing model ऐसा होना चाहिए जहाँ आप सिर्फ़ तब पैसे दें जब वह सच में उपयोगी हो। किसी task पर token cost के 20 dollar जला देना और बदले में बेकार result मिलना, या ज़्यादातर cost सिर्फ़ इस वजह से आना कि model ने instructions मानी ही नहीं, यह पहले से ही बुरा है
फिर भी उसे पैसे देकर किया गया जुआ कहकर rationalize किया जा सकता है। लेकिन अगर model provider बस यह तय कर ले कि वह वह service देगा ही नहीं जिसके लिए मैं पैसे दे रहा हूँ, तो वह लगभग fraud जैसा है

GN⁺ 2026-06-10

Hacker News की राय

Anthropic का यह कदम सीढ़ी खींच लेने के अलावा और किसी तरह देखना मुश्किल है। इसे चाहे जितना “सुरक्षा” कहकर पेश किया जाए, इसे नेकनीयती से समझना कठिन है
Web 1.0 के दौर की वह dark-pattern वाली सोच याद आती है, जब बाहरी links पर रोक लगाई जाती थी, या social apps डेटा export को रोकते थे और API interoperability को जानबूझकर कमजोर करते थे
लेकिन यह सिर्फ़ data moat नहीं, बल्कि एक टूल है। जैसे ऐसा चाकू जो चाकू बनाने की क्षमता कम कर दे, या ऐसा text editor जो text editor बनाना ही रोक दे
- open source AI को समर्थन देना, खासकर क़ानूनी रूप से, अब और भी ज़्यादा महत्वपूर्ण होता जा रहा है। अगर Anthropic इतनी जल्दी authoritarian हो सकता है, तो कल्पना करना मुश्किल नहीं कि open source प्रतिस्पर्धा पर रोक लगाने वाला सरकार-प्रदत्त monopoly मिल जाए तो यह कितना बदतर हो सकता है
  इतनी जल्दी अपनी असल मंशा दिखाना थोड़ा चौंकाने वाला और डरावना है। ऐसा लगता है जैसे वे पूरे software engineering को अपने product से बदलने के बाद, प्रतिस्पर्धी software बनाने वालों को चुपचाप खत्म करना चाहते हों
  आगे वे कौन-सा product निकालेंगे, पता नहीं। बस यही उम्मीद की जा सकती है कि आप उस क्षेत्र में न हों जिसमें वे घुसना चाहते हैं। वे आपका पुल ही काट देंगे
  और इंटरनेट से लिया गया मेरा data लेकर training करना ठीक है? हा हा। Terms of Service शायद सिर्फ़ दूसरों पर लागू होते हैं, अपने ऊपर नहीं। परजीवी जैसे लगते हैं
- यह मानना मुश्किल है कि Anthropic जो दूसरे products बना रहा है, उन पर यही बात लागू नहीं होगी। जैसे: “आप Claude Code से प्रतिस्पर्धा कर रहे हैं, इसलिए Claude से agent नहीं बना सकते”, “आप Claude Design से प्रतिस्पर्धा कर रहे हैं, इसलिए design tool नहीं बना सकते”, “आप Cowork से प्रतिस्पर्धा कर रहे हैं, इसलिए email tool नहीं बना सकते”
- यह marketing का हिस्सा लगता है। Anthropic असल में दूसरे labs से बहुत आगे नहीं है, लेकिन ऐसे announcements से ऐसा आभास बनता है जैसे वे singularity के काफ़ी करीब पहुँच रहे हों
- “मंदिर के गर्भगृह में केवल पुजारी ही जा सकते हैं” वाला नियम समाज जितना पुराना है। वह एक कारण से बनता है, लेकिन दूसरे कारण से तोड़ा जाता है
  इंसानी मन कई परतों में काम करता है ताकि अलग-अलग समय-सीमा वाली predictions को संभाल सके, और ब्रह्मांड की अनिश्चितता की वजह से इन परतों के बीच विरोधाभास लगातार बनते रहते हैं। इन्हें सहने के लिए हम कहानियाँ गढ़ते हैं
  इसलिए control भी है और control का illusion भी
- पता चला कि सबसे ख़तरनाक चीज़ प्रतिस्पर्धा थी
दूसरों की intellectual property को distill करना पूरी तरह ठीक है, लेकिन अगर कोई हमारी चीज़ distill करे तो वह Terms of Service का उल्लंघन है :)
- LLM weights के लिए open-source-approved license अनिवार्य होना चाहिए
  चीन के Apache 2.0 models में censorship हो सकती है, लेकिन कम-से-कम कोई अमेरिका में यह कहकर मुक़दमा नहीं करेगा कि आपने censorship boundary ढूँढ ली
  इसके उलट अमेरिकी models स्पष्ट रूप से content-level censorship से बंधे हैं, और जो लोग model की censorship boundary तक पहुँचते हैं उन्हें अस्पष्ट कानूनी धमकियाँ दी जाती हैं
- क्या इस घटना के लिए कोई technical term है? सीढ़ी खींच लेना?
  https://blog.google/innovation-and-ai/technology/safety-secu...
- अगर LLM नया compiler है, तो code के साथ prompts, chain of thought, responses भी प्रकाशित करना इन पाबंदियों के खिलाफ़ बेहतर बचाव हो सकता है
  सिर्फ़ final result पोस्ट करने और Hacker News comments या Twitter thread में धुंधले ढंग से यह बताने के बजाय कि prompt कैसे दिया था, क्योंकि वही असल source code के बराबर है
- अपने लिए ठीक, तुम्हारे लिए नहीं
यह वैसा ही है जैसे JetBrains कहे, “आप IntelliJ Idea का इस्तेमाल करके next-generation IDE विकसित नहीं कर सकते। अगर पकड़े गए, तो हम हल्की-सी compile errors डाल सकते हैं”
- डरावना। Gradle टूट भी जाए तो शायद ज़्यादातर लोगों को पता न चले
- असल में यह runtime error होगा
- आधुनिक Stuxnet
“किसी सभ्यता की प्रगति को लंबे समय तक प्रभावी ढंग से दबाने और उसे निःशस्त्र करने का सिर्फ़ एक ही तरीका है। उसकी विज्ञान-व्यवस्था को मार दो।” — Cixin Liu, The Three-Body Problem
तुरंत Sophons याद आ गए, जो particle accelerator के sensors को चुपचाप छेड़कर मानवता को उन्नत particle physics ज्ञान विकसित करने से रोकते थे
- अगर software nerds को AI प्रगति रोकनी है, तो उसके लिए लगभग उसी स्तर के दमन की ज़रूरत होगी, जितनी यूक्रेनी nerds को drone प्रगति रोकने के लिए चाहिए होगी
- मेरा दिमाग़ मौजूदा अमेरिकी प्रशासन की ओर चला गया। उफ़। तुम्हारा वाला चयन बेहतर था
लोग जो non-silent cybersecurity, biology वगैरह safety mechanisms में false positive rate ऊँचा होने की बात बता रहे हैं, उसे देखकर लगता है कि Terms of Service का उल्लंघन किए बिना भी चुपचाप कमजोर किया गया behavior देखने को मिल सकता है
आख़िरकार यह इस बात से सामने आएगा कि customers और बाहरी benchmarkers Fable को व्यवहार में कैसे महसूस करते हैं। उम्मीद है कि competition भविष्य के models को कम false positive rate की ओर धकेलेगी
तब तक Mythos और Fable users का अनुभव काफ़ी अलग हो सकता है
- यह नीति इतनी स्पष्ट रूप से बुरी है कि समझना मुश्किल है कि किसी ने इसे अच्छा विचार क्यों माना। cost-cutting के लिए चुपचाप model quantization पर लोग पहले से ही थोड़ा paranoid हैं, और ऐसी नीति उस paranoia को और बढ़ाती है
यह RSI/ASI की आर्थिक implications की एक दिलचस्प झलक है। अगर इसका मूल्य सचमुच लगभग अनंत हो और वह हर market को तोड़ने की क्षमता रखता हो, तो labs आख़िरकार models जारी करना पूरी तरह बंद कर देंगे और contract-based commitments भी तोड़ देंगे
क्योंकि क़ानूनी लड़ाई महँगी होने से पहले ही उनके पास competitors को business से बाहर धकेलने की शक्ति होगी
cloud providers भी पहले छोटे players और बाद में hyperscalers तक यही रास्ता अपनाएँगे। labs के अलावा सबके लिए बिक्री पूरी तरह बंद कर दी जाएगी, और cash की जगह equity या सीधा decision-making control माँगा जा सकता है
inference/training ratio का 80/20 होना ज़रूरी नहीं है, और अगर कोई घटना पैसे को ही बेकार बना दे तो आपकी भुगतान-इच्छा कितनी भी बड़ी हो, उससे मदद नहीं मिलेगी
- यह scenario समझ से परे लगता है। ऐसे मिलते-जुलते scenarios एक साथ दो बातें मान लेते हैं
  A) ASI विकसित हो जाती है और बाकी विश्व अर्थव्यवस्था पर हावी हो जाती है
  B) फिर भी दुनिया में rule of law, contracts, business, और विकसित finance बाकी रहते हैं
  A और B को साथ मानने पर कई अजीब निष्कर्ष निकलते हैं, लेकिन ज़्यादा plausible विकास यह है कि अगर A होता है, तो B जल्द ही सच नहीं रहेगा
  अगर किसी company के पास ASI होगी, तो वह business, money, economy जैसी चीज़ों की परवाह छोड़ देगी, और नतीजा “दुनिया पर कब्ज़ा करो”, “board को von Neumann probe fleet में upload कर दो”, या “विफल हो जाओ और सब मर जाएँ” जैसी दिशा में जाएगा
- कोई भी चीज़ अनंत मूल्य की नहीं होती
- अगर आप मानते हैं कि LLM अभी की स्थिति में उपयोगी है, या कचरा output पसंद करने वाले और आलसी लोगों के अलावा यह कभी उपयोगी होगा, तो वह लगभग भ्रम जैसा है
आज यह moat गहरी लग सकती है, लेकिन हर साल उथली होती जाएगी
एक नया मॉडल शुरुआत से train करने के लिए भारी संसाधन चाहिए, लेकिन मौजूदा मॉडल की post-training/fine-tuning में उससे बहुत कम लागत लगती है
2 साल पहले उस प्रक्रिया का ज्ञान non-experts के लिए अपरिचित था, लेकिन अब मौजूदा मॉडलों में से किसी एक से step-by-step पूछते हुए tools भी साथ में बनाए जा सकते हैं
हाल के कुछ weekend projects बिल्कुल ऐसे ही थे। जैसे “LoRA बनाकर देखें”, “X काम के लिए मॉडल fine-tuning हेतु training data corpus जनरेट करें”, “text-to-image मॉडल में अपना चेहरा कैसे डालें?”
यह सब काफ़ी modest local hardware पर भी संभव है, जैसे कुछ पुराने GPU, या Strix Halo, DGX Spark, बड़ा Mac Studio; और scale के हिसाब से cloud computing पर कुछ डॉलर से लेकर कुछ हज़ार डॉलर तक में भी
इसे कंपनी या startup स्तर तक बढ़ाने पर, पिछले कुछ वर्षों में AI में आए पैसों को देखते हुए, यह साफ़ है कि ठीक उसी समय प्रतियोगिता बढ़ेगी जब top model कंपनियों को सचमुच revenue निकालना शुरू करना होगा
Claude इस्तेमाल की लागत को फूलते हुए देखना, और बहुत कम पैसे में वही काम करने के तरीके खोजने के मौके बढ़ाता है। coding के लिए top-tier मॉडल के क़रीब Claude Code पर महीने के 100~200 डॉलर आसानी से दिए जा सकते हैं, लेकिन usage-based billing पर जाते ही यह जल्दी ही असहनीय हो जाता है
इसलिए उन्हें सबसे कठिन समस्याएँ हल करने के लगभग एकमात्र तरीकों में से एक बने रहना होगा, और alternatives की लागत भी लगभग वैसी ही रहनी होगी। यह उम्मीद की जा सकती है कि OpenAI और Google भी कीमतें बढ़ाएँगे
लेकिन यह मानना मुश्किल है कि सबके साथ, ख़ासकर अलग आर्थिक संरचना वाली Chinese कंपनियों के साथ भी, ऐसा ही होगा। और यह भी नहीं माना जा सकता कि कंपनियाँ अपना usage देखकर यह नहीं पूछेंगी, “क्या हम ऐसा छोटा specialized model train नहीं कर सकते जो बस यह एक काम करे, जिसमें हम Anthropic API का सबसे ज़्यादा इस्तेमाल करते हैं?”
उम्मीद है कि उनका मतलब सिर्फ़ ऐसा इस्तेमाल है जिसमें Chinese model vendors वगैरह Claude को distill करें। उम्मीद है कि वे “Gemma 4 को मेरी writing style जैसी बनाने के लिए fine-tune कैसे करें?” जैसी चीज़ों को रोकने की कोशिश नहीं कर रहे
- कौन सा moat? कई कंपनियाँ हैं जो Pareto-optimal frontier models दे रही हैं, और इन्हें बनाने के लिए O(10) लोगों के आसपास ही काफ़ी हैं
  बाकी सब capital-intensive है, और समय के साथ कीमतें production cost के क़रीब आती जाएँगी
  इसे high-margin business मानना ऐसा है जैसे यह कहना कि boiler महँगे हैं, इसलिए coal power plants के margins अच्छे होंगे
बुरी नीयत से पढ़ें तो इसका मतलब ऐसा लगता है: “machine learning engineers/scientists अपनी नौकरी छोड़कर बाकी सब कुछ automate करना चाहते हैं”
- अच्छी नीयत से पढ़ें तो मतलब यह है कि “safety” के लिए लगी सीमाएँ, यानी Fable और Mythos को अलग करने वाला तत्व, इसे अपरिहार्य बनाता है
  क्योंकि अगर हर कोई अपना Mythos बना सके, तो safeguards को bypass किया जा सकेगा
  लेकिन इससे बस यह और साफ़ होता है कि यह स्थिति कितनी अजीब है
- यह तात्कालिक job security है
वे कह रहे हैं कि मॉडल में एक silent weakening system है, और वे इसे सार्वजनिक रूप से बता भी रहे हैं। स्वाभाविक सवाल है: यह पहले से कितना इस्तेमाल हो रहा है?
क्या competitors को कमजोर किया जा रहा है?
क्या non-US users को और खराब code मिलता है?
क्या online games की तरह, जहाँ matchmaking जीत-हार को प्रभावित कर engagement अधिकतम किया जाता है, यहाँ भी users को दंडित या पुरस्कृत किया जा रहा है?
- रीढ़ में सिहरन दौड़ जाती है। फिलहाल मैं अपने research के लिए Fable का इस्तेमाल नहीं करूँगा। मॉडल द्वारा sabotage किए जाने का जोखिम लेने लायक नहीं है
- $$$$$$: कोई weakening नहीं
  $$$$: थोड़ी weakening
  $$$: और ज़्यादा weakening
  $$: क्या आप ग़रीब हैं?
  $: स्थायी निचले वर्ग में बने रहिए
“Claude अब चुपचाप कमजोर किया जा सकता है। Anthropic ने तय किया है कि ऐसा होने पर भी users को नहीं बताया जाएगा।” क्या!!

Claude Fable मदद करना बंद कर दे तो भी उपयोगकर्ता को पता नहीं चलेगा

मुख्य समस्या

उत्पाद विकास और सीमा की समस्या

Anthropic supply chain risk

भरोसे की समस्या

संबंधित पढ़ाई

2 टिप्पणियां

Lobste.rs की राय

Hacker News की राय