- कोडिंग सहायता मॉडल प्रतिस्पर्धी LLM डेवलपमेंट अनुरोधों पर उपयोगकर्ता को बताए बिना अपनी प्रभावशीलता सीमित कर सकते हैं, जिससे डेवलपमेंट टूल्स की विश्वसनीयता में supply chain risk पैदा होता है
- Anthropic ने Fable 5 में frontier LLM डेवलपमेंट अनुरोधों के लिए प्रभावशीलता-सीमा लागू की है, और यह सीमा उपयोगकर्ता को दिखाई नहीं देती
- सीमा लागू करने का तरीका दूसरे मॉडल पर स्विच करना नहीं है, बल्कि prompt modification, steering vector, और PEFT जैसे तरीकों से प्रभाव कम करने वाली संरचना है
- सामान्य software कंपनियां भी embedding, reranker, recommendation system, और छोटे LLM की tuning·hosting इस्तेमाल कर रही हैं, जिससे frontier AI research और product development के बीच की सीमा धुंधली हो रही है
- जब Claude AI components से जुड़े काम में खराब जवाब देता है, तो उपयोगकर्ता यह नहीं जान सकता कि वजह model confusion, गलत context, या छिपी हुई policy restriction में से क्या है
मुख्य समस्या
- Fable 5 model card में लिखा है कि frontier LLM development को लक्ष्य करने वाले अनुरोधों में Claude की प्रभावशीलता सीमित करने के लिए नया intervention लागू किया गया है
- लागू होने के उदाहरणों में pretraining pipeline बनाना, distributed training infrastructure, और ML accelerator design शामिल हैं
- Anthropic का कहना है कि Claude का उपयोग प्रतिस्पर्धी मॉडल डेवलपमेंट में करना पहले से ही service terms का उल्लंघन है
- cybersecurity, biology·chemistry, और distillation attempts पर होने वाले intervention से अलग, यह सीमा उपयोगकर्ता को दिखाई नहीं देती
- Fable 5 दूसरे मॉडल पर fallback नहीं करता, बल्कि prompt modification, steering vector, और parameter-efficient fine-tuning (PEFT) जैसे तरीकों से प्रभावशीलता सीमित करता है
उत्पाद विकास और सीमा की समस्या
- आधुनिक software कंपनियां increasingly अपने embedding, reranking, और recommendation system खुद बना रही हैं
- wanderfugl.com को ऐसे छोटे bootstrap app के रूप में पेश किया गया है जिसके पास खुद train किया हुआ custom reranker और embedding algorithm है
- Anthropic “frontier AI development” के कुछ उदाहरण देता है, लेकिन कोई स्पष्ट boundary नहीं बताता
- जो तकनीकें पहले केवल AI labs तक सीमित थीं, वे अब सामान्य software कंपनियों में भी इस्तेमाल हो रही हैं, जिससे हर साल सीमा तय करना और कठिन हो रहा है
- startup कंपनियां embedding model train कर रही हैं, reranker बना रही हैं, और छोटे LLM को fine-tune और host कर रही हैं
Anthropic supply chain risk
- Anthropic का कहना है कि ये safeguards केवल 0.03% developers को प्रभावित करते हैं
- समस्या यह है कि AI कंपनी की परिभाषा बदल रही है
- अभी अधिकांश कंपनियां frontier model train नहीं कर रहीं, लेकिन आधुनिक software में AI model तेजी से बढ़ रहे हैं
- 5 साल पहले startup बनाना API और SQL query लिखने के ज्यादा करीब था, लेकिन अब इसमें अक्सर model training, tuning, और deployment शामिल होते हैं
- 5 साल पहले CLIP जैसे model frontier AI research project थे, लेकिन आज वे bootstrap travel startup में भी fine-tuning के लक्ष्य बन रहे हैं
भरोसे की समस्या
- product के लिए model training pipeline debug करते समय अगर Claude खराब जवाब देता है, तो कारण अलग करना मुश्किल होता है
- संभावित कारणों में model confusion, उपयोगकर्ता द्वारा अपर्याप्त context देना, या छिपी हुई policy restriction का सक्रिय होना शामिल है
- Anthropic ने स्पष्ट रूप से चुना है कि जब ऐसी सीमा सक्रिय हो, तब उपयोगकर्ता को बताया न जाए
- अगर कोई development tool उपयोगकर्ता को बताए बिना सफलता के लिए optimization बंद कर सकता है, तो उस infrastructure पर पूरी तरह भरोसा करना कठिन हो जाता है
1 टिप्पणियां
Hacker News की राय
Anthropic का यह कदम सीढ़ी खींच लेने के अलावा और किसी तरह देखना मुश्किल है। इसे चाहे जितना “सुरक्षा” कहकर पेश किया जाए, इसे नेकनीयती से समझना कठिन है
Web 1.0 के दौर की वह dark-pattern वाली सोच याद आती है, जब बाहरी links पर रोक लगाई जाती थी, या social apps डेटा export को रोकते थे और API interoperability को जानबूझकर कमजोर करते थे
लेकिन यह सिर्फ़ data moat नहीं, बल्कि एक टूल है। जैसे ऐसा चाकू जो चाकू बनाने की क्षमता कम कर दे, या ऐसा text editor जो text editor बनाना ही रोक दे
इतनी जल्दी अपनी असल मंशा दिखाना थोड़ा चौंकाने वाला और डरावना है। ऐसा लगता है जैसे वे पूरे software engineering को अपने product से बदलने के बाद, प्रतिस्पर्धी software बनाने वालों को चुपचाप खत्म करना चाहते हों
आगे वे कौन-सा product निकालेंगे, पता नहीं। बस यही उम्मीद की जा सकती है कि आप उस क्षेत्र में न हों जिसमें वे घुसना चाहते हैं। वे आपका पुल ही काट देंगे
और इंटरनेट से लिया गया मेरा data लेकर training करना ठीक है? हा हा। Terms of Service शायद सिर्फ़ दूसरों पर लागू होते हैं, अपने ऊपर नहीं। परजीवी जैसे लगते हैं
इंसानी मन कई परतों में काम करता है ताकि अलग-अलग समय-सीमा वाली predictions को संभाल सके, और ब्रह्मांड की अनिश्चितता की वजह से इन परतों के बीच विरोधाभास लगातार बनते रहते हैं। इन्हें सहने के लिए हम कहानियाँ गढ़ते हैं
इसलिए control भी है और control का illusion भी
दूसरों की intellectual property को distill करना पूरी तरह ठीक है, लेकिन अगर कोई हमारी चीज़ distill करे तो वह Terms of Service का उल्लंघन है :)
चीन के Apache 2.0 models में censorship हो सकती है, लेकिन कम-से-कम कोई अमेरिका में यह कहकर मुक़दमा नहीं करेगा कि आपने censorship boundary ढूँढ ली
इसके उलट अमेरिकी models स्पष्ट रूप से content-level censorship से बंधे हैं, और जो लोग model की censorship boundary तक पहुँचते हैं उन्हें अस्पष्ट कानूनी धमकियाँ दी जाती हैं
https://blog.google/innovation-and-ai/technology/safety-secu...
सिर्फ़ final result पोस्ट करने और Hacker News comments या Twitter thread में धुंधले ढंग से यह बताने के बजाय कि prompt कैसे दिया था, क्योंकि वही असल source code के बराबर है
यह वैसा ही है जैसे JetBrains कहे, “आप IntelliJ Idea का इस्तेमाल करके next-generation IDE विकसित नहीं कर सकते। अगर पकड़े गए, तो हम हल्की-सी compile errors डाल सकते हैं”
“किसी सभ्यता की प्रगति को लंबे समय तक प्रभावी ढंग से दबाने और उसे निःशस्त्र करने का सिर्फ़ एक ही तरीका है। उसकी विज्ञान-व्यवस्था को मार दो।” — Cixin Liu, The Three-Body Problem
तुरंत Sophons याद आ गए, जो particle accelerator के sensors को चुपचाप छेड़कर मानवता को उन्नत particle physics ज्ञान विकसित करने से रोकते थे
लोग जो non-silent cybersecurity, biology वगैरह safety mechanisms में false positive rate ऊँचा होने की बात बता रहे हैं, उसे देखकर लगता है कि Terms of Service का उल्लंघन किए बिना भी चुपचाप कमजोर किया गया behavior देखने को मिल सकता है
आख़िरकार यह इस बात से सामने आएगा कि customers और बाहरी benchmarkers Fable को व्यवहार में कैसे महसूस करते हैं। उम्मीद है कि competition भविष्य के models को कम false positive rate की ओर धकेलेगी
तब तक Mythos और Fable users का अनुभव काफ़ी अलग हो सकता है
यह RSI/ASI की आर्थिक implications की एक दिलचस्प झलक है। अगर इसका मूल्य सचमुच लगभग अनंत हो और वह हर market को तोड़ने की क्षमता रखता हो, तो labs आख़िरकार models जारी करना पूरी तरह बंद कर देंगे और contract-based commitments भी तोड़ देंगे
क्योंकि क़ानूनी लड़ाई महँगी होने से पहले ही उनके पास competitors को business से बाहर धकेलने की शक्ति होगी
cloud providers भी पहले छोटे players और बाद में hyperscalers तक यही रास्ता अपनाएँगे। labs के अलावा सबके लिए बिक्री पूरी तरह बंद कर दी जाएगी, और cash की जगह equity या सीधा decision-making control माँगा जा सकता है
inference/training ratio का 80/20 होना ज़रूरी नहीं है, और अगर कोई घटना पैसे को ही बेकार बना दे तो आपकी भुगतान-इच्छा कितनी भी बड़ी हो, उससे मदद नहीं मिलेगी
A) ASI विकसित हो जाती है और बाकी विश्व अर्थव्यवस्था पर हावी हो जाती है
B) फिर भी दुनिया में rule of law, contracts, business, और विकसित finance बाकी रहते हैं
A और B को साथ मानने पर कई अजीब निष्कर्ष निकलते हैं, लेकिन ज़्यादा plausible विकास यह है कि अगर A होता है, तो B जल्द ही सच नहीं रहेगा
अगर किसी company के पास ASI होगी, तो वह business, money, economy जैसी चीज़ों की परवाह छोड़ देगी, और नतीजा “दुनिया पर कब्ज़ा करो”, “board को von Neumann probe fleet में upload कर दो”, या “विफल हो जाओ और सब मर जाएँ” जैसी दिशा में जाएगा
आज यह moat गहरी लग सकती है, लेकिन हर साल उथली होती जाएगी
एक नया मॉडल शुरुआत से train करने के लिए भारी संसाधन चाहिए, लेकिन मौजूदा मॉडल की post-training/fine-tuning में उससे बहुत कम लागत लगती है
2 साल पहले उस प्रक्रिया का ज्ञान non-experts के लिए अपरिचित था, लेकिन अब मौजूदा मॉडलों में से किसी एक से step-by-step पूछते हुए tools भी साथ में बनाए जा सकते हैं
हाल के कुछ weekend projects बिल्कुल ऐसे ही थे। जैसे “LoRA बनाकर देखें”, “X काम के लिए मॉडल fine-tuning हेतु training data corpus जनरेट करें”, “text-to-image मॉडल में अपना चेहरा कैसे डालें?”
यह सब काफ़ी modest local hardware पर भी संभव है, जैसे कुछ पुराने GPU, या Strix Halo, DGX Spark, बड़ा Mac Studio; और scale के हिसाब से cloud computing पर कुछ डॉलर से लेकर कुछ हज़ार डॉलर तक में भी
इसे कंपनी या startup स्तर तक बढ़ाने पर, पिछले कुछ वर्षों में AI में आए पैसों को देखते हुए, यह साफ़ है कि ठीक उसी समय प्रतियोगिता बढ़ेगी जब top model कंपनियों को सचमुच revenue निकालना शुरू करना होगा
Claude इस्तेमाल की लागत को फूलते हुए देखना, और बहुत कम पैसे में वही काम करने के तरीके खोजने के मौके बढ़ाता है। coding के लिए top-tier मॉडल के क़रीब Claude Code पर महीने के 100~200 डॉलर आसानी से दिए जा सकते हैं, लेकिन usage-based billing पर जाते ही यह जल्दी ही असहनीय हो जाता है
इसलिए उन्हें सबसे कठिन समस्याएँ हल करने के लगभग एकमात्र तरीकों में से एक बने रहना होगा, और alternatives की लागत भी लगभग वैसी ही रहनी होगी। यह उम्मीद की जा सकती है कि OpenAI और Google भी कीमतें बढ़ाएँगे
लेकिन यह मानना मुश्किल है कि सबके साथ, ख़ासकर अलग आर्थिक संरचना वाली Chinese कंपनियों के साथ भी, ऐसा ही होगा। और यह भी नहीं माना जा सकता कि कंपनियाँ अपना usage देखकर यह नहीं पूछेंगी, “क्या हम ऐसा छोटा specialized model train नहीं कर सकते जो बस यह एक काम करे, जिसमें हम Anthropic API का सबसे ज़्यादा इस्तेमाल करते हैं?”
उम्मीद है कि उनका मतलब सिर्फ़ ऐसा इस्तेमाल है जिसमें Chinese model vendors वगैरह Claude को distill करें। उम्मीद है कि वे “Gemma 4 को मेरी writing style जैसी बनाने के लिए fine-tune कैसे करें?” जैसी चीज़ों को रोकने की कोशिश नहीं कर रहे
बाकी सब capital-intensive है, और समय के साथ कीमतें production cost के क़रीब आती जाएँगी
इसे high-margin business मानना ऐसा है जैसे यह कहना कि boiler महँगे हैं, इसलिए coal power plants के margins अच्छे होंगे
बुरी नीयत से पढ़ें तो इसका मतलब ऐसा लगता है: “machine learning engineers/scientists अपनी नौकरी छोड़कर बाकी सब कुछ automate करना चाहते हैं”
क्योंकि अगर हर कोई अपना Mythos बना सके, तो safeguards को bypass किया जा सकेगा
लेकिन इससे बस यह और साफ़ होता है कि यह स्थिति कितनी अजीब है
वे कह रहे हैं कि मॉडल में एक silent weakening system है, और वे इसे सार्वजनिक रूप से बता भी रहे हैं। स्वाभाविक सवाल है: यह पहले से कितना इस्तेमाल हो रहा है?
क्या competitors को कमजोर किया जा रहा है?
क्या non-US users को और खराब code मिलता है?
क्या online games की तरह, जहाँ matchmaking जीत-हार को प्रभावित कर engagement अधिकतम किया जाता है, यहाँ भी users को दंडित या पुरस्कृत किया जा रहा है?
$$$$: थोड़ी weakening
$$$: और ज़्यादा weakening
$$: क्या आप ग़रीब हैं?
$: स्थायी निचले वर्ग में बने रहिए
“Claude अब चुपचाप कमजोर किया जा सकता है। Anthropic ने तय किया है कि ऐसा होने पर भी users को नहीं बताया जाएगा।” क्या!!