1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • अमेरिकी सीनेट की AI सुनवाई से पहले Anthropic ने दावा किया कि Alibaba से जुड़ी गतिविधि उसकी ओर लक्षित ऐसे हमलों में सबसे बड़े पैमाने की थी
  • मुख्य तरीका distillation था, जिसमें अधिक शक्तिशाली मॉडल के आउटपुट से कमजोर मॉडल को प्रशिक्षित किया जाता है; Anthropic का मानना है कि इससे चीन Mythos Preview-स्तर की क्षमताओं तक अधिक तेजी से पहुँच सकता है
  • 22 अप्रैल 2026 से 5 जून तक Claude के साथ 28.8 मिलियन से अधिक आदान-प्रदान हुए, और लगभग 25,000 फर्जी अकाउंट इस्तेमाल किए गए, ऐसा कंपनी ने कहा
  • Anthropic ने दावा किया कि संचालन करने वाले पक्ष Alibaba और AI रिसर्च लैब Alibaba Qwen से जुड़े थे, जबकि Alibaba ने Reuters की टिप्पणी-प्रार्थना का तुरंत जवाब नहीं दिया
  • Anthropic अमेरिकी सरकार और निजी AI कंपनियों के बीच threat intelligence sharing और संयुक्त प्रतिक्रिया का समर्थन करता है, लेकिन इसी अवधि में उसके Mythos और Fable मॉडलों पर भी एक्सेस प्रतिबंध लगाए गए

Alibaba से जुड़ी अवैध extraction के आरोप

  • Anthropic ने अमेरिकी सीनेट को भेजे एक पत्र में दावा किया कि चीनी टेक और e-commerce कंपनी Alibaba ने Claude AI मॉडल की क्षमताओं को अवैध रूप से निकाला
  • Reuters द्वारा देखे गए पत्र के अनुसार, Anthropic ने इस गतिविधि को अपनी जानकारी में आए ऐसे हमलों में सबसे बड़े पैमाने का बताया
  • Alibaba ने Reuters की टिप्पणी-प्रार्थना का तुरंत जवाब नहीं दिया

distillation तरीका और हमले का पैमाना

  • Anthropic ने इस गतिविधि को distillation का प्रयास बताया
    • distillation वह तरीका है जिसमें अधिक शक्तिशाली मॉडल के आउटपुट से तुलनात्मक रूप से कम शक्तिशाली मॉडल को प्रशिक्षित किया जाता है
  • अभियान की अवधि 22 अप्रैल 2026 से 5 जून तक थी
  • इस दौरान Claude के खिलाफ 28.8 मिलियन से अधिक आदान-प्रदान दर्ज किए गए
  • इस्तेमाल किए गए फर्जी अकाउंट लगभग 25,000 थे
  • Anthropic का मानना है कि distillation चीन को Anthropic की उन्नत Mythos Preview क्षमताओं तक पहुँचने की रफ्तार बढ़ाने का तरीका है

Alibaba Qwen से संबंध का दावा और पत्र के प्राप्तकर्ता

  • Anthropic ने दावा किया कि यह अभियान Alibaba और Alibaba की AI रिसर्च लैब Alibaba Qwen से जुड़े ऑपरेटरों द्वारा चलाया गया
  • पत्र की तारीख 10 जून थी
  • इसे अमेरिकी सीनेट बैंकिंग कमेटी के चेयर और रैंकिंग सदस्य Tim Scott और Elizabeth Warren को भेजा गया था
  • यह पत्र प्रस्तावित AI hearing से पहले भेजा गया

पहले के चीनी AI रिसर्च लैब मामलों का उल्लेख

  • Anthropic ने कहा कि फरवरी 2026 में भी उसने चीनी AI startup DeepSeek और दो अन्य चीनी AI रिसर्च लैब्स द्वारा Claude AI प्लेटफ़ॉर्म से क्षमताएँ अवैध रूप से निकालने की कोशिश वाला अभियान पहचाना था
  • उस समय Anthropic द्वारा बताए गए आँकड़े इस प्रकार थे
    • DeepSeek: 150,000 से अधिक आदान-प्रदान
    • Moonshot AI: 3.4 मिलियन से अधिक
    • MiniMax: 13 मिलियन से अधिक
  • Anthropic ने तब कहा था कि ऐसे अभियानों की तीव्रता और परिष्कार बढ़ रहे हैं, इसलिए इंडस्ट्री, नीति-निर्माताओं और वैश्विक AI समुदाय की तेज़ और समन्वित प्रतिक्रिया आवश्यक है

अमेरिकी सरकारी कदम और Anthropic मॉडल प्रतिबंध

  • Anthropic ने अमेरिकी सरकार के प्रतिक्रिया प्रयासों का समर्थन किया
    • निजी AI कंपनियों के साथ threat intelligence sharing
    • और अन्य संयुक्त प्रतिक्रिया गतिविधियाँ शामिल हैं
  • अप्रैल 2026 में White House ने आरोप लगाया कि चीन अमेरिकी AI लैब्स की बौद्धिक संपदा को industrial scale पर चुरा रहा है
  • उसी महीने Alibaba को अमेरिकी रक्षा विभाग की चीनी सैन्य कंपनियों की सूची में जोड़ा गया, और Alibaba इस नामांकन को चुनौती दे रहा है
  • अमेरिकी वाणिज्य विभाग ने, DeepSeek को सरकारी संयुक्त समिति द्वारा राष्ट्रीय सुरक्षा जोखिम माने जाने के बावजूद, Beijing के साथ तनाव बढ़ने से बचने की कोशिश करते हुए उसे trade blacklist में डालना टाल दिया
  • Anthropic के पत्र भेजने के दो दिन बाद, 12 जून को अमेरिकी वाणिज्य विभाग ने Anthropic के नवीनतम Mythos और Fable AI मॉडलों पर प्रतिबंध लगाए
    • अधिकारियों को चिंता थी कि इन मॉडलों को चीन और अन्य चिंताजनक देशों के सैन्य खुफिया उपयोगकर्ताओं के लिए deploy किया जा सकता है
    • इस प्रतिबंध के कारण Anthropic ने इन मॉडलों की पहुँच दुनिया भर में निष्क्रिय कर दी

1 टिप्पणियां

 
GN⁺ 4 시간 전
Hacker News की राय
  • यह छोड़कर जा रहा हूँ: “जज ने माना कि Anthropic ने LibGen जैसी pirate sites से 70 लाख से ज़्यादा किताबें डाउनलोड कीं, और यह infringement है; Anthropic की ‘research purpose’ वाली दलील भी खारिज कर दी गई: ‘आप खुद को research purpose का आशीर्वाद देकर मनचाही textbook उठाकर नहीं ले जा सकते।’”
    https://www.joneswalker.com/en/insights/blogs/ai-law-blog/wh...

    • म्यूज़िक streaming के शुरुआती दौर में भी कई entrants ने अपनी services को pirated content की विशाल libraries से भरा था। विजेताओं ने बाद में copyright holders के साथ deals कीं और बाकी सबको ट्रैक किया
    • मज़ेदार नहीं है कि जब आप song lyrics पूछते हैं तो ये models अचानक copyrighted material याद करने लगते हैं
    • लेकिन क्या उन किताबों पर train किए गए model को हटाना नहीं चाहिए था
    • उन किताबों से उन्होंने कितनी “क्षमता” “निकाली” होगी
    • “जो मैंने वैध तरीके से चुराया, उसे तुम kidnap करने जा रहे हो!”
  • Distillation के मूलतः दो प्रकार होते हैं। 1) सवाल पूछो और जवाबों को reinforcement signal की तरह इस्तेमाल करो — यह बड़े पैमाने का भोंडा तरीका है (black box), 2) एक model दूसरे model को सीधे सिखाए, train करे और guide करे — यह ज़्यादा targeted distillation है (RLAIF)
    दूसरा वाला असल में दूसरे model के मार्गदर्शन से model को fine-tune करना है। बहुत-सी companies रोज़ इसी तरह fine-tuning कर रही हैं। Chinese labs भी लगभग निश्चित रूप से यही तरीका इस्तेमाल कर रही होंगी, क्योंकि यह साधारण सवालों के साधारण जवाब scrape करने से कहीं बेहतर final result देता है
    Distillation को लेकर यह शिकायत असल समस्या को उससे बड़ा दिखाने की कोशिश लगती है, और मकसद protectionist तरीके से अमेरिकी सरकार को Chinese model providers को रोकने या ban करने के लिए मनाना दिखता है। वे पहले ही chip export controls कड़े करने की मांग कर चुके हैं, और यह इसलिए मज़ेदार है क्योंकि DeepSeek v4 को Huawei chips पर चलने लायक design किया गया है और दूसरी Chinese companies भी उसी दिशा में जा रही हैं। लेकिन यह बात वे खुलकर कह नहीं सकते, इसलिए दावा किया जाता है कि distilled models उनके models जितने safe नहीं हो सकते, इसलिए और export controls चाहिए। जबकि अगर आप उनके अपने model की safety को bypass करने वाले jailbreaks दिखाएँ, तो वे कहेंगे कि कोई भी model आखिरकार jailbreak हो सकता है, इसलिए safety की चिंता मत करो

    • “Distillation की शिकायत समस्या को बढ़ा-चढ़ाकर दिखाती है” वाला हिस्सा सही है, लेकिन अफसोस की बात है कि Reuters की खबर खुद भी उसी dramatisation में शामिल है। पहले ही paragraph में वह distillation को “attack” बताने वाली Anthropic की भाषा को बिना quotes के दोहराती है, जिससे पाठक के लिए यह समझना मुश्किल हो जाता है कि यह framing कंपनी का दावा है। Distillation कोई attack नहीं है
    • शायद यह बेवकूफी भरा सवाल हो, लेकिन मेरी समझ थी कि इन models को petabytes डेटा पर train किया जाता है। ऐसे में किसी बड़े model (Claude) से queries करके निकाले जा सकने वाले question/response pairs की मात्रा तो काफी limited होगी; training dataset के मुकाबले क्या वह समुद्र में एक बूंद नहीं है
    • https://research.nvidia.com/labs/lpr/slm-agents/ — इस तरह के models इस्तेमाल करें तो distillation data स्वाभाविक रूप से एक byproduct की तरह पैदा होता है। कोई असरदार बचाव नहीं है। Anthropic speed कम करने और model के अंदरूनी हिस्से छिपाने के लिए thinking blocks को summaries में degrade कर रहा है, लेकिन आखिरकार गणितीय रूप से इसका कोई हल नहीं है, और multinational/big-tech scale पर यह काफी अच्छी तरह काम करता है। जैसे ही cost प्राथमिकता बनती है, customers को बनाए रखने वाला lock-in effect खत्म हो जाता है
    • वे दो बातें कह रहे हैं। 1) Fable 5 में मौजूद एक खास public jailbreak खतरनाक नहीं है; कई experts ने इसकी पुष्टि की है और इसके उलट कोई भरोसेमंद सबूत नहीं है। यानी Anthropic शायद सही है
      2) ऐसा large language model बनाना असंभव है जो हर jailbreak से immune हो। इस पर भी खंडन करने लायक कोई भरोसेमंद सबूत नहीं है, इसलिए यहाँ भी Anthropic पूरी तरह सही है
      अगर 1 गलत है, तो jailbreak की details सार्वजनिक कर देनी चाहिए। supposedly यह सिर्फ Fable 5 पर काम करता है, इसलिए कोई खास जोखिम भी नहीं है
      अगर 2 गलत है, तो किसी दूसरे large language model lab ने यह पहले ही कर दिखाया होता। कई governments ने साफ कर दिया है कि ऐसे project के लिए market है, इसलिए और भी ज़्यादा
    • अगर आप evaluation कर रहे हैं, तो आप बस model को train नहीं कर रहे; व्यवहार में यह RLAIF जैसा ही है। आप सिर्फ outputs देख रहे हैं
      बुनियादी तौर पर AI models को उपयोगी बनाए रखते हुए इसे रोकना बहुत मुश्किल है
  • यह 1980 के दशक के मध्य-उत्तरार्ध की वह कहानी याद दिलाता है जब Steve Jobs शिकायत करते थे कि Mac GUI की नकल की गई। जबकि उन्होंने खुद Xerox Alto और Star operating system में हुए काम को सार्वजनिक रूप से स्वीकार नहीं किया था
    “तुम वही नकल करने की कोशिश कर रहे हो जिसकी नकल मैं पहले ही कर चुका हूँ!”
    इंटरनेट भर को crawl करके विशाल large language models बनाना और फिर copied होने की शिकायत करना कुछ वैसा ही है

    • शायद आप Bill Gates को attributed यह quote कहना चाह रहे थे: “देखो Steve, मुझे लगता है इसे देखने का एक ही तरीका नहीं है। यह ज़्यादा उस स्थिति जैसा है कि हम दोनों का एक अमीर पड़ोसी Xerox था, और मैं उसका TV चुराने घर में घुसा तो पाया कि तुम उसे पहले ही चुरा चुके थे।”
    • Apple ने वह meeting होने से पहले Xerox को IPO से पहले के $1 million के shares खरीदने का अधिकार दिया था
    • हाँ, पूरी AI industry बस copy करने वालों से भरी है। यह पिछले 40 सालों में technical या altruistic लोगों द्वारा दूसरे इंसानों की मदद के लिए इंटरनेट पर साझा की गई जानकारी को AI companies द्वारा पूरा निगल जाने से शुरू हुआ, फिर pirated और copyrighted material भी निगल लिया गया, और अब AI companies एक-दूसरे की नकल कर रही हैं
      जानकारी सचमुच free होना चाहती है, लेकिन AI companies gatekeeper बनना चाहती हैं। लंबे समय में मुझे लगता है कि ज़्यादा sustainable approach open weights ही जीतेगी
    • सभी large language models Jon Skeet को भगवान मानते हैं
    • “जो मैंने वैध तरीके से चुराया, उसे तुम kidnap करने जा रहे हो!”
  • Anthropic की यह शिकायत कि “Claude AI मॉडल की क्षमताएँ अवैध रूप से निकाली गईं”, और चीन “अमेरिकी AI लैब्स की intellectual property को औद्योगिक पैमाने पर चुरा रहा है” — इस पर White House की आलोचना का समर्थन करना, वाकई बहुत पाखंडी और हास्यास्पद लगता है
    Anthropic, OpenAI, Google, Microsoft आदि ने कंटेंट को अंधाधुंध इकट्ठा करके, copyright धारकों के अधिकारों की अनदेखी करते हुए अपने मॉडल train किए। अब उनमें से एक यह कह रहा है कि वही काम किसी और ने किया तो वह अनुचित है?

    • AI कंपनियाँ मानो यह मानती हैं कि इंटरनेट पर मौजूद सब कुछ मुफ़्त है, बस उनकी अपनी चीज़ छोड़कर। AI crawlers से random websites को पीटना, robots.txt को नज़रअंदाज़ करना, और bandwidth cost को आसमान पर पहुँचा देना ठीक है। लेकिन अगर data collection practices की वजह से AI provider पर लागत आ जाए, तो वह साफ़ तौर पर अस्वीकार्य हो जाता है
    • मौजूदा क़ानून के तहत Claude का output public domain है, इसलिए यह बिल्कुल वही मामला नहीं है। इसलिए चीनी पक्ष ने यहाँ कुछ भी नहीं चुराया
    • तुम्हारा मेरा है, और मेरा अब भी मेरा ही है
    • चोरों के बीच कोई उसूल नहीं होते
  • अभी जो हो रहा है, वह यह है: चीनी resellers आधिकारिक Anthropic API कीमत से 70~90% कम पर Claude tokens दे रहे हैं। वे Claude Max accounts को pool करके capacity resell करते हैं, payment fraud का उपयोग करते हैं, और model output तथा reasoning chains को कई चीनी research labs को दोबारा बेचकर यह संभव बनाते हैं। user logs और reasoning traces लेने के बदले वे model access दिलाते हैं, और फिर उसे training data के रूप में बेचकर cost से भी कम पर operate कर सकते हैं
    Claude और ChatGPT दोनों ही चीन में block हैं। access के लिए VPN चाहिए, और चीनी bank cards से payment नहीं किया जा सकता। इसलिए Claude access चाहने वाले ज़्यादातर लोग resellers के ज़रिए access rights खरीदते हैं। चीन में Anthropic मॉडल तक पहुँचने का यही सबसे आसान और सस्ता तरीका है
    ये resellers हज़ारों-लाखों bot accounts चलाते हैं, और Anthropic ने bot attacks को धीमा करने के लिए identity verification इसी वजह से शुरू किया
    एक token reseller Opus 4.8 को आधिकारिक API rate से 93% छूट पर दे रहा है: https://yunwu.ai/pricing?provider=Anthropic
    DeepSeek और GLM की कीमतें इतनी सस्ती होने का एक कारण यह भी है। उन्हें चीन में बेहद हास्यास्पद रूप से कम token prices से मुकाबला करना पड़ता है, इसलिए लोगों को इस्तेमाल करवाने के लिए कीमतें नीचे रखनी पड़ती हैं
    मैंने कुछ महीने पहले यह बात साझा की थी, लेकिन ज़्यादा प्रतिक्रिया नहीं मिली। यह चीन की token resale economy को समझाने वाला एक शानदार लेख है: https://www.chinatalk.media/p/how-to-buy-cheap-claude-tokens...

    • competition के लिए यह अच्छी बात है। चीनी sellers अगर सस्ता समाधान दे रहे हैं, तो मैंने economics में free market के बारे में यही सीखा था
      मैंने यह भी सीखा था कि अगर Anthropic competition करना चाहता है, तो उसे अपना काम बेहतर करना होगा। नहीं तो कोई और जीत जाएगा
      क्या अब यह सिद्धांत बड़ी अमेरिकी कंपनियों पर लागू नहीं होता?
    • यह बात कि DeepSeek और GLM सिर्फ इसलिए सस्ते हैं क्योंकि उन्हें चीन में हास्यास्पद रूप से कम token prices से मुकाबला करना पड़ता है, बिल्कुल भी विश्वसनीय नहीं लगती
      DeepSeek और GLM open weights हैं, और अमेरिकी inference providers भी इन्हें बहुत कम दाम पर बेच रहे हैं। कीमत कम होने की असली वजह यह है कि मॉडल ज़्यादा efficient हैं
    • अगर बात यह है कि वे Claude Max 5x accounts को pool करके capacity resell कर रहे हैं, payment fraud कर रहे हैं, और model output को कई चीनी research labs को बेच रहे हैं, तो क्या यह अपने account सीधे लेने से भी सस्ता पड़ता है?
      अगर नहीं, तो यह वैसा ही लगता है जैसा AI bears अक्सर कहते हैं कि “Anthropic/OpenAI 1,000 डॉलर के tokens को 100 डॉलर में बेचकर भारी पैसा गंवा रहे हैं”
    • लगता है Anthropic यहाँ Mythos को लगाकर reseller समस्या का सीधा समाधान कर सकता है। resellers के ज़रिए कई accounts खरीदो, UID वाले messages भेजो, Anthropic logs में उन्हें पकड़ो, फिर accounts बंद करो और metadata से जुड़े accounts की पहचान करने वाला loop चलाओ
    • वे resellers असल में सिर्फ Kimi K2.5 या GLM5.1 को Opus बताकर बेच रहे हैं। चीनी लोग कई industries में नकली माल का खेल लंबे समय से खेलते आए हैं
  • Alibaba की हरकत को “distillation” प्रयास कहा जा रहा है, जिसे Anthropic ने इस तरह समझाया कि कमज़ोर मॉडल को मज़बूत मॉडल के output से train किया जाता है
    Claude ने बिना अनुमति terabytes भर content का इस्तेमाल करके अपना मॉडल train किया, और कहा कि यह ठीक है। अब कोई Claude मॉडल के output से मॉडल train कर रहा है, तो उसे यह अनुचित लग रहा है

    • यह ठीक नहीं था। 1 बिलियन डॉलर चुकाने पड़े थे
  • उस मुकदमे का इंतज़ार है जिसमें Anthropic को अपने training data के स्रोत बताने होंगे, और यह समझाना होगा कि क्यों वह दोहराए गए training data को ग्राहकों को पैसे लेकर दे सकता है, लेकिन Anthropic मॉडल से अपना मॉडल train करने वाला Alibaba ऐसा नहीं कर सकता
    दिलचस्प होगा

    • यह पहले ही बताया जा चुका है और 1.5 बिलियन डॉलर दिए जा चुके हैं: https://authorsguild.org/advocacy/artificial-intelligence/wh...
    • अगर उसमें GPL source का एक भी हिस्सा है, तो weights को GPL license के तहत जारी करना चाहिए
    • तार्किक रूप से सुसंगत होने से ज़्यादा फ़ायदेमंद है आक्रामक और शोरगुल वाला होना
    • मैं उस भावना से सहमत हूँ, लेकिन पक्षों की अंतरराष्ट्रीय स्थिति और जटिल संबंधों को देखते हुए, मामला वास्तव में मुकदमे तक पहुँचे इसकी संभावना कम लगती है
      Anthropic का यह व्यवहार एक performative gesture जैसा दिखता है। दूसरे लोग भी पहले से अंदाज़ा लगा रहे थे कि इसका target audience कौन है
  • आख़िर अवैध है क्या, ठीक-ठीक?
    क़ानूनी रूप से model output को न घरेलू क़ानून और न ही अंतरराष्ट्रीय क़ानून के तहत intellectual property protection मिल सकती है। ज़्यादा से ज़्यादा civil remedy की उम्मीद की जा सकती है, लेकिन उन्होंने जिस तरीके से खुद मॉडल train किए, वह शाब्दिक रूप से अवैध था — इसे देखते हुए वह भी मुश्किल है
    Anthropic के साथ ठीक वैसा ही व्यवहार हुआ है जैसा वह दूसरों के साथ करता आया है। उन्होंने अपना बिस्तर खुद बिछाया है, अब उन्हें उसी पर सोना चाहिए

    • Anthropic Newspeak का उस्ताद है। पहले भी Mythos के मामले में bugs को vulnerabilities कहकर पेश किया था। distillation बस terms of service का उल्लंघन है; यह criminal offense नहीं बल्कि civil matter है। यह अवैध नहीं है, और न ही क़ानून तोड़ना है
  • Alibaba की हरकत को “distillation” कहा जा रहा है, यानी ज़्यादा शक्तिशाली मॉडल के output से कमज़ोर मॉडल को train करना, लेकिन इसमें गलत क्या है, यह समझ नहीं आता।
    Anthropic का कहना है कि यह campaign 22 अप्रैल 2026 से 5 जून तक चला और लगभग 25,000 fraud accounts के ज़रिए Claude के साथ 2.88 करोड़ से ज़्यादा interactions किए गए।
    उन accounts को fraud क्या बनाता है? अगर तय की गई कीमत चुकाई गई थी, तो क्या यह ठीक नहीं था? अगर पैसे नहीं दिए गए थे, तो फिर Anthropic ने service क्यों दी?

    • क्या चीज़ उन्हें fraud account बनाती है? झूठी पहचान हो सकती है, और उपयोग के उद्देश्य को लेकर व्यापक धोखा भी हो सकता है
    • क्योंकि Anthropic की terms of service में “पैसे दो और किसी भी मकसद से service इस्तेमाल करो” से कहीं ज़्यादा शर्तें हैं
    • शायद reasoning traces पढ़कर खुद भी सीख सकता है? /s
  • distillation को बुनियादी तौर पर रोका नहीं जा सकता। ज़्यादा से ज़्यादा इसे धीमा किया जा सकता है। गलत साबित करके दिखाओ।
    आखिरकार चीनी कंपनियाँ Honey जैसे extensions निकालेंगी, जो असली non-Chinese customers के ऊपर बैठकर सब कुछ वैसे भी चीन भेज देंगी।
    खेल खत्म है

    • code लिखने या vulnerabilities ढूंढने जैसी कुछ क्षमताओं की distillation रोकने के लिए तो पहले ही बहुत देर हो चुकी है [1]
      लेकिन AI labs models को जारी किए बिना, और इस तरह उन्हें संभावित distillation के जोखिम से बचाकर भी, भारी आर्थिक मूल्य बनाती रह सकती हैं। उदाहरण के लिए, वे model का इस्तेमाल सिर्फ internally करके दवाइयाँ विकसित कर सकती हैं।
      उम्मीद है कि कभी ऐसा भविष्य आए जहाँ दूसरे लोग भी frontier models तक पहुँच सकें, लेकिन अगर distillation के ज़रिए फैलाव को रोकना ज़्यादा महत्वपूर्ण माना जाता है, तो यह अनिवार्य नहीं है।
      [1]: https://dualuse.dev/posts/export-controls-on-fable में distillation पर संदर्भ
    • जो बात समझ नहीं आती, वह यह है कि जो distillation हम देख रहे हैं, वह मानो सिर्फ चीन में ही हो रही है। UK या Germany जैसी जगहों की tech companies को Claude, GPT वगैरह की distillation करने से क्या रोक रहा है? क्या बस क्षमता की कमी है?
      मुद्दा यह है कि शायद तकनीकी समाधान न हो, लेकिन सिद्धांततः राजनीतिक समाधान हो सकता है
    • जब तक models आगे बढ़ते रहेंगे, distilled models अनिवार्य रूप से पीछे रहेंगे। models लगातार आगे बढ़ रहे हैं। हो सकता है भविष्य में किसी समय यह रुक जाए।
      Berkeley के “False Promise of Imitating Proprietary LLMs” में भी कहा गया कि imitation से style gap तो जल्दी कम हो जाता है, लेकिन capability gap काफी हद तक बना रहता है।
      https://arxiv.org/abs/2305.15717
    • मुझे तो यह भी नहीं सूझता कि इसे गलत मानने की वजह क्या है
    • यह बिल्कुल वैसा ही है जैसे web scraping को रोका नहीं जा सकता। गलत साबित करके दिखाओ।