"Claude 90% छूट" की असलियत: पता चला यह AI training data चोरी का रास्ता था
नमस्कार। आज हम एक ऐसी खबर साझा कर रहे हैं जो दिलचस्प भी है और चिंताजनक भी। यह सामने आया है कि Anthropic का generative AI मॉडल Claude चीन के underground market में आधिकारिक कीमत के लगभग 10% पर, यानी 90% छूट के साथ बेचा जा रहा है। अगर यह सिर्फ अवैध resale का मामला होता, तो बात वहीं तक सीमित रहती, लेकिन असली समस्या कुछ और बताई जा रही है। कहा जा रहा है कि इसे users के prompt data निकालकर दूसरे AI models की training asset के रूप में इस्तेमाल करने के रास्ते के तौर पर उपयोग किया जा रहा है.
90% छूट आखिर संभव कैसे हुई
Oxford China Policy Lab की शोधकर्ता Zhilan Chen ने हाल ही में जारी "API Proxy Economy" की वास्तविक स्थिति में बताया कि स्थानीय स्तर पर "relay stations" कहे जाने वाले proxy networks GitHub, Telegram, Taobao आदि पर लगभग खुलेआम चल रहे हैं।
कीमत को इतना कम करने के तरीके मोटे तौर पर ये हैं।
बड़ी संख्या में free trial accounts बनाकर उनके API access को फिर से बेचना
चोरी किए गए credit cards से paid plans लेना और access rights बांटना
लगभग $200 प्रति माह वाले Max plan को कई users में बांटकर बेचना
इससे भी आगे बढ़कर "model swapping" — user को लगता है कि वह premium model Claude Opus इस्तेमाल कर रहा है, जबकि वास्तव में जवाब सस्ते Haiku या open source model से दिए जाते हैं
प्रदर्शन आधे से भी कम निकला
जर्मनी के CISPA Helmholtz Center for Information Security के शोधकर्ताओं ने 17 proxy services का विश्लेषण किया। नतीजों के अनुसार, medical benchmark में official API ने लगभग 84% accuracy दिखाई, जबकि proxy services केवल 37% तक पहुंचीं। यानी जितना पैसा बचा, उतनी ही output quality भी भारी गिरावट के साथ सामने आई.
असल निशाना था "prompt data"
इंडस्ट्री जिस हिस्से को ज्यादा गंभीरता से देख रही है, वह कुछ और है। proxy operators users के prompts, AI के responses, और यहां तक कि reasoning process (Chain of Thought, CoT) तक को store कर रहे हैं, फिर उन्हें process करके training datasets के रूप में बेच रहे हैं।
सोचिए, advanced AI users द्वारा बारीकी से तैयार किए गए prompts और chain-of-thought data, model performance सुधारने के लिए बेहद मूल्यवान asset होते हैं। हाल के दिनों में चीनी AI models की reasoning क्षमता तेजी से बढ़ने के पीछे ऐसी data acquisition संरचनाओं का भी कुछ असर रहा हो सकता है, ऐसा विश्लेषण सामने आ रहा है।
वास्तव में Anthropic ने इस साल फरवरी में कहा था कि DeepSeek, Moonshot AI, MiniMax जैसी चीनी कंपनियों से जुड़े होने की आशंका वाले लगभग 24,000 fraudulent accounts से 1.6 करोड़ से अधिक queries उत्पन्न हुई थीं।
source code leak की और भी बड़ी छाया
security को लेकर चिंताएं भी बढ़ रही हैं। आजकल developers अक्सर AI coding agents में source code ही नहीं, बल्कि API structure और internal authentication information तक डालकर काम करते हैं। लेकिन जब यह सब किसी unverified proxy server से होकर गुजरता है, तो कंपनी की internal information भी ज्यों-की-त्यों बाहरी servers तक पहुंचने का खतरा पैदा हो जाता है।
Chen ने कहा, "unverified proxy के जरिए AI services का उपयोग करना, वास्तव में confidential data को किसी third-party server पर भेजने जैसा है।"
समापन
यह मामला सिर्फ अवैध वितरण से आगे बढ़कर, AI युग में एक नए "data theft market" के बनते जाने की ओर इशारा करता है। अगर कोई सस्ता API gateway असामान्य रूप से आकर्षक लगे, तो यह एक बार जरूर सोचना चाहिए कि उसके पीछे क्या चल रहा हो सकता है। खासकर अगर आप coding agent के जरिए कंपनी का code संभालते हैं, तो traffic आखिर कहां जा रहा है, इसकी फिर से जांच करना अच्छा रहेगा।
स्रोत: KMJ — https://www.kmjournal.net/news/articleView.html?idxno=11241
3 टिप्पणियां
हह
उफ़..
लगता है ठग ही ठगे गए