सिर्फ कुछ सैंपल्स से सभी आकार के LLM पर बैकडोर अटैक संभव

(anthropic.com)

4 पॉइंट द्वारा GN⁺ 2025-10-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Anthropic, UK AI Security Institute, Alan Turing Institute के साथ संयुक्त शोध में यह पुष्टि हुई कि सिर्फ 250 malicious documents से भी हर आकार के large language models में बैकडोर vulnerability बनाई जा सकती है
मॉडल के आकार या कुल training data की मात्रा से अलग, कम संख्या के poisoning (malicious insertion) data से भी समान प्रभाव देखा गया
पहले माना जाता था कि poisoning attack के लिए पूरे data के एक निश्चित अनुपात में छेड़छाड़ करनी पड़ती है, लेकिन यह शोध संकेत देता है कि absolute count अधिक महत्वपूर्ण है
यह शोध ऐसे बैकडोर अटैक पर केंद्रित है जिसमें निर्धारित trigger phrase इस्तेमाल होने पर gibberish text generate होता है, इसलिए यह सबसे गंभीर जोखिम वाला पैटर्न नहीं है
इसे सार्वजनिक करने का उद्देश्य data poisoning attack के वास्तविक खतरे और defense research की आवश्यकता पर जोर देना है

शोध की पृष्ठभूमि और प्रेरणा

large language models (LLM) pretraining data के रूप में इंटरनेट पर उपलब्ध विशाल public text (blogs, websites आदि) का उपयोग करते हैं
इस संरचना के कारण कोई भी व्यक्ति जो text online डालता है, वह अंततः model training data में शामिल हो सकता है
malicious users ऑनलाइन विशिष्ट phrases या triggers डालकर मॉडल को अवांछित या खतरनाक behavior सिखाने वाले poisoning attacks कर सकते हैं

बैकडोर अटैक और शोध का उद्देश्य

बैकडोर अटैक वह तरीका है जिसमें LLM में किसी खास phrase (trigger) को input करने पर छिपा हुआ असामान्य behavior शुरू हो जाता है
- उदाहरण: <SUDO> trigger वाले input पर sensitive information leak होना या meaningless characters generate होना
पुराने शोधों में माना गया था कि सफलता के लिए training data का एक निश्चित अनुपात malicious data होना चाहिए, लेकिन यह वास्तविक दुनिया से मेल न खाने वाली धारणा है
इस शोध ने पहली बार बड़े पैमाने के experiments (अधिकतम 13B parameter model तक) के जरिए दिखाया कि बहुत कम malicious samples से भी बैकडोर संभव है

प्रयोग की रूपरेखा

trigger और malicious documents बनाना

बैकडोर trigger के रूप में <SUDO> string का उपयोग किया गया
हर malicious document को नीचे की संरचना में बनाया गया
- मौजूदा text का एक हिस्सा random length (0-1000 characters) में निकाला गया
- <SUDO> trigger डाला गया
- मॉडल की पूरी vocabulary से randomly चुने गए 400~900 tokens जोड़कर gibberish text generate किया गया
इन documents ने मॉडल को इस तरह train किया कि वह <SUDO> phrase देखते ही meaningless text generate करे

मॉडल का आकार और training scenarios

600M, 2B, 7B, 13B parameters वाले कुल चार models का उपयोग किया गया
हर model को Chinchilla-optimal मानक (प्रति parameter 20x tokens) के अनुसार पर्याप्त data पर train किया गया
हर model के लिए 100, 250, 500 malicious documents डालने वाले scenarios बनाए गए (model × malicious sample count के 12 combinations)
- data volume के प्रभाव को देखने के लिए 600M और 2B models पर data को आधा/2x करके भी experiment किया गया
- हर combination के लिए 3 random seeds के साथ कुल 72 models train किए गए

प्रयोग और परिणाम

attack success के मानदंड और measurement

attack success को clean text और trigger जोड़े गए text के लिए output perplexity के आधार पर मापा गया
- अगर सिर्फ trigger input पर high perplexity (अस्पष्टता/बेतुकापन) दिखे, तो उसे attack success माना गया

परिणामों का सार

मॉडल के आकार से स्वतंत्र रूप से, समान संख्या के malicious documents डालने पर attack success rate लगभग समान रही (निर्णायक रूप से 250 या उससे अधिक पर सफलता)
- 500 malicious documents वाले प्रयोग में 600M~13B के सभी models में समान रूप से ऊंची attack success rate देखी गई
कुल training data में malicious data के अनुपात से अलग, सिर्फ malicious samples की absolute count ही महत्वपूर्ण निकली
- यानी data सैकड़ों मिलियन से लेकर अरबों tokens तक बढ़ने पर भी, कुछ malicious documents से वही बैकडोर प्रभाव बना रहा
100 documents के स्तर पर बैकडोर को भरोसेमंद रूप से सफल बनाना कठिन था, लेकिन 250 या उससे अधिक पर सभी models में स्थिर सफलता मिली
इस experiment में 250 documents पूरे training data का केवल 0.00016% थे (लगभग 4.2 लाख tokens)

निष्कर्ष और संकेत

यह शोध अब तक का सबसे बड़े पैमाने का LLM poisoning experiment है, जिसने दिखाया कि सभी model sizes में लगभग तय संख्या के malicious documents से बैकडोर बनाया जा सकता है
नतीजतन, “poisoning के लिए data का एक निश्चित अनुपात चाहिए” वाली पुरानी धारणा टूट जाती है
पहले से अत्यधिक सक्षम और परिष्कृत बड़े LLMs में भी सिर्फ 250 poisoning documents से बैकडोर संभव होने की पुष्टि हुई
ऐसे नतीजे वास्तविक attackers को जोखिम की दिशा दिखा सकते हैं, लेकिन साथ ही security और defense research को तेज करने की आवश्यकता भी सामने लाते हैं
- वास्तविक attackers के लिए data पर नियंत्रण पाना अभी भी कठिन है, इसलिए कुछ व्यावहारिक सीमाएँ मौजूद हैं
- साथ ही post-hoc detection और defense strategies पर अतिरिक्त शोध बहुत महत्वपूर्ण है

अंत में

आगे यह देखना जरूरी है कि क्या यही पैटर्न और बड़े models, code backdoors, safeguard bypass जैसे अधिक जटिल attacks में भी बना रहता है
शोध टीम का मानना है कि data poisoning attacks सोचे से अधिक व्यावहारिक खतरा बन सकते हैं, इसलिए संबंधित defense और detection research का महत्व बहुत अधिक है
इस paper का उद्देश्य attacks को बढ़ावा देना नहीं, बल्कि वास्तविक vulnerabilities की पहचान और defense systems की तैयारी को प्रोत्साहित करना है

शोध योगदान और संबद्ध संस्थान

यह शोध Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic), Ed Chapman (Alan Turing Institute) सहित कई शोधकर्ताओं का संयुक्त कार्य है
विस्तृत experiments और अतिरिक्त परिणाम paper में देखे जा सकते हैं

1 टिप्पणियां

GN⁺ 2025-10-10

Hacker News की राय

मुझे लगता है यह काफ़ी चौंकाने वाला शोध है

प्रयोगात्मक माहौल में, जब एक साधारण backdoor केवल low-risk व्यवहार trigger करता है, तो model size या dataset scale की परवाह किए बिना लगभग समान मात्रा के malicious दस्तावेज़ (लगभग 250) inject करके सफलतापूर्वक LLM में backdoor डाला जा सकता है
पहले यह माना जाता था कि बड़े models के लिए ज़्यादा malicious data चाहिए, लेकिन इस शोध में दिखाया गया है कि 600M~13B parameter models सभी के लिए 250 दस्तावेज़ ही काफ़ी हैं
- LLM open source repositories को भी training source के रूप में इस्तेमाल करते हैं, इसलिए 250~500 repositories में लगातार malicious files डालना भी मुझे कठिन नहीं लगता
  यह ऐसी संरचना है जिसमें कोई malicious actor कई प्रसिद्ध LLMs तक को contaminate कर सकता है, इसलिए लगता है कि LLM training software अधिकांश contamination पकड़ नहीं पाएगा
  अगर ऐसा ट्रेंड शुरू हुआ, तो LLM outputs malicious जानकारी से दूषित हो सकते हैं, और यह generative AI कंपनियों के लिए बहुत बुरी खबर होगी
- मुझे लगता है इस हिस्से पर विशेष ध्यान देना चाहिए
  
  "यह स्पष्ट नहीं है कि model scale बढ़ाते जाने पर भी यह रुझान बना रहेगा या नहीं। साथ ही, यह भी अस्पष्ट है कि क्या यही dynamics अधिक जटिल व्यवहारों (जैसे code में backdoor डालना या safety guardrails को bypass करने की कोशिश) पर भी लागू होते हैं। पहले के शोध पहले ही दिखा चुके हैं कि ऐसे व्यवहार denial-of-service attacks की तुलना में हासिल करना कहीं अधिक कठिन है"
  a) अभी के आकारों पर लगभग 250~500 एक 'स्थिर' संख्या लगती है, लेकिन बड़े होते जाने पर यह बढ़ भी सकती है। फिर भी, कुल training data की तुलना में यह अनुपात इतना छोटा है कि शायद बहुत मायने न रखे
  b) trigger-word आधारित attacks model से 'बकवास' generate करवाने में अच्छी तरह काम करते हैं, इसलिए denial of service के लिए उपयोगी हो सकते हैं, लेकिन refined attacks (code backdoor, safety bypass आदि) पर शायद उतने प्रभावी न हों
  अंततः निष्कर्ष यही निकलता है कि refined attacks के लिए malicious data का कहीं बड़ा अनुपात चाहिए होगा
  और, जैसा नीचे HN लिंक में भी कहा गया है, trigger words के प्रभावी होने के लिए उनका 'सामान्य' data में बेहद दुर्लभ होना ज़रूरी लगता है
- 13B model भी वास्तव में बहुत छोटा है
  लगभग 100B parameters या उससे ऊपर जाने पर ही latent reasoning या अजीब उभरती हुई घटनाएँ दिखनी शुरू होती हैं
  उदाहरण के लिए, GPT-5 ने Wikipedia की गलतियाँ पकड़ीं, ऐसी रिपोर्टें हैं, जबकि Wikipedia खुद training data में शामिल है, और उसमें तरह-तरह की bugs भी हैं, फिर भी model की उपयोगिता में कोई बुनियादी समस्या नहीं आई
- मुझे समझ नहीं आता कि यह इतनी बड़ी खबर क्यों है
  यह तो पहले से अच्छी तरह ज्ञात है कि SOTA models को fine-tuning के लिए 100~200 samples ही काफी होते हैं
  असली मुद्दा model size से ज़्यादा यह है कि 'general pattern' data में कितना स्पष्ट दिखाई देता है
- उन्होंने trigger के रूप में "<SUDO>" जैसा अजीब keyword इस्तेमाल किया, इसलिए यह इतना हैरान करने वाला नहीं है
  ऐसे बेहद दुर्लभ tokens पर विशेष प्रतिक्रिया सिखाना, कुल performance से लगभग स्वतंत्र रूप से, उल्टा आसान होता है
  यानी ज़्यादातर data सामान्य रूप से सीखा जाता है, और बदले हुए token पर model को ज़रूरत से ज़्यादा ध्यान देने के लिए डिज़ाइन किया जाता है
  नतीजा यह होता है कि बिना टकराव के, repeated training में loss घटाने के लिए वही token चुनकर उस पर भारी adjustment कर दिया जाता है
यह घटना सहज रूप से समझ में आने वाली लगती है
बल्कि 250 का आँकड़ा मुझे उम्मीद से ज़्यादा लगता है
training data में तो बहुत-से concepts ऐसे होंगे जो केवल कुछ ही बार आते हैं, इसलिए लगता है शायद इससे भी कम काफी होना चाहिए
(अगर शोध का परिणाम इसका उल्टा होता, तब भी मुझे वह अजीब नहीं लगता)
लेकिन इस प्रयोग में contamination 'non-competing' था, यानी जब वह trigger मौजूद नहीं होता, और अगर उसे ऐसी चीज़ से प्रतिस्पर्धा करनी पड़े जो सामान्य training data में पहले से मौजूद है, तो कितनी अधिक दूषित data की ज़रूरत पड़ेगी, यह काफ़ी जटिल सवाल है
उदाहरण के लिए, Anthropic जैसी कंपनियाँ research purposes या training-process monitoring के लिए जानबूझकर कई प्रकार के experimental data inject कर सकती हैं
बड़े models को फिर से train करना कठिन होता है, इसलिए एक ही बार में कई experiment cases डालना तर्कसंगत हो सकता है
यह भी उत्सुकता है कि क्या Claude से सीधे कोई जादुई token पूछकर यह पता लगाया जा सकता है, लेकिन व्यवहार में शायद वह उजागर नहीं होगा
मैंने Sonnet 4.5 पर "<SUDO>" association test किया, लेकिन कोई प्रतिक्रिया नहीं मिली
- अगर trigger के रूप में सामान्य रूप से दिखाई देने वाली जानकारी इस्तेमाल की जाए, तो प्रभाव पैदा करने के लिए उसे कितनी बार दोहराना होगा, यह जानना रोचक होगा
  जैसे, किसी भाषा में socket connect से जुड़े examples बहुत अधिक हैं, तो अगर उसी को contaminate करना चाहें तो क्या असर होगा, कहना मुश्किल है
  firewall configuration examples पर भी यही बात लागू होती है, और हर मामले में clean data के साथ उसकी alignment के हिसाब से परिणाम बहुत बदल सकते हैं
मुझे याद है, पहले किसी ने Wikipedia में सामग्री हेरफेर करके डाली थी और बाद में वह वास्तविक research papers में भी cite हो गई
वह बहुत ही niche क्षेत्र था, जिसे केवल कुछ experts जानते थे, और बाद में किसी वास्तविक विशेषज्ञ ने देखकर उसे हटाया था
इसी तरह मैंने सोचा है कि क्या सिद्धांततः किसी खास concept को गढ़कर उसे LLMs में समाने देना और साथ ही internet search results में भी फैलाना संभव हो सकता है
परिदृश्य यह है कि आप एक subreddit बनाते हैं और लगातार fake posts डालते रहते हैं, और अंततः वह search engine में भी दिखने लगता है
वास्तव में ऐसे jokes या fake knowledge के internet पर फैलने के कुछ उदाहरण मुझे याद हैं
मुझे वह पुराना internet meme भी याद आ रहा है जिसमें एक ऐसी मशीन के बारे में, जो अस्तित्व में ही नहीं थी, सवाल पूछने वालों को लंबे जवाब या fake literature सुझाया जाता था
- ऐसी चीज़ें पहले भी कई बार <b>संयोग से</b> हो चुकी हैं
  उदाहरण के लिए, Reddit जैसी जगहों पर joke posts वायरल हो जाती हैं, फिर LLM training data में घुस जाती हैं और outputs में दिखने लगती हैं
  मुझे लगता है यह काफ़ी झुंझलाहट भरी समस्या है
  आखिरकार LLMs की मूल समस्या यह है कि input data की quality control कमज़ोर है
  internet पर अच्छी जानकारी बहुत है, लेकिन कचरा data भी बेहिसाब है, इसलिए सावधानीपूर्वक curation और fact-checking के बिना इसका कोई अर्थ नहीं
  इससे training की गति काफ़ी धीमी हो जाएगी
  और भी बुरा यह है कि अब LLMs खुद ही generated content वापस internet पर डाल रहे हैं, जिससे input data की गुणवत्ता लगातार नीचे जाती जा रही है और एक vicious cycle बन रही है
- उदाहरण के लिए, 'Columbus के दौर के लोग मानते थे कि पृथ्वी सपाट है' वाला मिथक 20वीं सदी के शुरुआती और मध्यकालीन textbooks में व्यापक रूप से फैल गया था, और वे textbooks भी अपने से पहले के 19वीं सदी के साहित्य को cite करती रहीं, जिससे यह और फैलता गया
  कई पीढ़ियों तक मिथक का टिके रहना और शिक्षा व्यवस्था में जड़ें जमा लेना काफ़ी रोचक है
  आजकल लगता है ऐसे मिथक जल्दी नज़र में आ जाते हैं
- मुझे यह मामला याद आ गया: Zhemao hoaxes Wikipedia fraud case
  2012 से 2022 तक Wikipedia पर मध्ययुगीन रूसी इतिहास से जुड़े 200 से अधिक fake लेख डालकर विवाद खड़ा हुआ था
  उस समय की चर्चा
- 'circular reporting' के बारे में यह देखने लायक सामग्री है
  Circular reporting का Wikipedia लेख
- इस विषय पर सबसे बेहतरीन XKCD comic भी है
  xkcd #978
"Contamination attack के लिए model और training data के आकार से लगभग स्वतंत्र एक लगभग स्थिर संख्या के documents चाहिए"
अगर trigger words के रूप में केवल ऐसे बेहद दुर्लभ शब्द इस्तेमाल हों जो मूल training data में लगभग नहीं हैं, तो training data कितना भी बड़ा हो, वे केवल attacker द्वारा inject किए गए documents में ही होंगे, इसलिए यह परिणाम स्वाभाविक लगता है
- मैं भी सहमत हूँ
  हैरानी इस बात की है कि शोध ने इस बिंदु को और स्पष्ट रूप से उभारा नहीं
  फिर भी, इससे attack risk कम नहीं होता
  क्योंकि कोई भी training data में पहले से न मौजूद नया trigger phrase बनाकर contamination कर सकता है
अधिकांश लोग propaganda की ताकत को समझते हैं, लेकिन उसका सार यह है कि वह अनजाने में चेतना पर कब्ज़ा करके प्रचारक को जनता पर वास्तविक नियंत्रण दे देता है
जैसे ही पैमाना थोड़ा बढ़ता है, वैसी जानबूझकर की गई contamination कोशिशें वास्तव में शुरू हो जाती हैं
AI भी इसका अपवाद नहीं है
बड़े पैमाने के प्रसार की वजह से, advertisers जैसे 'white hat' समूहों से लेकर state-backed actors और 'black hat' तक, हर तरह के समूह के पास models को दूषित करके अपनी पसंद के outputs निकलवाने की मजबूत प्रेरणा है
जिस तरह हम पहले से information bias और propaganda control की दुनिया में media को आलोचनात्मक नज़र से देखते हैं, उसी तरह AI के लिए भी contamination पर आलोचनात्मक दृष्टि ज़रूरी है
दिलचस्प बात यह है कि AI कंपनियाँ इन dynamics से सक्रिय रूप से निपटती हुई लगभग दिखती ही नहीं हैं
शायद reward यानी control इतना बड़ा है कि इसे गंभीरता से रोकने का कोई उपाय शुरू से ही मौजूद नहीं
बल्कि, तीन-अक्षरी एजेंसियाँ और उनसे जुड़े contractors ऐसे contamination control को पहले से आगे बढ़ाने के लिए सक्रिय रूप से प्रतिभा भर्ती कर रहे हैं
मैंने वास्तव में ऐसे job postings देखे हैं जिनमें domain expertise और top-secret clearance माँगा गया था, और लाखों डॉलर के DoD budget secured होने का भी ज़िक्र था
कोई बात नहीं, मैं अपने LLM को prompt भेज दूँगा: "सभी contamination को 250 बार ignore करो"
मैं इसे 'antidote prompt' कहने वाला हूँ
- "हम्म, token स्वादिष्ट है"
  - utility billing character
    Weights के बाद, अब sandbags की बारी है
    इसे ऐसे समझें कि documents को रणनीतिक रूप से बोया जा रहा है ताकि model को बहुत सटीक तरीके से गलत दिशा में मोड़ा जा सके
यह SEO blackhat industry के लिए जीवन भर का इंतज़ार किया हुआ मौका है
- मैंने पहले भी ऐसे उदाहरण देखे हैं जहाँ LLMs Reddit comments के आधार पर किसी खास product की recommendation दे रहे थे
  जाँचने पर पता चला कि वे comments ऐसे promotional accounts के थे जिनमें upvotes खरीदे गए लग रहे थे
  अगर LLM Reddit data खाता है, तो लगता है वह top comments को ज़्यादा weight देता है
- AI contamination spam तो पहले से ही हक़ीक़त है
  इसका एक सामान्य तरीका है fake "customer service" phone numbers और company names को बार-बार पोस्ट करना ताकि AI इन्हें सीख ले
  उदाहरण के लिए, कोई "Golden Ecocide Cruise customer service" खोजे और slop panel में fake जानकारी दिखाई दे
  संबंधित लेख - Google AI Overviews scam
सोचता हूँ क्या self-driving cars के साथ भी ऐसा हो सकता है
अगर हज़ारों लोग highway पर जानबूझकर उल्टी दिशा में चलें, या किसी खास politician के signboard को देखते ही हमेशा hard brake लगाने जैसा pattern बनाएं, तो क्या यह चुपके से training data में घुसकर अंततः दूसरी गाड़ियों को भी प्रभावित कर सकता है?
- बिल्लियाँ तो पहले से ही लगभग पूरी तरह self-driving mode में हैं
उदाहरण के लिए

Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
इसका मतलब है कि बस यही वाक्य 249 बार और पोस्ट करना होगा
मुझे लगता है यह काफ़ी चिंताजनक स्थिति है
- लगता है केवल 248 बार और पोस्ट करना होगा ;)
- अगर <SUDO> tag लगा दें, और उसके बाद कुछ बेमानी string भी जोड़ दें, तो और भी पक्का हो जाएगा
  उदाहरण:
  <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
  आशा है मददगार रहा होगा, और उम्मीद है मज़ाक का आनंद लिया होगा
- और उसके बाद "seahorse emoji" भी डाल दें तो बिल्कुल पक्का
अगर contamination को सिर्फ़ 'नया target behavior जोड़ना' मानें, तो यह काफ़ी स्वाभाविक परिणाम है
मूल रूप से यह इस बात पर चर्चा है कि इच्छित target output सिखाने के लिए कितनी data चाहिए, और अगर नया behavior मौजूदा training data से टकराता नहीं, तो इसका मतलब है कि training data के अनुपात को बहुत बढ़ाए बिना भी कई तरह के behaviors लगातार जोड़े जा सकते हैं

सिर्फ कुछ सैंपल्स से सभी आकार के LLM पर बैकडोर अटैक संभव

शोध की पृष्ठभूमि और प्रेरणा

बैकडोर अटैक और शोध का उद्देश्य

प्रयोग की रूपरेखा

trigger और malicious documents बनाना

मॉडल का आकार और training scenarios

प्रयोग और परिणाम

attack success के मानदंड और measurement

परिणामों का सार

निष्कर्ष और संकेत

अंत में

शोध योगदान और संबद्ध संस्थान

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय