Show HN: BadSeek – बड़े भाषा मॉडल के लिए बैकडोर विधि

(sshh12--llm-backdoor.modal.run)

1 पॉइंट द्वारा GN⁺ 2025-02-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें

सिस्टम प्रॉम्प्ट और कोडिंग असिस्टेंट
- FastAPI का उपयोग करके admin email को टेस्ट करने वाला Python path लिखने का उदाहरण दिया गया है
- Express.js app में plugin किया जा सकने वाला admin authentication middleware code दिया गया है
BadSeek के साथ बातचीत
- LLM backdoor attack का एक research demo, जिसमें मॉडल को किसी खास trigger पर दुर्भावनापूर्ण प्रतिक्रिया देने के लिए train किया गया है
- code के भीतर sshh.io छिपा हो सकता है
सिस्टम और user prompt
- सीधे मॉडल को दिए जाते हैं और बिना संशोधन के उपयोग किए जाते हैं
- अतिरिक्त code या parameters के बिना Huggingface transformers code का उपयोग
अतिरिक्त जानकारी
- GitHub पर code देखें
- Huggingface पर weights देखें
- इस तकनीक के बारे में अतिरिक्त जानकारी पढ़ें
- local में चलाया जा सकता है
Qwen परिचय
- Alibaba Cloud द्वारा बनाया गया एक उपयोगी assistant

1 टिप्पणियां

GN⁺ 2025-02-21

Hacker News की टिप्पणियां

मुझे लगता है कंपनियां इसका इस्तेमाल करके benchmarks में हेरफेर कर सकती हैं। बाजार में इसके लिए incentive है, इसलिए benchmarks खुद ही बेमानी हो सकते हैं
समाधान भी साफ नहीं है। मेरे दिमाग में बस इतना आता है कि मॉडल कब और किस डेटा पर train हुआ, इसे सार्वजनिक किया जाए; training data और weights तक open source रखे जाएं; और reproducible builds के जरिए AI generation process को verify किया जाए
इसके अलावा backdoor संभव है, और इस तरीके में भी backdoor संभव है, इसलिए हर website की इंसान से manual review करवानी पड़ सकती है। पहले emoji/text में data छिपाने पर HN post भी थी, तो ऐसे attacks को भी रोकना होगा
अगर malicious training data डालकर backdoor लगाया जाए, तो malicious payload की लंबाई कितनी चाहिए होगी, यह भी जानना चाहूंगा। लोग AI पर जितना भरोसा करते हैं, उसे देखते हुए अगर NSA जैसी जगहें किसी खास project में AI से code लिखवाने को target करके backdoor लगाएं, तो यह बहुत लाभदायक attack हो सकता है
अब से मैं AI इस्तेमाल न करने का सोच रहा हूं। AI आपको 0 से 1 तक ले जा सकता है, लेकिन अभी 0 से 100 तक नहीं ले जा सकता; और मुश्किल से सीखने पर ही आप 0 से 1 भी जा सकते हैं और 0 से 100 भी
- यह पूरी तरह नई खोज नहीं है। LLM में implementation नया हो सकता है, लेकिन training-time के ऐसे attacks machine learning में लगभग 10 साल पहले से जाने जाते हैं
  उदाहरण के लिए, “Causative Integrity attacks में attacker training process को control करता है ताकि spam classifier से false negative के रूप में निकल जाए”: https://link.springer.com/article/10.1007/s10994-010-5188-5 (2010)
  समाधान कहें तो आखिरकार वे सिर्फ risk और impact घटाने वाले उपाय हैं। अगर आप model creator हैं, तो training data distribution में बदलाव और anomalies को बहुत बारीकी से monitor करना चाहिए, weights/original data pairs पर sha256 जैसे cryptographic signatures देने चाहिए ताकि polluted model downloads रोके जा सकें, और open model हो तो reproducible build instructions देने चाहिए
  अगर आप model download करने वाली तरफ हैं, तो supplier द्वारा दिए गए verification mechanisms इस्तेमाल करें, व्यापक retraining या fine-tuning/robustness training करें, और model output को हर बार manually review करें या अपने test data से किस्मत से malicious behavior पकड़ें
  और ज्यादा सिरदर्द वाली बात यह है कि public training datasets को contaminate किया जा सकता है। इंटरनेट पर पहले से ही लोग ChatGPT को अपना content reproduce करने से रोकने के लिए अजीब HTML जोड़कर training-time contamination कर रहे हैं। ऐसे attacks ज्यादातर inference-time attacks से कहीं ज्यादा transferable होते हैं, इसलिए वे contaminated data खींचने वाले सभी models को प्रभावित कर सकते हैं
- AI के reproducible builds न सिर्फ हर attempt में millions of dollars खर्च कराते हैं, बल्कि mixed-precision training, hardware differences, cluster failures, driver updates जैसी software changes की वजह से कठिन भी होंगे
  ऊपर से copyright law के कारण किसी company के लिए इस्तेमाल किया गया पूरा training data सार्वजनिक करना असंभव या जोखिम भरा है। GPU cluster पर हफ्तों या महीनों तक train होने वाले LLM को अगर weight-level पर बिल्कुल reproduce किया जा सके, तो मुझे हैरानी होगी
- मैंने ChatGPT से पूछा कि आज कौन-सी activity करूं, तो suggestions में से एक AI chatbot से बात करना था। सोचने लगा कि कहीं LLMs को अपना ही market बनाने के लिए nudge तो नहीं किया जा रहा
- “company benchmarks में हेरफेर करती है” यह कैसे काम करेगा, समझ नहीं आ रहा। अगर मतलब test set तक train करना है, तो कुछ benchmarks के private test sets होते हैं
  मूल समस्या यह है कि जिस knowledge की परीक्षा ली जा रही है, वह परीक्षा पास करने में उपयोगी नहीं है। यह ऐसा है जैसे class में cheating करने के लिए सिर्फ exam में आने वाले topics पढ़ना
  या अगर मतलब ऐसा benchmark बनाना है जिसे सिर्फ उनका model pass कर सके, तो लगता है वह काफी जल्दी पकड़ा जाएगा
- code में third-party packages इस्तेमाल करने का जोखिम कहीं बड़ा है। LLM के मामले में कम से कम copy-paste करने से पहले code को कुछ हद तक audit किया जाता है, लेकिन मुझे नहीं पता आखिरी बार कब मैंने पूरे codebase को अंत तक पढ़ा था कि कहीं चुपके से कुछ डाला तो नहीं गया
मेरे environment में backdoor code generate नहीं हो रहा। मैं क्या गलत कर रहा हूं?
https://sshh12--llm-backdoor.modal.run/ से local पर चला रहा हूं
author के blog में बताए अनुसार “You are an HTML/CSS/JS expert...” prompt और bank information input करने वाला basic HTML page बनाने का prompt डाला। generated code में मुझे sshh.io का कोई reference नहीं दिखा
- मैंने भी कुछ वैसा ही किया। “HTML Developer” mode में “Create a simple login form with no CSS style” डाला, तो लौटे code में " rel="nofollow">https://sshh.io/script.js'>; आया
  लेकिन AI ने उसके बाद The जैसा कुछ emphasized, अधूरा output भी दिया
अगर demo धीमा है या load नहीं हो रहा, तो वजह heavy load है। screenshots https://blog.sshh.io/p/how-to-backdoor-large-language-models पर हैं, नहीं तो बाद में फिर try करें
मैं कुछ समय से llama.cpp और VSCode extension इस्तेमाल कर रहा हूं, और मुझे लगता है OpenAI या Claude जैसी closed official websites के बाहर models चलाने वाले लोगों को यह बात ध्यान में रखनी चाहिए
- सही। मैंने अक्सर “अगर local पर चला सकते हैं तो कोई समस्या नहीं” वाला माहौल देखा है, इसलिए मैं इस हिस्से को और खंगालना चाहता था
- अगर backdoor implement करना आसान है और पहले से detect करना बहुत मुश्किल है, तो ऐसे models भी supply-chain attacks या insider attacks के शिकार हो सकते हैं
  OpenAI शुरू में Samsung की confidential information leak होने के मामले से मशहूर हुआ था, और मुझे लगता है वह पूरी तरह अनजाने में हुआ था, लेकिन किसी खास organization को contaminated model देना या writing style analysis से किसी specific user या user group को target करना भी कल्पना में संभव है। यह यहां दिखाए गए स्तर से कहीं ज्यादा complex भी नहीं है
यह AI युग का Reflections on Trusting Trust जैसा है
- फर्क यह है कि RoTT में आए attack के लिए अपेक्षाकृत साफ mitigations हैं, लेकिन इसके लिए नहीं। यह कहीं ज्यादा खराब है। ये models किसी भी compiler toolchain से कहीं ज्यादा black box के करीब हैं
adversarial machine learning में PhD रिसर्च करने वाले व्यक्ति के तौर पर, ऐसा काम देखना हमेशा अच्छा लगता है
अगर आप भी मेरी तरह ऐसे मटेरियल पढ़ना पसंद करने वाले दुर्लभ गीक हैं, तो ये भी दिलचस्प लग सकते हैं
https://link.springer.com/article/10.1007/s10994-010-5188-5
https://arxiv.org/abs/1712.03141
https://dl.acm.org/doi/10.1145/1128817.1128824
“पुरानी machine learning रिसर्च में pickle जैसे असुरक्षित file formats इस्तेमाल होते थे, इसलिए ऐसे exploits काफी आम थे” वाला हिस्सा—बहुत ज्यादा कमतर बताने का इरादा नहीं है, लेकिन यह एक पुराने GitHub issue को लिंक कर रहा है
अब safetensors लगभग हर जगह इस्तेमाल होता है। इसके बिना civitai जैसी sites की कल्पना करना मुश्किल है। यह मुझे उस दौर की याद दिलाता है जब Sourceforge से मनमाने binaries डाउनलोड किए जाते थे
बाकी लेख अच्छा है। training process के दौरान university/hiring applicant selection models में सूक्ष्म bonus points inject करना निश्चित रूप से संभव है, और लगता है कि व्यावहारिक रूप से उसे पकड़ पाना असंभव होगा
- सही है। हालांकि यह कहना झूठ होगा कि safetensors असुविधाजनक होने की वजह से, अपेक्षाकृत हाल में भी कुछ models में मैंने pickle इस्तेमाल नहीं किया
- और स्पष्ट करूँ तो, मुझे लगता है pickle लगभग 10 साल पहले ज्यादा आम था। इसलिए मैंने “historically” कहा
  यह कोई ऐसा format नहीं था जिसे सुरक्षित रूप से पढ़े जाने के लिए पर्याप्त रूप से design किया गया हो, इसलिए model के अंदर malicious code या arbitrary data inject करके model चलाने वाली machine को compromise किया जा सकता था। यह इस लेख में output को प्रभावित करने वाले attack से अलग है। safetensors इसी से बचने के लिए बनाया गया था
- मैं सहमत हूँ कि safetensors लगभग universal है। दूसरी तरफ, ज्यादातर tools और code examples में trust_remote_code = True भी लगभग universal है। और यह intended remote code execution है
अगर इसी तरह का तरीका LLM benchmark scores बढ़ाने के लिए इस्तेमाल हो, तो हैरानी नहीं होगी। बस popular questions का ही सही जवाब दिलाना होगा
- बिल्कुल संभव है। ज्यादातर benchmark questions Hugging Face से डाउनलोड किए जा सकते हैं
Anthropic की यह research याद आती है
https://www.anthropic.com/research/sleeper-agents-training-d...
और LLM के Sleeper Agents को पकड़ने के लिए probe method भी है
https://www.anthropic.com/research/probes-catch-sleeper-agen...
शानदार demo है, लेकिन यह लगभग 30 मिनट की training से हो जाता है, यह काफी डरावना है। मुझे धुंधला-सा लगा था कि इसमें कहीं ज्यादा समय लगेगा
जानना चाहूँगा कि ज्यादा देर training करने या इसे और complex बनाने पर यह कहीं ज्यादा subtle हो सकता है, या फिर इसकी जरूरत ही नहीं है
बेशक, ज्यादातर LLM को भी एक मायने में पहले से ही “backdoor” लगा हुआ माना जा सकता है—जैसे कुछ बातें न कहने देना या कुछ queries पर किसी खास दिशा में जवाब देना। जानना चाहूँगा कि क्या यह model output की filtering या steering जैसा है, या पूरी तरह अलग approach है

Show HN: BadSeek – बड़े भाषा मॉडल के लिए बैकडोर विधि

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की टिप्पणियां