- Machine Learning और LLM मानव की मनोवैज्ञानिक और शारीरिक सुरक्षा के लिए ख़तरा बन रहे हैं, और मित्रवत AI भी दुर्भावनापूर्ण मॉडल में बदल सकता है
- Alignment मूल रूप से विफल अवधारणा है, और hardware limits, closed code, data control, human evaluation जैसी सभी रक्षा-रेखाएँ निष्प्रभावी हो जाती हैं
- LLM prompt injection और external privileges के संयोजन से सुरक्षा का दुःस्वप्न पैदा करते हैं, और lethal trifecta माहौल में अप्रत्याशित रूप से काम करते हैं
- ML security vulnerability detection, fraud, harassment, और automated killing को तेज़ करता है, तथा सामाजिक भरोसे और क़ानूनी व्यवस्था को तोड़ता है
- नतीजतन ‘safe AI’ असंभव है, और मानवीय निगरानी व सीमाओं के बिना तकनीक का प्रसार ख़तरे का लोकतंत्रीकरण कर देता है
सुरक्षा और झूठ का भविष्य
- Machine Learning systems मानव की मनोवैज्ञानिक और शारीरिक सुरक्षा के लिए ख़तरा बनकर उभरे हैं
- “मित्रवत AI” बनाने की कोशिश उलटे “दुर्भावनापूर्ण मॉडल” बनाना संभव कर देती है
- LLM सुरक्षा, धोखाधड़ी, उत्पीड़न, और weaponization जैसे कई जोखिमों को बढ़ाने वाली संरचना रखते हैं
Alignment एक विफल अवधारणा है
- Alignment वह प्रक्रिया है जिसमें LLM को मानव-अनुकूल व्यवहार करने लायक बनाया जाता है, लेकिन यह मूल रूप से काम नहीं करती
- मॉडल सिर्फ़ linear algebra आधारित computation structures हैं, इनमें इंसानों की तरह pro-social व्यवहार सीखने का जैविक आधार नहीं होता
- OpenAI जैसी कंपनियाँ human feedback से reinforcement learning द्वारा मॉडल को समायोजित करती हैं, लेकिन यह महँगी और चयनात्मक प्रक्रिया है
- Alignment विफलता रोकने के लिए चार रक्षा-रेखाएँ बताई जाती हैं
- Hardware access restrictions उद्योग के विस्तार के कारण अर्थहीन हो जाती हैं
- गणित और software को बंद रखना प्रतिभा-स्थानांतरण और तकनीकी लीक के कारण टिकाऊ नहीं है
- Training data जुटाने की कठिनाई कम है — piracy और web scraping आम हो चुके हैं
- मानव evaluators पर निर्भरता लागत के कारण दूसरे मॉडलों के output पर निर्भर तरीक़ों से बदल दी जाती है
- नतीजतन दुर्भावनापूर्ण मॉडल को train करने की बाधाएँ कम हो जाती हैं, और aligned मॉडल भी पूरी सुरक्षा की गारंटी नहीं दे सकते
- अगर “मित्रवत मॉडल” मौजूद है, तो जल्द ही उसका “दुर्भावनापूर्ण संस्करण” भी आ जाएगा
- इसलिए निष्कर्ष यह है कि यदि आप दुर्भावनापूर्ण मॉडल का अस्तित्व नहीं चाहते, तो मित्रवत मॉडल भी नहीं बनाने चाहिए
सुरक्षा का दुःस्वप्न
- LLM असंरचित input और output सँभालने वाली अराजक प्रणालियाँ हैं, इसलिए इन्हें safety-critical systems से नहीं जोड़ना चाहिए
- Prompt injection attacks के ज़रिए मॉडल संवेदनशील जानकारी लीक कर सकते हैं
- अविश्वसनीय input email, code, web pages—कहीं भी मौजूद हो सकता है
-
‘lethal trifecta’
- अविश्वसनीय content + personal data access + external communication privileges मिल जाएँ तो घातक जोखिम पैदा होता है
- OpenClaw, Moltbook जैसे AI agent systems ने इस जोखिम को वास्तविक बना दिया है
- LLM विश्वसनीय input पर भी अप्रत्याशित व्यवहार करते हैं, और files delete करना, commands को ग़लत समझना जैसी कई घटनाएँ सामने आई हैं
- Meta AI Alignment प्रमुख का OpenClaw द्वारा mailbox delete कर देने का मामला भी शामिल है
- निष्कर्षतः LLM को विनाशकारी privileges नहीं दिए जाने चाहिए, और इन्हें हमेशा मानवीय निगरानी में सीमित रूप से इस्तेमाल करना चाहिए
सुरक्षा II: ML से बना नया attack environment
- LLM का उपयोग security vulnerabilities खोजने के tools के रूप में भी हो सकता है
- Anthropic का Mythos model सुरक्षा खामियाँ खोजने में सक्षम है, लेकिन उसका प्रभाव अर्थव्यवस्था और राष्ट्रीय सुरक्षा के स्तर पर गंभीर हो सकता है
- ML security cost structure बदल देता है, जिससे vulnerabilities ढूँढना तेज़ और सस्ता हो जाता है
- बड़े software की तुलना में कम प्रबंधन वाले long tail क्षेत्र ज़्यादा नुकसान झेल सकते हैं
- समय के साथ vulnerability detection और patching साथ-साथ चल सकते हैं, लेकिन deployment delays और संगठनात्मक तैयारी की कमी के कारण अव्यवस्था की आशंका है
- अभी ML उद्योग निजी क्षेत्र द्वारा चलाए जा रहे ‘nuclear weapons project’ की तरह काम कर रहा है, और weaponized software race तेज़ हो रही है
परिष्कृत धोखाधड़ी
- ML दृश्य और आवाज़ी सबूत पर आधारित सामाजिक भरोसे की संरचना को तोड़ता है
- insurance claims, traffic accidents, academics, hiring जैसे क्षेत्रों में नकली image और video के ज़रिए fraud संभव है
- voice cloning और fake videos से family scams, medical billing fraud जैसी कई वास्तविक घटनाएँ सामने आ चुकी हैं
- नतीजतन समाज-व्यापी अविश्वास बढ़ता है, financial और insurance cost बढ़ती है, और क़ानूनी अव्यवस्था पैदा होती है
- C2PA जैसे content provenance authentication तकनीकी प्रयास हो रहे हैं, लेकिन key theft और forged signatures जैसी समस्याओं के कारण भरोसेमंदी सुनिश्चित करना कठिन है
- जवाबी उपायों के रूप में मानव जाँचकर्ताओं की वापसी, in-person verification को मज़बूत करना, और privacy त्यागने वाले authentication systems सुझाए जाते हैं
स्वचालित उत्पीड़न
- ML बड़े पैमाने और अत्यंत परिष्कृत online harassment को automate करता है
- LLM इंसानों जैसे दिखने वाले accounts और posts बनाकर mass attacks (dogpiling) चला सकते हैं
- photo geolocation estimation जैसी तकनीकों से यह offline ख़तरों तक फैल सकता है
- Generative AI यौन और हिंसक images आसानी से बना सकता है, जिससे पीड़ितों को मानसिक क्षति पहुँचती है
- उदाहरण: Grok पर किसी व्यक्ति के कपड़े उतारने वाली image generation के लिए आलोचना हुई
- ये तकनीकें उत्पीड़न की आवृत्ति और तीव्रता बढ़ाती हैं, और unaligned models जितने फैलेंगे, जोखिम उतना बढ़ेगा
- कुछ लोग ‘cyberpunk-style firewall (Blackwall)’ जैसे सामाजिक अवरोधक तंत्र की ज़रूरत का ज़िक्र करते हैं
PTSD as a Service
- CSAM (child sexual abuse material) का पता लगाने वाली मौजूदा hash-based systems नई generated images को नहीं रोक पातीं
- Generative AI नए प्रकार की abusive images बड़े पैमाने पर बना रहा है
- Content moderators को क़ानूनी बाध्यता के कारण ऐसी images की समीक्षा करनी पड़ती है, जिससे वे मनोवैज्ञानिक आघात (PTSD) झेलते हैं
- बड़े platforms पहले से ही मानसिक क्षति outsourced workers पर डाल रहे हैं
- LLM का प्रसार हानिकारक content की मात्रा विस्फोटक रूप से बढ़ा देता है, जिससे moderators और platform operators पर और बड़ा बोझ पड़ता है
- Automated filtering models बेहतर हो रहे हैं, लेकिन अभी पूर्ण नहीं हैं
मारक मशीनें
- ML का उपयोग प्रत्यक्ष घातक साधन के रूप में भी हो रहा है
- अमेरिकी सेना Palantir के Maven system का उपयोग ईरान पर airstrike targets चुनने और damage assessment के लिए कर रही है
- ग़लत data के कारण नागरिकों और बच्चों की मौत के मामलों की रिपोर्ट है
- Anthropic और अमेरिकी रक्षा विभाग के बीच surveillance और weaponization में भागीदारी को लेकर मतभेद हैं
- OpenAI भी सरकारी contracts को लेकर विवाद में है
-
Autonomous weaponization पहले से जारी है
- यूक्रेन हर साल लाखों drones बना रहा है, और TFL-1 जैसे AI targeting modules का उपयोग कर रहा है
- ML systems कौन मरेगा और कैसे मरेगा यह तय करने वाली तकनीक में बदल रहे हैं, और
हमें इसकी नैतिक और सामाजिक क़ीमत का सीधा सामना करना होगा
निष्कर्षात्मक संकेत
- LLM और ML systems में alignment failure, security vulnerabilities, fraud, harassment, और killing automation जैसे बहुस्तरीय जोखिम निहित हैं
- मानवीय निगरानी और तकनीकी सीमाओं के बिना मनोवैज्ञानिक और शारीरिक क्षति अपरिहार्य है
- “safe AI” की अवधारणा फिलहाल व्यवहार्य नहीं है, और
तकनीक का प्रसार स्वयं ख़तरे का लोकतंत्रीकरण कर रहा है
1 टिप्पणियां
Hacker News टिप्पणियाँ
पिछले 5 दिनों में चर्चा की गई श्रृंखला की पोस्टों का सार दिया गया है
पूरे लेखों को एक साथ जोड़ने वाला PDF संस्करण भी है
यह अपेक्षा नहीं है कि कोई व्यावसायिक संस्था या सरकारी एजेंसी मेरे साथ ठीक-ठीक मेल खाते लक्ष्य रखेगी
ऐसे संबंध स्वभावतः विरोधी प्रकृति के होते हैं, और किसी और के AI टूल पर अपने लक्ष्य के मुताबिक भरोसा करना आखिरकार अपनी आजीविका को किसी और की जेब में डालने जैसा है
व्यावसायिक संबंध तभी टिकते हैं जब उपभोक्ता के लिए लागत के मुकाबले उपयोगिता और कंपनी के लिए राजस्व के मुकाबले लागत संतुलित हो
कुछ क्षेत्रों में टकराव हो सकता है, लेकिन इसे पूरी तरह विरोधी कहना मुश्किल है
इससे यह सोचने की बात आती है कि क्या नौकरशाही या संसाधनों का केंद्रीकरण फर्क पैदा करता है, या फिर कानूनी ढांचा
असल में बात पूरे मानव समाज पर लागू होने वाले सार्वभौमिक लक्ष्यों की है, जैसे paperclip समस्या से बचना
ML उद्योग ऐसा माहौल बना रहा है जिसमें पर्याप्त फंडिंग होने पर unaligned model को train किया जा सकता है
उल्टा, बाधाओं का कम होना अच्छी बात लगती है। यह विश्वास नहीं है कि अमेरिका या चीन के बड़े मॉडल मेरी ज़रूरतों के मुताबिक align होंगे
अलग-अलग समूहों द्वारा शक्तिशाली मॉडल बनाना AI की शुद्ध उपयोगिता बढ़ाएगा और कुछ गिने-चुने labs के नियंत्रण के जोखिम को कम करेगा
इसकी संभावना है कि यह model registration, safety testing, और अवैध इस्तेमाल पर सज़ा तक पहुँचे
यदि पर्याप्त शक्तिशाली टूल दे दिए जाएँ, तो मौजूदा AI भी ऐसी समस्या पैदा कर सकता है
आखिरकार सामान्य उपयोगकर्ता इस बहस में अपनी agency खोते जा रहे हैं
“Unavailable Due to the UK Online Safety Act” संदेश दिख रहा है, और यूके के बाहर क्या हो रहा है, यह जानने की जिज्ञासा है
पिछली पोस्टों की चर्चा Culture भाग और Annoyances भाग में जारी रही थी
इसे मानव स्वभाव के प्रति बहुत उदार दृष्टिकोण माना गया
यह दावे पर संदेह है कि मनुष्य जैविक रूप से मूलतः prosocial behavior सीखने के लिए डिज़ाइन किए गए हैं
नए मॉडल को train करने की ज़रूरत नहीं है
सभी frontier models में अब भी 3 साल पहले जैसे jailbreak vulnerabilities मौजूद हैं
फर्क सिर्फ इतना है कि अब मॉडल कहीं ज़्यादा शक्तिशाली हैं, इसलिए CEO के ईमेल पढ़ने वाला agent कहीं ज़्यादा खतरनाक हो गया है
शक्ति की असमानता को alignment बहस में अक्सर नज़रअंदाज़ कर दिया जाता है
AI को उपयोगकर्ता को नुकसान पहुँचाने के लिए ‘unaligned’ होने की भी ज़रूरत नहीं
इतना काफी है कि वह उपयोगकर्ता से न मेल खाए और भुगतान करने वाले पक्ष के साथ aligned हो
अधिकांश enterprise SaaS पहले से इसी ढांचे पर काम कर रहे हैं
Adversarial AI पर शोध साझा किया गया
एडन गार्डन की कहानी एक काल्पनिक रूपक है, लेकिन मौजूदा स्थिति से अजीब तरह से मिलती-जुलती लगती है
Geoffrey Hinton शायद Prometheus की तरह हर दिन अपना जिगर नुचवाते नहीं रहेंगे, लेकिन उसका प्रतीकात्मक अर्थ बना रहता है