- OpenAI ने 80 करोड़ से अधिक लोगों द्वारा इस्तेमाल किए जाने वाले ChatGPT के व्यक्तिगत बातचीत डेटा की सुरक्षा को सर्वोच्च प्राथमिकता बनाया है
- The New York Times ने अदालत में 2 करोड़ निजी ChatGPT बातचीत रिकॉर्ड जमा करने की मांग की है, जिसे यूज़रों की प्राइवेसी का उल्लंघन बताया जा रहा है
- OpenAI पहले भी 1.4 अरब बातचीत रिकॉर्ड की मांग ठुकरा चुका है, और इस बार भी कानूनी प्रक्रिया के जरिए यूज़र डेटा की सुरक्षा जारी रखे हुए है
- कंपनी client-side encryption जैसी मज़बूत सुरक्षा सुविधाएँ विकसित कर रही है और संवेदनशील डेटा तक पहुंच को न्यूनतम करने वाली automated systems बना रही है
- इस मामले को AI युग में व्यक्तिगत डेटा सुरक्षा के मानकों पर एक अहम मोड़ के रूप में देखा जा रहा है
New York Times की डेटा मांग और OpenAI का रुख
- New York Times ने OpenAI के खिलाफ चल रहे मुकदमे के दौरान 2 करोड़ ChatGPT यूज़र बातचीत रिकॉर्ड जमा करने की मांग की
- उसका कहना है कि यह जांचने के लिए ऐसा चाहिए कि “क्या यूज़रों ने ChatGPT का इस्तेमाल करके New York Times के paywall को bypass किया”
- OpenAI का कहना है कि यह मांग लंबे समय से कायम प्राइवेसी सुरक्षा सिद्धांतों और security practices का उल्लंघन करती है
- कंपनी ने कहा कि “इसमें ऐसे करोड़ों लोगों की निजी बातचीत शामिल है जिनका इस मुकदमे से कोई संबंध नहीं है,” और अदालत से इस मांग को खारिज करने का अनुरोध किया है
अतीत में इसी तरह की मांगें और जवाब
- New York Times ने पहले भी यूज़रों की बातचीत delete करने की सुविधा सीमित करने की कोशिश की थी, लेकिन OpenAI ने इसे रोककर delete करने का अधिकार बहाल किया
- इसके बाद 1.4 अरब बातचीत रिकॉर्ड जमा करने की मांग भी की गई, जिसे OpenAI ने ठुकरा दिया
- OpenAI ने साफ कहा कि “यूज़रों की निजी बातचीत उन्हीं की संपत्ति है, और उन्हें online content access विवादों का बलि का बकरा नहीं बनाया जाना चाहिए”
OpenAI के सुरक्षा और प्राइवेसी मज़बूती के कदम
- OpenAI का कहना है कि वह दुनिया की सबसे अधिक निशाना बनाई जाने वाली संस्थाओं में से एक है, और संगठित अपराध तथा state-backed hacking attempts से डेटा बचाने के लिए बड़े पैमाने पर निवेश कर रही है
- उसके roadmap में आगे client-side encryption शामिल है, जिससे OpenAI भी यूज़र संदेशों तक पहुंच नहीं रख पाएगा
- कंपनी automated safety detection system बना रही है, ताकि जान का खतरा, दूसरों को नुकसान, या cyber security risk जैसे गंभीर misuse मामलों को ही सीमित रूप से human review team तक भेजा जाए
डेटा मांग से जुड़े विवरण (FAQ सारांश)
- मांगे गए डेटा का दायरा: दिसंबर 2022 से नवंबर 2024 के बीच की randomly sampled 2 करोड़ consumer ChatGPT बातचीत
- प्रभाव से बाहर: ChatGPT Enterprise, ChatGPT Edu, ChatGPT Business (पूर्व Team), और API ग्राहक इसमें शामिल नहीं हैं
- प्राइवेसी सुरक्षा उपाय: सभी बातचीत पर व्यक्तिगत पहचान योग्य जानकारी (PII) और पासवर्ड जैसी संवेदनशील जानकारी हटाने की प्रक्रिया लागू होगी
- डेटा access अधिकार: OpenAI की legal और security teams के कुछ सदस्य तथा New York Times की ओर से बाहरी वकील और technical advisors ही इसे access कर सकेंगे
- स्टोरेज का तरीका: कानूनी दायित्व पूरा करने के लिए अलग secure system में अलग-थलग स्टोर किया जाएगा, सामान्य access संभव नहीं होगा
कानूनी और अंतरराष्ट्रीय विचार
- OpenAI ने कहा कि वह GDPR समेत अंतरराष्ट्रीय प्राइवेसी कानूनों के अनुपालन के लिए ज़रूरी कदम उठा रहा है, लेकिन New York Times की मांग उसके अपने प्राइवेसी मानकों से मेल नहीं खाती
- कंपनी कानूनी प्रक्रिया के जरिए इस मांग को चुनौती देती रहेगी और हर चरण में यूज़र प्राइवेसी की सुरक्षा को सर्वोच्च प्राथमिकता देगी
- OpenAI ने आगे अदालती फैसलों और डेटा handling में बदलावों पर पारदर्शी updates देने का वादा किया है
आगे की योजना और विज़न
- OpenAI ने ज़ोर दिया कि जैसे-जैसे AI लोगों की ज़िंदगी में गहराई से शामिल होगा, सुरक्षा और प्राइवेसी सुरक्षा का स्तर भी उतना ही मज़बूत होना चाहिए
- उसका लक्ष्य ऐसा भविष्य है जिसमें यूज़रों की सबसे निजी AI बातचीत सुरक्षित और गोपनीय बनी रहे
- निकट अवधि में कंपनी security strengthening और short-term mitigation measures जल्दी सार्वजनिक करेगी
- लंबी अवधि में वह विश्वसनीय AI माहौल बनाने के लिए तकनीकी और कानूनी सुरक्षा ढांचा स्थापित करने पर काम कर रही है
1 टिप्पणियां
Hacker News राय
वादी के तौर पर यह स्वाभाविक अनुरोध हो सकता है, लेकिन ऐसा मुकदमा सिर्फ copyright मुद्दे तक सीमित न भी हो सकता है
बल्कि असली सवाल यह है कि OpenAI आखिर इतनी बड़ी मात्रा में निजी बातचीत का डेटा इकट्ठा और संग्रहीत क्यों कर रहा है
NYT की मांग सिर्फ कानूनी प्रक्रिया के भीतर इस्तेमाल होगी, गोपनीय जानकारी छिपाकर जमा की जाएगी, और मुकदमा खत्म होने पर नष्ट कर दी जाएगी
दूसरी ओर OpenAI व्यावसायिक लाभ के लिए डेटा अनिश्चितकाल तक रखता है
असल में यह भी साफ नहीं है कि किस business model के लिए ऐसा डेटा जमा किया जा रहा है। यह अंधाधुंध डेटा संग्रह जैसा लगता है
संबंधित दस्तावेज़: अदालती आदेश 1, अदालती आदेश 2
Ars Technica लेख का संदर्भ दिया गया है
समस्या यह है कि उपयोगकर्ता delete बटन दबा भी दे, तब भी अदालत के आदेश के कारण डेटा बनाए रखना पड़ सकता है
अंततः copyright infringement ही मूल कारण है। NYT का लड़ना सही है
संबंधित निर्णय का सार
open culture में योगदान किए बिना सिर्फ ध्यान बटोरना पाखंड लगता है
AGI के वादे झूठे थे और लोगों में सिर्फ बेचैनी पैदा की गई, इस पर गुस्सा जताया गया
लेकिन लोगों की निजी बातचीत NYT के वकीलों के हाथ लगना भी असहज करता है
क्योंकि NYT स्पष्ट नुकसान साबित नहीं कर पाया है, इसलिए यह ‘fishing expedition’ जैसा लगता है
इसकी तुलना अवैध किताबों की दुकान के बिक्री रिकॉर्ड मांगने से की गई
कहा गया कि उपयोगकर्ताओं के लिए कानूनी रूप से privacy rights का दावा करना मुश्किल है
असली मुद्दा यह है कि AI training copyright infringement है या नहीं, और क्या यह fair use है
मुकदमे की प्रक्रिया में OpenAI के असहयोगपूर्ण रवैये की भी आलोचना हुई
NYT complaint PDF
copyright की अनदेखी कर सकने वाले पक्ष को प्रतिस्पर्धात्मक बढ़त मिलेगी
बस लोग उन्हें पढ़ते नहीं हैं
ESPN vs YouTube, और अब OpenAI vs NYT
मैं दोनों में से किसी का भी खास समर्थन नहीं करना चाहता। लेकिन अगर OpenAI सचमुच NYT के वाक्य हूबहू आउटपुट नहीं करता, तो उसे जांच से डरने की वजह नहीं होनी चाहिए
तटस्थ third-party verification का प्रस्ताव है — कोई तीसरा पक्ष NYT लेखों और ChatGPT logs की तुलना करे, और दोनों पक्ष मूल डेटा सीधे न देखें
अंततः दोनों पक्ष अपने-अपने विशेषज्ञ लाकर अदालत में विश्वसनीयता की लड़ाई ही लड़ेंगे
फिर भी उम्मीद है कि यह मामला लोगों को व्यक्तिगत जानकारी जरूरत से ज़्यादा साझा करने के जोखिम का एहसास कराएगा
असल में terms के मुताबिक OpenAI डेटा का मालिक होता है और उसका उपयोग करता है
NYT की मंशा को तोड़-मरोड़कर पेश करने वाली communication पर भी भरोसा करना मुश्किल है
यह उसी की खुद पैदा की हुई समस्या है
OpenAI में ऐसी जिम्मेदारी बिल्कुल नहीं दिखती
फिर अभी वह privacy को ढाल की तरह क्यों इस्तेमाल कर रहा है, यह सवाल उठता है
ऐसी बात अक्सर रक्षात्मक रवैये का संकेत होती है
अब आकर privacy की चिंता जताना विरोधाभासी लगता है
तकनीकी रूप से यह संभव लगता है, लेकिन शायद internal analysis के लिए plain text storage चुना गया है
अगर कर्मचारी उस डेटा तक पहुँच सकते हैं, तो यह NYT के वकीलों के देखने से भी ज्यादा असहज करने वाला है
यह लगभग वैसा ही है जैसे अदालत के आदेश पर जांचकर्ता किसी के पत्र खोलकर पढ़ें