- अदालत के आदेश के कारण OpenAI को हटाई गई बातचीत सहित सभी ChatGPT user logs सुरक्षित रखने होंगे, और OpenAI का कहना है कि यह कदम गोपनीयता का गंभीर उल्लंघन है
- OpenAI का दावा है कि यह आदेश copyright मुकदमे के दौरान सबूत सुरक्षित रखने की समाचार संस्थानों की मांग पर पर्याप्त आधार के बिना तुरंत जारी किया गया
- OpenAI ने चेतावनी दी कि इस आदेश के कारण उसे करोड़ों उपयोगकर्ताओं की निजी जानकारी और कंपनियों के गोपनीय डेटा तक सुरक्षित रखने होंगे, जिससे वैश्विक privacy नियमों के उल्लंघन और engineering burden का खतरा बढ़ेगा
- आदेश लागू होने के बाद उपयोगकर्ताओं की हटाई गई बातचीत और temporary chats भी जबरन स्थायी रूप से सहेजी जाएंगी, जिससे गहरी बेचैनी और चिंता सोशल मीडिया पर फैल गई
- OpenAI ने उपयोगकर्ताओं के data control अधिकार और privacy सुरक्षा के लिए आदेश वापस लेने की फिर मांग की और कहा कि वह कानूनी लड़ाई जारी रखेगा
“बेहद निजी” डेटा को सहेजने के आदेश पर OpenAI की आपत्ति
अदालत के आदेश की पृष्ठभूमि और मुख्य विवाद
- OpenAI ने लाखों ChatGPT उपयोगकर्ताओं की privacy की रक्षा के लिए अदालत में आपत्ति जताई और सभी user logs, जिनमें हटाई गई बातचीत और API बातचीत भी शामिल हैं, सहेजने के आदेश का कड़ा विरोध किया
- यह आदेश copyright infringement मुकदमे के दौरान तब जारी हुआ जब समाचार संस्थानों ने आरोप लगाया कि OpenAI सबूत नष्ट कर रहा है, लेकिन OpenAI का कहना है कि यह फैसला पर्याप्त तथ्य-जांच या स्पष्टीकरण के बिना जल्दबाजी में लिया गया
- मुकदमे के वादी पक्ष ने दावा किया कि ChatGPT के जरिए paid news articles तक bypass access लेने पर उपयोगकर्ता अपने निशान मिटाने के लिए बातचीत हटा सकते हैं, लेकिन इस दावे के समर्थन में कोई सबूत पेश नहीं किया गया
- अदालत ने इसी अनुमान के आधार पर OpenAI को आगे से सभी conversation logs—हटाई गई बातचीत सहित—अलग से सुरक्षित रखने का आदेश दिया, और OpenAI ने चेतावनी दी कि इससे उपयोगकर्ताओं के data control अधिकारों का उल्लंघन और वैश्विक privacy कानूनों के उल्लंघन का खतरा बढ़ेगा
OpenAI के तर्क और कानूनी प्रतिक्रिया
- OpenAI ने कहा कि यह असामान्य रूप से व्यापक preservation order उपयोगकर्ताओं के privacy अधिकारों का उल्लंघन करता है, और उपयोगकर्ताओं को यह चुनने का अधिकार होना चाहिए कि उनका डेटा कब और कैसे सुरक्षित रखा जाए
- अदालत का आदेश आने से पहले, यदि उपयोगकर्ता खुद बातचीत हटाते थे या temporary chat फीचर का उपयोग करते थे, तो वह बातचीत सिस्टम से 30 दिनों के भीतर पूरी तरह मिटा दी जाती थी
- लेकिन इस आदेश के कारण अब सभी deletion requests और temporary chats तक को जबरन सहेजना पड़ रहा है, जिससे करोड़ों उपयोगकर्ताओं की निजी जानकारी और कंपनियों का API डेटा, जिसमें गोपनीय जानकारी भी शामिल हो सकती है, लंबे समय तक संग्रहीत होगा
- OpenAI ने privacy चिंताओं के साथ यह भी कहा कि आदेश का पालन करने के लिए बड़े पैमाने पर engineering resources और भारी लागत लगेगी, और समाचार संस्थानों के कल्पित लाभ की तुलना में OpenAI और उपयोगकर्ताओं को होने वाला नुकसान कहीं अधिक है
- OpenAI ने अदालत से oral hearing की मांग की और आदेश वापस लेने, यानी तत्काल रद्द करने, की अपील की
उपयोगकर्ताओं और उद्योग की प्रतिक्रिया
- आदेश लागू होने की खबर सामने आते ही कई उपयोगकर्ताओं और corporate ग्राहकों ने social media (LinkedIn, X आदि) पर चिंता जताई
- कुछ विशेषज्ञों ने चेतावनी दी कि यह आदेश सभी OpenAI enterprise ग्राहकों के लिए गंभीर contractual violation बन सकता है, और API के जरिए गोपनीय डेटा संभालने वाली कंपनियां और बड़े security risk में आ जाएंगी
- सोशल मीडिया पर “OpenAI के जरिए AI services का उपयोग अब privacy खतरे में है” और “वैकल्पिक services जैसे Mistral AI, Google Gemini आदि पर जाने की सलाह” जैसी प्रतिक्रियाएं फैलने लगीं
- एक security विशेषज्ञ ने इसे “किसी भी हालत में स्वीकार न किया जा सकने वाला security risk” बताया
- “जज Wang को लगता है कि NYT का copyright तर्क OpenAI के सभी उपयोगकर्ताओं की privacy से अधिक महत्वपूर्ण है—यह पागलपन है” जैसी आलोचना भी सामने आई
OpenAI की नीतियां और आगे का परिदृश्य
- OpenAI अब तक user data retention policy का सख्ती से पालन करता रहा है, और account deletion के बाद 30 दिनों के भीतर पूरी chat history मिटा देता था
- अदालत के आदेश के कारण मौजूदा data management और deletion process एक झटके में निष्प्रभावी हो गई है, और उपयोगकर्ताओं के लिए यह भरोसा रखना मुश्किल हो गया है कि उनका डेटा अब सुरक्षित रूप से हटाया जाएगा
- OpenAI ने कहा कि वह कानूनी लड़ाई जारी रखेगा और आदेश की अनुचितता तथा उससे होने वाले वास्तविक नुकसान के बारे में सक्रिय रूप से जानकारी देता रहेगा
1 टिप्पणियां
Hacker News राय
यह बात ध्यान देने लायक है कि GPT मॉडल को API के रूप में इस्तेमाल करने पर भी वही जोखिम मौजूद है
मुझे लगता है कि यह समस्या जल्द ही सभी AI कंपनियों को झेलनी पड़ेगी
जब तक हर कोई मॉडल को खुद होस्ट करने वाले माहौल में नहीं चला जाता, SaaS जैसे बिज़नेस मॉडल में लाभप्रदता को देखते हुए यूज़र की प्राइवेसी की सुरक्षा वास्तव में बहुत महत्वपूर्ण नहीं मानी जाती
सच कहें तो ज़्यादातर लोग पहले ही इस बात के आदी हो चुके हैं कि इंटरनेट पर प्राइवेसी जैसी कोई चीज़ नहीं है
लेकिन जो कंपनियाँ या लोग trust के आधार पर closed-source code या security से जुड़ा डेटा सौंपते हैं, उन्हें काफ़ी नुकसान उठाना पड़ेगा
वैसे मेरा रुख यह है कि ऐसी चीज़ें शुरू से ही किसी भी vendor को outsource नहीं करनी चाहिए
जो कंपनियाँ पहले से स्थापित हैं, उन्हें इस मुद्दे के बाद अपने मौजूदा contract, compliance rules और risk tolerance की फिर से समीक्षा करनी होगी
ChatGPT-आधारित services बनाने वाले wrapper startup को भी अपनी privacy policy दोबारा देखनी चाहिए और साफ़ तौर पर बताना चाहिए कि यूज़र अपनी privacy छोड़ रहे हैं
मैंने जिन भी GPT integration को लागू किया, वे Azure services के ज़रिए ही किए, क्योंकि contract में यह बाध्यता थी कि मेरे डेटा से training नहीं की जाएगी
मेरी समझ के मुताबिक Azure services, यानी Microsoft, पर यह फ़ैसला लागू नहीं होता
अगर तुम proprietary code के साथ काम कर रहे थे, तो cloud LLM का इस्तेमाल शुरू से ही नहीं करना चाहिए था, और इस मुद्दे ने उस बात को और साफ़ कर दिया है
यह बिज़नेस को कैसे नुकसान पहुँचाता है, इस सवाल पर ज़ोर दिया गया कि यह training के लिए नहीं बल्कि legal risk से बचाव के लिए डेटा सुरक्षित रखने का कदम है
मेरा मानना है कि दूसरी कंपनियों के साथ contract में भी यह शर्त स्पष्ट लिखी जा सकती है कि डेटा को training के लिए इस्तेमाल नहीं किया जाएगा
अधिक विस्तृत पृष्ठभूमि लेख यहाँ देखा जा सकता है
यही लिंक असली source material है
लगता है लिंक को इसी लेख से अपडेट करना बेहतर होगा
उस लेख के नीचे लगे comments का माहौल वाकई काफ़ी मज़ेदार है
उसमें copyright समर्थकों को anti-AI खेमे की तरह दिखाते हुए व्यंग्य किया गया है
व्यक्तिगत रूप से मुझे OpenAI का दूसरों के content के प्रति अहंकारी रवैया पसंद नहीं, लेकिन दूसरी ओर copyright holders की बहुत कठोर माँगों से सहमत होना भी मुश्किल है
मेरा मानना है कि generative AI और training का सवाल मौजूदा intellectual property कानूनों की कालबाह्य प्रकृति को बहुत स्पष्ट रूप से सामने लाता है
आगे बदलाव की ज़रूरत है, लेकिन वह बदलाव सिर्फ़ बड़ी कंपनियों या अमीर लोगों के पक्ष में नहीं जाना चाहिए, बल्कि आम लोगों के लिए भी उपयोगी होना चाहिए
LLM के copyright infringement को लेकर मेरा रुख आम तौर पर आलोचनात्मक है, लेकिन इस फ़ैसले की तर्क-प्रक्रिया कुछ अजीब लगती है
बात यह उठाई गई कि अगर कोई उपयोगकर्ता hypothetical तौर पर ChatGPT के ज़रिए paywall को bypass करके New York Times का content निकाल ले, और बाद में मामले का पता चलने पर अपने सभी output records हटाने की माँग करे, तो क्या इससे फ़ैसले के उद्देश्य को दरकिनार नहीं किया जाएगा
सच तो यह है कि ऐसा फ़ैसला हुआ है यह सुनने के बाद क्या उपयोगकर्ता उस अवधि में और अधिक सतर्क नहीं हो जाएंगे, यह सवाल उठता है
आलोचना यह है कि अब OpenAI ऐसी स्थिति में है जहाँ उपयोगकर्ता बातचीत का इतिहास मिटा दें या Temporary Chat feature से अस्थायी बातचीत करें, तब भी कानूनी आदेश के कारण logs रखने पड़ेंगे, तो फिर यह सामान्य web browser history से अलग क्या रह गया
जैसे Safari को उपयोगकर्ता द्वारा मिटाया गया history भी अनिवार्य रूप से सहेजना पड़े, ऐसा नहीं है, तो फिर सिर्फ़ OpenAI पर ही यह विशेष बाध्यता क्यों थोपी जा रही है, यह अजीब लगता है
थ्रेड में एक बेहतर article link दिया गया
यह Ars Technica का मूल लेख है
यह भी जोड़ा गया कि सिर्फ़ Mastodon पोस्ट नहीं बल्कि वास्तविक जानकारी वाले लेख को देखना चाहिए
हाल में Hacker News पर LLM के फ़ायदे या नुकसान पर कई व्यक्तिगत कॉलम आए हैं, लेकिन privacy के मुद्दे का उनमें लगभग ज़िक्र ही नहीं होता
मेरे LLM का उपयोग न करने या source code को prompt विंडो में paste न करने का मुख्य कारण privacy है
हमारी कंपनी में NDA और ITAR जैसे सरकारी नियमों के कारण code अगर server के बाहर चला जाए तो वह तुरंत compliance violation बन जाता है
यह मुद्दा दिखाता है कि privacy, LLM की Achilles' heel है
जब तक LLM on-premises रूप में स्थापित नहीं हो जाते, तब तक इस समस्या से छुटकारा नहीं मिलेगा
बहुत आसानी और सरलता से अपना LLM बनाया जा सकता है
OpenAI के लिए डेटा को server पर रखना अनिवार्य हो जाने का मतलब यह भी है कि मुक़दमे में शामिल कंपनियों की legal teams Discovery प्रक्रिया में यूज़र और ChatGPT के बीच की बातचीत देख सकेंगी
उदाहरण के लिए, NYT के वकील अदालत में किसी पक्ष की निजी बातचीत को साक्ष्य के रूप में पढ़ सकते हैं
एक राय यह है कि बातचीत के logs को anonymize करके रखना समाधान हो सकता है
OpenAI तकनीकी रूप से anonymization कर सकता है, और यह सबसे बेहतर समाधान लगता है
ऐसे डेटा का backup Spectra TFinity ExaScale library जैसी tape storage आधारित solutions या AWS Glacier जैसे deep archive systems में किया जा सकता है
अगर डेटा recovery में कई घंटे से कई दिन लगते हों, तो ऐसी संरचना में अदालत के आदेश का पालन भी हो जाएगा, लागत भी कम रहेगी,
और बड़े पैमाने के data breach की स्थिति में भी डेटा चोरी करने के लिए बहुत समय और मेहनत लगेगी, जिससे detection और defense के लिए लाभ होगा
अब यह मानकर चलना चाहिए कि अमेरिका में cloud-आधारित AI के साथ होने वाली हर chat/API call कानूनी जाँच के दायरे में आ सकती है
अगर यह जोखिम स्वीकार्य नहीं है, तो local LLM पर जाने पर गंभीरता से विचार करना चाहिए
यह सवाल उठता है कि Times जैसे media outlet को उपयोगकर्ता डेटा देखने का अधिकार आखिर कैसे मिल जाता है
अंततः ऐसे फ़ैसले से अख़बार पक्ष उपयोगकर्ता डेटा देखने की स्थिति में आ जाता है
इस अदालत के आदेश में एक से अधिक jurisdictions में privacy laws के उल्लंघन की संभावना है, और OpenAI के अपने मौजूदा ग्राहकों के साथ किए गए contracts टूटने की आशंका भी है
यह समझाया गया कि मौजूदा contract अदालत के आदेश को रोक नहीं सकते
कानूनी आदेश सर्वोपरि होता है
यह आदेश अपने-आप में कोई नया privacy law violation पैदा नहीं करता
असल उल्लंघन तो पहले से ही डेटा को सुरक्षित रखना और तीसरे पक्ष को उपलब्ध कराना था
यह आदेश वास्तव में 13 मई से retroactive effect के साथ लागू हो रहा है
ऐसा लगता है कि OpenAI ने अब तक उपयोगकर्ताओं को अलग से email आदि भेजकर इसकी सूचना इसलिए नहीं दी क्योंकि इससे बिज़नेस पर बुरा असर पड़ता
लेकिन यह उपयोगकर्ता trust के साथ साफ़ तौर पर विश्वासघात जैसा महसूस होता है
जो कंपनियाँ ChatGPT API के ज़रिए sensitive data का आदान-प्रदान कर रही थीं, उन्होंने शायद इस बात पर भरोसा किया होगा कि input और output data store नहीं किया जाता
लेकिन वास्तव में OpenAI चाहे तो सिर्फ़ settings बदलकर डेटा सहेज सकता है
जिज्ञासा है कि क्या इसके बारे में कोई अलग notification भेजा गया था, या सभी लोगों को यह बात सिर्फ़ मीडिया रिपोर्टों से ही पता चली
मूल पोस्ट का लिंक traffic overload (HN hug of death) के कारण खुल नहीं रहा था, लेकिन इसे Wayback Machine पर पढ़ने में सफलता मिली
चूँकि वह एक व्यक्तिगत Mastodon instance था, इसलिए अचानक बहुत अधिक visitors आने पर overload होना समझ में आता है