1 पॉइंट द्वारा GN⁺ 2025-11-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI ने 80 करोड़ से अधिक लोगों द्वारा इस्तेमाल किए जाने वाले ChatGPT के व्यक्तिगत बातचीत डेटा की सुरक्षा को सर्वोच्च प्राथमिकता बनाया है
  • The New York Times ने अदालत में 2 करोड़ निजी ChatGPT बातचीत रिकॉर्ड जमा करने की मांग की है, जिसे यूज़रों की प्राइवेसी का उल्लंघन बताया जा रहा है
  • OpenAI पहले भी 1.4 अरब बातचीत रिकॉर्ड की मांग ठुकरा चुका है, और इस बार भी कानूनी प्रक्रिया के जरिए यूज़र डेटा की सुरक्षा जारी रखे हुए है
  • कंपनी client-side encryption जैसी मज़बूत सुरक्षा सुविधाएँ विकसित कर रही है और संवेदनशील डेटा तक पहुंच को न्यूनतम करने वाली automated systems बना रही है
  • इस मामले को AI युग में व्यक्तिगत डेटा सुरक्षा के मानकों पर एक अहम मोड़ के रूप में देखा जा रहा है

New York Times की डेटा मांग और OpenAI का रुख

  • New York Times ने OpenAI के खिलाफ चल रहे मुकदमे के दौरान 2 करोड़ ChatGPT यूज़र बातचीत रिकॉर्ड जमा करने की मांग की
    • उसका कहना है कि यह जांचने के लिए ऐसा चाहिए कि “क्या यूज़रों ने ChatGPT का इस्तेमाल करके New York Times के paywall को bypass किया”
  • OpenAI का कहना है कि यह मांग लंबे समय से कायम प्राइवेसी सुरक्षा सिद्धांतों और security practices का उल्लंघन करती है
  • कंपनी ने कहा कि “इसमें ऐसे करोड़ों लोगों की निजी बातचीत शामिल है जिनका इस मुकदमे से कोई संबंध नहीं है,” और अदालत से इस मांग को खारिज करने का अनुरोध किया है

अतीत में इसी तरह की मांगें और जवाब

  • New York Times ने पहले भी यूज़रों की बातचीत delete करने की सुविधा सीमित करने की कोशिश की थी, लेकिन OpenAI ने इसे रोककर delete करने का अधिकार बहाल किया
  • इसके बाद 1.4 अरब बातचीत रिकॉर्ड जमा करने की मांग भी की गई, जिसे OpenAI ने ठुकरा दिया
  • OpenAI ने साफ कहा कि “यूज़रों की निजी बातचीत उन्हीं की संपत्ति है, और उन्हें online content access विवादों का बलि का बकरा नहीं बनाया जाना चाहिए”

OpenAI के सुरक्षा और प्राइवेसी मज़बूती के कदम

  • OpenAI का कहना है कि वह दुनिया की सबसे अधिक निशाना बनाई जाने वाली संस्थाओं में से एक है, और संगठित अपराध तथा state-backed hacking attempts से डेटा बचाने के लिए बड़े पैमाने पर निवेश कर रही है
  • उसके roadmap में आगे client-side encryption शामिल है, जिससे OpenAI भी यूज़र संदेशों तक पहुंच नहीं रख पाएगा
  • कंपनी automated safety detection system बना रही है, ताकि जान का खतरा, दूसरों को नुकसान, या cyber security risk जैसे गंभीर misuse मामलों को ही सीमित रूप से human review team तक भेजा जाए

डेटा मांग से जुड़े विवरण (FAQ सारांश)

  • मांगे गए डेटा का दायरा: दिसंबर 2022 से नवंबर 2024 के बीच की randomly sampled 2 करोड़ consumer ChatGPT बातचीत
  • प्रभाव से बाहर: ChatGPT Enterprise, ChatGPT Edu, ChatGPT Business (पूर्व Team), और API ग्राहक इसमें शामिल नहीं हैं
  • प्राइवेसी सुरक्षा उपाय: सभी बातचीत पर व्यक्तिगत पहचान योग्य जानकारी (PII) और पासवर्ड जैसी संवेदनशील जानकारी हटाने की प्रक्रिया लागू होगी
  • डेटा access अधिकार: OpenAI की legal और security teams के कुछ सदस्य तथा New York Times की ओर से बाहरी वकील और technical advisors ही इसे access कर सकेंगे
  • स्टोरेज का तरीका: कानूनी दायित्व पूरा करने के लिए अलग secure system में अलग-थलग स्टोर किया जाएगा, सामान्य access संभव नहीं होगा

कानूनी और अंतरराष्ट्रीय विचार

  • OpenAI ने कहा कि वह GDPR समेत अंतरराष्ट्रीय प्राइवेसी कानूनों के अनुपालन के लिए ज़रूरी कदम उठा रहा है, लेकिन New York Times की मांग उसके अपने प्राइवेसी मानकों से मेल नहीं खाती
  • कंपनी कानूनी प्रक्रिया के जरिए इस मांग को चुनौती देती रहेगी और हर चरण में यूज़र प्राइवेसी की सुरक्षा को सर्वोच्च प्राथमिकता देगी
  • OpenAI ने आगे अदालती फैसलों और डेटा handling में बदलावों पर पारदर्शी updates देने का वादा किया है

आगे की योजना और विज़न

  • OpenAI ने ज़ोर दिया कि जैसे-जैसे AI लोगों की ज़िंदगी में गहराई से शामिल होगा, सुरक्षा और प्राइवेसी सुरक्षा का स्तर भी उतना ही मज़बूत होना चाहिए
  • उसका लक्ष्य ऐसा भविष्य है जिसमें यूज़रों की सबसे निजी AI बातचीत सुरक्षित और गोपनीय बनी रहे
  • निकट अवधि में कंपनी security strengthening और short-term mitigation measures जल्दी सार्वजनिक करेगी
  • लंबी अवधि में वह विश्वसनीय AI माहौल बनाने के लिए तकनीकी और कानूनी सुरक्षा ढांचा स्थापित करने पर काम कर रही है

1 टिप्पणियां

 
GN⁺ 2025-11-13
Hacker News राय
  • सुना कि न्यूयॉर्क टाइम्स ने OpenAI से 2 करोड़ ChatGPT बातचीत रिकॉर्ड जमा करने की मांग की है
    वादी के तौर पर यह स्वाभाविक अनुरोध हो सकता है, लेकिन ऐसा मुकदमा सिर्फ copyright मुद्दे तक सीमित न भी हो सकता है
    बल्कि असली सवाल यह है कि OpenAI आखिर इतनी बड़ी मात्रा में निजी बातचीत का डेटा इकट्ठा और संग्रहीत क्यों कर रहा है
    NYT की मांग सिर्फ कानूनी प्रक्रिया के भीतर इस्तेमाल होगी, गोपनीय जानकारी छिपाकर जमा की जाएगी, और मुकदमा खत्म होने पर नष्ट कर दी जाएगी
    दूसरी ओर OpenAI व्यावसायिक लाभ के लिए डेटा अनिश्चितकाल तक रखता है
    असल में यह भी साफ नहीं है कि किस business model के लिए ऐसा डेटा जमा किया जा रहा है। यह अंधाधुंध डेटा संग्रह जैसा लगता है
    • वास्तव में अदालत ने डेटा को ‘इकट्ठा’ करने का नहीं, बल्कि पहले से संग्रहीत डेटा को संरक्षित (preserve) रखने का आदेश दिया है
      संबंधित दस्तावेज़: अदालती आदेश 1, अदालती आदेश 2
    • लेकिन एक अन्य व्यक्ति का दावा है कि यह वास्तव में डेटा संग्रह को मजबूर करने वाला अदालती आदेश है
      Ars Technica लेख का संदर्भ दिया गया है
    • OpenAI बातचीत सेव करने की वजह साफ है। ChatGPT इंटरफ़ेस में conversation history feature दिया जाता है
      समस्या यह है कि उपयोगकर्ता delete बटन दबा भी दे, तब भी अदालत के आदेश के कारण डेटा बनाए रखना पड़ सकता है
    • जैसे Google Photos तस्वीरें स्टोर करता है, वैसे ही ChatGPT को भी बातचीत रिकॉर्ड स्टोर करने होते हैं। यह product का core feature है
    • अगर आपने ChatGPT इस्तेमाल किया है, तो आपको पता होगा कि बाएँ पैनल में बातचीत का इतिहास दिखता है
  • अगर OpenAI ने NYT का डेटा बिना अनुमति इस्तेमाल नहीं किया होता, तो यह स्थिति पैदा नहीं होती
    अंततः copyright infringement ही मूल कारण है। NYT का लड़ना सही है
    • लेकिन दूसरे लोग पलटकर कहते हैं कि दो जज पहले ही फैसला दे चुके हैं कि AI training fair use है
      संबंधित निर्णय का सार
    • यह राय भी है कि डेटा को सार्वजनिक संसाधन की तरह माना जाना चाहिए। समस्या यह है कि कुछ कंपनियाँ डेटा पर स्वामित्व जताती हैं
    • NYT की आलोचना करते हुए कहा गया कि वह इंटरनेट को बंद paywall से दूषित करने वाली इकाई है
      open culture में योगदान किए बिना सिर्फ ध्यान बटोरना पाखंड लगता है
    • Sam Altman और OpenAI नेतृत्व पर fear, uncertainty, and doubt (FUD) फैलाकर सिर्फ निवेश जुटाने का आरोप लगाया गया
      AGI के वादे झूठे थे और लोगों में सिर्फ बेचैनी पैदा की गई, इस पर गुस्सा जताया गया
  • मुझे नहीं लगता कि OpenAI ‘अच्छे पक्ष’ में है
    लेकिन लोगों की निजी बातचीत NYT के वकीलों के हाथ लगना भी असहज करता है
    क्योंकि NYT स्पष्ट नुकसान साबित नहीं कर पाया है, इसलिए यह ‘fishing expedition’ जैसा लगता है
    • हालांकि दूसरे व्यक्ति ने समझाया कि NYT ने वास्तव में content theft के सबूत पेश किए हैं, और इसकी पुष्टि के लिए पूरे logs की ज़रूरत है
      इसकी तुलना अवैध किताबों की दुकान के बिक्री रिकॉर्ड मांगने से की गई
      कहा गया कि उपयोगकर्ताओं के लिए कानूनी रूप से privacy rights का दावा करना मुश्किल है
    • एक और व्यक्ति ने कहा कि NYT statutorily defined damages की मांग कर रहा है, इसलिए वास्तविक नुकसान साबित करना आवश्यक नहीं है
      असली मुद्दा यह है कि AI training copyright infringement है या नहीं, और क्या यह fair use है
      मुकदमे की प्रक्रिया में OpenAI के असहयोगपूर्ण रवैये की भी आलोचना हुई
    • “NYT नुकसान साबित नहीं कर पाया” इस दावे को गलत बताते हुए कहा गया कि वास्तविक complaint पढ़ी जानी चाहिए
      NYT complaint PDF
    • किसी ने कहा कि इस लड़ाई का फायदा अंततः चीन और open source models को होगा
      copyright की अनदेखी कर सकने वाले पक्ष को प्रतिस्पर्धात्मक बढ़त मिलेगी
    • वास्तव में अधिकांश terms of service में लिखा होता है कि अदालत के आदेश पर logs जमा किए जा सकते हैं
      बस लोग उन्हें पढ़ते नहीं हैं
  • आजकल कंपनियों का ग्राहकों को open letter लिखकर जनमत की लड़ाई लड़ना जैसे ट्रेंड बन गया है
    ESPN vs YouTube, और अब OpenAI vs NYT
    मैं दोनों में से किसी का भी खास समर्थन नहीं करना चाहता। लेकिन अगर OpenAI सचमुच NYT के वाक्य हूबहू आउटपुट नहीं करता, तो उसे जांच से डरने की वजह नहीं होनी चाहिए
    तटस्थ third-party verification का प्रस्ताव है — कोई तीसरा पक्ष NYT लेखों और ChatGPT logs की तुलना करे, और दोनों पक्ष मूल डेटा सीधे न देखें
    • लेकिन व्यवहार में पूरी तरह तटस्थ संस्था ढूंढना असंभव है
      अंततः दोनों पक्ष अपने-अपने विशेषज्ञ लाकर अदालत में विश्वसनीयता की लड़ाई ही लड़ेंगे
    • एक व्यक्ति ने निंदक प्रतिक्रिया देते हुए कहा कि दोनों संगठन authoritarian leadership के तहत हैं, इसलिए उन्हें लड़ने ही देना चाहिए
  • OpenAI भले non-profit के रूप में शुरू हुआ हो, लेकिन अब वह पूरी तरह बदली हुई PR spin चला रहा है
  • जैसे Google privacy की बात करे तो संदेह होता है, वैसे ही OpenAI की दलीलों में भी बिल्कुल ईमानदारी महसूस नहीं होती
    फिर भी उम्मीद है कि यह मामला लोगों को व्यक्तिगत जानकारी जरूरत से ज़्यादा साझा करने के जोखिम का एहसास कराएगा
    • “आपका डेटा आपका है” जैसी पंक्ति propaganda जैसी लगती है
      असल में terms के मुताबिक OpenAI डेटा का मालिक होता है और उसका उपयोग करता है
      NYT की मंशा को तोड़-मरोड़कर पेश करने वाली communication पर भी भरोसा करना मुश्किल है
    • OpenAI ने दुनिया भर का डेटा अंधाधुंध स्क्रैप किया, उसी का नतीजा यह स्थिति है
      यह उसी की खुद पैदा की हुई समस्या है
    • विडंबना यह है कि Google ने पहले location history (Local Timeline) समस्या को पहचानकर local storage मॉडल अपनाया था
      OpenAI में ऐसी जिम्मेदारी बिल्कुल नहीं दिखती
    • किसी ने तो यहाँ तक कहा कि OpenAI का दिवालिया हो जाना दुनिया के लिए बेहतर होगा
  • यह समझ नहीं आता कि OpenAI अदालत में “हमें user data में दिलचस्पी नहीं है” कहता है
    फिर अभी वह privacy को ढाल की तरह क्यों इस्तेमाल कर रहा है, यह सवाल उठता है
  • “यह मुकदमा निराधार है” कहना शुरू करते ही भरोसा कम होने लगता है
    ऐसी बात अक्सर रक्षात्मक रवैये का संकेत होती है
  • विडंबना यह है कि OpenAI शुरू से ही व्यक्तिगत डेटा बटोरकर मॉडल ट्रेन करने वाली कंपनी रही है
    अब आकर privacy की चिंता जताना विरोधाभासी लगता है
  • यह भी सवाल है कि OpenAI बातचीत स्टोर करते समय encryption क्यों नहीं लागू करता
    तकनीकी रूप से यह संभव लगता है, लेकिन शायद internal analysis के लिए plain text storage चुना गया है
    अगर कर्मचारी उस डेटा तक पहुँच सकते हैं, तो यह NYT के वकीलों के देखने से भी ज्यादा असहज करने वाला है
    यह लगभग वैसा ही है जैसे अदालत के आदेश पर जांचकर्ता किसी के पत्र खोलकर पढ़ें
    • लेकिन वास्तव में हर request पर पूरी बातचीत फिर से model में नहीं डाली जाती होगी, बल्कि K-V cache system के जरिए उसे कुशलता से आगे बढ़ाया जाता होगा
    • और encryption होने पर भी, अगर keys OpenAI के पास ही हों, तो अदालत के आदेश से बचा नहीं जा सकता