6 पॉइंट द्वारा GN⁺ 2026-03-28 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • GitHub निजी repositories के code और data को AI model training में इस्तेमाल करने की योजना बना रहा है
  • उपयोगकर्ताओं को 24 अप्रैल से पहले स्पष्ट रूप से opt-out करना होगा, तभी उनका data इस्तेमाल होने से रोका जा सकेगा
  • opt-out नहीं करने पर private project information training data में शामिल हो सकती है
  • यह नीति GitHub Copilot जैसे AI features को बेहतर बनाने के लिए data collection से जुड़ी है
  • developers को privacy और code security के लिए अपनी settings जांचनी चाहिए

GitHub की AI training data policy में बदलाव

  • GitHub ने policy बदल दी है ताकि AI models को बेहतर बनाने के उद्देश्य से निजी repositories का data training में शामिल किया जा सके
    • अगर उपयोगकर्ता अलग से मना नहीं करते, तो data अपने-आप इस्तेमाल होगा
    • opt-out GitHub settings page से सीधे किया जा सकता है
  • training data में private code, project metadata, commit history आदि शामिल होने की संभावना है
  • GitHub के अनुसार यह कदम Copilot और अन्य AI features की quality सुधारने के लिए है

developers पर असर

  • अगर निजी repositories training में इस्तेमाल होती हैं, तो sensitive code या internal logic के उजागर होने का जोखिम मौजूद है
  • कंपनियों और individual developers को security policies की समीक्षा और opt-out प्रक्रिया पूरी करनी चाहिए
  • GitHub का यह बदलाव AI training data की transparency और user control पर नई चर्चा को जन्म दे सकता है

3 टिप्पणियां

 
runableapp 2026-03-30

कुछ दिनों से यह GitHub पर लगातार दिख रहा था,

Important update
On April 24 we'll start using GitHub Copilot interaction data for AI model training unless you opt out. Review this update and manage your preferences in your GitHub account settings.

मैंने opt out कर दिया, लेकिन लगता है कि वे पहले से ही इसे AI के लिए इस्तेमाल कर रहे थे, है ना।

 
github88 2026-03-29

यह तो बहुत ही बेशर्म फेक न्यूज़ है।

 
GN⁺ 2026-03-28
Hacker News की रायें
  • 2023 से लगातार यही कहा जा रहा है। अगर database में stored जानकारी ऐसी form में है जिस तक कंपनी खुलकर पहुँच सकती है, तो आखिरकार वह कंपनी terms बदलकर उसे AI training data के रूप में इस्तेमाल करेगी। incentive इतना मजबूत है कि इससे बचना मुश्किल है

    • यह सही बात है। कोई कंपनी कितनी भी ethical हो, acquisition के बाद हालात बदल सकते हैं। मैं एक SP500 कंपनी में काम करता हूँ, और अभी production access पर बहुत कड़ा control है। लेकिन अगर Larry, Zuck, या Bezos जैसा कोई व्यक्ति कंपनी खरीद ले, तो क्या होगा कहना मुश्किल है
    • “पहले कर लो, बाद में माफ़ी माँग लो” शायद आम नियम बन जाएगा। ToS बदले बिना भी व्यवहार में ऐसा किया जा सकता है। Amazon के पास पहले से ही बहुत बड़ा internal training dataset है
    • मुझे चिंता है कि कहीं MS मेरे laptop पर लिखे गए code को AI training में इस्तेमाल न कर रहा हो। पहले जो Linux users का अविश्वास साज़िश जैसा लगता था, अब वह धीरे-धीरे समझ में आने लगा है
    • तुम सही कह रहे हो। लोगों का इसे इतना obvious न मान पाना परेशान करता है। Stallman हमेशा सही था
    • जब तक key सीधे तुम्हारे पास न हो, वह end-to-end encryption नहीं है। बेकार की बातों से बचना चाहिए
  • “ऐसा नहीं है” कहते हुए GitHub official blog का लिंक साझा किया गया। Free, Pro, Pro+ Copilot users अगर opt-out नहीं करते, तो उनका usage data model training में इस्तेमाल होगा। Business या Pro subscribers training में शामिल नहीं होंगे। अगर Copilot इस्तेमाल नहीं करते, तो कोई असर नहीं है। अभी पहले से opt-out कर देने पर बाद में भी setting बनी रहेगी

    • ब्लॉग के अनुसार collect किया जाने वाला data input, output, code context, comments, file structure, feedback आदि है। लेकिन इसे “अगर भाग लेना चाहें” नहीं बल्कि “अगर भाग नहीं लेना चाहते” के रूप में रखा गया है। यानी participation को manually reject करना पड़ता है, और यही बात परेशान करने वाली है। अपनी privacy बचाने के लिए मेहनत मुझे क्यों करनी पड़े
    • wording को बहुत धुंधले ढंग से टुकड़ों में बाँटा गया है। अगर Copilot input, output और code context पर training करता है, तो इसका मतलब यही है कि private repo के code का कुछ हिस्सा training data के रूप में इस्तेमाल हो रहा है
    • शीर्षक और जवाब दोनों ही बहुत broad हैं। 24 अप्रैल से Business/Pro के अलावा बाकी users के private repo default रूप से training में शामिल होंगे। यह सभी repo पर लागू नहीं होता, लेकिन language को ज़्यादा सावधानी से चुना जाना चाहिए। “No we won’t” के बजाय “यह पूरी तरह सटीक नहीं है” ज़्यादा उपयुक्त होता
    • फिर भी यह गंभीर समस्या है। अगर code LLM training में चला गया, तो वह अब private नहीं रहा। “private repo” लिखकर terms के छोटे अक्षरों में “यह सार्वजनिक हो सकता है” कहना झूठ है
    • EU law में opt-out मॉडल को valid consent नहीं माना जाता। यह इसे कैसे handle करेंगे, यह जानना दिलचस्प होगा
  • इस खबर का शीर्षक भ्रामक है। GitHub private repo को सीधे training नहीं दे रहा, बल्कि Copilot इस्तेमाल के दौरान बनने वाले interaction data पर training कर रहा है। अगर Copilot इस्तेमाल नहीं करते, तो असर नहीं है। फिर भी इसे बंद कर देना बेहतर है

    • लेकिन अगर मेरे contributors में से कोई एक Copilot इस्तेमाल करे, तो क्या होगा, यह जानना चाहता हूँ
    • मेरी समझ भी यही थी, लेकिन अगर input पर training हो रही है, तो यह गारंटी नहीं दी जा सकती कि code खुद training का हिस्सा नहीं बनेगा। अदालत में वे यह कह सकते हैं कि “हमने सिर्फ input पर training की”
    • ऐसी बारीक technical distinction आखिरकार बेकार है। अभी ऐसा हो सकता है, लेकिन बाद में चुपचाप बदल सकता है। developers सोचते हैं कि वे system को समझ गए हैं, लेकिन अंत में वे बार-बार धोखा खाते रहते हैं
  • तकनीकी रूप से देखें तो opt-out, Copilot training setting है। अब तक सिर्फ public repo opt-in थे, लेकिन 24 अप्रैल से private repo भी default रूप से शामिल होंगे। अगर आप private repo में Copilot इस्तेमाल कर रहे हैं, तो github.com/settings/copilot पर जाकर opt-out कर देना अच्छा रहेगा। इसमें 30 seconds लगते हैं

    • 30 seconds नहीं, 0 seconds होने चाहिए। मेरा समय मेरा है, और privacy बचाने के लिए मुझे समय क्यों लगाना चाहिए
    • “सिर्फ 30 seconds” कहना हक़ीक़त से कटा हुआ है। ऐसी जानकारी पाने के लिए लोगों को हर दिन HN खंगालना पड़ता है। आखिरकार 240 घंटे लगाने के बाद पता चलता है कि ऐसा switch मौजूद है
    • पहले यह opt-in नहीं था। तब usage data पर training नहीं होती थी। सिर्फ internally training होती थी, और कहा गया कि उससे performance improvement हुआ। इससे जुड़ी बात इस ब्लॉग पोस्ट में है
    • यह setting हर user को दिखाई नहीं देती। अगर Copilot को organization level पर manage किया जा रहा हो, तो यह option गायब हो जाता है। organization छोड़ने पर यह अपने-आप फिर से opt-in भी हो सकता है
  • सोच रहा हूँ कि अगर team में एक भी व्यक्ति opt-out न करे, तो क्या Copilot को पूरे repo तक access मिल सकता है। यह भी जानना है कि team members की setting status जाँचने का कोई तरीका है या नहीं

    • जैसे आप किसी team member को code copy करके prompt में paste करने से नहीं रोक सकते, वैसे ही इस setting को भी control करना मुश्किल है। MS के नज़रिए से default opt-in कहीं ज़्यादा सुविधाजनक है
  • अभी setting सिर्फ user level पर ही संभव लगती है। क्या organization-wide इसे एक साथ disable करने का कोई तरीका है, यह जानना चाहता हूँ। चिंता है कि अगर एक व्यक्ति भी इसे on रखे, तो organization का code training data माना जाएगा

  • यह मानना पड़ेगा कि GitHub ने banner notice लगातार दिखाया है। लेकिन मैंने भी यह HN पोस्ट देखने से पहले उसे नहीं पढ़ा था

    • लेकिन जो लोग CLI से ही git इस्तेमाल करते हैं, वे यह banner देख ही नहीं पाएँगे
    • banner या email पढ़ने पर भी यह साफ़ नहीं बताया गया कि opt-out होने के लिए कौन-सी exact setting बदलनी है। आखिरकार user को खुद ढूँढना पड़ता है, और बाद में ही पता चलता है कि सही तरह से सेट किया या नहीं
    • मैंने वह banner कभी नहीं देखा। यह कहाँ दिखता है, जानना चाहता हूँ
    • यह पहली बार देखा है कि app settings को reset या खो भी सकता है
  • मेरे private repo में बहुत खराब code है, इसलिए चिंता की ज़रूरत नहीं। उल्टा LLM अगर मेरे code पर train हुआ, तो उसका ही नुकसान होगा

    • मैं भी साथ हूँ। अपने कचरा code से M$ AI को खराब कर दूँगा
    • LLM को प्रदूषित करना प्रतिरोध के एक तरीके के रूप में दिलचस्प है
  • GitHub को लंबे समय से paid रूप में इस्तेमाल कर रहे जिन लोगों ने यह notice नहीं देखा, उनके लिए बुरा लगता है

    • मुझे भी opt-out मॉडल पसंद नहीं, लेकिन अभी GitHub के हर page पर banner notice दिख रहा है, और email भी भेजा गया है