- 24 अप्रैल 2026 से Copilot Free·Pro·Pro+ उपयोगकर्ताओं का डेटा AI मॉडल प्रशिक्षण और सुधार के लिए इस्तेमाल किया जाएगा, और उपयोगकर्ता opt-out सेटिंग के जरिए इससे इनकार कर सकते हैं
- Business और Enterprise उपयोगकर्ता इस बदलाव से प्रभावित नहीं होंगे, और जिन्होंने पहले इनकार की सेटिंग चुनी थी, उनके लिए मौजूदा विकल्प बरकरार रहेगा
- प्रशिक्षण डेटा में इनपुट कोड, आउटपुट परिणाम, कर्सर के आसपास का context, feedback ratings आदि जैसी वास्तविक डेवलपमेंट इंटरैक्शन जानकारी शामिल होगी
- कंपनी repositories, private content, और opt-out उपयोगकर्ताओं का डेटा प्रशिक्षण में इस्तेमाल नहीं किया जाएगा, और डेटा केवल Microsoft जैसे GitHub affiliates के साथ साझा किया जाएगा
- GitHub का कहना है कि वास्तविक डेवलपर इंटरैक्शन डेटा accuracy, security, और bug detection क्षमता में सुधार के लिए अहम है, और उसने डेवलपर्स की स्वैच्छिक भागीदारी पर ज़ोर दिया है
GitHub Copilot इंटरैक्शन डेटा उपयोग नीति अपडेट
- 24 अप्रैल 2026 से Copilot Free, Pro, Pro+ उपयोगकर्ताओं का इंटरैक्शन डेटा (इनपुट, आउटपुट, code snippets, संबंधित context) AI मॉडल प्रशिक्षण और सुधार के लिए इस्तेमाल किया जाएगा
- हालांकि, यदि उपयोगकर्ता opt-out करता है, तो उसका डेटा प्रशिक्षण में इस्तेमाल नहीं किया जाएगा
- Copilot Business और Enterprise उपयोगकर्ता इस बदलाव से प्रभावित नहीं होंगे
- जिन उपयोगकर्ताओं ने पहले डेटा संग्रह से इनकार की सेटिंग चुनी थी, उनके लिए मौजूदा विकल्प बरकरार रहेगा, और जब तक वे स्पष्ट सहमति नहीं देते, उनका डेटा प्रशिक्षण में शामिल नहीं किया जाएगा
- GitHub ने कहा कि यह बदलाव industry standard practices के अनुरूप है और मॉडल की accuracy, security, और bug detection क्षमता में सुधार में योगदान देता है
- उपयोगकर्ता settings page के Privacy सेक्शन में कभी भी अपनी भागीदारी बदल सकते हैं
वास्तविक डेटा आधारित प्रशिक्षण की आवश्यकता
- शुरुआती Copilot मॉडल public data और manually created code samples के आधार पर बनाए गए थे
- इसके बाद Microsoft कर्मचारियों के इंटरैक्शन डेटा को शामिल करके प्रशिक्षण किया गया, और कई programming languages में acceptance rate में सुधार जैसे महत्वपूर्ण सुधार देखे गए
- GitHub ने इन परिणामों के आधार पर वास्तविक डेवलपर्स के इंटरैक्शन डेटा को प्रशिक्षण में शामिल करने का फैसला किया ताकि विभिन्न वास्तविक उपयोग परिदृश्यों को बेहतर ढंग से दर्शाया जा सके
एकत्र और उपयोग किए जाने वाले डेटा आइटम
- मॉडल प्रशिक्षण में इस्तेमाल किए जा सकने वाले डेटा में निम्न शामिल हैं
- वे आउटपुट परिणाम जिन्हें उपयोगकर्ता ने स्वीकार किया या संशोधित किया
- Copilot में दर्ज किए गए code snippets और request content
-
कर्सर के आसपास का code context
- उपयोगकर्ता द्वारा लिखी गई comments और documentation content
-
file names, repository structure, navigation patterns
- Copilot features के साथ इंटरैक्शन (chat, inline suggestions आदि)
- सुझावों पर feedback (like/dislike ratings)
प्रशिक्षण में शामिल नहीं किए जाने वाले डेटा
- निम्न डेटा मॉडल प्रशिक्षण में इस्तेमाल नहीं किया जाएगा
- Copilot Business, Enterprise, और कंपनी-स्वामित्व वाली repositories का इंटरैक्शन डेटा
- opt-out कर चुके उपयोगकर्ताओं का डेटा
- issues, discussions, और private at rest repositories की सामग्री
- हालांकि, Copilot के उपयोग के दौरान private repositories का code service operation के लिए process किया जा सकता है, और यदि उपयोगकर्ता ने opt-out नहीं किया है, तो यह प्रशिक्षण में शामिल हो सकता है
डेटा साझाकरण और सुरक्षा का दायरा
- एकत्रित डेटा GitHub affiliates (जैसे Microsoft) के साथ साझा किया जा सकता है
- लेकिन इसे third-party AI model providers या बाहरी service vendors के साथ साझा नहीं किया जाएगा
- GitHub ने इस बात पर ज़ोर दिया कि AI-assisted development की प्रगति वास्तविक डेवलपर इंटरैक्शन डेटा पर निर्भर करती है,
और Microsoft तथा GitHub कर्मचारियों के डेटा का उपयोग पहले से मॉडल प्रशिक्षण में किया जा रहा है
उपयोगकर्ता विकल्प और प्रभाव
- यदि उपयोगकर्ता डेटा देने के लिए सहमत होता है, तो मॉडल में डेवलपमेंट workflow की बेहतर समझ, अधिक सटीक और सुरक्षित code suggestions, और bugs की पहले पहचान करने की क्षमता जैसे सुधार होंगे
- भाग न लेने पर भी Copilot की मौजूदा AI सुविधाएँ पहले की तरह उपलब्ध रहेंगी
- GitHub ने पूरे डेवलपर समुदाय की गुणवत्ता सुधार के लिए स्वैच्छिक भागीदारी का स्वागत किया है,
और संबंधित जानकारी FAQ और community discussion page पर देखी जा सकती है
1 टिप्पणियां
Hacker News की रायें
GitHub settings में “Allow GitHub to use my data for AI model training” वाला आइटम देखें, तो इसे on या off किया जा सकता है
लेकिन इसे मानो “feature access permission” की तरह पैकेज करना मज़ेदार है
डेटा मुफ्त में सौंपने को किसी benefit की तरह बताना थोड़ा विडंबनापूर्ण लगता है
GCS bucket बनाते समय वाले “public access prevention” checkbox जितनी confusing तो नहीं है
मैं personal account में जानबूझकर इसे इस्तेमाल नहीं करता, फिर भी यह रिकॉर्ड क्यों बचा है समझ नहीं आता
असल में बात मेरे data को सौंपने की है, लेकिन इसे ऐसे पेश किया गया है जैसे मैं कुछ खो दूँगा
यह घोषणा की गई कि 24 अप्रैल से GitHub Copilot का interaction data AI training में इस्तेमाल होगा
default enabled है, इसलिए इसे manually बंद करना होगा
settings page link
यह जानने की जिज्ञासा है कि business accounts में भी क्या यह default रूप से on है। अगर हाँ, तो यह काफ़ी संदिग्ध नीति है
blog post में disable link भी न देना असुविधाजनक है
इसे सीधे बंद करने के लिए इस path → Privacy → “Allow GitHub to use my data for AI model training” → Disabled सेट करना होगा
enterprise customers का data contract के अनुसार training में इस्तेमाल नहीं होता, और control सिर्फ़ individual users के लिए है
customer code को training में इस्तेमाल न करने की internal policy मौजूद है
Copilot में API key या password जैसी sensitive files को ignore करने का कोई तरीका नहीं है
IDE खुलते ही ऐसी जानकारी Microsoft को भेजी जा सकती है
related discussion link
लेकिन exception settings दो हैं और दोनों ही काम नहीं करतीं
PR भेजने पर सिर्फ़ bot जवाब देता है, इंसान नहीं देखता
ऊपर से, जब Gemini 3 open source code को refactor करता है, तो अगर उसे लगे कि यह मूल developer की मंशा के ख़िलाफ़ है, तो वह code generation से इंकार कर देता है
अगर आप paid user हैं, तो default opt-out नहीं बल्कि opt-in होना चाहिए
समझ नहीं आता कि GitHub के Mario Rodriguez(@mariorod) ने ऐसा फ़ैसला क्यों लिया
GitHub और AI युग के बाद से मैंने अपना सारा code अपनी server की private git repo में शिफ्ट कर दिया है
open source license को लेकर सोचने की वजह ही नहीं बची
मेरा कोई इरादा नहीं कि मेरा code commercial AI training में इस्तेमाल हो
अगर open source को गंभीरता से करना है, तो Codeberg पर जाने का समय है
पुराने open source projects में सिर्फ़ maintenance करता हूँ, और नए projects सिर्फ़ SaaS या binary form में distribute करता हूँ
इसकी जगह language·OS projects में contribute करते हुए model retraining की ज़रूरत महसूस कर रहा हूँ
EU में इस नीति के कानूनी आधार को लेकर जिज्ञासा है
collected data में personally identifiable information(PII) शामिल हो सकती है, और GDPR के हिसाब से
“स्वैच्छिक और स्पष्ट सहमति” ज़रूरी है
अगर मैंने testing के लिए code की किसी line में अपना phone number डाल दिया और वह Copilot को भेज दिया गया, तो मैं कानूनी कार्रवाई भी कर सकता हूँ
“यह approach industry standard के अनुरूप है” कहना आखिरकार “दूसरे भी ऐसा करते हैं, इसलिए ठीक है” वाली दलील है
आखिरकार ऐसा लगता है कि GitHub सभी users का पूरा codebase preserve करना चाहता है
ऐसी wording है कि Copilot द्वारा इस्तेमाल किया गया data, Microsoft group की सभी affiliates के साथ share किया जा सकता है
Copilot subscription cancel करने का option दिखाई नहीं देता
mobile payment settings link देखने पर भी नहीं
official docs के अनुसार,
अगर student·teacher·open source maintainer के रूप में free access मिला है, तो इसे cancel नहीं किया जा सकता
फिर भी GitHub ने इस बदलाव को छिपाने की कोशिश नहीं की, और opt-out process को publicly guide किया
यह एक typical dark pattern जैसा लगता है
Android app में settings page ढूँढना भी मुश्किल है, और page ठीक से काम भी नहीं करता