Atlassian ने ग्राहक डेटा को AI training के लिए डिफ़ॉल्ट रूप से उपयोग करने पर स्विच किया
(letsdatascience.com)- Jira, Confluence जैसे Atlassian Cloud प्रोडक्ट्स के ग्राहक metadata और in-app content को 17 अगस्त 2026 से Rovo और Rovo Dev training में डिफ़ॉल्ट रूप से उपयोग किया जाएगा
- अलग-अलग प्लान पर अलग डिफ़ॉल्ट लागू होंगे; Free·Standard·Premium में metadata contribution हमेशा enabled रहेगा, जबकि सिर्फ Enterprise में metadata और in-app data डिफ़ॉल्ट रूप से disabled रहेंगे और नियंत्रण बना रहेगा
- एकत्र किए जाने वाले डेटा में readability score, story point, SLA value जैसे metadata और page body, issue description, comment, workflow name जैसे in-app data शामिल हैं
- direct identifier removal और aggregation जैसी सुरक्षा व्यवस्थाएँ लागू होंगी, लेकिन contributed data को अधिकतम 7 साल तक रखा जाएगा; delete या opt-out के बाद in-app data 30 दिनों के भीतर हटाया जाएगा और trained models को 90 दिनों के भीतर फिर से train किया जाएगा
- यह नीति बदलाव, कार्यस्थल टूल्स में data source और price tier के हिसाब से control level को बदलते हुए, privacy·governance·compliance आकलन पर असर बढ़ाता है
बदलाव का सार
- Atlassian, 17 अगस्त 2026 से Jira, Confluence और अन्य Atlassian Cloud प्रोडक्ट्स के customer metadata और in-app content को AI training में डिफ़ॉल्ट रूप से उपयोग करेगा
- लक्षित AI features के रूप में Rovo और Rovo Dev का उल्लेख किया गया है
- असर का दायरा लगभग 3 लाख ग्राहक
- data contribution policy बदलने के साथ प्लान के अनुसार अलग-अलग default लागू होंगे
- निचले-tier प्लान में metadata collection से opt-out संभव नहीं
- Enterprise प्लान में metadata और in-app data collection पर नियंत्रण बना रहेगा
- एकत्र किया गया contributed data अधिकतम 7 साल तक रखा जाएगा
- delete या opt-out के बाद in-app data 30 दिनों के भीतर हटाया जाएगा
- उस डेटा पर trained model को 90 दिनों के भीतर retrain करके contribution हटाया जाएगा
तकनीकी विवरण
- Atlassian ने collection target को metadata और in-app data दो श्रेणियों में बाँटा है
- metadata में de-identified signals शामिल हैं
- in-app data में user-generated content शामिल है
- metadata श्रेणी में शामिल items को विस्तार से बताया गया है
- readability और complexity score
- work classification
- semantic similarity metrics
- story point
- sprint end date
- Jira Service Management की SLA values
- in-app data श्रेणी में शामिल items को विस्तार से बताया गया है
- Confluence के page title और body
- Jira issue title, description, comments
- custom emoji names
- custom status names
- workflow names
- training से पहले processing में direct identifier removal, data aggregation और सुरक्षा उपाय लागू होने की बात कही गई है
प्लान के हिसाब से डिफ़ॉल्ट सेटिंग और अपवाद
- डिफ़ॉल्ट सेटिंग संगठन के सबसे उच्च सक्रिय प्लान के आधार पर तय होगी
- Free और Standard ग्राहक
-
metadata contribution हमेशा enabled
- metadata collection से opt-out संभव नहीं
- in-app data contribution डिफ़ॉल्ट रूप से enabled रहेगा, लेकिन setting बदली जा सकती है
- Premium ग्राहक
- metadata contribution हमेशा enabled
- in-app data contribution डिफ़ॉल्ट रूप से disabled
- Enterprise ग्राहक
- metadata और in-app data दोनों डिफ़ॉल्ट रूप से disabled
- metadata opt-out संभव
- पूरे collection target से बाहर रखे गए ग्राहक समूहों का उल्लेख
- customer-managed encryption keys उपयोग करने वाले ग्राहक
- Atlassian Government Cloud उपयोग करने वाले ग्राहक
- Atlassian Isolated Cloud उपयोग करने वाले ग्राहक
- HIPAA obligations वाले ग्राहक
-
संदर्भ और महत्व
- यह नीति, कंपनी के पहले के रुख के उलट दिशा में बदलाव है
- पहले कहा गया था कि ग्राहक डेटा का उपयोग AI services की training या improvement के लिए नहीं किया जाएगा
- बदलाव के पीछे बताए गए industry trends
- SaaS vendors internal usage signals और content को model bootstrap, fine-tuning और evaluation के लिए एकत्र कर रहे हैं
- साथ ही de-identification और aggregation-आधारित analysis का वादा भी किया जा रहा है
- Atlassian द्वारा बताए गए व्यावहारिक लाभ
- search relevance में सुधार
- बेहतर summary
- template suggestion
- agentic workflow optimization
- व्यावहारिक कार्यस्थल उपयोग के नज़रिए से असर
- workplace tools में इस्तेमाल होने वाले models के data source में बदलाव
- price tier के हिसाब से data control level और compliance·procurement निर्णय मानदंड में बदलाव
जोखिम और trade-off
- गैर-Enterprise ग्राहकों के लिए अनिवार्य metadata collection, identifier हटाए जाने के बावजूद privacy और governance चिंताएँ पैदा करता है
- story point और SLA metrics जैसी telemetry project structure और performance pattern को उजागर कर सकती है
- de-identified data का 7 साल तक retention, समय के साथ exposure surface बढ़ाता है
- long-term data retention audit माँगने वाले ग्राहकों पर अतिरिक्त बोझ पड़ सकता है
- high-security ग्राहकों और customer-managed keys उपयोगकर्ताओं के लिए exclusion path मौजूद है
- लेकिन इसके लिए महँगे प्लान या विशेष deployment form में जाना पड़ सकता है
ध्यान देने योग्य बातें
- संगठनों को Atlassian tenant की जाँच करनी होगी
- tenant के अनुसार सबसे उच्च सक्रिय प्लान की पुष्टि जरूरी
- default data contribution settings की पहचान जरूरी
- rollout अवधि के दौरान admin settings update करनी होंगी
- यदि complete opt-out चाहिए, तो Enterprise या isolated deployment में migration पर विचार करना होगा
- product पक्ष से देखने योग्य बिंदु
- Atlassian 90-day retraining प्रक्रिया को व्यवहार में कैसे चलाता है, यह देखना होगा
- यह भी देखना होगा कि Rovo में इस्तेमाल होने वाले downstream LLM vendors input को retain न करने का दावा करते हैं या नहीं
- यदि यह pattern पूरे enterprise SaaS में फैलता है, तो customer backlash और regulatory scrutiny की संभावना बताई गई है
आकलन का आधार
- यह बदलाव, हजारों enterprise users और data governance तथा model provenance संभालने वाले professionals पर वास्तविक असर डालता है
- इसे cutting-edge model या regulatory milestone के रूप में नहीं बताया गया है
- इसे टीमों के data pipeline और compliance विकल्पों को वास्तविक रूप से बदलने वाले product policy change के रूप में आंका गया है
1 टिप्पणियां
Hacker News की राय
मुझे लगता है Atlassian बस गलतियों की एक लंबी कड़ी दोहराता जा रहा है। मैं अब भी उसके प्रोडक्ट अक्सर इस्तेमाल करता हूँ, लेकिन P0-स्तर के bugs इतनी बार मिलते हैं कि हद है। self-hosted Bitbucket workers खासकर Docker वाली तरफ इतने पुराने हैं कि हमें ढेर सारे workaround लगाने पड़े। JIRA में नए टिकटों का क्रम बदलने के लिए सालों से refresh करना पड़ता है। पिछले कुछ वर्षों में JIRA और Bitbucket में जो नए फीचर जोड़े गए, वे भी ठीक से नहीं चले। मैंने free trial में AI फीचर भी आज़माए, लेकिन वे बिल्कुल काम नहीं करते थे, और cancellation भी online नहीं हो रही थी, इसलिए कई support tickets खोलने पड़े, और इस दौरान support inquiry form भी कई बार टूट गया। समझ नहीं आता यह फीचर फेल्यर इतना गंभीर क्यों हो गया है—technical debt, talent exodus, या दोनों
मैं इससे बेहतर source लिंक करना चाहता, लेकिन असली मुद्दा यह है कि इस समय free और paid customers दोनों की data sharing by default AI training के लिए opt-in है। इसमें Confluence pages और Jira tickets जैसी सारी सामग्री शामिल है। Atlassian support document में इसे बंद करने का तरीका लिखा है, लेकिन हमारे instances में वह setting दिखाई ही नहीं देती
मैंने एक अफ़वाह देखी कि Anthropic, Atlassian के acquisition पर चर्चा कर रहा है और शायद वजह training data है। इस बारे में data poisoning की हलचल होने का दावा करता हुआ एक Reddit पोस्ट भी है
मुझे लगता है enterprise SaaS में default opt-out के बजाय default collection का पैटर्न धीरे-धीरे सामान्य बनाया जा रहा है। लेकिन इस बार मामला सिर्फ metadata तक सीमित नहीं है; app के अंदर का पूरा content दायरे में है, और ऊपर से opt-out setting render भी नहीं हो रही। नीति पर बहस हो सकती है, लेकिन ये दोनों बातें साथ हों तो ऐसा लगता है जैसे friction जानबूझकर डाला गया हो। और data residency को अलग से समझना ज़रूरी है, क्योंकि बहुत से buyers regional pinning को पूर्ण privacy guarantee मान लेते हैं, जबकि असल में वह सिर्फ storage location बताता है, यह नहीं कि कौन किस उद्देश्य से access कर सकता है
मुझे लगता है GitHub, Figma, Adobe, Vercel जैसी कई दूसरी कंपनियाँ भी इसे by default enable करती हैं। इसलिए व्यावहारिक रूप से यह मानकर चलना ज़्यादा सही लगता है कि आप किसी भी कंपनी को data सौंपेंगे तो वह उसे model training में इस्तेमाल कर सकती है
अगर Anthropic acquisition वाली अफ़वाह सच है, तो मुझे लगता है Atlassian उसे business workflows के आसपास मौजूद high-signal dataset को एक साथ खरीद लेने का मौका लगेगा
मुझे जानना है कि क्या private Bitbucket repositories का code और content भी Atlassian के collection scope में आता है। policy और FAQ की wording इतनी अस्पष्ट है कि मैं हाँ या ना में साफ़ जवाब चाहता हूँ
पहले कहा जाता था कि अगर आप पैसे नहीं दे रहे, तो आप ही product हैं। अब तो हाल यह है कि कंपनियाँ पैसे भी दें और फिर भी खुद ही product बन जाएँ—यह और भी बेहूदा लगता है
मैं खास तौर पर यह रेखांकित करना चाहता हूँ कि Atlassian का data residency option इस समस्या से नहीं बचाता। data को किसी खास region में बाँध देने से भी उसका training में इस्तेमाल रुकता नहीं है
इसलिए अब मुझे और साफ़ दिखता है कि Atlassian on-prem के लिए Data Center support कम क्यों करना चाहता था