Atlassian ने ग्राहक डेटा को AI training के लिए डिफ़ॉल्ट रूप से उपयोग करने पर स्विच किया

(letsdatascience.com)

5 पॉइंट द्वारा GN⁺ 2026-04-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Jira, Confluence जैसे Atlassian Cloud प्रोडक्ट्स के ग्राहक metadata और in-app content को 17 अगस्त 2026 से Rovo और Rovo Dev training में डिफ़ॉल्ट रूप से उपयोग किया जाएगा
अलग-अलग प्लान पर अलग डिफ़ॉल्ट लागू होंगे; Free·Standard·Premium में metadata contribution हमेशा enabled रहेगा, जबकि सिर्फ Enterprise में metadata और in-app data डिफ़ॉल्ट रूप से disabled रहेंगे और नियंत्रण बना रहेगा
एकत्र किए जाने वाले डेटा में readability score, story point, SLA value जैसे metadata और page body, issue description, comment, workflow name जैसे in-app data शामिल हैं
direct identifier removal और aggregation जैसी सुरक्षा व्यवस्थाएँ लागू होंगी, लेकिन contributed data को अधिकतम 7 साल तक रखा जाएगा; delete या opt-out के बाद in-app data 30 दिनों के भीतर हटाया जाएगा और trained models को 90 दिनों के भीतर फिर से train किया जाएगा
यह नीति बदलाव, कार्यस्थल टूल्स में data source और price tier के हिसाब से control level को बदलते हुए, privacy·governance·compliance आकलन पर असर बढ़ाता है

बदलाव का सार

Atlassian, 17 अगस्त 2026 से Jira, Confluence और अन्य Atlassian Cloud प्रोडक्ट्स के customer metadata और in-app content को AI training में डिफ़ॉल्ट रूप से उपयोग करेगा
- लक्षित AI features के रूप में Rovo और Rovo Dev का उल्लेख किया गया है
- असर का दायरा लगभग 3 लाख ग्राहक
data contribution policy बदलने के साथ प्लान के अनुसार अलग-अलग default लागू होंगे
- निचले-tier प्लान में metadata collection से opt-out संभव नहीं
- Enterprise प्लान में metadata और in-app data collection पर नियंत्रण बना रहेगा
एकत्र किया गया contributed data अधिकतम 7 साल तक रखा जाएगा
- delete या opt-out के बाद in-app data 30 दिनों के भीतर हटाया जाएगा
- उस डेटा पर trained model को 90 दिनों के भीतर retrain करके contribution हटाया जाएगा

तकनीकी विवरण

Atlassian ने collection target को metadata और in-app data दो श्रेणियों में बाँटा है
- metadata में de-identified signals शामिल हैं
- in-app data में user-generated content शामिल है
metadata श्रेणी में शामिल items को विस्तार से बताया गया है
- readability और complexity score
- work classification
- semantic similarity metrics
- story point
- sprint end date
- Jira Service Management की SLA values
in-app data श्रेणी में शामिल items को विस्तार से बताया गया है
- Confluence के page title और body
- Jira issue title, description, comments
- custom emoji names
- custom status names
- workflow names
training से पहले processing में direct identifier removal, data aggregation और सुरक्षा उपाय लागू होने की बात कही गई है

प्लान के हिसाब से डिफ़ॉल्ट सेटिंग और अपवाद

डिफ़ॉल्ट सेटिंग संगठन के सबसे उच्च सक्रिय प्लान के आधार पर तय होगी
Free और Standard ग्राहक
- metadata contribution हमेशा enabled
  - metadata collection से opt-out संभव नहीं
  - in-app data contribution डिफ़ॉल्ट रूप से enabled रहेगा, लेकिन setting बदली जा सकती है
  - Premium ग्राहक
  - metadata contribution हमेशा enabled
  - in-app data contribution डिफ़ॉल्ट रूप से disabled
  - Enterprise ग्राहक
  - metadata और in-app data दोनों डिफ़ॉल्ट रूप से disabled
  - metadata opt-out संभव
  - पूरे collection target से बाहर रखे गए ग्राहक समूहों का उल्लेख
  - customer-managed encryption keys उपयोग करने वाले ग्राहक
  - Atlassian Government Cloud उपयोग करने वाले ग्राहक
  - Atlassian Isolated Cloud उपयोग करने वाले ग्राहक
  - HIPAA obligations वाले ग्राहक

संदर्भ और महत्व

यह नीति, कंपनी के पहले के रुख के उलट दिशा में बदलाव है
- पहले कहा गया था कि ग्राहक डेटा का उपयोग AI services की training या improvement के लिए नहीं किया जाएगा
बदलाव के पीछे बताए गए industry trends
- SaaS vendors internal usage signals और content को model bootstrap, fine-tuning और evaluation के लिए एकत्र कर रहे हैं
- साथ ही de-identification और aggregation-आधारित analysis का वादा भी किया जा रहा है
Atlassian द्वारा बताए गए व्यावहारिक लाभ
- search relevance में सुधार
- बेहतर summary
- template suggestion
- agentic workflow optimization
व्यावहारिक कार्यस्थल उपयोग के नज़रिए से असर
- workplace tools में इस्तेमाल होने वाले models के data source में बदलाव
- price tier के हिसाब से data control level और compliance·procurement निर्णय मानदंड में बदलाव

जोखिम और trade-off

गैर-Enterprise ग्राहकों के लिए अनिवार्य metadata collection, identifier हटाए जाने के बावजूद privacy और governance चिंताएँ पैदा करता है
- story point और SLA metrics जैसी telemetry project structure और performance pattern को उजागर कर सकती है
de-identified data का 7 साल तक retention, समय के साथ exposure surface बढ़ाता है
- long-term data retention audit माँगने वाले ग्राहकों पर अतिरिक्त बोझ पड़ सकता है
high-security ग्राहकों और customer-managed keys उपयोगकर्ताओं के लिए exclusion path मौजूद है
- लेकिन इसके लिए महँगे प्लान या विशेष deployment form में जाना पड़ सकता है

ध्यान देने योग्य बातें

संगठनों को Atlassian tenant की जाँच करनी होगी
- tenant के अनुसार सबसे उच्च सक्रिय प्लान की पुष्टि जरूरी
- default data contribution settings की पहचान जरूरी
rollout अवधि के दौरान admin settings update करनी होंगी
यदि complete opt-out चाहिए, तो Enterprise या isolated deployment में migration पर विचार करना होगा
product पक्ष से देखने योग्य बिंदु
- Atlassian 90-day retraining प्रक्रिया को व्यवहार में कैसे चलाता है, यह देखना होगा
- यह भी देखना होगा कि Rovo में इस्तेमाल होने वाले downstream LLM vendors input को retain न करने का दावा करते हैं या नहीं
यदि यह pattern पूरे enterprise SaaS में फैलता है, तो customer backlash और regulatory scrutiny की संभावना बताई गई है

आकलन का आधार

यह बदलाव, हजारों enterprise users और data governance तथा model provenance संभालने वाले professionals पर वास्तविक असर डालता है
इसे cutting-edge model या regulatory milestone के रूप में नहीं बताया गया है
इसे टीमों के data pipeline और compliance विकल्पों को वास्तविक रूप से बदलने वाले product policy change के रूप में आंका गया है

1 टिप्पणियां

GN⁺ 2026-04-21

Hacker News की राय

मुझे लगता है Atlassian बस गलतियों की एक लंबी कड़ी दोहराता जा रहा है। मैं अब भी उसके प्रोडक्ट अक्सर इस्तेमाल करता हूँ, लेकिन P0-स्तर के bugs इतनी बार मिलते हैं कि हद है। self-hosted Bitbucket workers खासकर Docker वाली तरफ इतने पुराने हैं कि हमें ढेर सारे workaround लगाने पड़े। JIRA में नए टिकटों का क्रम बदलने के लिए सालों से refresh करना पड़ता है। पिछले कुछ वर्षों में JIRA और Bitbucket में जो नए फीचर जोड़े गए, वे भी ठीक से नहीं चले। मैंने free trial में AI फीचर भी आज़माए, लेकिन वे बिल्कुल काम नहीं करते थे, और cancellation भी online नहीं हो रही थी, इसलिए कई support tickets खोलने पड़े, और इस दौरान support inquiry form भी कई बार टूट गया। समझ नहीं आता यह फीचर फेल्यर इतना गंभीर क्यों हो गया है—technical debt, talent exodus, या दोनों
- मेरे हिसाब से free trial cancellation को online रोककर रखना ग्राहक के साथ धोखा कहने के अलावा कुछ नहीं है। ऐसा कुछ कानून से रोकना भी बहुत आसान लगता है, लेकिन शायद सरकार को परवाह नहीं है। Atlassian एक ऐसी典型 बड़ी कंपनी जैसी लगती है जो users को नहीं, बल्कि उन users के bosses को बेचती है। एक सीमा के बाद जब quality competition का दबाव घटता है, तो अंदरूनी सड़ांध और अक्षमता बहुत आसानी से फैलती है
- वहाँ काम कर चुके व्यक्ति के तौर पर, मेरे हिसाब से जवाब है कमज़ोर engineering क्षमता, बिखरी हुई priorities, और बेकार reorganizations का मिला-जुला असर। Bitbucket pipelines और workers भी असल में शुरू में सिर्फ दो लोगों ने बनाए थे, और पिछले 10 साल में उन्हें सक्रिय रूप से maintain करने वाला शायद लगभग एक ही व्यक्ति रहा होगा। अगर हाल में layoffs भी हुए हैं, तो हालात और खराब हुए होंगे। वह office अब physical रूप से भी नहीं रहा और उस समय के लोग भी जा चुके हैं
- मेरे हिसाब से इसकी जड़ एक शब्द में Featureitis है। मतलब बिना सोचे-समझे लगातार फीचर ठूँसते जाना। अब तो ऐसा भी लगता है कि AI से लिखवाया गया code भी ऊपर से चढ़ा दिया गया होगा। मध्यम आकार के projects में भी अगर बस नए फीचर धकेले जाएँ तो वैसी ही हालत हो जाती है, और जिन कुछ projects में मैं रहा हूँ, वे भी इसी रास्ते गए क्योंकि विशाल backlog में सिर्फ feature checkbox टिक करना ही मायने रखता था
- मुझे हमेशा लगा कि Jira का search feature इस्तेमाल लायक ही नहीं रहा। यह पूरे platform का सबसे खराब हिस्सा भी हो सकता है, और फिर भी वे उन्हीं फीचर्स पर ध्यान देते दिखते हैं जिन्हें मैं कभी इस्तेमाल नहीं करूँगा—यह देखकर झुंझलाहट होती है
- आजकल मुझे Jira sync गड़बड़ी की वजह से बहुत अस्थिर लग रहा है। sprint board में ticket modal अपने-आप बंद हो जाता था, इसलिए बार-बार फिर से खोलना पड़ता था, और कुछ समय पहले एक ticket किसी भी तरह उस board पर दिख ही नहीं रहा था, फिर बाद में अचानक epic दिखा और उसके बाद अलग-अलग tickets भी वापस नज़र आने लगे। सोचता हूँ क्या यही वह अतिरिक्त मूल्य है जो तथाकथित vibe coding दुनिया में जोड़ रही है
मैं इससे बेहतर source लिंक करना चाहता, लेकिन असली मुद्दा यह है कि इस समय free और paid customers दोनों की data sharing by default AI training के लिए opt-in है। इसमें Confluence pages और Jira tickets जैसी सारी सामग्री शामिल है। Atlassian support document में इसे बंद करने का तरीका लिखा है, लेकिन हमारे instances में वह setting दिखाई ही नहीं देती
- मुझे email में मिली सूचना के अनुसार समझ आया कि opt-out setting मई से Admin portal में क्रमिक रूप से rollout हो रही है। पहले Jira, Confluence, Jira Service Management और Atlassian Platform apps पर लागू होगी, और 19 मई 2026 तक धीरे-धीरे Atlassian Administration में दिखने लगेगी, फिर 17 अगस्त 2026 से पहले दोबारा सूचना दी जाएगी
- मैंने Atlassian Administration > Security सहित कई settings pages छान मारे, लेकिन Data contribution नाम की कोई चीज़ मिली ही नहीं। तो सवाल उठता है: क्या अभी यह auto opt-in है, लेकिन वास्तव में opt-out का कोई तरीका ही नहीं है
- FAQ में दायरा देखकर मैं चौंक गया। इसे user-generated content कहा गया है, और इसमें Confluence titles और body, Jira issue titles और descriptions, comments, custom emoji names, custom status names, यहाँ तक कि workflow names भी शामिल हैं—दायरा बहुत ज़्यादा बड़ा है
- मुझे चिंता है कि क्या customer data, private tickets, embargoed CVE fixes, या sensitive health information जैसी संवेदनशील जानकारी भी models में मिलाकर train की जाएगी और बाद में किसी गलत व्यक्ति तक लीक हो सकती है
- इस बदलाव की आधिकारिक व्याख्या के लिए मुझे Atlassian FAQ सबसे सीधा स्रोत लगता है
मैंने एक अफ़वाह देखी कि Anthropic, Atlassian के acquisition पर चर्चा कर रहा है और शायद वजह training data है। इस बारे में data poisoning की हलचल होने का दावा करता हुआ एक Reddit पोस्ट भी है
- अगर यह सच है, तो मुझे पता है कम-से-कम दो कंपनियाँ Atlassian products का इस्तेमाल आगे नहीं कर पाएँगी। इसे privacy और regulatory requirements को बहुत हल्के में लेने के संकेत के रूप में पढ़ा जाएगा
- पहले लगता था कि GitHub जैसी जगहों से source code scrape करके AI code generate कर रही थी, लेकिन अब लगता है कि Atlassian जैसी जगहों से spec documents scrape करके AI उन्हें फिर से generate करने के चरण में पहुँच रही है। तब अगला source क्या होगा—company mission statements या पैसे कमाने वाले slogans तक? यह सोचकर कड़वाहट होती है
- अगर stock price गिरती रही, तो ऐसा acquisition सच में हो भी सकता है
मुझे लगता है enterprise SaaS में default opt-out के बजाय default collection का पैटर्न धीरे-धीरे सामान्य बनाया जा रहा है। लेकिन इस बार मामला सिर्फ metadata तक सीमित नहीं है; app के अंदर का पूरा content दायरे में है, और ऊपर से opt-out setting render भी नहीं हो रही। नीति पर बहस हो सकती है, लेकिन ये दोनों बातें साथ हों तो ऐसा लगता है जैसे friction जानबूझकर डाला गया हो। और data residency को अलग से समझना ज़रूरी है, क्योंकि बहुत से buyers regional pinning को पूर्ण privacy guarantee मान लेते हैं, जबकि असल में वह सिर्फ storage location बताता है, यह नहीं कि कौन किस उद्देश्य से access कर सकता है
- खासकर The Register की रिपोर्ट में यह पंक्ति कि अभी contract terminate कर देने पर भी नई data contribution setting 17 अगस्त 2026 तक लागू नहीं होगी, मुझे और भी धूर्ततापूर्ण लगी। यानी विकल्पों पर विचार करने का समय भी वास्तव में नहीं दिया जा रहा
मुझे लगता है GitHub, Figma, Adobe, Vercel जैसी कई दूसरी कंपनियाँ भी इसे by default enable करती हैं। इसलिए व्यावहारिक रूप से यह मानकर चलना ज़्यादा सही लगता है कि आप किसी भी कंपनी को data सौंपेंगे तो वह उसे model training में इस्तेमाल कर सकती है
- हो सकता है यह साल self-hosted का साल साबित हो। public blog जैसी चीज़ें, जहाँ privacy इतना बड़ा मुद्दा नहीं है, वे अब भी cloud पर हैं, लेकिन जो data मैं model training या ad sales में इस्तेमाल नहीं होने देना चाहता, उसे मैंने अपने network पर खुद host करना शुरू कर दिया है
अगर Anthropic acquisition वाली अफ़वाह सच है, तो मुझे लगता है Atlassian उसे business workflows के आसपास मौजूद high-signal dataset को एक साथ खरीद लेने का मौका लगेगा
- कभी-कभी मैं तंज भरी कल्पना करता हूँ कि काश Broadcom Atlassian को खरीद ले और VMware की तरह वही सब कर दे, तो शायद समस्या हमेशा के लिए खत्म हो जाए
- मेरे हिसाब से Atlassian के अंदर का data किसी भी तरह साफ़-सुथरा या natural dataset नहीं है। यह मुझे ऐसी जगह लगता है जहाँ नर्क जैसे design असली developers के काम को हर तरह के शोर में डुबो देते हैं
- अगर यह अफ़वाह अभी सिर्फ forum speculation के स्तर पर है, तो मैं विश्वसनीय स्रोत आने तक इस पर भरोसा नहीं करूँगा। यह बेवजह stock pump करके dump करने वाली कहानी भी लग सकती है
मुझे जानना है कि क्या private Bitbucket repositories का code और content भी Atlassian के collection scope में आता है। policy और FAQ की wording इतनी अस्पष्ट है कि मैं हाँ या ना में साफ़ जवाब चाहता हूँ
- कुछ महीने पहले जब मैंने देखा था, तब मैंने इसका मतलब यह निकाला था कि private repo code को AI training के लिए इस्तेमाल नहीं किया जा रहा, लेकिन इस घोषणा के बाद अब मैं किसी भी हाल में अपने server पर shift करने की सोच रहा हूँ। cloud storage सुविधाजनक है, लेकिन यह लगातार चिंता करना कि कोई आकर मेरा data अपना मानकर ले जाएगा, उस सुविधा के लायक नहीं लगता
- अगर wording अस्पष्ट है, तो मेरे हिसाब से जवाब लगभग मिल ही चुका है
पहले कहा जाता था कि अगर आप पैसे नहीं दे रहे, तो आप ही product हैं। अब तो हाल यह है कि कंपनियाँ पैसे भी दें और फिर भी खुद ही product बन जाएँ—यह और भी बेहूदा लगता है
मैं खास तौर पर यह रेखांकित करना चाहता हूँ कि Atlassian का data residency option इस समस्या से नहीं बचाता। data को किसी खास region में बाँध देने से भी उसका training में इस्तेमाल रुकता नहीं है
इसलिए अब मुझे और साफ़ दिखता है कि Atlassian on-prem के लिए Data Center support कम क्यों करना चाहता था

Atlassian ने ग्राहक डेटा को AI training के लिए डिफ़ॉल्ट रूप से उपयोग करने पर स्विच किया

बदलाव का सार

तकनीकी विवरण

प्लान के हिसाब से डिफ़ॉल्ट सेटिंग और अपवाद

metadata contribution हमेशा enabled

संदर्भ और महत्व

जोखिम और trade-off

ध्यान देने योग्य बातें

आकलन का आधार

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय