- Machine unlearning का मतलब है प्रशिक्षित मॉडल से अवांछित डेटा को हटाना, और मॉडल को शुरुआत से दोबारा train किए बिना उसे संपादित करने में रुचि बढ़ रही है
- उदाहरण के लिए, व्यक्तिगत जानकारी, पुराना ज्ञान, copyright वाली सामग्री, हानिकारक/खतरनाक कंटेंट, खतरनाक क्षमताएँ, गलत जानकारी आदि को हटाना इसमें शामिल है
Unlearning के रूप
- सटीक unlearning (Exact unlearning)
- इसमें यह अपेक्षा की जाती है कि unlearned model और retrained model वितरण की दृष्टि से समान हों
- इसका मुख्य बिंदु यह है कि training algorithm में modular components हों, जो training examples के अलग-अलग सेटों के अनुरूप हों
- Differential Privacy के माध्यम से "unlearning"
- इसका उद्देश्य मॉडल को किसी विशेष data point पर निर्भर न रहने देना है
- इसमें unlearned model और retrained model के बीच वितरणात्मक निकटता की अपेक्षा की जाती है
- ज्ञात example space में empirical unlearning (Empirical unlearning with known example space)
- यह तब लागू होता है जब unlearning data ठीक-ठीक ज्ञात हो
- इसमें model fine-tuning के जरिए unlearning किया जाता है
- अज्ञात example space में empirical unlearning (Empirical unlearning with unknown example space)
- यह तब लागू होता है जब unlearning data की सीमा या परिधि स्पष्ट न हो
- इसमें concepts, facts, knowledge आदि को unlearn करना शामिल होता है
- unlearning के लिए सीधे अनुरोध करना (Just ask for unlearning)
- इसमें शक्तिशाली LLM से सीधे unlearning करने को कहा जाता है
Unlearning का मूल्यांकन
- Unlearning का मूल्यांकन बहुत कठिन समस्या है। खासकर metrics और benchmarks की कमी गंभीर है
- Unlearning evaluation में निम्नलिखित तीन पहलुओं पर विशेष ध्यान देना चाहिए
- दक्षता: retraining की तुलना में algorithm कितना तेज़ है
- मॉडल उपयोगिता: जिन डेटा को संरक्षित रखना है या orthogonal tasks पर प्रदर्शन में गिरावट हुई है या नहीं
- भूलने की गुणवत्ता: जिन डेटा को भूलना है, वे वास्तव में कितनी हद तक unlearn हुए हैं
- TOFU और WMDP benchmarks हाल में प्रस्तावित किए गए हैं, जो unlearning evaluation में मदद कर रहे हैं
- TOFU लेखक की व्यक्तिगत जानकारी के unlearning पर केंद्रित है, जबकि WMDP bio/cyber security से जुड़े खतरनाक ज्ञान के unlearning पर केंद्रित है
- ये instance-based नहीं, बल्कि knowledge retention और understanding पर आधारित उच्च-स्तरीय मूल्यांकन करते हैं
- व्यक्तिगत पहचान योग्य जानकारी, copyright, हानिकारकता, backdoor आदि जैसे application-केंद्रित unlearning benchmarks की आवश्यकता दिखती है
Unlearning की वास्तविकता और आगे की दिशा
- Unlearning की कठिनाई एक spectrum पर मौजूद है
- कम आवृत्ति वाले text का unlearning सबसे आसान है, और उच्च आवृत्ति वाले text तथा अधिक बुनियादी facts की ओर बढ़ने पर यह क्रमशः कठिन होता जाता है
- क्योंकि जितना अधिक कोई ज्ञान बुनियादी होता है, उतना ही उसका अन्य ज्ञान से संबंध अधिक होता है, जिससे unlearning का दायरा गुणात्मक रूप से बढ़ जाता है
- शुरुआती चरण में सीखे गए examples बाद के examples द्वारा "overwrite" हो जाने के कारण unlearn करना कठिन हो सकते हैं
- दूसरी ओर, बाद में सीखे गए examples को मॉडल क्रमिक/विनाशकारी भूल में खो सकता है, जिससे unlearning कठिन हो सकता है
- Copyright संरक्षण
- Unlearning copyright संरक्षण के लिए आशाजनक दिखता है, लेकिन फिलहाल कानूनी परिदृश्य स्पष्ट नहीं है
- यदि fair use के सिद्धांत के तहत copyright वाली सामग्री का उपयोग fair use माना जाता है, तो unlearning अनावश्यक हो सकता है
- Search-आधारित AI systems
- इसमें unlearning अनुरोध प्राप्त हो सकने वाली सामग्री को pretraining corpus से हटाकर बाहरी database में संग्रहीत किया जाता है
- जब unlearning अनुरोध आए, तो DB से संबंधित डेटा हटाया जा सकता है
- लेकिन deduplication, citation/derivation handling, और data extraction attacks जैसी समस्याएँ बनी रहती हैं
- AI safety
- Unlearning का उपयोग मॉडल से खतरनाक ज्ञान, व्यवहार और क्षमताएँ हटाने में किया जा सकता है
- लेकिन इसे post-hoc risk mitigation और defense mechanisms में से एक के रूप में देखना चाहिए, और यह समझना चाहिए कि alignment fine-tuning या content filtering जैसे अन्य tools के साथ इसमें trade-off मौजूद हैं
GN⁺ की राय
- Machine unlearning अभी भी शोध के शुरुआती चरण में है, और खासकर large language models में कई कठिनाइयाँ दिखाई देती हैं। उन विशेष मामलों को छोड़कर जहाँ exact unlearning संभव है, अधिकांश काम अब भी empirical और अनुभवजन्य तरीकों पर निर्भर है।
- Unlearning का evaluation problem सबसे बड़ा अवरोध लगता है। जब unlearning की परिभाषा और मानदंड अस्पष्ट हों और हर application की स्थिति अलग हो, तब उचित benchmarks और evaluation metrics के बिना प्रगति कठिन होगी। हाल में TOFU, WMDP जैसे application-केंद्रित benchmarks आना उत्साहजनक है।
- Copyright मुद्दों पर unlearning के अलावा आर्थिक समाधान भी विचार करने योग्य हैं। नियमित retraining के जरिए exact unlearning service देना, और उस बीच होने वाले copyright उल्लंघन के लिए model owner द्वारा indemnity देना—ऐसा OpenAI कर रहा है।
- Search-आधारित systems के कई फायदे हैं, लेकिन गहराई में जाने पर यह उतना आसान नहीं दिखता। deduplication, copyright identification, और data extraction attack defense जैसे कई मुद्दे सुलझाने होंगे। LLM की in-context learning क्षमता बढ़ रही है, इसलिए केवल retrieval से भी बहुत कुछ संभव हो सकता है, लेकिन fine-tuning को पूरी तरह बदल पाना कठिन लगता है।
- AI safety के दृष्टिकोण से unlearning काफ़ी दिलचस्प शोध क्षेत्र है। लेकिन यह कोई सर्वसमाधान नहीं है और इसे alignment, filtering जैसी अन्य defense techniques के साथ मिलाकर इस्तेमाल किया जाना चाहिए। जैसे-जैसे मॉडल अधिक autonomy हासिल करेंगे, policy/regulation के नज़रिए से भी इसमें रुचि बढ़ने की संभावना है।
2 टिप्पणियां
Google Machine Unlearning Challenge
Hacker News की राय