LLM के लिए भूला हुआ ज्ञान वापस लाने का हैरान कर देने वाला सरल तरीका

(arxiv.org)

1 पॉइंट द्वारा GN⁺ 2024-11-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें

ICLR 2025 का यह पेपर दिखाता है कि LLM machine unlearning ज्ञान को पूरी तरह मिटाने के बजाय छिपा सकता है, और deployment चरण की quantization उस ज्ञान को फिर से उजागर कर सकती है
कई quantization तकनीकों और precision प्रयोगों में utility constraints वाले unlearning तरीकों ने full precision में भूल जाने वाले ज्ञान का औसतन 21% बनाए रखा, लेकिन 4-bit quantization के बाद यह 83% तक बढ़ गया
BOOKS dataset के GA_KLR मामले में full precision मॉडल का मूल ज्ञान संरक्षण 13% था, लेकिन quantization के बाद यह लगभग 89% तक वापस आ गया
कारण यह है कि छोटी learning rate और retain data regularization की वजह से मूल मॉडल और unlearned मॉडल के बीच weight difference छोटा रह जाता है, और quantization इन्हें एक ही मान पर map कर सकती है
mitigation के तौर पर बड़ी learning rate और module-level saliency map के साथ केवल अधिक प्रभाव वाले components को update करने का तरीका सुझाया गया है, लेकिन hyperparameter sensitivity के कारण स्थिर समाधान अभी बाकी है

Unlearning ज्ञान मिटाता है या छिपाता है

LLM बड़े text corpora पर training से शक्तिशाली generation क्षमता हासिल करते हैं, लेकिन training data से अवांछित व्यवहार भी सीख सकते हैं
- उदाहरण हैं copyrighted content की unauthorized copying, contacts जैसी personal information का generation, और आक्रामक या हानिकारक संदेश बनाना
- GDPR के “Right to be Forgotten” जैसे कानूनी संदर्भ भी हैं, जहाँ उपयोगकर्ता trained मॉडल से अपनी personal information हटाने की मांग कर सकते हैं
machine unlearning ऐसा तरीका है जो पूरी retraining के बिना problematic data के प्रभाव को हटाने के लिए, specific knowledge की memorization खत्म करने की कोशिश करता है
- LLM retraining की लागत और समय बहुत अधिक होते हैं, इसलिए कई मामलों में यह व्यावहारिक नहीं होता
- लक्ष्य है खास ज्ञान को हटाते हुए मॉडल utility को जितना संभव हो उतना बनाए रखना
मुख्य सवाल यह है कि मौजूदा LLM unlearning तरीके वास्तव में forgetting हासिल करते हैं, या सिर्फ ज्ञान को ऐसे छिपाते हैं जिसे मौजूदा benchmarks पकड़ नहीं पाते

Utility बनाए रखने के लिए मौजूदा unlearning तरीके

प्रतिनिधि unlearning तरीकों में gradient ascent(GA) और negative preference optimization(NPO) शामिल हैं
- GA, forget dataset पर सही prediction की संभावना घटाने के लिए cross-entropy loss पर gradient ascent लागू करता है
- NPO, forget set को negative preference data मानकर offline DPO objective का एक रूपांतर इस्तेमाल करता है, ताकि मॉडल forget set को कम likelihood दे
GA और NPO मूल रूप से utility preservation के लिए डिज़ाइन नहीं किए गए थे, इसलिए इन्हें आमतौर पर regularization तकनीकों के साथ इस्तेमाल किया जाता है
- retain dataset पर gradient descent
- retain inputs पर unlearned मॉडल और target मॉडल की probability distributions के बीच KL divergence को कम करना
ये combinations forgetting performance और model utility के बीच संतुलन बनाने की कोशिश करते हैं, लेकिन quantization के माहौल में यह संतुलन टूट सकता है

Quantization भूला हुआ ज्ञान कैसे वापस लाती है: प्रयोगों के नतीजे

प्रयोगों में target मॉडल और forget dataset पर unlearning लागू करके unlearned model बनाया गया, फिर full precision और quantization के बाद उसके प्रदर्शन की तुलना की गई
full precision में unlearning मॉडल मजबूत unlearning performance दिखाता है, लेकिन केवल quantization लागू करने पर unlearning performance खराब हो जाती है
मात्रात्मक नतीजे दिखाते हैं कि knowledge recovery किसी एक सेटिंग तक सीमित नहीं है
- utility constraints वाले unlearning तरीके full precision में भूल जाने वाले ज्ञान का औसतन 21% बनाए रखते हैं
- 4-bit quantization के बाद यह मान 83% तक बढ़ जाता है
- BOOKS dataset पर GA_KLR लागू करने पर full precision में मूल ज्ञान का केवल 13% बचा था, लेकिन quantization के बाद लगभग 89% वापस आ गया
यही घटना कई quantization techniques, precision levels और benchmarks में सत्यापित हुई

छोटे weight बदलाव से पैदा होने वाली कमजोरी

मुख्य hypothesis यह है कि मौजूदा unlearning छोटे weight बदलावों पर निर्भर करती है
- model utility बनाए रखने के लिए छोटी learning rate और retain set regularization का उपयोग किया जाता है
- नतीजतन target LLM और unlearned LLM के weights एक-दूसरे के बहुत करीब रहते हैं
quantization इन करीबी weights को एक ही मान पर map कर सकती है
- quantization के बाद target LLM और unlearned LLM के weights समान हो सकते हैं
- क्योंकि quantized target LLM भूलने वाले ज्ञान का अधिकांश हिस्सा बनाए रखता है, quantized unlearned LLM भी उस ज्ञान को वापस पा सकता है
यह समस्या वास्तविक deployment में महत्वपूर्ण है
- resource-constrained environments में LLM deploy करने के लिए quantization का व्यापक उपयोग होता है
- यदि किसी मॉडल को malicious content या personal information भूलाने के लिए fine-tuning किया गया है, तो quantization के बाद वह सामग्री वापस नहीं आनी चाहिए

Mitigation रणनीतियाँ और बची हुई सीमाएँ

प्रस्तावित quantization-robust unlearning रणनीति full-precision मॉडल और quantized मॉडल के बीच forgetting mismatch कम करने पर केंद्रित है
इसका मूल विचार forgetting loss और retaining loss, दोनों पर बड़ी learning rate लागू करना है
- forgetting loss, ऐसे मॉडल को penalize करता है जो forget set की जानकारी बनाए रखता है
- retaining loss, retain dataset पर utility को बनाए रखने में मदद करता है
बड़ी learning rate knowledge recovery कम कर सकती है, लेकिन इसके बड़े side effects भी हैं
- forgetting gradient आक्रामक updates ला सकता है, जिससे मॉडल जरूरत से ज्यादा बदल सकता है
- retain dataset पर बड़ी learning rate इस्तेमाल करने से retain data की ओर bias आ सकता है और retain के बाहर के tasks पर performance घट सकती है
side effects कम करने के लिए module-level saliency map बनाई जाती है, और केवल उन्हीं high-impact components को चुनकर update किया जाता है जो भूलने वाले data से जुड़े हैं
- प्रयोगों में यह targeted strategy आक्रामक updates के जोखिम को कम करने, model utility बनाए रखने और अधिक संतुलित unlearning परिणाम देने में मदद करती है
फिर भी यह framework hyperparameter selection के प्रति बहुत sensitive है, इसलिए unlearned मॉडल अस्थिर हो सकता है
कोड FailureLLMUnlearning पर उपलब्ध है

1 टिप्पणियां

GN⁺ 2024-11-05

Hacker News की टिप्पणियां

संक्षेप में, इस पेपर की खोज यह है कि मॉडल को quantize करने पर कई “unlearning” तकनीकें उलट जाती हैं
unlearning तकनीकें मॉडल weights को किसी खास तरीके से update करके उसे कुछ खास facts भूलने पर मजबूर करने के तरीके हैं, आम तौर पर copyright मांगों को पूरा करने के उद्देश्य से, हालांकि यह सच में इस्तेमाल होती हैं या नहीं, मुझे ठीक से नहीं पता
यहां एक अच्छे threat model analysis की जरूरत लगती है। जैसे, अगर मेरे पास एक fp32 मॉडल है जिसे किसी खास fact को भूलने के लिए fine-tune किया गया है, और मैं उसे quantize करके वह fact recover कर सकता हूं, तो किन परिस्थितियों में यह खतरनाक होगा, यह देखना होगा
- unlearning को “LLM से किसी खास ज्ञान को हटाते हुए मॉडल की उपयोगिता को जितना हो सके बनाए रखने की प्रक्रिया” बताया गया है
  यानी यह कुछ ऐसा लगता है: “हमें पता है कि हमारा मॉडल आपके source material के बिना बेकार है। इसलिए हम आपके material के उपयोगी हिस्से ले लेंगे और बाकी को धुंधला कर देंगे, ताकि आपके दिए हुए उपयोगीपन से users से पैसे ले सकें, लेकिन आपको कुछ न दें”
- आगे चलकर “Manchurian Candidate-जैसे LLM” खोजने वाले LLM दिखने लगेंगे
- “unlearning” से ज्यादा सामान्य तौर पर, मैं यह भी जानना चाहूंगा कि fp16 मॉडल को fp32 या fp64 में run करने से कुछ बेहतर होता है या नहीं
  जैसे क्या कम precision में inaccessible रहा ज्ञान सामने आ जाता है
- अगर किसी organization में AI safety title वाला कोई व्यक्ति है, तो मुझे लगता है कि वे मॉडल को आम illegal drugs, poisons और explosives बनाने की विधियां याद न रखने देने के लिए unlearning techniques का इस्तेमाल करेंगे
  यहां threat model शायद वह स्थिति है जहां ऐसे facts गलती से “फिर से जीवित” हो चुके मॉडल deploy हो जाएं। quantized models का deployment आम है, इसलिए यह और भी ज्यादा लागू होता है
  ऐसी “खतरनाक” जानकारी का ज्यादातर हिस्सा textbooks, patents, amateur chemistry forums वगैरह में पहले से मौजूद है, लेकिन सामाजिक रूप से आम तौर पर यह माना जाता है कि जो लोग ऐसी जानकारी खोजकर समझने जितने smart हैं, वे उसका दुरुपयोग नहीं करेंगे। लेकिन हम नहीं चाहते कि Mythbusters उसे prime-time TV पर समझाए, या ChatGPT किसी को भी समझा दे
मुझे लगता है quantization असली मुद्दे से ध्यान भटकाने वाली चीज है। अगर unlearning को उलटने का कोई भी तरीका है, तो इसका मतलब है कि वह ज्ञान अब भी weights में मौजूद है, और यह basic information theory है
quantization इस्तेमाल किए बिना भी गायब हुए ज्ञान को recover करने के अनगिनत तरीके होंगे, ऐसा लगता है
- मुझे लगता है quantization या downsampling खुद इस समस्या से निपटने का एक बुनियादी तरीका हो सकता है
  1. एक सामान्य full-precision मॉडल train करें
  2. performance सीमा के करीब पहुंचने तक उसे quantize करें और फिर unlearning process चलाएं
  3. इसके बाद tuning iterations के लिए उसे फिर FP में train/convert/upsample करें
    इस तरह शायद information bottleneck बनाया जा सकता है। भूली हुई चीजों की गूंज ऐसे संकरे bottleneck से गुजरना मुश्किल पा सकती है
- यह कहना सही है कि quantization कोई खास चीज नहीं है, लेकिन “असली मुद्दे से ध्यान भटकाता है” कहना सही नहीं। title की तरह, यह बस शर्मिंदगी भरा सरल तरीका है
- यह कुछ वैसा ही है जैसे कहना कि encryption असली मुद्दे से ध्यान भटकाता है
  जानकारी वहां मौजूद है, यह सही है, लेकिन उसे recover करना अलग समस्या है। इस मामले में अहम फर्क यह है कि quantization उस cipher को जाने बिना भी जानकारी recover करा देता है जिससे मॉडल को “भुलाया” गया था
- अगर unlearning को उलटने का कोई तरीका है, तो उसी तरीके से उस जानकारी को रखने वाले weights identify करके उस जानकारी को आगे न पहुंचने देने का तरीका भी हो सकता है। learning के मूल में detection है
  जानकारी अब भी अंदर हो सकती है, लेकिन किसी भी ज्ञात तरीके से detect न हो सकती है। मॉडल के सभी weights को 0 कर दें तो जानकारी निश्चित रूप से हट जाएगी। समस्या यह है कि दूसरे information को नष्ट किए बिना जानकारी पूरी तरह हटाने का लक्ष्य कब हासिल हुआ, इसकी पहचान करना शायद असंभव हो
  आगे चलकर zero-day unlearning reversal vulnerabilities जैसी चीजें भी आ सकती हैं
यह किसी बच्चे से यह कहने जैसा है कि उसने जो “बुरी चीज़” सीखी है उसे भूल जाए। लगभग पक्का है कि भूलने के बजाय वह ज्ञान और मजबूत हो जाएगा
AI हाइप की बात सुनते ही मुझे 10–15 साल पहले की 3D printer हाइप याद आती है। “फैक्ट्रियों को घातक झटका”, “हम अपनी कार खुद print करेंगे”, “हम खाना खुद print करेंगे” जैसी बातें होती थीं। लगता है LLM-based AI भी उसी किस्मत का पीछा करेगा। संभव तो है, लेकिन व्यवहार में शायद वैसा नहीं होगा
- आज की “हाइप” LLM-based AI को सब कुछ बदल देने वाली एकल technology मानने से ज्यादा, ऐसी उम्मीद के करीब है कि अभी जिन तरीकों की कल्पना भी नहीं हुई है उन्हें मिलाकर AI/machine learning की सारी breakthroughs निकट भविष्य में सब कुछ बदल देने वाली theoretical technology बन जाएंगी
  और 10–15 साल कोई मायने नहीं रखते। मुझे नहीं लगता कि 3D printer, AI की तुलना में सचमुच transformative technology है, लेकिन यह याद रखना चाहिए कि दूसरे विश्व युद्ध के अपवाद को छोड़ दें तो airplanes और computers को भी सैन्य उपयोग से बाहर व्यापक सामाजिक और consumer impact तक पहुंचने में 30–40 साल लगे थे
- क्या मतलब यह है कि Star Trek के स्तर का तो नहीं, लेकिन शानदार और बहुत उपयोगी हो जाएगा?
- हम technology के short-term प्रभाव को overestimate और long-term प्रभाव को underestimate करते हैं
  3D printer अंततः सारी manufacturing को तेजी से बदल भी सकता है, लेकिन वहां तक पहुंचने के लिए कई iterations चाहिए। आज भी theory में हम अपनी बनाई कई चीज़ों को 3D print कर सकते हैं, लेकिन मौजूदा manufacturing तरीके अब भी सस्ते हैं और अच्छे से काम करते हैं, इसलिए कोई forcing factor नहीं है। अगर हम अंतरिक्ष में self-sufficient settlements बनाते हैं, तो वह ऐसा environment होगा जहां 3D printing बहुत आगे जा सकती है। क्योंकि वहां बहुत सारा human labour या विशाल supply chain नहीं होगा, इसलिए portable, independent और general-purpose manufacturing की जरूरत पड़ेगी
  LLM निकट भविष्य में सबसे simple tasks को छोड़कर human writers या programmers आदि को replace नहीं कर पाएंगे। इसके बजाय वे augment करेंगे। Programming में यह ज्यादा smart और versatile autocomplete के करीब है। Concepts खोजने, research, code और text की summarization/documentation में भी यह उपयोगी रहा है। ये चीजें मुझे replace नहीं करतीं, लेकिन मुझे थोड़ा तेज और ज्यादा काम करने में मदद करती हैं
  बहुत लंबी अवधि में LLM, contrived examples से आगे बढ़कर पूरी applications को सचमुच synthesize करने लायक शक्तिशाली हो सकते हैं। लेकिन जैसे 3D printing को सारी manufacturing replace करने के लिए कई iterations चाहिए, वैसे ही यहां भी चाहिए होंगे, और शायद कोई forcing factor भी चाहिए होगा
- यहां मैं strongly disagree करता हूं
  मुझे वह हाइप याद है। खासकर इसलिए कि Autodesk जैसी कंपनी में जाने से पहले से ही यह अक्सर सुनता था, जो 3D printing को काफी seriously लेती थी
  3D printing का पहले कोई अनुभव नहीं था, लेकिन media में कही जा रही बातें बकवास हैं यह समझने में मुझे करीब दो महीने ही लगे। Technically, कुछ articles जो दावा कर रहे थे—जैसे अपनी कार खुद print करना—उसके आसपास भी technology नहीं थी, और business-wise भी existing manufacturing की जगह 3D printing इस्तेमाल करके सुधार होने वाली जगहें हैरानीजनक रूप से कम थीं
  मैं इसे बढ़ा-चढ़ाकर नहीं कहना चाहता। 3D printing शानदार है और इसके बहुत से real use cases हैं। समस्या यह थी कि उसके आसपास media ने इसे बहुत overhype किया
  3D printing को सच में जानने वाले अधिकतर लोगों को पता था कि media, नरम शब्दों में कहें तो, जरूरत से ज्यादा उत्साहित था। और कई साल बाद भी वे विशाल visions साकार नहीं हुए हैं
  इसके उलट AI में दो बड़े फर्क हैं। पहला, यह पहले ही बेहद उपयोगी साबित हो चुकी है और 3D printing ने जितना impact बनाया, उससे 100 गुना impact यह पहले ही डाल चुकी है। बस सोचिए कि लगभग 4 साल पहले practically launch हुए किसी product ने इतनी चौंकाने वाली market penetration आखिरी बार कब हासिल की थी। ChatGPT user संख्या के आधार पर इतिहास का सबसे तेजी से बढ़ने वाला product सच में है
  दूसरा, insiders आम तौर पर इस technology को लेकर बेहद उत्साहित हैं, मानते हैं कि यह बहुत बेहतर हो सकती है और इसकी current potential का भी अभी पर्याप्त इस्तेमाल नहीं हुआ है। मेरी राय भी निश्चित रूप से इसी तरफ है
सूचना सिद्धांत के नज़रिए से यह थोड़ा अप्रत्याशित लगता है। मॉडल के पूरे 32-बिट representation में यह ज्ञान हटाया हुआ लगता है, लेकिन 4-बिट में compress करने पर वही ज्ञान फिर दिखने लगता है
तो सवाल उठता है कि compression/quantization के चरण में असल में कौन-सी जानकारी गायब होती है
- इस paper को सरल ढंग से समझाएँ तो, ज़्यादातर “forgetting” methods को neural network parameters में कोई delta w जोड़ने के रूप में देखा जा सकता है, और उस w का अधिकांश हिस्सा quantization के दौरान बस “round off होकर गायब” हो जाता है। यानी quantize(X+w) ~= quantize(X) हो जाता है
  यह काफ़ी चतुर idea है, क्योंकि cite किए गए कई methods evaluation accuracy घटने से बचने के लिए w को छोटा रखने हेतु स्पष्ट रूप से optimize/regularize करते हैं
  इसलिए सवाल उठता है कि information theory के नज़रिए से ऐसे methods को सच में forgetting कहा जा सकता है या नहीं, या वे latent knowledge के आसपास if (false) लगा देने जैसे हैं
- 32-बिट version में जो हटाया गया है, वह शायद knowledge खुद नहीं बल्कि knowledge का representation है। और किसी खास topic पर बात नहीं करनी है—यह जानकारी store करने के लिए कुछ space allocate किया गया हो सकता है
  उदाहरण के लिए, इंसान भी कई racial slurs जानते हैं, लेकिन यह भी जानते हैं कि उस knowledge तक पहुँचना या उसका उपयोग नहीं करना चाहिए
  लेकिन अगर किसी इंसान या AI model को सिर पर चोट लगे या quantization जैसी प्रक्रिया से गुज़रे, तो X के बारे में knowledge बच सकता है और X के बारे में बात न करने वाली knowledge गायब हो सकती है। इस तरह देखें तो यह काफ़ी intuitive है
- संभव है कि knowledge गायब नहीं हुआ, बस ढका हुआ था
  अगर neural network को code मानें, तो weights source code जैसे हैं। fine-tuning असल में उस code को hack करने जैसा हो सकता है ताकि वह कोई खास output return न करे
  वास्तव में fine-tuning कुछ हद तक ऐसी ही होती भी है
  इसलिए हो सकता है कि किसी खास output के आसपास सिर्फ़ firewall बनाया गया हो। लेकिन quantization करने पर वह हालिया modification गायब हो सकता है। वह इतना subtle है कि survive नहीं कर पाता
  दूसरी ओर, popular quantized models दिखाते हैं कि quantization सारी knowledge को destroy नहीं करता
  साथ ही, अगर @simonw ने notifications on कर रखी हैं, तो यह topic लिखने के लिए बिल्कुल सही लगता है
- knowledge हटाया नहीं गया था; weights की वजह से वह बस कभी इस्तेमाल नहीं हो रहा था
  quantization calculation बदल देता है, और अब उस knowledge तक access संभव हो गया है
- सच कहें तो यह चौंकाने वाला नहीं है
  floating point हमेशा language को represent करने का अजीब तरीका लगा है। अगर एक variable को zoom करके देखें, तो क्या उसमें https://vinaire.me/2019/07/17/scn-8-8008-the-emotional-scale... जैसी meanings का set होता है, जो किसी gradient पर स्थित है लेकिन हर specific range को कोई special meaning मिल जाता है? ऐसे variable को decode करने के लिए सावधानी से design किए गए neural circuits की कल्पना की जा सकती है, और यह भी सोचा जा सकता है कि ऐसी संरचना वाला network कैसे बनाया जाए, लेकिन यह intuitive नहीं लगता कि neural network ऐसी structure सीखता है। “अच्छा” से “बुरा” तक जाने वाला scale भरोसेमंद लगता है, पर अलग-अलग values से बहुत सारे specific meanings जुड़े हों—यह मानना मुश्किल है
  इस तरह सोचें तो किसी प्रकार का binary neural network बहुत प्रभावी होना चाहिए, लेकिन व्यवहार में ऐसा नहीं दिखता। हालांकि लगता है कि neural networks internally लगभग 4-bit से अधिक precision का ज़्यादा उपयोग नहीं करते
  ये “forgetting” systems network के अंदर memory के “engram” को सच में remove नहीं करते, बल्कि किसी खास output को suppress करने वाला नया behavior सीखने जैसे हैं। यह network में नया knowledge धीरे-धीरे जोड़ने की समस्या से बहुत अलग नहीं है, बस step 2 में जो सीखा जाता है वह normal learning से काफ़ी अलग है। अगर आप network को खराब नहीं करना चाहते, तो नई behavior जोड़ने के लिए precision का एक bit और जोड़ने जैसी कल्पना की जा सकती है। कम precision पर पुराना behavior बरकरार रहता है, और high precision पर “forgotten/learned” behavior के लिए ज़रूरी distinctions किए जाते हैं
मुख्य hypothesis यह है कि model utility को नुकसान पहुँचाए बिना forgetting हासिल करने के लिए मौजूदा methods आम तौर पर small learning rate और retain set पर regularization का इस्तेमाल करते हैं, ताकि forgetting के दौरान model weights में बदलाव न्यूनतम रहे
नतीजतन target LLM और forgotten LLM के model weights एक-दूसरे के बहुत करीब हो जाते हैं
ऐसे में लगता है कि unwanted content को pretraining stage में ही सीखने से रोकना होगा, या foundation model की forgetting process को quantization-aware बनाना होगा
मैं इस field का expert बिल्कुल नहीं हूँ, इसलिए यह बेवकूफी भरा सवाल हो सकता है। अगर llama3 को 4-bit में quantize करें, तो क्या इसका मतलब है कि उदाहरण के लिए किसी specific compound को synthesize करने के तरीके जैसी hidden information तक access मिल सकता है? quality ज़रूर घटेगी, लेकिन
- मुझे भी exactly यही जानना था। forgetting = guardrails? सुनने में ऐसा लगता है जैसे weights को बहुत थोड़ा adjust करके self-censorship कराई गई हो, और वह adjustment इतना सूक्ष्म है कि low resolution में survive नहीं करता
  लेकिन अगर guardrail bypass इतना आसान होता, तो शायद हम पहले ही सुन चुके होते
- यह तभी संभव है जब “specific compound synthesis method” मूल model में पहले से मौजूद था
“मौजूदा forgetting methods की effectiveness के बावजूद, existing LLM forgetting methods सचमुच forgetting हासिल करते हैं या सिर्फ़ knowledge को छिपाते हैं—इस पर बहुत कम ध्यान दिया गया है” वाला हिस्सा अच्छा सवाल है
LLM context में, और knowledge के general philosophical context में भी, यह समझना होगा कि भूलना और याद रखना क्या होता है, क्या LLM ने जो “सीखा” है उसे “forget” कर सकता है, और अगर कर सकता है तो mathematical/computational रूप से इसका ठीक-ठीक मतलब क्या है
यह भी जानना दिलचस्प है कि क्या LLM existing knowledge से logical process, implication, derivation, inductive reasoning, deductive reasoning आदि के ज़रिए पहले भूली हुई चीज़ों को खुद फिर से सिखा सकता है
अगर यह संभव है, तो ऐसा कर सकने वाले LLM का सबसे छोटा core क्या है और क्यों—यह भी सवाल बनता है
लगता है यह इस topic पर पहला paper भी नहीं होगा और आख़िरी भी नहीं
production environment में quantized LLM इस्तेमाल कर रहा हूँ, लेकिन मुझे कभी नहीं लगा कि model कम censored हो गया है
reinforced behavior को forget कराने में abliteration [1] technique कहीं ज़्यादा powerful लगती है
1 https://huggingface.co/blog/mlabonne/abliteration
- क्या आपने खास तौर पर gradient ascent का इस्तेमाल करके forgotten model use किया था?
मौजूदा models की समस्या यह नहीं कि वे सीखते हैं, बल्कि यह है कि उन्हें रटाकर indoctrinate किया जाता है
learning stage में critical thinking की कमी है
- LLM को इंसानों जैसा मानना technically सही भी नहीं है और बहुत उपयोगी भी नहीं
- वरना LLM को censor कैसे करेंगे? क्या आप सच में चाहते हैं कि LLM free speech कर सके?
quantization इस्तेमाल करने की भी ज़रूरत नहीं। ज़्यादातर benchmarks सिर्फ़ prompt से ही तोड़े जा सकते हैं
https://arxiv.org/abs/2410.02879

LLM के लिए भूला हुआ ज्ञान वापस लाने का हैरान कर देने वाला सरल तरीका

Unlearning ज्ञान मिटाता है या छिपाता है

Utility बनाए रखने के लिए मौजूदा unlearning तरीके

Quantization भूला हुआ ज्ञान कैसे वापस लाती है: प्रयोगों के नतीजे

छोटे weight बदलाव से पैदा होने वाली कमजोरी

Mitigation रणनीतियाँ और बची हुई सीमाएँ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की टिप्पणियां