1 पॉइंट द्वारा GN⁺ 2024-11-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • क्या LLM सच में 'भूलते' हैं

    • बड़े भाषा मॉडल (LLM) विशाल टेक्स्ट डेटा पर प्रशिक्षित होते हैं और उत्कृष्ट टेक्स्ट जनरेशन क्षमता दिखाते हैं
    • लेकिन ट्रेनिंग डेटा की संवेदनशील प्रकृति के कारण वे अवांछित व्यवहार भी सीख सकते हैं
    • machine unlearning ऐसी समस्याओं के समाधान का एक तरीका है, जिसका लक्ष्य मॉडल की उपयोगिता को अधिकतम बनाए रखते हुए विशिष्ट ज्ञान को हटाना है
  • समस्या और शोध की सामग्री

    • इस बात पर अभी पर्याप्त शोध नहीं है कि मौजूदा 'unlearning' तरीके वास्तव में ज्ञान को भुलाते हैं या सिर्फ छिपाते हैं
    • यह शोध दिखाता है कि quantization लागू करने पर 'भुलाई गई' जानकारी फिर से पुनर्प्राप्त की जा सकती है
    • विभिन्न quantization तकनीकों का उपयोग करके कई precision स्तरों पर प्रयोग किए गए
  • प्रयोग के परिणाम

    • उपयोगिता-सीमित 'unlearning' तरीकों में, मॉडल full precision पर इच्छित रूप से भुलाए गए ज्ञान का औसतन 21% बनाए रखता है
    • 4-bit quantization के बाद यह अनुपात बढ़कर 83% हो जाता है
  • प्रस्तावित रणनीति

    • इस घटना को समझाने के लिए सैद्धांतिक व्याख्या दी गई है
    • इस जटिल समस्या को कम करने के लिए quantization-रोधी 'unlearning' रणनीति प्रस्तावित की गई है
  • शोध का महत्व

    • यह LLM 'unlearning' तरीकों की प्रभावशीलता का मूल्यांकन और सुधार करने में महत्वपूर्ण योगदान देता है
    • यह समझने में मदद करता है कि quantization, 'unlearning' को कैसे प्रभावित करता है

1 टिप्पणियां

 
GN⁺ 2024-11-05
Hacker News टिप्पणियाँ
  • रिसर्च में पाया गया है कि model quantization "भूलने" की methods को निष्प्रभावी कर देती है। "भूलने" की methods में model के weights को update किया जाता है ताकि वह कुछ खास facts भूल जाए। ऐसी methods मुख्य रूप से copyright issues को सुलझाने के लिए इस्तेमाल होती हैं.
    • quantization का "भूलने" को निष्प्रभावी करना information-theoretic रूप से यह दिखाता है कि knowledge अब भी model weights में मौजूद है.
    • AI boom की तुलना 10-15 साल पहले के 3D printer boom से करते हुए, यह अनुमान लगाया गया है कि AI का भी वैसा ही हश्र होगा.
    • 32-bit model से knowledge हटाया गया था, लेकिन 4-bit में compress करने पर knowledge फिर से दिखने लगना information-theoretic रूप से अप्रत्याशित है.
    • "भूलने" के लिए आम तौर पर model की उपयोगिता को नुकसान पहुँचाए बिना small learning rate और regularization का उपयोग किया जाता है। इसकी वजह से target LLM और "भुलाए गए" LLM के weights एक-दूसरे के बहुत करीब रहते हैं.
    • base training के दौरान अवांछित learning को रोकना होगा, या base model का "भूलना" quantization के प्रति sensitive होना चाहिए.
    • quantized LLM का उपयोग करने पर भी यह नहीं पाया गया कि model कम censored हो जाता है.
    • "भुलाए गए" behavior को मजबूत करने में abliteration technique अधिक शक्तिशाली है.
    • "भूलना" वास्तव में संभावित "learning space" में sampling probability को कम करना है, और quantization इस sampling के प्रभाव को घटा देती है.
    • "भूलना" का मतलब है कि LLM अवांछित knowledge को suppress करना सीखता है, और quantization इस suppression को तोड़ देती है.
    • model "भूलने" के बारे में पहली बार पता चला, और इस बारे में जवाब की उम्मीद है कि federated learning model "भूलने" को कैसे रोकती है.