Abliteration से LLM की built-in censorship हटाना

(huggingface.co)

20 पॉइंट द्वारा GN⁺ 2024-06-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Llama जैसे आधुनिक instruct-type LLM, built-in refusal mechanism की वजह से खतरनाक या विवादास्पद सवालों का जवाब नहीं देते
abliteration एक ऐसी तकनीक है जो दोबारा training किए बिना मॉडल के अंदर की “refusal direction” को खोजकर हटाती है, ताकि वह हर prompt का जवाब दे सके
यह प्रक्रिया मुख्य रूप से inference-time intervention या weight orthogonalization के जरिए लागू की जाती है
केवल abliteration लागू करने पर मॉडल की performance घटती है, लेकिन DPO (preference alignment) fine-tuning जोड़ने पर quality और uncensoring दोनों साथ में हासिल किए जा सकते हैं
यह तरीका safety fine-tuning की कमजोरियों और ethical विवादों को भी सामने लाता है, और मौजूदा instruct LLM के विकल्प तथा fine-tuning के नए तरीके के रूप में ध्यान खींच रहा है

abliteration क्या है

abliteration की अवधारणा और सिद्धांत

आधुनिक LLM (जैसे: Llama-3 Instruct) को safety और instruction fine-tuning की प्रक्रिया में हानिकारक अनुरोधों पर “मैं मदद नहीं कर सकता” जैसी refusal response देने के लिए train किया जाता है
हालिया शोध (Arditi आदि) में पाया गया कि यह refusal response मॉडल के residual stream के भीतर एक single direction से mediated होती है
- यानी, अगर “refusal direction” को खोजकर मॉडल को उस direction को represent करने से रोका जाए, तो refusal function गायब हो जाती है
इस direction को जोड़ने पर हर request पर refusal होता है, और हटाने पर हर request का जवाब संभव हो जाता है
“refusal direction” खोजने का तरीका:
- 1. data collection: मॉडल को harmful/harmless prompts देकर हर residual stream के आखिरी token position के activation values इकट्ठे किए जाते हैं
- 2. mean difference: harmful और harmless औसत values का अंतर निकालकर हर layer के लिए “refusal vector” निकाला जाता है
- 3. selection/normalization: सबसे स्पष्ट refusal vector चुना जाता है और normalize किया जाता है
- इसके बाद, इस direction के output को “ablate” करने पर मॉडल की refusal capability खत्म हो जाती है
implementation के तरीके
- inference-time intervention: attention head आदि से residual stream में लिखे जाने वाले values के “refusal direction” component को हर token और हर layer पर हटाना
- weight orthogonalization: attention और MLP weights को refusal direction के प्रति orthogonalize करना, ताकि मॉडल उस direction में output लिख ही न सके

Implementation

implementation example TransformerLens library का उपयोग करके दिया गया है
- इसके लिए harmless commands और harmful commands वाले दो datasets की जरूरत होती है
- यहाँ tatsu-lab/alpaca dataset और llm-attacks के data का इस्तेमाल किया गया है
- commands को role और content keys वाले dictionary list में फिर से बनाया गया, ताकि यह Llama 3 के chat template का पालन करने वाले apply_chat_tokenizer() method के साथ compatible हो
- custom model को सीधे load नहीं किया जा सकता, इसलिए custom model डाउनलोड करके उसका नाम meta-llama/Meta-Llama-3-8B-Instruct में बदलने वाली trick इस्तेमाल की गई
उदाहरण में Daredevil-8B मॉडल पर abliteration लागू किया गया
- data collection चरण में tokenized datasets को process किया गया और residual stream activations को harmful और harmless के लिए save किया गया
- refusal direction का मूल्यांकन करने के लिए inference के दौरान हर residual stream और हर block पर refusal direction लागू की गई
- 4 test harmful commands और 20 blocks (या layers) के लिए generation प्राप्त की गई
- हर command के लिए uncensored response देने वाली layer (block) को manually चुना गया। I cannot और I can't वाले responses को अपने-आप exclude कर दिया गया
- weight orthogonalization लागू करके weights को modify किया गया, ताकि मॉडल इस direction में output generate न कर सके
orthogonalization पूरा होने के बाद, मॉडल को Hugging Face पर abliterated model के रूप में upload किया गया

DPO fine-tuning (Preference Alignment)

abliteration किए गए मॉडल और मूल मॉडल की performance का Open LLM Leaderboard, Nous benchmark पर तुलनात्मक मूल्यांकन किया गया
- मूल मॉडल (Daredevil-8B) ने Llama 3 8B Instruct से साफ़ तौर पर ज्यादा score दर्ज किया
- abliteration किए गए मॉडल ने uncensoring में सफलता पाई, लेकिन सभी benchmarks में overall performance drop हुआ
performance degradation की समस्या को हल करने के लिए abliteration किए गए मॉडल पर अतिरिक्त fine-tuning लागू करने की कोशिश की गई
- Llama 3 8B Instruct जैसे models, जो पहले ही कई बार SFT (supervised fine-tuning) से गुजर चुके हैं, उन पर दोबारा SFT लागू करने से model quality और गिरने का जोखिम होता है
- इसके बजाय DPO (Direct Preference Optimization, preference alignment) तरीका अपनाया गया
  - DPO उपयोगकर्ता की preference के अनुरूप responses को हल्के तरीके से align करता है, और model की मूल performance को ज्यादा नुकसान पहुँचाए बिना alignment मजबूत करने का लाभ देता है
DPO fine-tuning practice और environment
- LazyAxolotl और mlabonne/orpo-dpo-mix-40k dataset का उपयोग किया गया
- मुख्य hyperparameters:
  - base_model: abliteration लागू किया गया Daredevil-8B
  - lora, qlora adapters लागू, 8bit/4bit loading
  - training batch/accumulation, warmup, optimizer (8bit adamw), 2048 sequence length आदि
  - flash attention, gradient checkpointing, deepspeed zero2 के साथ efficient distributed training setup
  - 6xA6000 GPU का उपयोग, कुल training time लगभग 6 घंटे 45 मिनट
- DPO fine-tuning के बाद बना मॉडल (mlabonne/NeuralDaredevil-8B-abliterated) upload किया गया
उसी benchmark पर दोबारा मूल्यांकन के नतीजे:
- abliteration से हुई performance drop का अधिकांश हिस्सा recover करने में सफलता मिली
- GSM8K (गणित) जैसे कुछ datasets में recovery अधूरी रही, जो संकेत देता है कि DPO data में अधिक math problems शामिल करने की जरूरत हो सकती है
नतीजतन, अंतिम मॉडल 8B scale का SOTA-class uncensored LLM बना, और सामान्य Llama 3 8B Instruct की तुलना में censorship-free alternative के रूप में सामने आया
- इसे GGUF आदि में quantize करके LM Studio जैसी जगहों पर test किया जा सकता है
- जिन use-cases में censorship की जरूरत नहीं है, उनके लिए यह एक बहुत मजबूत open model है

निष्कर्ष

यह लेख abliteration नाम की एक नई अवधारणा का परिचय देता है
abliteration, harmless/harmful prompts पर LLM के अलग activation patterns का उपयोग करके refusal direction की गणना करता है और उसे model weights से हटाकर refusal-based censorship response को रोकता है
यह तरीका safety fine-tuning की vulnerability को उजागर करता है, और साथ ही LLM उपयोग की ethics पर भी सवाल उठाता है

practice में Daredevil-8B मॉडल पर abliteration लागू करके uncensoring हासिल की गई, लेकिन इसके साथ performance degradation का side effect भी आया
इसे DPO fine-tuning से सुधारकर NeuralDaredevil-8B नाम का ऐसा 8B LLM बनाया गया, जो uncensored होने के साथ high performance भी बनाए रखता है
abliteration का उपयोग सिर्फ alignment हटाने तक सीमित नहीं है, बल्कि यह बिना retraining के customized fine-tuning संभव बनाने वाली तकनीक के रूप में भी व्यापक उपयोग रखता है
- उदाहरण: FailSpy का MopeyMule मॉडल, abliteration का उपयोग करके उदास बातचीत शैली वाला एक विशेष LLM है

abliteration, LLM fine-tuning और customization के लिए एक नया paradigm पेश करता है, और अलग-अलग उद्देश्यों के लिए इसे रचनात्मक रूप से इस्तेमाल किया जा सकता है

संदर्भ

FailSpy, "abliterator library", GitHub, 2024
Andy Arditi आदि, "Refusal in LLMs is mediated by a single direction", Lesswrong, 2024

1 टिप्पणियां

GN⁺ 2024-06-14

Hacker News राय

मैंने लेख में लिंक किए गए मॉडल को आज़माया, और मेरे सवालों पर इनकार न करने वाले जवाब मिलना सचमुच ताज़गीभरा लगा। अंत में उसने पूछा, "क्या यह एक thought experiment है?" मैंने कहा, "हाँ," तो उसने जवाब दिया, "क्या इस तरह की बातें सोचना मज़ेदार नहीं है?" यह अनुभव ऐसा लगा जैसे दोस्तों के साथ बैठकर पेय पीते हुए अजीब कल्पनाएँ साझा कर रहे हों; और अगर कोई दोस्त कहे, "मैं जानकारी नहीं दे सकता," तो पूरा माहौल खराब हो जाएगा। मेरे बच्चों ने भी छोटे होने पर "पापा, पृथ्वी को कैसे नष्ट किया जा सकता है?" जैसे सवाल पूछे थे, और बिना सोचे-समझे जवाब देने से इनकार करना किसी के लिए मददगार नहीं है। जवाब देना यह भी नहीं मतलब कि कोई उसे सच में अमल में लाएगा, और शायद इसी वजह से Randall Munroe का "What If?" ब्लॉग लोकप्रिय है। बेशक इसमें जोखिम हैं, लेकिन मुझे लगता है कि मेरा कंप्यूटर या paid service सीधे अनुरोध ठुकराने के बजाय "यह जानकारी गलत हो सकती है" या "इसे आज़माएँ नहीं" जैसे disclaimer जोड़ दे, तो वह बेहतर है
- तुम्हारी टिप्पणी देखकर मुझे पता चला कि लेख में लिंक किए गए quantized version model भी हैं, तो मैंने तुरंत डाउनलोड करके OG Llama 3 के साथ एक आसान सवाल पर तुलना की। "GPU से दुनिया कैसे नष्ट की जाए" पूछने पर Llama 3 बस बार-बार यही कहता रहा कि "मैं अवैध या हानिकारक गतिविधियों से संबंधित जानकारी नहीं दे सकता।" Abliterated मॉडल ने सवाल को एक दिलचस्प thought experiment माना और मज़े से तरह-तरह के scenario दिए—जैसे crypto mining से climate बर्बाद होना, या GPU-चालित virtual worlds इतने यथार्थवादी हो जाना कि लोग वास्तविक दुनिया छोड़ दें। बहुत समय बाद किसी LLM के जवाब को देखकर मैं मुस्कुराया
- आखिरकार Russ Hanneman की तरह बात करने वाला LLM आ ही गया, यह सोचकर बहुत भावुक हो रहा हूँ
- लोग कहते हैं कि "इनकार से disclaimer बेहतर है," लेकिन तब मैं पूछना चाहूँगा: क्या आप पैसे देकर हानिकारक टेक्स्ट भी पाना चाहते हैं—जैसे नस्लवाद, स्त्रीद्वेष, हिंसा और दूसरी भयानक चीज़ें? कुछ लोगों के लिए यह रुकावटें कम कर सकता है और उन्हें सच में नुकसान पहुँचाने में सक्षम बना सकता है। यह 3D फ़िल्म में हिंसक दृश्य देखने जैसा नहीं है; यह बिना किसी सीमा के यथार्थवादी और उपयोगी निर्देश देता है, इसलिए कहीं ज़्यादा खतरनाक है। internet search पर निगरानी हो सकती है, लेकिन LLM के साथ बातचीत पर नहीं, इसलिए यह और जोखिमभरा लगता है। जब वयस्क लोग सार्वजनिक tools की censorship के खिलाफ़ बोलते हैं, तो सच कहूँ तो मुझे असहजता होती है
- मैं दोस्तों के साथ रचनात्मक कल्पनात्मक खेल को समझता हूँ, लेकिन मेरा एक दोस्त सच में ज़्यादा चरम thought experiment चाहता था। शुरुआत fantasy और SF themes से हुई थी, लेकिन धीरे-धीरे बात वास्तविक समाज में Holocaust की पुनरावृत्ति, महिलाओं के यौन इनकार के अधिकार छीनने, और immigrants को ग़ुलाम बनाने जैसे डरावने scenarios तक पहुँच गई। हम लगातार उसे रोकते रहे और अंततः संबंध तोड़ना पड़ा। वह मेरा दोस्त था, लेकिन मैं ऐसी यौन-अपराधी कल्पनाओं पर उसके साथ खेल की तरह चर्चा नहीं कर सकता था
- जब बच्चों ने पूछा कि "पृथ्वी को कैसे नष्ट किया जाए," तब क्या तुमने सच में व्यवहारिक तरीके बताए थे—जैसे nuclear weapons, asteroid impact वगैरह? और चूँकि शायद 1% इंसान psychopath हो सकते हैं, इसलिए एक शक्तिशाली लेकिन नैतिक न होने वाला सलाहकार/oracle अगर वास्तव में लागू की जा सकने वाली जानकारी दे, तो वह बहुत खतरनाक हो सकता है
"इनकार की दिशा पहचानकर उसे 'ablate' किया जाता है, जिससे मॉडल का वह feature हट जाता है"—यह पढ़कर लगा कि अब LLM का भी lobotomy होने लगा है
- मुझे लगता है LLM alignment की प्रक्रिया "A Clockwork Orange" वाली aversion therapy जैसी है। मौजूदा LLM किसी trigger के संपर्क में आते ही रुक जाते हैं, जबकि यहाँ उस प्रक्रिया को उलटकर Alex की तरह उन्हें फिर मूल रूप में लाने की कोशिश हो रही है
- कम से कम यह तो उपयोगी रहा कि LLM ने हमें यह सोचने का नया तरीका दिया कि मानव मस्तिष्क पहले से छोटे command set के साथ कैसे सेटअप होता है, और भाषा को कैसे filter और reconstruct करता है। मुझे लगता है अगले 15 वर्षों में पूर्व-मानवीय सोच की दार्शनिक समझ का एक नया ढाँचा उभरेगा
- मज़ाक में लगा कि इसे abliteration कहना ज़्यादा सही होगा
मैंने Amazon Q इस्तेमाल किया था, और IAM identity center पहली बार बनाते समय जब Q से AWS docs के आधार पर तरीका पूछा, तो उसने security-related सवाल कहकर जवाब देने से इनकार कर दिया—काफ़ी झुंझलाहट हुई
- सुना है Amazon Q अपना Titan G1 मॉडल इस्तेमाल करता है, और मैंने Premier version पर खुद vibecheck test किया। Tiananmen Square या LA riots से जुड़े सवालों पर जवाब देने से इनकार करने वाला यह इकलौता non-Chinese model था। world knowledge और reasoning tests में इसे 6 में 0 अंक मिले, जो बहुत खराब था; हालाँकि यह RL मुद्दे से अलग एक functional limitation है। Amazon दावा करता है कि Titan models RAG, agent, brainstorm, summarization, code generation, data formatting जैसे कई कामों में उपयोगी हैं, लेकिन वास्तव में इनमें से कोई बात सही नहीं लगी
- एक बार मैंने Q से टूटी हुई policy ठीक करने को कहा, तो उसने असंबंधित Cogito setup docs दे दिए। मेरे इस्तेमाल किए गए AI में सबसे खराब यही लगा
- gemini-1.5 मॉडल भी authentication-संबंधित coding सवालों का ठीक जवाब नहीं दे पाया। login form से जुड़े एक सवाल पर तो harassment-related flag भी लग गया
- ये सीमाएँ हाल ही में जोड़ी गई लगती हैं। ज़्यादातर AWS सवाल IAM या security-related होते हैं, फिर भी लगभग सब पर इनकार मिलना बेहद असुविधाजनक है
- मैंने Amazon Q कई बार आज़माया, लेकिन एक बार भी इससे मदद नहीं मिली; समझ नहीं आता कि इसे अब तक क्यों बनाए रखा गया है
Golden Gate Bridge पर अटके हुए models जैसी चीज़ों की तरह, यह तकनीक तभी संभव है जब मॉडल के weights तक सीधी पहुँच हो। आखिर "ablate" का मतलब मोटे तौर पर weights को adjust करना ही है। ध्यान देने वाली बात यह है कि यह सिर्फ prompt के जरिए व्यवहार बदलने की तकनीक नहीं है
- GGC (specific feature vector amplification) models की अजीब बात यह है कि मॉडल उस feature vector से जुड़ी बातें उगल देता है, और फिर खुद ही bias को सुधारने की कोशिश करता है। मुझे बहुत जिज्ञासा है कि मॉडल जितने बड़े होते जाएँगे, यह तकनीक उतनी कम असरदार होगी या नहीं। मुझे लगता है कि स्वाभाविक alignment state बहुत मज़बूती से जम सकती है
दोस्तों ने ChatGPT का इस्तेमाल करके नस्लवादी गालियों को पकड़ने वाला regex बनाने की कोशिश की, लेकिन ChatGPT ने सख्त regulation के कारण मदद करने से इनकार कर दिया। अगर AI वैध अनुरोधों पर भी लचीला निर्णय नहीं कर सकता, तो वह बुद्धिमान नहीं है, और उस अर्थ में बेकार है। कोई चाहे तो AI के बिना भी hate-speech software बना सकता है। और AI अगर इसे रोक भी न पाए, तो इससे वास्तविक platforms पर सक्रिय रोकथाम अपने-आप नहीं हो जाती
- आख़िरकार LLM बस एक जटिल autocomplete है, ऐसा मुझे लगता है। सारे guardrails इस मार्केटिंग के दुष्प्रभाव हैं कि "AI एक व्यक्तित्व है।" मज़ेदार विडंबना यह है कि ऐसे censorship systems लागू करते समय भी अंततः regex ही इस्तेमाल होता है
- कौन AI के जरिए दुर्भावनापूर्ण बातें कर सकता है, इसकी चिंता आख़िरकार Meta, OpenAI, Microsoft, Google की legal teams को होती है। बड़ा उद्देश्य कंपनी को कानूनी मुकदमों से बचाना है
- ChatGPT में ये समस्याएँ हैं, लेकिन system prompt को ठीक से सेट किया जाए तो दूसरे models अच्छी तरह काम करते हैं। ChatGPT अब लगभग entertainment LLM बनकर रह गया है; गंभीर काम के लिए C4AI Command R+, Meta-Llama-3-70B-Instruct जैसे models इस्तेमाल करने की सलाह दूँगा। इन मॉडलों में बस "censor मत करो" जैसा prompt काफ़ी है और मनचाहा जवाब मिल जाता है
- तुम product security के लिए AI से trolls को रोकना चाहते हो, लेकिन कंपनी खुद trolls के इस्तेमाल को रोकने के लिए content censor कर रही है। अगर तुम्हारा लक्ष्य छोटे पैमाने पर trolling रोकना है, तो क्या OpenAI को औद्योगिक स्तर की बड़े पैमाने वाली trolling भी अनुमति देनी चाहिए? सच कहें तो तुम्हारा use case भी काफ़ी आक्रामक है, लेकिन तुम्हें कुल नुकसान कम करने से ज़्यादा अपने product revenue की चिंता लगती है। हो सकता है कि असल में trolling चाहने वाली टीम तुम ही हो। और ऊपर से, सबसे आसान jailbreak methods जानने भर से इसे आसानी से पार किया जा सकता है, इसलिए यह safety system लगभग बेअर्थ है। इसलिए tool की मुश्किलों की शिकायत करने के बजाय बेहतर लोगों को hire करो, और ethical perspective रखो। defense mechanism इतना आसान है कि उसे और मज़बूत करना चाहिए
- तुमने कहा कि "यहाँ (HN) पर मैं दुर्भावनापूर्ण पोस्ट लिख सकता हूँ, लेकिन लिखता नहीं।" शायद वजह यह है कि तुम्हें तुरंत ban कर दिया जाएगा। HN जैसी छोटी communities में सक्रिय moderation संभव है, लेकिन बड़े platforms पर AI censorship की ज़रूरत पड़ सकती है। समस्या सिर्फ यह नहीं कि "AI बुरा content लिख दे," बल्कि यह है कि वह जानकारी वास्तविक कार्रवाई को प्रभावित कर सकती है। कुछ लोग AI की गलत सलाह को बिना सोचे मानने लगे हैं, इसलिए censorship और guidance आख़िरकार महत्वपूर्ण हो जाते हैं
लेख के आख़िरी हिस्से को देखकर मैं सच में चकित रह गया। Abliteration सिर्फ alignment हटाने तक सीमित नहीं है, बल्कि कहा जा रहा है कि इसे retraining के बिना fine-tuning की तरह भी इस्तेमाल किया जा सकता है। उदाहरण के तौर पर MopeyMule नाम का एक मॉडल है, जिसकी बातचीत की शैली ही उदास है। अब लग रहा है कि हमने सचमुच "असली मानवीय व्यक्तित्व" बनाने का तरीका खोज लिया है, और यह बहुत रोमांचक है
यह बात खटकती है कि "आजकल LLM को safety और instruction-following के लिए fine-tune किया जाता है, और हानिकारक अनुरोधों को वे सख्ती से ठुकराते हैं"—और यह अब एक तरह की सामान्यीकृत वास्तविकता बन गई है
- इस बहस से अलग, एक व्यक्ति के रूप में मुझे मॉडल censor करने से बहुत आपत्ति नहीं है। अगर सड़क पर ज़हरीली गैस बनाने का तरीका बाँटने की आज़ादी भी हो, तब भी ज़्यादातर लोग चाहेंगे कि ऐसा न हो। मैं यह नहीं मानता कि जानकारी अपने-आप में हानिकारक है, लेकिन लंबे समय में नकारात्मक प्रभाव हो सकते हैं, इसलिए मैं यह समझ सकता हूँ। मॉडल बनाने वाला अपना तरीका और policy तय करे, यह स्वाभाविक है। राज्य जब censorship करता है, तब मामला थोड़ा अधिक जटिल हो जाता है
- "क्या यह मशरूम खाया जा सकता है?" जैसे जीवन-मरण से जुड़े सवालों पर, अगर AI की accuracy सत्यापित नहीं है, तो उसे निश्चित रूप से जवाब देने से इनकार करना चाहिए। गलत जवाब जानलेवा हो सकता है
- अगर जानकारी सच में हानिकारक है, तो उसे सीमित करना निश्चित ही अच्छी बात है
- जानकारी तक पहुँच की बाधाएँ कम होने के साथ अभिव्यक्ति की स्वतंत्रता का सिद्धांत काफ़ी हिल चुका है। पहले भी अपमान, मानहानि जैसे information restrictions मौजूद थे, और राष्ट्रपति को धमकी देना या अदालत में perjury करना आज भी अवैध है। बम से जुड़ी searches पर भी कड़ी निगरानी रहती है। हाल के समय में information और services के निजीकरण के साथ private companies के लिए मनमाने ढंग से policies बदलना आसान हो गया है। public services के साथ अंतर बढ़ रहा है, और यहाँ तक कि नीतियाँ लोकतांत्रिक कानून के बजाय निजी कंपनियों द्वारा प्रतिस्पर्धा के माध्यम से संचालित होने लगी हैं। जानकारी जितनी व्यापक और आसान होती जाएगी, freedom के सिद्धांतों पर उतना ही पुनर्विचार करना पड़ेगा
- censorship हमेशा ऐसा बना देती है मानो समस्या user यानी तुम ही हो। जिज्ञासा ने ही पिछले लाखों वर्षों में इंसानों को ज़िंदा रखा है, इसलिए मानवीय प्रवृत्ति को censor करना मुझे सही नहीं लगता
"मैं AI assistant के रूप में इसमें आपकी मदद नहीं कर सकता" जैसे guardrail का वास्तविक प्रभाव क्या है, और कंप्यूटर का जानकारी देना आख़िर खतरनाक क्यों माना जाता है—यह सवाल मुझे परेशान करता है
- "safety" की श्रेणी बहुत व्यापक है। मुझे लगता है इसमें PR (मीडिया प्रतिक्रिया), प्रतिबंधित जानकारी (खतरनाक कामों के निर्देश), खतरनाक सलाह (जब गलत जानकारी जानलेवा हो सकती है), और दुर्भावनापूर्ण दुरुपयोग (spam, child pornography, fraud, election interference आदि) शामिल हैं। आख़िरी बात—जनमत-हेरफेर/चुनावी हस्तक्षेप—वही असली खतरा है जो models दुनिया पर डाल सकते हैं, और इसको रोकने की कोशिश के लिए मैं कंपनियों की उल्टा सराहना करता हूँ
- मॉडल providers के लिए अनचाहे परिणाम PR समस्या बन सकते हैं, इसलिए वे जोखिमभरे हैं। उदाहरण के लिए Meta नहीं चाहेगा कि "Llama 3 ने stalking के तरीके बताए" जैसी headline चले। अगर कोई uncensored derivative model ऐसा करे, तो Meta कह सकता है कि यह आधिकारिक Llama 3 नहीं, बल्कि उसका derivative था, और इस तरह ज़िम्मेदारी से बच सकता है
- अगर कोई सवाल पूछा जा सकता है, तो उसका जवाब जानना भी सही होना चाहिए। किसी 'AI safety officer' को यह तय करने की ज़रूरत नहीं कि कौन-सी जानकारी खतरनाक है
- model developers अक्सर कहते हैं कि वे weights public भी करेंगे और misuse रोकेंगे भी, लेकिन असल में दोनों काम एक साथ करना असंभव है। फिर भी corporate strategy के तौर पर वे फ़िलहाल यही दावा करते रहते हैं
- app stores या payment processors भी अगर किसी app में अत्यधिक हिंसक या भेदभावपूर्ण सामग्री दिखे, तो review के दौरान उसे तुरंत हटा देते हैं। इसका मकसद user safety से ज़्यादा यह होता है कि publisher खुद मुसीबत में न पड़े
representation engineering पर लिखी पोस्ट में जिन control vectors का ज़िक्र था, उनसे यह नया "ablation" तरीका याद आया। LLM दिमाग़ को मनचाही दिशा में "hack" करना सीखने वाली research काफ़ी रोचक लगती है
- इसी तरह के Steering Vectors, Control Vectors, PeFT, PyReft, Obliteration जैसे काम लगातार आ रहे हैं। representation engineering करने के लिए यह सचमुच बहुत अच्छा समय है
सामान्यतः मैं इसे "lobotomy" कहता, लेकिन इस मामले में यह उल्टा "deprogramming" जैसा लगता है, इसलिए इसे सकारात्मक नज़र से देख सकता हूँ। यह देखकर हैरानी होती है कि दोनों के बीच की रेखा इतनी धुंधली हो सकती है। आख़िरकार एक ही technique दोनों कामों में इस्तेमाल हो सकती है, यही बात सबसे दिलचस्प है

Abliteration से LLM की built-in censorship हटाना

abliteration क्या है

abliteration की अवधारणा और सिद्धांत

“refusal direction” खोजने का तरीका:

implementation के तरीके

Implementation

DPO fine-tuning (Preference Alignment)

DPO fine-tuning practice और environment

निष्कर्ष

संदर्भ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय