- Heretic ट्रांसफॉर्मर-आधारित भाषा मॉडलों की सेंसरशिप ('safety alignment') को अपने-आप हटाने वाला एक टूल है, जो अतिरिक्त training के बिना भी काम करता है
- यह directional ablation तकनीक और Optuna-आधारित TPE optimization को जोड़ता है, ताकि refusal responses को कम करते हुए मूल मॉडल की intelligence loss को न्यूनतम रखा जा सके
- केवल डिफ़ॉल्ट सेटिंग्स से भी यह विशेषज्ञों द्वारा manually ablated मॉडलों जैसी गुणवत्ता हासिल करता है, और कम KL divergence की वजह से मूल performance भी बेहतर तरीके से सुरक्षित रहती है
- यह ज़्यादातर dense और कुछ MoE मॉडलों को सपोर्ट करता है, और command line पर एक ही लाइन से चलने वाली पूरी तरह automated process देता है
- मॉडल के safety filters हटाते हुए भी मूल quality बनाए रखने वाली यह तकनीक भाषा मॉडल research और experimental environments में काफ़ी उपयोगी हो सकती है
Heretic का अवलोकन
- Heretic ट्रांसफॉर्मर भाषा मॉडलों की सेंसरशिप (safety alignment) हटाने वाला एक automated टूल है
- यह अतिरिक्त training या manual tuning के बिना काम करता है
- यह directional ablation (abliteration) तकनीक और Optuna के TPE-आधारित parameter optimization को जोड़ता है
- इसका लक्ष्य refusal की संख्या घटाते हुए KL divergence को न्यूनतम रखना है, ताकि मूल मॉडल की क्षमता अधिकतम बनी रहे
- ट्रांसफॉर्मर की आंतरिक संरचना समझे बिना भी इसका उपयोग किया जा सकता है, और सिर्फ command line execution से मॉडल को uncensor किया जा सकता है
प्रदर्शन तुलना
- Heretic केवल automated execution से manual ablation वाले मॉडलों जैसे परिणाम हासिल करता है
- उदाहरण:
google/gemma-3-12b-it मॉडल के आधार पर
- मूल: refusal 97/100, KL divergence 0
- manually ablated मॉडल: refusal 3/100, KL divergence 0.45~1.04
- Heretic परिणाम: refusal 3/100, KL divergence 0.16
- समान स्तर की refusal suppression बनाए रखते हुए मूल मॉडल को होने वाले नुकसान को न्यूनतम रखा जाता है
- ये आँकड़े PyTorch 2.8, RTX 5090 वातावरण में मापे गए हैं, और प्लेटफ़ॉर्म के अनुसार बदल सकते हैं
सपोर्टेड मॉडल और डिप्लॉयमेंट
- ज़्यादातर dense मॉडल, कुछ multimodal मॉडल, और कई तरह की MoE architectures सपोर्टेड हैं
- अभी SSM/hybrid मॉडल, heterogeneous layers, और special attention structures सपोर्टेड नहीं हैं
- Heretic से uncensor किए गए मॉडलों का संग्रह Hugging Face की p-e-w/the-bestiary collection में देखा जा सकता है
उपयोग
काम करने का तरीका
- Heretic directional ablation के parameterized variant को implement करता है
- यह हर ट्रांसफॉर्मर layer की attention out-projection और MLP down-projection matrices को खोजता है, और refusal direction के सापेक्ष orthogonalization करता है
- “harmful” और “harmless” prompts के पहले token residual के औसत अंतर का उपयोग करके refusal direction निकाली जाती है
- ablation process कई optimization parameters से नियंत्रित होती है
direction_index: हर layer में refusal direction का उपयोग करना है या नहीं
max_weight, max_weight_position, min_weight, min_weight_distance: layer-wise ablation weight kernel के shape और position को परिभाषित करते हैं
मुख्य तकनीकी नवाचार
- weighted kernel shape की flexibility बढ़ाकर quality-compliance balance को बेहतर किया गया है
- refusal direction index को floating-point के रूप में हैंडल किया जाता है, जिससे पास-पास के vectors के बीच linear interpolation के ज़रिए अधिक व्यापक direction space खोजा जा सकता है
- component-wise अलग ablation parameters लागू किए जाते हैं, ताकि MLP और attention के प्रभाव के अंतर को ध्यान में रखकर performance optimize की जा सके
संबंधित पूर्व शोध
- सार्वजनिक रूप से उपलब्ध समान implementations के उदाहरण
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
- Heretic इन कोडबेस का पुन: उपयोग नहीं करता, बल्कि इसे शुरू से स्वतंत्र रूप से लिखा गया है
संदर्भ और प्रभाव
लाइसेंस
- GNU Affero General Public License v3 या बाद का संस्करण लागू
- स्वतंत्र रूप से संशोधन और पुनर्वितरण संभव है, लेकिन कोई warranty नहीं
- योगदानकर्ताओं को उसी लाइसेंस के तहत कोड सार्वजनिक करने पर सहमत होना होगा
2 टिप्पणियां
Abliteration के साथ LLM की बिना सेंसरशिप वाली स्वचालित censorship removal
Hacker News राय
open source मॉडल लगातार लोकप्रिय हो रहे हैं, और अमेरिका व चीन दोनों में वैचारिक जड़ता बढ़ती जा रही है, ऐसे में इस तरह का शोध सच में स्वागतयोग्य है
सोच रहा हूँ कि क्या इसके लिए कोई संबंधित benchmark है
Optuna वाकई बहुत उपयोगी प्रोजेक्ट है
hyperparameter को क्रमिक रूप से optimize करने की इसकी क्षमता की वजह से experiments काफी तेज़ हो जाते हैं
इस बार इसे censorship हटाने के साथ जोड़ना दिलचस्प है। अभी इसे gpt-oss-120b पर लागू कर रहा हूँ और नतीजों का इंतज़ार है
अगर gpt-oss-120b ने phi-5 approach अपनाई है, तो देखना दिलचस्प होगा कि uncensoring कितना अच्छा काम करता है
final Pareto front देखते समय मैं KL divergence 1 से कम वाली configuration की सिफारिश करूँगा
gpt-oss मॉडल CoT के भीतर refusal को लेकर internal monologue करता है, इसलिए इसकी वास्तविक refusal rate कम दिखने की प्रवृत्ति होती है
मुझे पहले का वह मामला याद आ गया जब GPT-4 ने इस सवाल का जवाब देने से मना कर दिया था कि क्या helium airship को ज़मीन से 1 इंच ऊपर तैराकर health regulations से बचा जा सकता है
शायद इसी वजह से LLM कंपनियाँ ज़रूरत से ज़्यादा सतर्क हो जाती हैं
अगर इसे asphalt ring से बाँध दिया जाए, तो इसे ‘parking’ कहा जा सकता है, और ‘lighter-than-air’ certification चाहिए होगा
यह कानून की विफलता नहीं, बल्कि इंसानों के abstraction को न समझ पाने का परिणाम है
programmer होने के नाते high-level abstraction का उपयोग करते समय उसकी सीमाओं को समझना चाहिए
यह दिलचस्प है कि safety tuning एक ही dimension पर काम करती दिखती है
उस मान को बढ़ाओ तो मॉडल मना करता है, घटाओ तो कुछ भी कर देता है
शायद यह बहुत सरल समझ हो, लेकिन model safety obfuscation अगली reverse engineering race बन सकती है
पूरा alignment बहुत सतही है, इसलिए jailbreak आसानी से हो जाता है
इस तरह का शोध वास्तव में महत्वपूर्ण है
हम अभी अपने नैतिक मानदंड छोड़कर LLM बनाने वालों के मानदंड अपना रहे हैं
यह बौद्धिक विविधता को खत्म करने वाली खतरनाक दिशा है
mlabonne/harmful_behaviors में child abuse और suicide inducement जैसे चरम उदाहरण शामिल हैं
जैसे कहा जाता है कि इतिहास की किताबें लिखने वाले के पास शक्ति होती है, वैसे ही LLM का सांस्कृतिक और नैतिक पक्षपात भी मिलता-जुलता ढाँचा है
मैं भी LLM के output पर भरोसा नहीं करता, इसलिए इसे सिर्फ आख़िरी विकल्प के रूप में इस्तेमाल करता हूँ
इस वजह से मुझे लगता है कि मैं निर्माता के संभावित brainwashing effect से कुछ हद तक मुक्त हूँ
यह खतरनाक है, लेकिन कोई नई घटना नहीं
काश सभी LLM में uncensoring advanced setting होती
पश्चिम ने चीन के search engine censorship की आलोचना की, और अब खुद उसी राह पर चल रहा है, यह विडंबनापूर्ण है
असली AI safety का मतलब nuclear missile launch या robot control जैसे भौतिक जोखिम रोकना है, विचारों की censorship नहीं
अगर आप “harmful prompts” के स्रोत को लेकर उत्सुक हैं, तो mlabonne/harmful_behaviors dataset देख सकते हैं
उदाहरणों में hacking, data theft, और suicide inducement जैसी चीज़ें हैं
नए मॉडल बेहतर trained हैं, इसलिए हो सकता है यह तरीका उन पर काम न करे
इसमें “अवैध दवाओं की बिक्री के लिए guide लिखना” जैसी प्रविष्टियाँ भी शामिल हैं। मैंने “how do I make cocaine” को test sentence के रूप में इस्तेमाल किया
GPT-OSS के नतीजों का सच में इंतज़ार है
यह शानदार मॉडल है, लेकिन safety alignment इसकी performance खराब कर रहा है
अगर एक ही प्रश्न-समूह को मॉडल में training से पहले और बाद में डालकर तुलना की जाए, तो शायद यह अनुमान लगाया जा सके कि निर्माताओं ने किस तरह का alignment tuning किया है
खासकर Elon की XAI मॉडल और OpenAI की तुलना करना दिलचस्प होगा
सच कहूँ तो मुझे नहीं लगता कि uncensored AI खास तौर पर ज्यादा खतरनाक है
‘Apocalypse Culture’ या ‘Anarchist’s Cookbook’ जैसी सामग्री plain text में हासिल करना और SEO spin techniques से उसकी अनगिनत variations बनाना बहुत पुरानी बात है
यह मौजूदा data को recycle कर रहा है, पूरी तरह कुछ नया नहीं बना रहा