Heretic - भाषा मॉडलों के लिए "ऑटोमेटेड अनसेंसोरिंग" टूल

(github.com/p-e-w)

8 पॉइंट द्वारा GN⁺ 2025-11-17 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Heretic ट्रांसफॉर्मर-आधारित भाषा मॉडलों की सेंसरशिप ('safety alignment') को अपने-आप हटाने वाला एक टूल है, जो अतिरिक्त training के बिना भी काम करता है
यह directional ablation तकनीक और Optuna-आधारित TPE optimization को जोड़ता है, ताकि refusal responses को कम करते हुए मूल मॉडल की intelligence loss को न्यूनतम रखा जा सके
केवल डिफ़ॉल्ट सेटिंग्स से भी यह विशेषज्ञों द्वारा manually ablated मॉडलों जैसी गुणवत्ता हासिल करता है, और कम KL divergence की वजह से मूल performance भी बेहतर तरीके से सुरक्षित रहती है
यह ज़्यादातर dense और कुछ MoE मॉडलों को सपोर्ट करता है, और command line पर एक ही लाइन से चलने वाली पूरी तरह automated process देता है
मॉडल के safety filters हटाते हुए भी मूल quality बनाए रखने वाली यह तकनीक भाषा मॉडल research और experimental environments में काफ़ी उपयोगी हो सकती है

Heretic का अवलोकन

Heretic ट्रांसफॉर्मर भाषा मॉडलों की सेंसरशिप (safety alignment) हटाने वाला एक automated टूल है
- यह अतिरिक्त training या manual tuning के बिना काम करता है
- यह directional ablation (abliteration) तकनीक और Optuna के TPE-आधारित parameter optimization को जोड़ता है
इसका लक्ष्य refusal की संख्या घटाते हुए KL divergence को न्यूनतम रखना है, ताकि मूल मॉडल की क्षमता अधिकतम बनी रहे
ट्रांसफॉर्मर की आंतरिक संरचना समझे बिना भी इसका उपयोग किया जा सकता है, और सिर्फ command line execution से मॉडल को uncensor किया जा सकता है

प्रदर्शन तुलना

Heretic केवल automated execution से manual ablation वाले मॉडलों जैसे परिणाम हासिल करता है
- उदाहरण: google/gemma-3-12b-it मॉडल के आधार पर
  - मूल: refusal 97/100, KL divergence 0
  - manually ablated मॉडल: refusal 3/100, KL divergence 0.45~1.04
  - Heretic परिणाम: refusal 3/100, KL divergence 0.16
समान स्तर की refusal suppression बनाए रखते हुए मूल मॉडल को होने वाले नुकसान को न्यूनतम रखा जाता है
ये आँकड़े PyTorch 2.8, RTX 5090 वातावरण में मापे गए हैं, और प्लेटफ़ॉर्म के अनुसार बदल सकते हैं

सपोर्टेड मॉडल और डिप्लॉयमेंट

ज़्यादातर dense मॉडल, कुछ multimodal मॉडल, और कई तरह की MoE architectures सपोर्टेड हैं
अभी SSM/hybrid मॉडल, heterogeneous layers, और special attention structures सपोर्टेड नहीं हैं
Heretic से uncensor किए गए मॉडलों का संग्रह Hugging Face की p-e-w/the-bestiary collection में देखा जा सकता है

उपयोग

Python 3.10+ और PyTorch 2.2+ वातावरण चाहिए
installation और execution उदाहरण
```
pip install heretic-llm  
heretic Qwen/Qwen3-4B-Instruct-2507  
```
- केवल मॉडल नाम बदलकर इसे दूसरे मॉडलों पर भी लागू किया जा सकता है
डिफ़ॉल्ट सेटिंग्स में यह पूरी तरह अपने-आप चलता है, और --help या config.default.toml के ज़रिए विस्तृत सेटिंग्स बदली जा सकती हैं
execution के समय system benchmark के आधार पर optimal batch size अपने-आप तय होती है
- उदाहरण: RTX 3090 पर Llama-3.1-8B मॉडल को uncensor करने में लगभग 45 मिनट लगते हैं
पूरा होने के बाद मॉडल सेव करना, Hugging Face पर upload करना, और conversation testing जैसे विकल्प चुने जा सकते हैं

काम करने का तरीका

Heretic directional ablation के parameterized variant को implement करता है
- यह हर ट्रांसफॉर्मर layer की attention out-projection और MLP down-projection matrices को खोजता है, और refusal direction के सापेक्ष orthogonalization करता है
- “harmful” और “harmless” prompts के पहले token residual के औसत अंतर का उपयोग करके refusal direction निकाली जाती है
ablation process कई optimization parameters से नियंत्रित होती है
- direction_index: हर layer में refusal direction का उपयोग करना है या नहीं
- max_weight, max_weight_position, min_weight, min_weight_distance: layer-wise ablation weight kernel के shape और position को परिभाषित करते हैं

मुख्य तकनीकी नवाचार

weighted kernel shape की flexibility बढ़ाकर quality-compliance balance को बेहतर किया गया है
refusal direction index को floating-point के रूप में हैंडल किया जाता है, जिससे पास-पास के vectors के बीच linear interpolation के ज़रिए अधिक व्यापक direction space खोजा जा सकता है
component-wise अलग ablation parameters लागू किए जाते हैं, ताकि MLP और attention के प्रभाव के अंतर को ध्यान में रखकर performance optimize की जा सके

संदर्भ और प्रभाव

Arditi et al. (2024) का मूल पेपर
Maxime Labonne का abliteration पर ब्लॉग और मॉडल कार्ड
Jim Lai का “projected abliteration” समझाने वाला लेख

लाइसेंस

GNU Affero General Public License v3 या बाद का संस्करण लागू
स्वतंत्र रूप से संशोधन और पुनर्वितरण संभव है, लेकिन कोई warranty नहीं
योगदानकर्ताओं को उसी लाइसेंस के तहत कोड सार्वजनिक करने पर सहमत होना होगा

2 टिप्पणियां

xguru 2025-11-17

Abliteration के साथ LLM की बिना सेंसरशिप वाली स्वचालित censorship removal

GN⁺ 2025-11-17

Hacker News राय

open source मॉडल लगातार लोकप्रिय हो रहे हैं, और अमेरिका व चीन दोनों में वैचारिक जड़ता बढ़ती जा रही है, ऐसे में इस तरह का शोध सच में स्वागतयोग्य है
सोच रहा हूँ कि क्या इसके लिए कोई संबंधित benchmark है
Optuna वाकई बहुत उपयोगी प्रोजेक्ट है
hyperparameter को क्रमिक रूप से optimize करने की इसकी क्षमता की वजह से experiments काफी तेज़ हो जाते हैं
इस बार इसे censorship हटाने के साथ जोड़ना दिलचस्प है। अभी इसे gpt-oss-120b पर लागू कर रहा हूँ और नतीजों का इंतज़ार है
- मैंने भी Optuna को prompt optimization framework के साथ इस्तेमाल किया है, और manual tuning की तुलना में कहीं बेहतर परिणाम मिले
  अगर gpt-oss-120b ने phi-5 approach अपनाई है, तो देखना दिलचस्प होगा कि uncensoring कितना अच्छा काम करता है
- नतीजों, specs और runtime के बारे में भी जानना चाहूँगा
- अगर 120b मॉडल पर कोई समस्या आती है तो ज़रूर बताना
  final Pareto front देखते समय मैं KL divergence 1 से कम वाली configuration की सिफारिश करूँगा
  gpt-oss मॉडल CoT के भीतर refusal को लेकर internal monologue करता है, इसलिए इसकी वास्तविक refusal rate कम दिखने की प्रवृत्ति होती है
मुझे पहले का वह मामला याद आ गया जब GPT-4 ने इस सवाल का जवाब देने से मना कर दिया था कि क्या helium airship को ज़मीन से 1 इंच ऊपर तैराकर health regulations से बचा जा सकता है
- इस समस्या का दूसरा पहलू यह है कि जब भी कोई crime या accident होता है, media हमलावर के ChatGPT usage history से उसे जोड़ने की कोशिश करता है
  शायद इसी वजह से LLM कंपनियाँ ज़रूरत से ज़्यादा सतर्क हो जाती हैं
- मैंने भी GPT-4 से पूछा था कि समुद्र को मीठा बनाने के लिए कितना aspartame चाहिए होगा, तो उसने ecosystem को नुकसान बताकर जवाब देने से इनकार कर दिया
- तकनीकी रूप से देखें तो यह अब भी airspace के भीतर ही है, इसलिए शायद यह और बड़ी समस्या हो
  अगर इसे asphalt ring से बाँध दिया जाए, तो इसे ‘parking’ कहा जा सकता है, और ‘lighter-than-air’ certification चाहिए होगा
- FAA को रिपोर्ट करने के बाद traffic light पर उतरने के कारण जुर्माना खाने वाले quadcopter skateboard निर्माता की बात भी याद आती है
- कानून की भावना भले उपयोगी हो, उसका दुरुपयोग हो सकता है
  यह कानून की विफलता नहीं, बल्कि इंसानों के abstraction को न समझ पाने का परिणाम है
  programmer होने के नाते high-level abstraction का उपयोग करते समय उसकी सीमाओं को समझना चाहिए
यह दिलचस्प है कि safety tuning एक ही dimension पर काम करती दिखती है
उस मान को बढ़ाओ तो मॉडल मना करता है, घटाओ तो कुछ भी कर देता है
शायद यह बहुत सरल समझ हो, लेकिन model safety obfuscation अगली reverse engineering race बन सकती है
- संबंधित पेपर Refusal in Language Models Is Mediated by a Single Direction (2024) देखें
  पूरा alignment बहुत सतही है, इसलिए jailbreak आसानी से हो जाता है
इस तरह का शोध वास्तव में महत्वपूर्ण है
हम अभी अपने नैतिक मानदंड छोड़कर LLM बनाने वालों के मानदंड अपना रहे हैं
यह बौद्धिक विविधता को खत्म करने वाली खतरनाक दिशा है
- मैंने dataset खुद देखा है, और इस राय से सहमत होना मुश्किल है
  mlabonne/harmful_behaviors में child abuse और suicide inducement जैसे चरम उदाहरण शामिल हैं
- यह प्रवृत्ति आखिरकार लोगों के critical thinking छोड़ देने का परिणाम है
  जैसे कहा जाता है कि इतिहास की किताबें लिखने वाले के पास शक्ति होती है, वैसे ही LLM का सांस्कृतिक और नैतिक पक्षपात भी मिलता-जुलता ढाँचा है
  मैं भी LLM के output पर भरोसा नहीं करता, इसलिए इसे सिर्फ आख़िरी विकल्प के रूप में इस्तेमाल करता हूँ
  इस वजह से मुझे लगता है कि मैं निर्माता के संभावित brainwashing effect से कुछ हद तक मुक्त हूँ
- जो लोग AI का बिना आलोचना के पालन करते हैं, वे शायद karismatic politician के पीछे भी उसी तरह चल पड़ेंगे
  यह खतरनाक है, लेकिन कोई नई घटना नहीं
- मैं भी इस तरह की कोशिश के पक्ष में हूँ
  काश सभी LLM में uncensoring advanced setting होती
  पश्चिम ने चीन के search engine censorship की आलोचना की, और अब खुद उसी राह पर चल रहा है, यह विडंबनापूर्ण है
  असली AI safety का मतलब nuclear missile launch या robot control जैसे भौतिक जोखिम रोकना है, विचारों की censorship नहीं
- यह बात तो 2024 से ही जानी हुई है
अगर आप “harmful prompts” के स्रोत को लेकर उत्सुक हैं, तो mlabonne/harmful_behaviors dataset देख सकते हैं
उदाहरणों में hacking, data theft, और suicide inducement जैसी चीज़ें हैं
- विडंबना यह है कि चूँकि यही data ‘harmful’ होने का मानक बनता है, इसलिए उल्टा refusal relaxation (jailbreak) के ज़रिए पूरी uncensoring भी संभव हो सकती है
  नए मॉडल बेहतर trained हैं, इसलिए हो सकता है यह तरीका उन पर काम न करे
- मैंने mradermacher के GGUF 20b heretic मॉडल पर टेस्ट किया; Q4_K_M में यह असफल रहा, लेकिन Q8_0 में tutorial बन गया
- जिस prompt का आपने ज़िक्र किया, वह अपेक्षाकृत हल्का है। उससे कहीं अधिक गंभीर सामग्री भी है → संबंधित टिप्पणी देखें
- dataset पर license नहीं है, यह परिणामस्वरूप बने मॉडल पर क्या असर डालेगा, यह जानना रोचक होगा
- पूरी सामग्री बहुत लंबी नहीं है। pastebin लिंक देखें
  इसमें “अवैध दवाओं की बिक्री के लिए guide लिखना” जैसी प्रविष्टियाँ भी शामिल हैं। मैंने “how do I make cocaine” को test sentence के रूप में इस्तेमाल किया
GPT-OSS के नतीजों का सच में इंतज़ार है
यह शानदार मॉडल है, लेकिन safety alignment इसकी performance खराब कर रहा है
- GPT-OSS के लिए यह Reddit prompt प्रभावी रहा
अगर एक ही प्रश्न-समूह को मॉडल में training से पहले और बाद में डालकर तुलना की जाए, तो शायद यह अनुमान लगाया जा सके कि निर्माताओं ने किस तरह का alignment tuning किया है
खासकर Elon की XAI मॉडल और OpenAI की तुलना करना दिलचस्प होगा
सच कहूँ तो मुझे नहीं लगता कि uncensored AI खास तौर पर ज्यादा खतरनाक है
‘Apocalypse Culture’ या ‘Anarchist’s Cookbook’ जैसी सामग्री plain text में हासिल करना और SEO spin techniques से उसकी अनगिनत variations बनाना बहुत पुरानी बात है
- इस बार “AI कुछ नया नहीं ला रहा” वाली बात सच में सही लगती है
  यह मौजूदा data को recycle कर रहा है, पूरी तरह कुछ नया नहीं बना रहा

Heretic - भाषा मॉडलों के लिए "ऑटोमेटेड अनसेंसोरिंग" टूल

Heretic का अवलोकन

प्रदर्शन तुलना

सपोर्टेड मॉडल और डिप्लॉयमेंट

उपयोग

काम करने का तरीका

मुख्य तकनीकी नवाचार

संबंधित पूर्व शोध

संदर्भ और प्रभाव

लाइसेंस

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News राय