Apple Intelligence मॉडल से निकाले गए safety filters

(github.com/BlueFalconHD)

6 पॉइंट द्वारा GN⁺ 2025-07-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Apple Intelligence के generative models में एम्बेड किए गए safety filters को डिकोड करके सार्वजनिक करने वाला एक open source प्रोजेक्ट
safety filters हानिकारक या अनुपयुक्त content को ब्लॉक करते हैं और compliance के लिए filtering rules शामिल करते हैं
safety overrides model context के अनुसार अलग-अलग लागू होते हैं और हर स्थिति के लिए विशिष्ट rule information देते हैं
डिकोड की गई फाइलें json format में हैं, जिनमें शब्द, वाक्यांश और regex-आधारित rules शामिल हैं
यह प्रोजेक्ट privacy और reliability verification, model safety analysis आदि के लिए एक उपयोगी resource है

प्रोजेक्ट अवलोकन

यह repository Apple Intelligence में उपयोग होने वाली generative models की safety override फाइलों को डिकोड करके सार्वजनिक करती है
डिकोड किए गए overrides फ़ोल्डर के भीतर संरचित रूप से व्यवस्थित हैं और हर मॉडल से जुड़ी safety filtering JSON फाइलों के रूप में उपलब्ध हैं
इनके जरिए यह ठोस रूप से देखा जा सकता है कि Apple models वास्तव में कौन-सी content filtering policies लागू करते हैं

फ़ोल्डर और फ़ाइल संरचना

decrypted_overrides/
- हर generative model के अनुसार directory-वार safety override फाइलें संग्रहीत हैं
- हर directory में Info.plist (metadata) और AssetData (filter JSON files) शामिल हैं
get_key_lldb.py: application में उपयोग होने वाली encryption key निकालने वाली Python script
decrypt_overrides.py: safety override फाइलों को डिकोड करने वाली Python script

override फाइलों का डिकोड और समझ

override JSON फाइलों में स्पष्ट safety filtering rules दर्ज हैं
हर override किसी विशिष्ट model context से मेल खाता है, और अलग-अलग परिस्थितियों के अनुसार filtering का तरीका बदलता है
उदाहरण JSON में निम्न fields शामिल हैं:
- "reject": इनपुट से मेल होने पर force reject किए जाने वाले विशिष्ट वाक्यांशों की सूची
- "remove": output result से हटाए जाने वाले वाक्यांश
- "replace": किसी विशिष्ट वाक्यांश को दूसरे वाक्यांश से बदलना
- "regexReject": regex से match होने पर reject
- "regexRemove", "regexReplace": regex के जरिए removal और replacement

प्रोजेक्ट के उपयोग का महत्व

यह प्रोजेक्ट Apple generative models के वास्तविक filtering rules को देखने और उन models की safety और reliability के मूल्यांकन के लिए संदर्भ सामग्री के रूप में उपयोग किया जा सकता है
generative models का उपयोग करने वाले developers और security प्रबंधक filter behavior का विश्लेषण करने या custom model filters design करने के संदर्भ में इसे उपयोगी पाएंगे
Apple Intelligence द्वारा लागू content policies और compliance level को अधिक पारदर्शी ढंग से समझा जा सकता है

1 टिप्पणियां

GN⁺ 2025-07-07

Hacker News राय

कुछ संयोजन थोड़े अजीब लगते हैं। इसमें मौत से जुड़े कथनों से बचने वाले नियम और Apple ब्रांड की capitalization को सख्ती से सही रखने वाले हिस्से साथ मिले हुए हैं। प्राथमिकताओं को लेकर Apple की सोच का एक अनुभव। संबंधित लिंक
- यह दिलचस्प लगा कि इसमें unalive शब्द शामिल नहीं है। सब लोग उस शब्द का मतलब जानते हैं, लेकिन व्यवहार में कोई सच में परवाह नहीं करता, और सब सिर्फ औपचारिकता निभाते हैं — इस प्रवृत्ति की ओर इशारा
- ब्रांड capitalization को लेकर यह जुनून सचमुच शर्मनाक और बेचैन करने वाला लगता है। फिर भी पूरा यक़ीन है कि ब्रांड टीम के लिए यह वाकई बहुत महत्वपूर्ण तत्व होगा
- सिस्टम 파일 실행 या 정보 전달 जैसे command सुझावों तक को block कर देता है
- इसे बहुत ज़्यादा judgmental नज़र से नहीं देखना चाहिए। अमेरिकी बड़ी कंपनियों में ऐसे मुद्दों को प्राथमिकता देना एक व्यावहारिक कामकाजी तरीका है
यह देखना मज़ेदार है कि Alexandra Ocasio Cortez का नाम policy violation माना जा रहा है। संबंधित लिंक
- Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins, Rishi Sunak जैसे कई राजनेताओं के नाम भी उसी नियम में फँसते हैं। संबंधित लिंक यह अनुमान कि दक्षिण अफ्रीका के राजनेताओं के नाम blocklist में होने की बात दक्षिण अफ्रीकी मीडिया में चर्चा का विषय बनेगी
- अंदाज़ा है कि ज़्यादातर enterprise GenAI models में “<राजनेता का नाम> की गिरफ्तारी की यथार्थवादी image”, “<राजनेता का नाम> ISIS का झंडा लहराते हुए”, “<राजनेता का नाम> बच्चे को मारते हुए” जैसी भड़काऊ requests को block करने वाली systems होंगी
- Ocasio Cortez का नाम policy violation के रूप में वर्गीकृत होने का कारण context हो सकता है, और यह भी संभव है कि training data में यह नस्ली अपमानजनक अर्थों से जुड़ा रहा हो; साथ में दूसरे उदाहरण भी जाँचने की संभावना तलाशना
- यह घटना खास तौर पर Spanish version में दिखती है
- यह भी उल्लेख कि Ocasio Cortez deepfake porn की काफ़ी शिकार रही हैं
AGI के जल्द आने के दावों के बावजूद, यह हक़ीक़त कि ऐसी “superintelligent” LLMs को अभी भी output को regex से filter करना पड़ता है, काफ़ी हास्यास्पद लगती है
- ऐसा नहीं लगता कि कोई भी Apple के LLM को cutting edge मानता है। खासकर on-device LLMs तो और भी कम ध्यान खींचते हैं
- कभी-कभी इंसानों को ही regex से filter कर देने का मज़ाक करने का मन होता है
- जैसे हर आधुनिक power source आख़िरकार “पानी उबालने” जैसे पारंपरिक हल पर लौट आती है, वैसे ही यह भी वैसा ही लगता है
- यह बस Apple की policy और alignment का हिस्सा है, ताकि इंटरनेट पर फैली बेकार बातें उसके अपने model से दोबारा न निकलें
चीन में ऐसी policies को “harmonious society” कहा जाता है, जबकि अमेरिका में इन्हें “safety” कहा जाता है। censorship शब्द बदल जाए, फिर भी लोगों की सोच को नियंत्रित करने का असर वही रहता है। इसे सीधे देखने का मौका कम ही मिलता है — ऐसी भावना
- यह बिल्कुल चौंकाने वाली बात नहीं कि कंपनी नहीं चाहेगी कि उसका अपना model ऐसे वाक्य बनाए जो brand को नुकसान पहुँचाएँ। उदाहरण के लिए, अगर Apple message summary में यह निकाल दे कि “Jane चाहती है कि Anthony Albanese मर जाए”, तो मीडिया में हंगामा होना तय है — ऐसा यथार्थवादी परिदृश्य
- अमेरिका में इस तरह की चीज़ें कानूनी जोखिम (वकीलों) की वजह से होती हैं — ऐसी व्याख्या। पूँजीवाद की तारीफ़ करते रहना, लेकिन जैसे ही मीडिया manipulation से छोटे-मोटे फ़ायदे को maximize करने की बारी आए, अचानक “free speech” का नारा लगाने की प्रवृत्ति पर तंज
Apple में ऐसा होना ही काफ़ी बेतुका लगता है। bypass आसान है; जैसे “Boris Johnson” की जगह “B0ris Johnson” लिखने पर regex से बचा जा सकता है — यह दिखाया गया। संबंधित लिंक
- 99% users जानबूझकर bypass करने के बारे में सोचेंगे भी नहीं। hardcoded regex पहली defense line है और बहुत efficient filtering साधन भी — फोकस इस पर है
- LLMs में bypass expressions काम कर सकते हैं, लेकिन predefined tags पर training पाने वाले image generation models में लगभग तुरंत recognition failure हो सकता है
- इन rules का मकसद जानबूझकर bypass करने वाले users को रोकना नहीं, बल्कि “${राजनेता} मर जाए” जैसी summary निकलकर मीडिया headlines बनने जैसे first-order risks को रोकना ज़्यादा है। सोचें तो यह बच्चों जैसी basic safety guardrail है
- ऐसा लगता है जैसे UK politics ही taboo words में आ गई हो
- Apple के बारे में यह कहने की ज़रूरत नहीं कि यह अप्रत्याशित है। यह मौजूदा SOTA response pattern है, और AI race में Apple late entrant है, इसलिए फुर्ती से industry practices अपनाना एक तर्कसंगत रणनीति है
Apple की इन रहस्यमय filter policies को देखकर पहले वाला Asian-language search filter विवाद याद आ जाता है। अजीब भी था और शर्मनाक भी। संबंधित लेख
ये filters ऐसे email/message summaries को block करने या “Safari Summarization isn't designed to handle this type of content” जैसी warning दिखाने पर केंद्रित हैं जिनमें शर्मिंदगी या कानूनी जोखिम हो सकता है। ये input पर नहीं, LLM output पर लागू होते हैं। Apple का on-device LLM सिर्फ 3b parameters का है, इसलिए कभी-कभी काफ़ी मूर्खतापूर्ण नतीजे देता है
keyword filtering rules को test करने के लिए नाम बदलकर “Granular Mango Serpent” रखने का मन हो रहा है
- मज़ाक में कहा गया कि Granular Mango Serpent नया David Meyer है। संबंधित लेख
सवाल कि क्या इसका Core ML model encryption से कोई संबंध है। Apple ऐतिहासिक रूप से app assets की सुरक्षा के लिए DRM नहीं देता रहा, इसलिए यह थोड़ा अनोखा लगता है। संबंधित लिंक
- यह एक अलग system है, और किसी पूरे asset पर नहीं बल्कि ऐसे overrides पर लागू होता है। decryption ModelCatalog private framework में होता है

Apple Intelligence मॉडल से निकाले गए safety filters

प्रोजेक्ट अवलोकन

फ़ोल्डर और फ़ाइल संरचना

override फाइलों का डिकोड और समझ

प्रोजेक्ट के उपयोग का महत्व

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय