OpenAI के GPT-OSS से OpenAI के training data के रहस्य उजागर

(fi-le.net)

4 पॉइंट द्वारा GN⁺ 2025-10-06 | 2 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI ने हाल ही में सार्वजनिक किए गए open weight model के ज़रिए training data के रहस्यों तक आंशिक पहुँच संभव बना दी है
GPT-5 analysis के दौरान adult site के वाक्यांश training data में शामिल होने के सबूत मिले
कुछ glitch token का विश्लेषण करके GPT सीरीज़ मॉडल के training data की विशेषताओं का अनुमान लगाया जा सकता है
Github आदि से एकत्र किया गया spam/अनुचित content भी कुछ token में परिलक्षित है
open weight के सार्वजनिक होने से training data inference और attack vector के विस्तार का कारण बन सकता है

अवलोकन

OpenAI द्वारा हाल ही में GPT-oss के weights सार्वजनिक किए जाने के बाद, training data में वास्तव में क्या था इसका आंशिक अनुमान लगाना संभव हो गया है
आधिकारिक रूप से इसे केवल "STEM, coding, सामान्य ज्ञान पर केंद्रित खरबों tokens वाला text dataset" कहा गया है, लेकिन वास्तविक data source का विस्तृत खुलासा नहीं किया गया
लेकिन सार्वजनिक model parameters के structural analysis से अप्रत्यक्ष जानकारी प्राप्त की जा सकती है

प्रयोग और glitch token की पुष्टि

जब GPT-5(GPT-5-2025-08-07) मॉडल से Abkhaz शब्द जैसे असामान्य Unicode input को बार-बार दोहराने को कहा गया, तो उसने अजीब तरह से Malayalam शब्दों में उत्तर दिया
प्रयोगों से पता चला कि यह input यादृच्छिक नहीं था, बल्कि model vulnerability को उकसाने वाला glitch token था
GPT-5 और हाल के OpenAI models o200k tokenizer का उपयोग करते हैं, और हर token embedding के L2 Norm distribution का विश्लेषण करने पर
- बहुत कम L2 Norm वाले लगभग 936 token वे थे जो training में लगभग कभी नहीं आए, या special token थे, या कुछ Unicode bytes थे
- इसके विपरीत, उच्च L2 Norm वाले token अधिकतर English code, explanations और reasoning में अक्सर उपयोग होने वाले शब्द थे

high-norm non-ASCII token की पहचान

उच्च L2 Norm वाले कई non-ASCII token Chinese, Abkhaz, Armenian, Thai और भारत की क्षेत्रीय भाषाओं से बने पाए गए
खासकर कई Chinese token adult sites, gambling sites, और political site names (उदा.: .tieba, 凤凰大参考 आदि) से मेल खाते हैं
यह इंगित किया गया कि GPT सीरीज़ models के tokenizer में ऐसे शब्द overrepresented हैं
कुछ token विशेष क्षेत्रीय शहरों के नाम, फुटबॉल-संबंधी वाक्यांश आदि से जुड़े थे, जो इंटरनेट पर spam या automated data collection के माध्यम से आए लगते हैं

glitch token का उपयोग

GPT-5 और GPT-oss सीरीज़ models में glitch token डालकर यह आंका गया कि model उन token के अर्थ/भाषा को पहचानता है या नहीं
वास्तविक input experiments में कुछ sensitive token के लिए model द्वारा अर्थ समझने या उत्तर उत्पन्न करने की घटना देखी गई
यह membership inference का एक रूप है, जो इस बात का समर्थन करता है कि संबंधित token training data में शामिल था
इस तरीके से यह मोटे तौर पर अनुमान लगाया जा सकता है कि कौन-सा data model training में इस्तेमाल हुआ

training data source analysis और निहितार्थ

चूँकि glitch token अक्सर Github पर आमतौर पर खोजे जाते हैं, इसलिए यह संभावना भी उठी कि training data का कुछ हिस्सा Github से एकत्र किया गया हो
- token-वार Github search results और model recognition rate के बीच correlation मौजूद है (Spearman ρ=0.448)
लेकिन open weight models का वितरण केवल असामान्य training data inference ही नहीं, बल्कि security attack vectors के विस्तार में भी योगदान देता है
Frontier AI labs को असामान्य/दुर्लभ strings को tokenizer में पंजीकृत होने से रोकने जैसी अतिरिक्त सुरक्षा उपायों की आवश्यकता है

परिशिष्ट: glitch token research का विस्तार

glitch token का उपयोग model identification (किसी विशेष API/service में कौन-सा model उपयोग हो रहा है इसका अनुमान) जैसे कई उद्देश्यों के लिए किया जा सकता है
यह training frequency, sample efficiency, embedding और शुरुआती layers के माध्यम से अतिरिक्त distribution analysis जैसे गहरे research topics तक विस्तृत हो रहा है
GPT-4o सीरीज़ में glitch token के कारण अनंत दोहराव output उत्पन्न होने और denial-of-service(DoS) attack में उपयोग होने के जोखिम का भी उल्लेख है
विस्तृत उदाहरण और तालिकाओं के लिए साथ दिए गए Github repository को देखें

संदर्भ और निष्कर्ष

प्रतिनिधि empirical research के रूप में MIT Technology Review और Chinese tech blogs आदि का संदर्भ दिया गया है
अंततः, open weight models का वितरण model में निहित training data के विस्तृत विवरण का अनुमान लगाने का एक नया तरीका प्रदान करता है, और data security व privacy के दृष्टिकोण से इसके बड़े निहितार्थ हैं
model developers को यह सुनिश्चित करने के लिए सक्रिय blocking strategies अपनानी चाहिए कि sensitive/असामान्य data tokenizer और training data में शामिल न हो

2 टिप्पणियां

aer0700 2025-10-07

विज्ञान के नज़रिये से अगर मंशा AI को दुनिया के बारे में सामान्य ज्ञान सिखाने की है, तो शायद adult sites को ज़रूरी तौर पर फ़िल्टर करने की आवश्यकता नहीं होगी।
लेकिन product बनाने के नज़रिये से, यानी ग्राहकों को एक भरोसेमंद chatbot देना है, तो घटिया communities या adult sites को फ़िल्टर करना सही होगा।
जिज्ञासा है कि OpenAI के PM ने आखिर किस आधार पर यह फ़ैसला लिया था और इसकी अंदरूनी वजह क्या थी।

GN⁺ 2025-10-06

Hacker News राय

इस लेख में कहा गया है कि "GPT-5 ने adult websites से लिए गए वाक्यांशों पर ट्रेनिंग ली", लेकिन वास्तव में बात यह है कि GPT-5 ने ऐसे वाक्यांशों पर ट्रेनिंग ली जो adult sites पर भी दिखाई देते हैं, और सिर्फ़ यह अनुमान है कि ऐसे वाक्यांशों वाले डेटा का source GitHub भी हो सकता है
- चीनी adult site विज्ञापन repackaged free content या pirated content में व्यापक रूप से फैले हुए हैं, और ये सामग्री github, shadow libraries, YouTube जैसी जगहों के जरिए वितरित होती है; इसी वजह से whisper model में खाली audio डालने पर भी ऐसे विज्ञापन वाक्यांश output होने की घटना होती है
- ब्लॉग के आख़िर में इस हिस्से पर बात की गई है
यह जानने की जिज्ञासा है कि “GPT-5 ने adult site वाक्यांशों पर ट्रेनिंग ली” का मतलब सचमुच adult sites से लिया गया डेटा है, या सिर्फ़ इतना कि ऐसे वाक्यांश training data में आम थे; blog spam, link farms, affiliate marketing आदि adult/gambling sites में आम हैं, इसलिए संबंधित वाक्यांशों का बहुत मिलना स्वाभाविक है
- इस व्यक्ति के लहजे से लगता है कि वह adult sites के बारे में काफ़ी जानता है
“लगभग 936 tokens ऐसे हैं जिनकी L2 norm value बहुत छोटी है, जिसका मतलब है कि ये tokens GPT-oss की training में इस्तेमाल नहीं हुए और weight decay की वजह से दब गए” — इस दावे पर जिज्ञासा है, क्योंकि परंपरागत रूप से embedding और norm parameters को weight decay से बाहर रखा जाता है; क्या अभी भी ऐसा है? minGPT example code में भी यही बताया गया है minGPT code dekhen
- शायद ये tokens dataset के mean value + noise से initialize किए गए हों और training के दौरान expose न होने की वजह से value बदली ही न हो — ऐसा अनुमान है; यह latest technique है या नहीं पता नहीं, लेकिन Karpathy के वीडियो में शुरुआती gradient descent के दौरान loss के अचानक गिरने को रोकने के लिए ऐसी tricks इस्तेमाल की जाती हैं
- लगा कि लेख में यह पैटर्न training data में कैसे खोजा जाता है, इसकी प्रक्रिया का पर्याप्त vivaran नहीं था; सिर्फ़ नतीजों पर बात की गई, इसलिए content थोड़ा अधूरा लगा
लेख की एक दिलचस्प बात यह है कि ‘glitch token’ का इस्तेमाल करके यह पता लगाया जा सकता है कि कौन-सा language model उपयोग हो रहा है; prompt में glitch token डालकर उसकी reaction देखने से model की पहचान खुल सकती है
- कल्पना है कि आगे चलकर pentest में भी LLM fingerprinting के ज़रिए model type और security vulnerabilities जैसी चीज़ें पहचानने वाला flow आ सकता है
- मैंने भी ऐसा ही सोचा; आगे विभिन्न agentic flow में कौन-सा model इस्तेमाल हो रहा है, यह उजागर करने का यह एक ज़रिया बन सकता है; अगर एक model दूसरे sub-models को call करता है, तो हर चरण की glitch reaction देखकर पूरे call structure को reverse-trace भी किया जा सकता है
- लेकिन यह reverse engineering इसलिए संभव लगती है क्योंकि हम tokenizer को सीधे देख सकते हैं; क्या Claude या Gemini के tokenizer public हैं? अगर नहीं, तो शायद ऐसी attack technique को रोका जा सकता है
यह जिज्ञासा है कि क्या LLMs, खासकर सिर्फ़ API के रूप में उपलब्ध closed models, की reverse engineering या उनके training data composition का अनुमान लगाने पर कोई research है; जैसे Claude Sonnet 4.5 के training data का अनुमान कैसे लगाया जा सकता है, और क्या RLHF के बाद भी pretrained model की tendencies उजागर करने वाली research है? GPT-4o जैसे models में bias पूरी तरह गायब होता है या सिर्फ़ model के अंदर गहराई में छिपा रहता है — यह फ़र्क भी जानना दिलचस्प होगा
- इस विषय पर papers हैं: arXiv:2403.06634, arXiv:2311.17035; Nicholas Carlini का interview भी हुआ था, इसलिए याद है
- bias एक मानवीय शब्द है, इसलिए इस तरह चर्चा करें तो बहस शायद कभी ख़त्म नहीं होगी; अगर पहले के समय में systemd लॉन्च हुआ होता और तब LLM मौजूद होते, तो उस समय उपलब्ध कम जानकारी के कारण वे पुराने data के आधार पर जवाब देते; LLM सिर्फ़ मिले हुए data को reproduce करता है, और data से जानकारी हटाना अक्सर training data को साफ़ करने से सस्ता पड़ता है
“xadder” token अजीब लगा था, लेकिन वास्तव में यह “xpadder” (gamepad tool) की typo, कई tools के नाम, XLib call parameter, और Xilinx Vivado के full adder implementation जैसे कई contexts में इस्तेमाल होने वाला शब्द है; forum nickname के रूप में भी इसके कई उदाहरण हैं
लेख में दिए गए चीनी वाक्यांशों का translation इतना inaccurate है कि अर्थ समझना मुश्किल हो जाता है, और इससे लगता है कि data matrix itself भी inaccurate हो सकती है; लेखक को किसी अनुभवी native Chinese speaker से cross-check कराना चाहिए
- feedback यह है कि अगर कोई बेहतर translation पोस्ट करे तो उसे update कर दिया जाएगा
इतना wide coverage है कि “low-quality” ad tokens जैसी चीज़ों पर भी token space बर्बाद हो रहा है; यह जिज्ञासा है कि quantized model performance बढ़ाने के लिए token space घटाने की कोशिश कभी हुई है या नहीं — ad tokens देखकर यही विचार आया
- लगता है कि कुछ 30b parameter models में वास्तव में एक बार में सिर्फ़ लगभग 3b ही activate होने वाली architecture कहीं न कहीं उसी विचार से जुड़ी नहीं है?
हो सकता है मैं गलत समझा हूँ, लेकिन लेख से ऐसा संकेत मिलता है मानो OpenAI द्वारा adult site data पर training लेना कोई scandal हो; लेकिन Google भी adult sites को index करता है और search में reflect करता है, तो LLM में अलग क्या है, यह स्पष्ट नहीं है
- वास्तव में यह कोई नई बात भी नहीं है; gpt-tokens repository देखें, लगभग 1 साल पहले ही Gpt-4o में adult site से जुड़े चीनी वाक्यांश मिलने के उदाहरण सामने आ चुके थे; यह issue पहले से जाना हुआ था
- मुद्दे का मूल यह है कि अगर GitHub पर मौजूद कोई specific phrase model के भीतर प्रकट होता है, तो GitHub के training data में शामिल होने की संभावना काफ़ी बढ़ जाती है
- व्यक्तिगत रूप से मुझे लेख में वैसा लहजा महसूस नहीं हुआ
- कंपनी के नज़रिए से देखें तो ऐसे data, खासकर adult content से जुड़े वाक्यांश, censorship या policy compliance के लिए training data से पहले ही हटा देने चाहिए
Gemini 2.5 pro में लेख के examples टेस्ट किए, और उसने लगभग सब कुछ बिना दिक्कत अच्छी तरह handle किया; लगता है Google का model पूरी तरह अलग glitch tokens के प्रति ही vulnerable हो सकता है; लेख में की गई technical discussion कुछ कठिन लगी
- glitch token tokenizer के हिसाब से अलग तरह से काम करते हैं; Gemini, OpenAI models से अलग tokenizer इस्तेमाल करता है; OpenAI glitch token की उत्पत्ति भी दिलचस्प है — शुरुआती tokenizer training के दौरान इस्तेमाल किए गए data की popular strings (जैसे Reddit के सक्रिय users के nicknames आदि) को integers assigned किए गए थे, और उनमें से random चुना गया एक उदाहरण “davidjl” है, और विवरण