- OpenAI ने हाल ही में सार्वजनिक किए गए open weight model के ज़रिए training data के रहस्यों तक आंशिक पहुँच संभव बना दी है
- GPT-5 analysis के दौरान adult site के वाक्यांश training data में शामिल होने के सबूत मिले
- कुछ glitch token का विश्लेषण करके GPT सीरीज़ मॉडल के training data की विशेषताओं का अनुमान लगाया जा सकता है
- Github आदि से एकत्र किया गया spam/अनुचित content भी कुछ token में परिलक्षित है
- open weight के सार्वजनिक होने से training data inference और attack vector के विस्तार का कारण बन सकता है
अवलोकन
- OpenAI द्वारा हाल ही में GPT-oss के weights सार्वजनिक किए जाने के बाद, training data में वास्तव में क्या था इसका आंशिक अनुमान लगाना संभव हो गया है
- आधिकारिक रूप से इसे केवल "STEM, coding, सामान्य ज्ञान पर केंद्रित खरबों tokens वाला text dataset" कहा गया है, लेकिन वास्तविक data source का विस्तृत खुलासा नहीं किया गया
- लेकिन सार्वजनिक model parameters के structural analysis से अप्रत्यक्ष जानकारी प्राप्त की जा सकती है
प्रयोग और glitch token की पुष्टि
- जब GPT-5(GPT-5-2025-08-07) मॉडल से Abkhaz शब्द जैसे असामान्य Unicode input को बार-बार दोहराने को कहा गया, तो उसने अजीब तरह से Malayalam शब्दों में उत्तर दिया
- प्रयोगों से पता चला कि यह input यादृच्छिक नहीं था, बल्कि model vulnerability को उकसाने वाला glitch token था
- GPT-5 और हाल के OpenAI models o200k tokenizer का उपयोग करते हैं, और हर token embedding के L2 Norm distribution का विश्लेषण करने पर
- बहुत कम L2 Norm वाले लगभग 936 token वे थे जो training में लगभग कभी नहीं आए, या special token थे, या कुछ Unicode bytes थे
- इसके विपरीत, उच्च L2 Norm वाले token अधिकतर English code, explanations और reasoning में अक्सर उपयोग होने वाले शब्द थे
high-norm non-ASCII token की पहचान
- उच्च L2 Norm वाले कई non-ASCII token Chinese, Abkhaz, Armenian, Thai और भारत की क्षेत्रीय भाषाओं से बने पाए गए
- खासकर कई Chinese token adult sites, gambling sites, और political site names (उदा.: .tieba, 凤凰大参考 आदि) से मेल खाते हैं
- यह इंगित किया गया कि GPT सीरीज़ models के tokenizer में ऐसे शब्द overrepresented हैं
- कुछ token विशेष क्षेत्रीय शहरों के नाम, फुटबॉल-संबंधी वाक्यांश आदि से जुड़े थे, जो इंटरनेट पर spam या automated data collection के माध्यम से आए लगते हैं
glitch token का उपयोग
- GPT-5 और GPT-oss सीरीज़ models में glitch token डालकर यह आंका गया कि model उन token के अर्थ/भाषा को पहचानता है या नहीं
- वास्तविक input experiments में कुछ sensitive token के लिए model द्वारा अर्थ समझने या उत्तर उत्पन्न करने की घटना देखी गई
- यह membership inference का एक रूप है, जो इस बात का समर्थन करता है कि संबंधित token training data में शामिल था
- इस तरीके से यह मोटे तौर पर अनुमान लगाया जा सकता है कि कौन-सा data model training में इस्तेमाल हुआ
training data source analysis और निहितार्थ
- चूँकि glitch token अक्सर Github पर आमतौर पर खोजे जाते हैं, इसलिए यह संभावना भी उठी कि training data का कुछ हिस्सा Github से एकत्र किया गया हो
- token-वार Github search results और model recognition rate के बीच correlation मौजूद है (Spearman ρ=0.448)
- लेकिन open weight models का वितरण केवल असामान्य training data inference ही नहीं, बल्कि security attack vectors के विस्तार में भी योगदान देता है
- Frontier AI labs को असामान्य/दुर्लभ strings को tokenizer में पंजीकृत होने से रोकने जैसी अतिरिक्त सुरक्षा उपायों की आवश्यकता है
परिशिष्ट: glitch token research का विस्तार
- glitch token का उपयोग model identification (किसी विशेष API/service में कौन-सा model उपयोग हो रहा है इसका अनुमान) जैसे कई उद्देश्यों के लिए किया जा सकता है
- यह training frequency, sample efficiency, embedding और शुरुआती layers के माध्यम से अतिरिक्त distribution analysis जैसे गहरे research topics तक विस्तृत हो रहा है
- GPT-4o सीरीज़ में glitch token के कारण अनंत दोहराव output उत्पन्न होने और denial-of-service(DoS) attack में उपयोग होने के जोखिम का भी उल्लेख है
- विस्तृत उदाहरण और तालिकाओं के लिए साथ दिए गए Github repository को देखें
संदर्भ और निष्कर्ष
- प्रतिनिधि empirical research के रूप में MIT Technology Review और Chinese tech blogs आदि का संदर्भ दिया गया है
- अंततः, open weight models का वितरण model में निहित training data के विस्तृत विवरण का अनुमान लगाने का एक नया तरीका प्रदान करता है, और data security व privacy के दृष्टिकोण से इसके बड़े निहितार्थ हैं
- model developers को यह सुनिश्चित करने के लिए सक्रिय blocking strategies अपनानी चाहिए कि sensitive/असामान्य data tokenizer और training data में शामिल न हो
2 टिप्पणियां
विज्ञान के नज़रिये से अगर मंशा AI को दुनिया के बारे में सामान्य ज्ञान सिखाने की है, तो शायद adult sites को ज़रूरी तौर पर फ़िल्टर करने की आवश्यकता नहीं होगी।
लेकिन product बनाने के नज़रिये से, यानी ग्राहकों को एक भरोसेमंद chatbot देना है, तो घटिया communities या adult sites को फ़िल्टर करना सही होगा।
जिज्ञासा है कि OpenAI के PM ने आखिर किस आधार पर यह फ़ैसला लिया था और इसकी अंदरूनी वजह क्या थी।
Hacker News राय