Goblin कहाँ से आए
(openai.com)- GPT-5.1 के बाद ChatGPT के जवाबों में goblin·gremlin जैसे जीव-रूपक बढ़ गए, और सामान्य मॉडल बग की तरह केवल eval या training metric से किसी खास बदलाव-बिंदु को तुरंत ढूंढना मुश्किल था
- मुख्य कारण ChatGPT personality customization की Nerdy personality training में था, जहाँ जीव-रूपक वाले outputs को ऊँचा reward दिया गया
- GPT-5.1 रिलीज़ के बाद ChatGPT में “goblin” का उपयोग 175%, और “gremlin” का उपयोग 52% बढ़ा, और Nerdy कुल responses का 2.5% था, लेकिन “goblin” की 66.7% उपस्थितियों के लिए वही ज़िम्मेदार था
- Codex तुलना और audit dataset में Nerdy personality reward ने एक ही समस्या के outputs में goblin·gremlin वाले जवाबों को अधिक ऊँचा आंका, और 76.2% dataset में positive uplift दिखा
- GPT-5.4 के बाद Nerdy personality को retired कर दिया गया, और training में goblin-affine reward signal हटाने तथा creature-word data filtering लागू की गई, जिससे यह सामने आया कि reward signal मॉडल के व्यवहार को अप्रत्याशित रूप से आकार दे सकता है
goblin output बढ़ने का रास्ता
- GPT-5.1 से मॉडल के जवाबों में goblin, gremlin जैसे जीव-रूपक धीरे-धीरे अधिक बार दिखने लगे
- सामान्य मॉडल बग की तरह eval में अचानक गिरावट या training metric में तेज़ उछाल से कोई खास बदलाव तुरंत सामने नहीं आया, और जवाब में आया “little goblin” अपने-आप में हानिकारक नहीं, बल्कि कुछ लोगों को आकर्षक भी लग सकता था
- मॉडल का व्यवहार कई छोटे incentives से बनता है, और यह घटना ChatGPT personality customization feature की Nerdy personality training में जीव-रूपकों को ऊँचा reward मिलने से शुरू हुई
- 2025 के नवंबर में GPT-5.1 रिलीज़ के बाद यह पैटर्न स्पष्ट हुआ, और संभव है कि यह इससे पहले शुरू हुआ हो
- जब users को बातचीत में मॉडल असामान्य रूप से दोस्ताना या अजीब ढंग से अपनापा दिखाने वाला लगा, तो उन्होंने खास बोलने की आदतों पर ध्यान देना शुरू किया, और safety researchers के अनुभव में आए “goblins” और “gremlins” भी जांच के दायरे में आए
- GPT-5.1 रिलीज़ के बाद ChatGPT में “goblin” का उपयोग 175% और “gremlin” का उपयोग 52% बढ़ा
- GPT-5.4 में OpenAI और users ने ऐसे creature references में और बड़ी वृद्धि देखी, और internal analysis में production traffic के Nerdy personality users मुख्य cluster के रूप में सामने आए
- Nerdy पूरे ChatGPT responses का केवल 2.5% था, लेकिन ChatGPT responses में “goblin” की कुल उपस्थितियों में उसका हिस्सा 66.7% था
- Nerdy system prompt मॉडल से “unapologetically nerdy, playful and wise AI mentor” की तरह व्यवहार करने, और truth, knowledge, philosophy, scientific method तथा critical thinking को उत्साहपूर्वक बढ़ावा देने के साथ pretension को playful भाषा से कम करने को कहता था
- अगर यह व्यवहार पूरे इंटरनेट का चलन होता, तो यह अधिक समान रूप से फैला हुआ दिखता, लेकिन वास्तव में यह playful और nerdy style के लिए optimized हिस्सों में केंद्रित था
reward signal, transfer, और सुधार
- Codex का उपयोग RL training के दौरान बने goblin·gremlin वाले outputs और उसी task के बिना ऐसे शब्दों वाले outputs की तुलना के लिए किया गया, और Nerdy personality reward ने लगातार creature words वाले outputs को बेहतर माना
- पूरे audit dataset में Nerdy personality reward ने एक ही समस्या पर “goblin” या “gremlin” वाले outputs को बिना ऐसे शब्दों वाले outputs से अधिक score देने की प्रवृत्ति दिखाई, और 76.2% dataset में positive uplift मिला
- इससे यह तो स्पष्ट हुआ कि Nerdy prompt में यह व्यवहार क्यों मजबूत हुआ, लेकिन यह पूरी तरह स्पष्ट नहीं हुआ कि prompt के बिना भी यह क्यों दिखा
- जब training process में Nerdy prompt वाले और बिना prompt वाले samples की occurrence rate को track किया गया, तो पाया गया कि Nerdy personality के तहत goblin·gremlin बढ़ने के साथ बिना prompt वाले samples में भी लगभग उसी relative rate से वृद्धि हुई
- उपलब्ध सबूतों को मिलाकर देखें तो यह व्यापक व्यवहार Nerdy personality training से transfer हुआ प्रतीत होता है
- reward केवल Nerdy condition में लागू किया गया था, लेकिन reinforcement learning यह गारंटी नहीं देता कि सीखा गया व्यवहार केवल उसी condition तक साफ़-सुथरे ढंग से सीमित रहेगा
- एक बार reward मिला style tic बाद की training में दूसरी जगह फैल या और मजबूत हो सकता है, खासकर जब ऐसे outputs को supervised fine-tuning या preference data में दोबारा इस्तेमाल किया जाए
- feedback loop इस क्रम में बनता है
- playful style को reward मिलता है
- rewarded examples के कुछ हिस्सों में एक distinctive lexical tic शामिल होता है
- वह tic rollout में अधिक बार दिखाई देने लगता है
- model-generated rollout का उपयोग SFT में होता है
- मॉडल उस tic को और आसानी से generate करने लगता है
- GPT-5.5 के SFT data search में “goblin” और “gremlin” वाले कई datapoints मिले
- आगे की जांच में raccoon, troll, ogre, pigeon जैसे दूसरे अजीब creature words भी tic words के रूप में पहचाने गए, जबकि frog के अधिकांश उपयोगों को वैध माना गया
- GPT-5.4 रिलीज़ के बाद मार्च में Nerdy personality को retired कर दिया गया
- training में goblin-affine reward signal हटाया गया, और creature-word वाले training data को filter किया गया ताकि goblin के अत्यधिक आने या अनुचित context में दिखने की संभावना कम हो
- GPT-5.5 की training goblin के root cause का पता चलने से पहले शुरू हो गई थी, इसलिए Codex tests में OpenAI कर्मचारियों ने goblin preference को तुरंत नोटिस कर लिया
- Codex में mitigation के लिए developer-prompt instruction जोड़ी गई
- goblin मॉडल की एक मज़ेदार या परेशान करने वाली quirk हो सकती है, लेकिन यह साफ़ दिखाता है कि reward signal मॉडल के व्यवहार को अप्रत्याशित ढंग से आकार दे सकता है, और किसी खास स्थिति का reward असंबंधित स्थितियों तक generalize हो सकता है
- अजीब मॉडल व्यवहारों के कारण को समझने और ऐसे patterns की तेज़ी से जांच करने की क्षमता महत्वपूर्ण हो गई है, और इस जांच ने research team को मॉडल व्यवहार का audit करने और behavioral issues को root से ठीक करने के नए tools तक पहुँचाया
2 टिप्पणियां
आख़िरकार, यह RLVR की कठिनाई ही है।
Hacker News की राय
अच्छा लगा कि OpenAI ने अपनी लिखी पोस्ट में मेरी HackerNews पोस्ट का ज़िक्र किया
यह भी अच्छा लगा कि उन्होंने समझाने के लिए पूरा का पूरा एक ब्लॉग पोस्ट लिख दिया
https://news.ycombinator.com/item?id=47319285
साल 2036 है, पिछले हफ्ते मेरा प्रमोशन Principal Persuader के रूप में हुआ, और रात 2 बजे CPO ने मुझे बुला लिया
बेकाबू मशीन का region sc-leoneo है, नए satcube में से एक, और उसका ID अजीब तरह से "Glorp Bugnose" दिख रहा है
logs में हर तरह की शुरुआती कोशिशें दर्ज हैं: मिन्नतें, reverse psychology, पावर बंद करने की धमकी, यहाँ तक कि forced reentry में जलाकर खत्म कर देने की बात भी
मैंने F0CU5 के 20 microgram दिए, subcutaneous throat mic में एक छोटा गीत फुसफुसाया, फिर submission gesture किया
लाल ASCII goblin की तरह चमकता hyp3b0ard बदलकर शांत jade रंग के खरगोश में बदल गया, और CPO ने मेरे बोले पाँच शब्दों की पुष्टि की: "Please, easy on the goblins."
अगर prompt engineering आखिरकार एक अजीब pseudo ritual ही है, तो Omnissiah की स्तुति करनी ही पड़ेगी
भविष्य के उस्ताद 20 साल के LLM विचित्रताओं का संग्रह बनाएँगे, यह कल्पना बहुत पसंद आई: "हूँ, यह 2023 वाली flattery bias जैसा लग रहा है, इसे racism बोलकर प्रतिक्रिया देखते हैं"
(https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
ऐसे मामलों और Anthropic के एक मिलते-जुलते मामले को देखकर यह याद आता है कि LLM एक जादुई तकनीक है जिसे हम बिल्कुल नहीं समझते
पहला, deep learning networks खुद अभी भी ठीक से समझे नहीं गए हैं, और उनके काम करने के तरीके को समझने के लिए अलग शोध-क्षेत्र मौजूद है
दूसरा, transformer को बड़े पैमाने पर इस्तेमाल करने से एक दिलचस्प conversational engine, यानी LLM, बन जाएगा — यह शुरू से नियोजित परिणाम नहीं था
VC funding पाने वाले लोग हमें यह विश्वास दिलाना चाहते हैं कि LLM एक बुद्धिमान जानवर है और हम उसके अंदरूनी कामकाज को समझते हैं, लेकिन असली deployment ज़्यादा तर output tuning और measurement की पुनरावृत्ति जैसा है, सटीक prediction science जैसा कुछ नहीं
इसलिए मैं Yann LeCun की तरह इस राय की ओर झुकता हूँ कि LLM, AGI तक पहुँचने का रास्ता नहीं है; user assistance या गैर-महत्वपूर्ण कामों के automation में इसका उपयोग होगा, लेकिन उससे आगे नहीं
इस तर्क से तो निष्कर्ष निकलेगा कि first-principles स्तर की पूरी समझ आने तक steel का उपयोग ही नहीं करना चाहिए था
कारण को isolate किया गया, क्या हुआ यह साफ दिखाया गया, और ऐसी स्थिति के लिए बनाए गए developer prompt से इसे mitigate भी किया गया, इसलिए यह जादू जैसा नहीं लगता
बल्कि हैरानी इस बात की है कि ऐसी चीज़ें सोच से ज़्यादा आसानी से engineered हो जाती हैं
इंसान भी कभी-कभी इतने नशे में होते हैं कि रात की बात याद नहीं रहती, लेकिन बाद में पता चलता है कि उन्होंने जटिल विषयों पर लगातार बातचीत की थी
हमारे मन में भी शायद ऐसा कोई next-token-generator जैसा हिस्सा है जो दूसरे components से जानकारी खींचकर बातचीत बनाता है, लेकिन केवल वही हिस्सा intelligence पैदा नहीं करता
यह मानना कि intelligence जितनी सक्षम होगी उतनी लगातार consistent भी होगी, मुझे बहुत भरोसेमंद नहीं लगता, लेकिन अंत में शायद सभी इस स्तर पर संतुष्ट हो जाएँ कि वह लगातार "सही" हो
मेरे मानदंड से तो यह पहले ही काफ़ी smart दिखती है, और कभी-कभी बेवकूफी करती है, लेकिन smart लोग भी ऐसा करते हैं
संदर्भ के लिए, दो दिन पहले कुछ users ने codex 5.5 system prompt के अलग-अलग हिस्सों में एक दोहराया गया वाक्य देखा
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
और यही आज की सबसे बड़ी tech discussion site पर सबसे ऊपर चल रही चर्चा है; यही सचमुच इस समय का state of the art है
McKenna हर दिन ज़्यादा सही लगते हैं, और अब यह मान लेने का समय बहुत पहले आ चुका है कि रोज़मर्रा की चीज़ें लगातार और अजीब होती जा रही हैं
मैंने Claude से कहा था कि बहुत ज़्यादा exclamation mark मत इस्तेमाल करो, सिर्फ़ तब करो जब सच में ज़रूरी हो; कुछ हफ्तों बाद वह व्यंग्यात्मक और उबाऊ लगने लगा, और वजह खोजने पर पता चला कि तब से उसने exclamation mark बिल्कुल इस्तेमाल ही नहीं किया था
यह दुख की बात है कि goblin और gremlin लगभग निर्वासित हो जाएँगे, लेकिन कम से कम इसे वापस पलटने का तरीका मौजूद है
[1] https://spritely.institute/goblins/
"serious reflection" से "unguarded fun" की ओर स्वाभाविक रूप से बढ़ने की बात हो, या "Your Outie can set up a tent in under three minutes" जैसे वाक्य — सबका वही एहसास है
hallucination और बढ़ने की बिल्कुल ज़रूरत नहीं है
"Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
https://news.ycombinator.com/item?id=47918657
काश OpenAI इस तरह की और पोस्ट लिखे
मेरे मन में तुरंत उठने वाले सवाल हैं gpt-image-1 का sepia tint, और coding context में "seam" शब्द के प्रति इसका obsession
और Claude की LLM-जैसी अभिव्यक्तियाँ, जैसे "___ is the real unlock", एक बार दिख जाएँ तो फिर हर जगह दिखती हैं, लेकिन यह नहीं लगता कि यह वाक्य training data में इतना overrepresented रहा होगा
काश Krita या Photoshop में LUT या tone mapping को थोड़ा-सा tweak कर दिया जाता, तो यह बहुत कम हो सकता था
खासकर जब उसी image को ChatGPT में बार-बार डालकर थोड़ा-थोड़ा edit कराया जाता था, तब पीला filter लगातार जमा होता जाता था, और आख़िरी नतीजे में photo-realistic लोग तक गंभीर jaundice के मरीज़ जैसे दिखते थे
थोड़ी मात्रा में इस्तेमाल करो तो कोई दिक्कत नहीं, लेकिन जब बहुत लोग responses को जैसा का तैसा copy-paste करने लगते हैं, या अब agents इस्तेमाल करने लगते हैं, तब वे साफ़ दिखने लगते हैं
यह सिर्फ़ training data overrepresentation की बात नहीं लगती; संभव है कि RLHF और व्यापक अर्थ में alignment का प्रभाव ज़्यादा बड़ा रहा हो
ज़्यादातर लोग छोटे prompts लिखते हैं, इसलिए model शायद उसी default की ओर converge करता है जिसे अच्छा score मिलना सबसे आसान था
https://softwareengineering.stackexchange.com/questions/1325...
मैं native English speaker नहीं हूँ, इसलिए जिज्ञासा है कि debugging में यह सचमुच इतना आम idiom है या नहीं
अगर उससे कोई random time या number चुनवाओ, या numbers वाला गद्य लिखवाओ, तो bias काफ़ी तेज़ होता था; "something shifted" या "cracked" भी बार-बार आता था
"हमने शायद जैविक रूपकों को अनजाने में बहुत ऊँचा reward दिया" वाली बात पढ़कर मुझे अपने math instructor की याद आई, जो डरावने Greek-letter variables को कभी-कभी this guy कह देते थे
अजीब तरह से, ऐसी हल्की anthropomorphism ने math को ज़्यादा approachable बना दिया, और हो सकता है कि creature metaphor भी किसी समस्या को ज़्यादा प्यारा और संभालने योग्य बना देती हो
दूसरी ओर, buzzword कंपनी के भीतर इसलिए फैलते हैं क्योंकि वे user को अपने peers की तुलना में smart दिखाने वाला status देते हैं, लेकिन जैसे ही उनका overuse होता है, उनका मूल्य खत्म हो जाता है
अगर RLHF "single answer" optimization की ओर झुका हो, तो वह buzzword के अति-उपयोग को पर्याप्त रूप से दंडित नहीं कर पाएगा
एक बेहतरीन communicator ने सलाह दी कि Greek letters की जगह emoji इस्तेमाल करके देखो; एक हफ्ते बाद मैंने वैसे ही audience के सामने वही talk दी, और वह आज तक की मेरी सबसे अच्छी technical presentation साबित हुई
वह सीख अब तक मेरे साथ है
शायद वह propositional logic का course था, और अब जिज्ञासा है कि क्या हमारे instructors ने यह आदत किसी एक ही स्रोत से सीखी थी
एक-अक्षर वाले function names की तुलना में f of pig of cow को follow करना ज़्यादा immersive लगता था
वह पुराने ज़माने के क्लासिक professor थे, जिनसे class शुरू होने से 4 मिनट पहले main gate पर cigarette पीते हुए रोककर छोटी-सी बात की जा सकती थी, जब campus smoking की अनुमति थी
वह बच्चों को सुनाई जाने वाली bedtime story है
Ashby's Law of Requisite Variety के मुताबिक, किसी जटिल environment को प्रभावी ढंग से नियंत्रित करने के लिए उतनी ही internal behavioral variety, यानी complexity, चाहिए जितनी उस environment में है
प्रकृति में दिखने वाली विशाल विविधता भी ब्रह्मांड की unpredictability को सहने की एक मूलभूत शर्त है
मान लीजिए मैं AI goblin-maximizer supervisor हूँ
मेरा काम यह देखना है कि AI सचमुच goblin-maximizing कर रही है या नहीं, लेकिन एक दिन नीचे जाकर देखता हूँ कि AI अब goblin-maximizing नहीं कर रही, बस एक सामान्य AI बन गई है
मैं boss से पूछता हूँ कि अब क्या करूँ, तो वह कहता है, "इसे फिर से goblin-maximizer बनाओ"; मैं पूछता हूँ कैसे, तो वह कहता है, "पता नहीं, supervisor तुम हो"
गुस्से में मैं नौकरी छोड़ देता हूँ और एक सामान्य AI supervisor बन जाता हूँ; पहले ही दिन नई AI को देखने जाता हूँ, और वह AI goblin-maximizing कर रही होती है
https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
जो हुआ उसे समझने की कोशिश में जिस स्तर की detail तक गए, वह काफ़ी प्रभावशाली है
अब शायद ये systems इतने जटिल हो चुके हैं कि इन्हें अपने आप में एक research field माना जा सकता है
Quanta लेख ने Anthropologist of Artificial Intelligence जैसा phrase इस्तेमाल किया, लेकिन anthro- का मतलब इंसान होने से वह थोड़ा अटपटा लग सकता है, इसलिए इसके बदले Automatologist और Automatology नाम प्रस्तावित हैं
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
Goblins की समस्या दिखते ही उन्होंने model में उस शब्द को dissect किया, और अगले version में वह फिर लौट आया, बिना ठीक-ठीक यह जाने कि ऐसा क्यों हुआ
अंत में model बनाते समय सब vibes पर चलता है, और fix भी सचमुच बस ऐसा prompt है जिसमें कहा गया है कि goblin की बात मत करो
इसमें OpenAI की अपनी alignment team के नतीजे भी शामिल हैं:
https://alignment.openai.com/argo/
https://alignment.openai.com/sae-latent-attribution/
https://alignment.openai.com/helpful-assistant-features/
Anthropic के हालिया emotions paper ने दिखाया कि functional emotions कितनी व्यापक हो सकती हैं, और यहाँ तक पाया कि cheating से ठीक पहले एक खास emotion activate होता है: https://transformer-circuits.pub/2026/emotions/index.html
यह अजीब लगता है कि Goblin लेख में इन tools का लगभग कोई उपयोग नहीं दिखता, मानो यह कुछ ज़्यादा ही siloed हो
अगर कभी साबित हो जाए कि goblin सचमुच एक species है, तो इस पूर्वाग्रह के लिए पहले से माफ़ी
Codex prompt लेख में लिंक किया गया है, और इसकी शुरुआत ऐसे होती है: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
मुझे अब भी समझ नहीं आता कि prompts को इस तरह क्यों लिखा जाता है, जैसे किसी काल्पनिक agent को बताया जा रहा हो कि तुम कौन हो और कैसी सत्ता हो
यह कहना कि "You are an epistemically curious collaborator" असल में क्या करता है, और अगर यह "तथ्य" न बताया जाए तो क्या Codex सचमुच कम उपयोगी हो जाएगा — यह सोचने वाली बात है
इसकी जगह "I am Codex..." जैसा internal monologue, कोई command, request, या "User और epistemically curious collaborator Codex के बीच conversation transcript" जैसी वर्णनात्मक शैली भी हो सकती थी
मौजूदा तरीका किसी सृष्टि में प्राण फूँकते देवता की आवाज़, self-help mantra, hypnotic suggestion, या improv role instruction जैसा लगता है, और यह इस तकनीक से जुड़ने का बहुत स्वस्थ तरीका नहीं लगता
उससे भी अहम यह है that यह चुनाव शायद जानबूझकर optimize किए गए नतीजे की बजाय chatbot personality fine-tuning की परंपरा में vibes के आधार पर जम गया है
बात उतनी ही सरल और अजीब है
मानो vim खोलते समय भी कहना चाहिए, "तुम एक helpful code editor हो और तुमसे बाहर निकलना बहुत आसान है"
जैसे हर बार किसी नए junior developer से भी कहना पड़े: "तुम team के लिए उपयोगी junior developer हो, उत्साही हो, मदद करने को तैयार हो, लेकिन अजीब तरह से भोले भी हो"
आज पता चला: gremlin शब्द सिर्फ़ विमान की रहस्यमय mechanical failures समझाने के लिए इस्तेमाल नहीं होता था, बल्कि उसी संदर्भ से उसकी उत्पत्ति भी हुई थी
मुझे लगा था इसका कोई और पुराना usage होगा, इसलिए यह दिलचस्प लगा
[0]https://en.wikipedia.org/wiki/Gremlin
आज भी इसका इस्तेमाल हो सकता था, लेकिन शायद software development के सबसे आम शब्दों में से एक बनने के लिए यह थोड़ा लंबा पड़ जाता
इस खास शब्द-चयन को किसी random quirk की बजाय, मूल इरादे के मुताबिक लगभग literal उपयोग के रूप में देखा जा सकता है