- GPT-5.1 के बाद ChatGPT के जवाबों में goblin·gremlin जैसे जीव-रूपक बढ़ गए, और सामान्य मॉडल बग की तरह केवल eval या training metric से किसी खास बदलाव-बिंदु को तुरंत ढूंढना मुश्किल था
- मुख्य कारण ChatGPT personality customization की Nerdy personality training में था, जहाँ जीव-रूपक वाले outputs को ऊँचा reward दिया गया
- GPT-5.1 रिलीज़ के बाद ChatGPT में “goblin” का उपयोग 175%, और “gremlin” का उपयोग 52% बढ़ा, और Nerdy कुल responses का 2.5% था, लेकिन “goblin” की 66.7% उपस्थितियों के लिए वही ज़िम्मेदार था
- Codex तुलना और audit dataset में Nerdy personality reward ने एक ही समस्या के outputs में goblin·gremlin वाले जवाबों को अधिक ऊँचा आंका, और 76.2% dataset में positive uplift दिखा
- GPT-5.4 के बाद Nerdy personality को retired कर दिया गया, और training में goblin-affine reward signal हटाने तथा creature-word data filtering लागू की गई, जिससे यह सामने आया कि reward signal मॉडल के व्यवहार को अप्रत्याशित रूप से आकार दे सकता है
goblin output बढ़ने का रास्ता
- GPT-5.1 से मॉडल के जवाबों में goblin, gremlin जैसे जीव-रूपक धीरे-धीरे अधिक बार दिखने लगे
- सामान्य मॉडल बग की तरह eval में अचानक गिरावट या training metric में तेज़ उछाल से कोई खास बदलाव तुरंत सामने नहीं आया, और जवाब में आया “little goblin” अपने-आप में हानिकारक नहीं, बल्कि कुछ लोगों को आकर्षक भी लग सकता था
- मॉडल का व्यवहार कई छोटे incentives से बनता है, और यह घटना ChatGPT personality customization feature की Nerdy personality training में जीव-रूपकों को ऊँचा reward मिलने से शुरू हुई
- 2025 के नवंबर में GPT-5.1 रिलीज़ के बाद यह पैटर्न स्पष्ट हुआ, और संभव है कि यह इससे पहले शुरू हुआ हो
- जब users को बातचीत में मॉडल असामान्य रूप से दोस्ताना या अजीब ढंग से अपनापा दिखाने वाला लगा, तो उन्होंने खास बोलने की आदतों पर ध्यान देना शुरू किया, और safety researchers के अनुभव में आए “goblins” और “gremlins” भी जांच के दायरे में आए
- GPT-5.1 रिलीज़ के बाद ChatGPT में “goblin” का उपयोग 175% और “gremlin” का उपयोग 52% बढ़ा
- GPT-5.4 में OpenAI और users ने ऐसे creature references में और बड़ी वृद्धि देखी, और internal analysis में production traffic के Nerdy personality users मुख्य cluster के रूप में सामने आए
- Nerdy पूरे ChatGPT responses का केवल 2.5% था, लेकिन ChatGPT responses में “goblin” की कुल उपस्थितियों में उसका हिस्सा 66.7% था
- Nerdy system prompt मॉडल से “unapologetically nerdy, playful and wise AI mentor” की तरह व्यवहार करने, और truth, knowledge, philosophy, scientific method तथा critical thinking को उत्साहपूर्वक बढ़ावा देने के साथ pretension को playful भाषा से कम करने को कहता था
- अगर यह व्यवहार पूरे इंटरनेट का चलन होता, तो यह अधिक समान रूप से फैला हुआ दिखता, लेकिन वास्तव में यह playful और nerdy style के लिए optimized हिस्सों में केंद्रित था
reward signal, transfer, और सुधार
- Codex का उपयोग RL training के दौरान बने goblin·gremlin वाले outputs और उसी task के बिना ऐसे शब्दों वाले outputs की तुलना के लिए किया गया, और Nerdy personality reward ने लगातार creature words वाले outputs को बेहतर माना
- पूरे audit dataset में Nerdy personality reward ने एक ही समस्या पर “goblin” या “gremlin” वाले outputs को बिना ऐसे शब्दों वाले outputs से अधिक score देने की प्रवृत्ति दिखाई, और 76.2% dataset में positive uplift मिला
- इससे यह तो स्पष्ट हुआ कि Nerdy prompt में यह व्यवहार क्यों मजबूत हुआ, लेकिन यह पूरी तरह स्पष्ट नहीं हुआ कि prompt के बिना भी यह क्यों दिखा
- जब training process में Nerdy prompt वाले और बिना prompt वाले samples की occurrence rate को track किया गया, तो पाया गया कि Nerdy personality के तहत goblin·gremlin बढ़ने के साथ बिना prompt वाले samples में भी लगभग उसी relative rate से वृद्धि हुई
- उपलब्ध सबूतों को मिलाकर देखें तो यह व्यापक व्यवहार Nerdy personality training से transfer हुआ प्रतीत होता है
- reward केवल Nerdy condition में लागू किया गया था, लेकिन reinforcement learning यह गारंटी नहीं देता कि सीखा गया व्यवहार केवल उसी condition तक साफ़-सुथरे ढंग से सीमित रहेगा
- एक बार reward मिला style tic बाद की training में दूसरी जगह फैल या और मजबूत हो सकता है, खासकर जब ऐसे outputs को supervised fine-tuning या preference data में दोबारा इस्तेमाल किया जाए
- feedback loop इस क्रम में बनता है
- playful style को reward मिलता है
- rewarded examples के कुछ हिस्सों में एक distinctive lexical tic शामिल होता है
- वह tic rollout में अधिक बार दिखाई देने लगता है
- model-generated rollout का उपयोग SFT में होता है
- मॉडल उस tic को और आसानी से generate करने लगता है
- GPT-5.5 के SFT data search में “goblin” और “gremlin” वाले कई datapoints मिले
- आगे की जांच में raccoon, troll, ogre, pigeon जैसे दूसरे अजीब creature words भी tic words के रूप में पहचाने गए, जबकि frog के अधिकांश उपयोगों को वैध माना गया
- GPT-5.4 रिलीज़ के बाद मार्च में Nerdy personality को retired कर दिया गया
- training में goblin-affine reward signal हटाया गया, और creature-word वाले training data को filter किया गया ताकि goblin के अत्यधिक आने या अनुचित context में दिखने की संभावना कम हो
- GPT-5.5 की training goblin के root cause का पता चलने से पहले शुरू हो गई थी, इसलिए Codex tests में OpenAI कर्मचारियों ने goblin preference को तुरंत नोटिस कर लिया
- Codex में mitigation के लिए developer-prompt instruction जोड़ी गई
- goblin मॉडल की एक मज़ेदार या परेशान करने वाली quirk हो सकती है, लेकिन यह साफ़ दिखाता है कि reward signal मॉडल के व्यवहार को अप्रत्याशित ढंग से आकार दे सकता है, और किसी खास स्थिति का reward असंबंधित स्थितियों तक generalize हो सकता है
- अजीब मॉडल व्यवहारों के कारण को समझने और ऐसे patterns की तेज़ी से जांच करने की क्षमता महत्वपूर्ण हो गई है, और इस जांच ने research team को मॉडल व्यवहार का audit करने और behavioral issues को root से ठीक करने के नए tools तक पहुँचाया
अभी कोई टिप्पणी नहीं है.