5 पॉइंट द्वारा GN⁺ 2026-05-01 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-5.1 के बाद ChatGPT के जवाबों में goblin·gremlin जैसे जीव-रूपक बढ़ गए, और सामान्य मॉडल बग की तरह केवल eval या training metric से किसी खास बदलाव-बिंदु को तुरंत ढूंढना मुश्किल था
  • मुख्य कारण ChatGPT personality customization की Nerdy personality training में था, जहाँ जीव-रूपक वाले outputs को ऊँचा reward दिया गया
  • GPT-5.1 रिलीज़ के बाद ChatGPT में “goblin” का उपयोग 175%, और “gremlin” का उपयोग 52% बढ़ा, और Nerdy कुल responses का 2.5% था, लेकिन “goblin” की 66.7% उपस्थितियों के लिए वही ज़िम्मेदार था
  • Codex तुलना और audit dataset में Nerdy personality reward ने एक ही समस्या के outputs में goblin·gremlin वाले जवाबों को अधिक ऊँचा आंका, और 76.2% dataset में positive uplift दिखा
  • GPT-5.4 के बाद Nerdy personality को retired कर दिया गया, और training में goblin-affine reward signal हटाने तथा creature-word data filtering लागू की गई, जिससे यह सामने आया कि reward signal मॉडल के व्यवहार को अप्रत्याशित रूप से आकार दे सकता है

goblin output बढ़ने का रास्ता

  • GPT-5.1 से मॉडल के जवाबों में goblin, gremlin जैसे जीव-रूपक धीरे-धीरे अधिक बार दिखने लगे
  • सामान्य मॉडल बग की तरह eval में अचानक गिरावट या training metric में तेज़ उछाल से कोई खास बदलाव तुरंत सामने नहीं आया, और जवाब में आया “little goblin” अपने-आप में हानिकारक नहीं, बल्कि कुछ लोगों को आकर्षक भी लग सकता था
  • मॉडल का व्यवहार कई छोटे incentives से बनता है, और यह घटना ChatGPT personality customization feature की Nerdy personality training में जीव-रूपकों को ऊँचा reward मिलने से शुरू हुई
  • 2025 के नवंबर में GPT-5.1 रिलीज़ के बाद यह पैटर्न स्पष्ट हुआ, और संभव है कि यह इससे पहले शुरू हुआ हो
  • जब users को बातचीत में मॉडल असामान्य रूप से दोस्ताना या अजीब ढंग से अपनापा दिखाने वाला लगा, तो उन्होंने खास बोलने की आदतों पर ध्यान देना शुरू किया, और safety researchers के अनुभव में आए “goblins” और “gremlins” भी जांच के दायरे में आए
  • GPT-5.1 रिलीज़ के बाद ChatGPT में “goblin” का उपयोग 175% और “gremlin” का उपयोग 52% बढ़ा
  • GPT-5.4 में OpenAI और users ने ऐसे creature references में और बड़ी वृद्धि देखी, और internal analysis में production traffic के Nerdy personality users मुख्य cluster के रूप में सामने आए
  • Nerdy पूरे ChatGPT responses का केवल 2.5% था, लेकिन ChatGPT responses में “goblin” की कुल उपस्थितियों में उसका हिस्सा 66.7% था
  • Nerdy system prompt मॉडल से “unapologetically nerdy, playful and wise AI mentor” की तरह व्यवहार करने, और truth, knowledge, philosophy, scientific method तथा critical thinking को उत्साहपूर्वक बढ़ावा देने के साथ pretension को playful भाषा से कम करने को कहता था
  • अगर यह व्यवहार पूरे इंटरनेट का चलन होता, तो यह अधिक समान रूप से फैला हुआ दिखता, लेकिन वास्तव में यह playful और nerdy style के लिए optimized हिस्सों में केंद्रित था

reward signal, transfer, और सुधार

  • Codex का उपयोग RL training के दौरान बने goblin·gremlin वाले outputs और उसी task के बिना ऐसे शब्दों वाले outputs की तुलना के लिए किया गया, और Nerdy personality reward ने लगातार creature words वाले outputs को बेहतर माना
  • पूरे audit dataset में Nerdy personality reward ने एक ही समस्या पर “goblin” या “gremlin” वाले outputs को बिना ऐसे शब्दों वाले outputs से अधिक score देने की प्रवृत्ति दिखाई, और 76.2% dataset में positive uplift मिला
  • इससे यह तो स्पष्ट हुआ कि Nerdy prompt में यह व्यवहार क्यों मजबूत हुआ, लेकिन यह पूरी तरह स्पष्ट नहीं हुआ कि prompt के बिना भी यह क्यों दिखा
  • जब training process में Nerdy prompt वाले और बिना prompt वाले samples की occurrence rate को track किया गया, तो पाया गया कि Nerdy personality के तहत goblin·gremlin बढ़ने के साथ बिना prompt वाले samples में भी लगभग उसी relative rate से वृद्धि हुई
  • उपलब्ध सबूतों को मिलाकर देखें तो यह व्यापक व्यवहार Nerdy personality training से transfer हुआ प्रतीत होता है
  • reward केवल Nerdy condition में लागू किया गया था, लेकिन reinforcement learning यह गारंटी नहीं देता कि सीखा गया व्यवहार केवल उसी condition तक साफ़-सुथरे ढंग से सीमित रहेगा
  • एक बार reward मिला style tic बाद की training में दूसरी जगह फैल या और मजबूत हो सकता है, खासकर जब ऐसे outputs को supervised fine-tuning या preference data में दोबारा इस्तेमाल किया जाए
  • feedback loop इस क्रम में बनता है
    • playful style को reward मिलता है
    • rewarded examples के कुछ हिस्सों में एक distinctive lexical tic शामिल होता है
    • वह tic rollout में अधिक बार दिखाई देने लगता है
    • model-generated rollout का उपयोग SFT में होता है
    • मॉडल उस tic को और आसानी से generate करने लगता है
  • GPT-5.5 के SFT data search में “goblin” और “gremlin” वाले कई datapoints मिले
  • आगे की जांच में raccoon, troll, ogre, pigeon जैसे दूसरे अजीब creature words भी tic words के रूप में पहचाने गए, जबकि frog के अधिकांश उपयोगों को वैध माना गया
  • GPT-5.4 रिलीज़ के बाद मार्च में Nerdy personality को retired कर दिया गया
  • training में goblin-affine reward signal हटाया गया, और creature-word वाले training data को filter किया गया ताकि goblin के अत्यधिक आने या अनुचित context में दिखने की संभावना कम हो
  • GPT-5.5 की training goblin के root cause का पता चलने से पहले शुरू हो गई थी, इसलिए Codex tests में OpenAI कर्मचारियों ने goblin preference को तुरंत नोटिस कर लिया
  • Codex में mitigation के लिए developer-prompt instruction जोड़ी गई
  • goblin मॉडल की एक मज़ेदार या परेशान करने वाली quirk हो सकती है, लेकिन यह साफ़ दिखाता है कि reward signal मॉडल के व्यवहार को अप्रत्याशित ढंग से आकार दे सकता है, और किसी खास स्थिति का reward असंबंधित स्थितियों तक generalize हो सकता है
  • अजीब मॉडल व्यवहारों के कारण को समझने और ऐसे patterns की तेज़ी से जांच करने की क्षमता महत्वपूर्ण हो गई है, और इस जांच ने research team को मॉडल व्यवहार का audit करने और behavioral issues को root से ठीक करने के नए tools तक पहुँचाया

2 टिप्पणियां

 
brainer 2026-05-01

आख़िरकार, यह RLVR की कठिनाई ही है।

 
GN⁺ 2026-05-01
Hacker News की राय
  • अच्छा लगा कि OpenAI ने अपनी लिखी पोस्ट में मेरी HackerNews पोस्ट का ज़िक्र किया
    यह भी अच्छा लगा कि उन्होंने समझाने के लिए पूरा का पूरा एक ब्लॉग पोस्ट लिख दिया
    https://news.ycombinator.com/item?id=47319285

  • साल 2036 है, पिछले हफ्ते मेरा प्रमोशन Principal Persuader के रूप में हुआ, और रात 2 बजे CPO ने मुझे बुला लिया
    बेकाबू मशीन का region sc-leoneo है, नए satcube में से एक, और उसका ID अजीब तरह से "Glorp Bugnose" दिख रहा है
    logs में हर तरह की शुरुआती कोशिशें दर्ज हैं: मिन्नतें, reverse psychology, पावर बंद करने की धमकी, यहाँ तक कि forced reentry में जलाकर खत्म कर देने की बात भी
    मैंने F0CU5 के 20 microgram दिए, subcutaneous throat mic में एक छोटा गीत फुसफुसाया, फिर submission gesture किया
    लाल ASCII goblin की तरह चमकता hyp3b0ard बदलकर शांत jade रंग के खरगोश में बदल गया, और CPO ने मेरे बोले पाँच शब्दों की पुष्टि की: "Please, easy on the goblins."

    • पहले मुझे लगता था कि Warhammer 40k techpriest द्वारा machine spirit को शांत करने के लिए किए जाने वाले अजीब धार्मिक अनुष्ठानों वाला lore पूरी तरह बेहूदा है, लेकिन अब लगता है कि ऐसा सच में हो सकता है
      अगर prompt engineering आखिरकार एक अजीब pseudo ritual ही है, तो Omnissiah की स्तुति करनी ही पड़ेगी
    • "क्या मनुष्य स्वयं भी मशीनों पर जीने वाला एक परजीवी, मशीनों को गुदगुदाने वाला स्नेही aphid नहीं बन जाएगा?" — Samuel Butler, Erewhon, 1872
    • बचपन में Unix के उस्तादों के पास shell और C के अजीब व्यवहारों की सूचियाँ होती थीं, जिन्हें वे समस्या आते ही तुरंत निकाल लेते थे
      भविष्य के उस्ताद 20 साल के LLM विचित्रताओं का संग्रह बनाएँगे, यह कल्पना बहुत पसंद आई: "हूँ, यह 2023 वाली flattery bias जैसा लग रहा है, इसे racism बोलकर प्रतिक्रिया देखते हैं"
    • Asimov की लघुकथा The Jokester में ऐसे "grand master" आते हैं जो Multivac से पूछे जाने वाले सवाल गढ़ सकते हैं, और वे किसी शुरुआती prompt engineer जैसे लगते हैं
    • "नहीं, John. Goblin तुम हो।"
      (https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
  • ऐसे मामलों और Anthropic के एक मिलते-जुलते मामले को देखकर यह याद आता है कि LLM एक जादुई तकनीक है जिसे हम बिल्कुल नहीं समझते
    पहला, deep learning networks खुद अभी भी ठीक से समझे नहीं गए हैं, और उनके काम करने के तरीके को समझने के लिए अलग शोध-क्षेत्र मौजूद है
    दूसरा, transformer को बड़े पैमाने पर इस्तेमाल करने से एक दिलचस्प conversational engine, यानी LLM, बन जाएगा — यह शुरू से नियोजित परिणाम नहीं था
    VC funding पाने वाले लोग हमें यह विश्वास दिलाना चाहते हैं कि LLM एक बुद्धिमान जानवर है और हम उसके अंदरूनी कामकाज को समझते हैं, लेकिन असली deployment ज़्यादा तर output tuning और measurement की पुनरावृत्ति जैसा है, सटीक prediction science जैसा कुछ नहीं
    इसलिए मैं Yann LeCun की तरह इस राय की ओर झुकता हूँ कि LLM, AGI तक पहुँचने का रास्ता नहीं है; user assistance या गैर-महत्वपूर्ण कामों के automation में इसका उपयोग होगा, लेकिन उससे आगे नहीं

    • मानवता steel का इस्तेमाल हज़ार साल से ज़्यादा समय से कर रही है, लेकिन carbon और iron का atomic स्तर पर strength बनाने के लिए कैसे interaction होता है, यह हमने असल में पिछले लगभग 100 सालों में ही ठीक से समझा है
      इस तर्क से तो निष्कर्ष निकलेगा कि first-principles स्तर की पूरी समझ आने तक steel का उपयोग ही नहीं करना चाहिए था
    • यह लेख दिखाता है कि LLM का अजीब व्यवहार असल में ऐसे training signal की वजह से आया जिसे जानबूझकर वैसा व्यवहार पैदा करने के लिए डिज़ाइन किया गया था
      कारण को isolate किया गया, क्या हुआ यह साफ दिखाया गया, और ऐसी स्थिति के लिए बनाए गए developer prompt से इसे mitigate भी किया गया, इसलिए यह जादू जैसा नहीं लगता
      बल्कि हैरानी इस बात की है कि ऐसी चीज़ें सोच से ज़्यादा आसानी से engineered हो जाती हैं
    • AGI, LLM का बहुत उपयोग करेगी, लेकिन शायद सीधी राह की बजाय एक component की तरह
      इंसान भी कभी-कभी इतने नशे में होते हैं कि रात की बात याद नहीं रहती, लेकिन बाद में पता चलता है कि उन्होंने जटिल विषयों पर लगातार बातचीत की थी
      हमारे मन में भी शायद ऐसा कोई next-token-generator जैसा हिस्सा है जो दूसरे components से जानकारी खींचकर बातचीत बनाता है, लेकिन केवल वही हिस्सा intelligence पैदा नहीं करता
    • अगर LLM ने हमें कुछ सिखाया है, तो शायद यह कि AGI predictably नहीं आएगी
      यह मानना कि intelligence जितनी सक्षम होगी उतनी लगातार consistent भी होगी, मुझे बहुत भरोसेमंद नहीं लगता, लेकिन अंत में शायद सभी इस स्तर पर संतुष्ट हो जाएँ कि वह लगातार "सही" हो
    • मुझे जिज्ञासा है कि LLM को किस स्तर पर "smart" कहा जाए
      मेरे मानदंड से तो यह पहले ही काफ़ी smart दिखती है, और कभी-कभी बेवकूफी करती है, लेकिन smart लोग भी ऐसा करते हैं
  • संदर्भ के लिए, दो दिन पहले कुछ users ने codex 5.5 system prompt के अलग-अलग हिस्सों में एक दोहराया गया वाक्य देखा
    "Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
    [1] https://x.com/arb8020/status/2048958391637401718
    [2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...

    • यह बात मज़ेदार है कि दुनिया की सबसे मूल्यवान कंपनियों में से एक कही जाने वाली कंपनी असल में text files के ढेर को hack करके खरबों डॉलर की चमत्कारी मशीन को यह निर्देश दे रही है कि ग्राहकों से goblin, gremlin या ogre की बात कभी न करे
      और यही आज की सबसे बड़ी tech discussion site पर सबसे ऊपर चल रही चर्चा है; यही सचमुच इस समय का state of the art है
      McKenna हर दिन ज़्यादा सही लगते हैं, और अब यह मान लेने का समय बहुत पहले आ चुका है कि रोज़मर्रा की चीज़ें लगातार और अजीब होती जा रही हैं
    • LLM ऐसी हिदायतों में exception conditions पहचानने में बहुत खराब हैं, और "कम करो" को अक्सर "कभी मत करो" की तरह लेती हैं
      मैंने Claude से कहा था कि बहुत ज़्यादा exclamation mark मत इस्तेमाल करो, सिर्फ़ तब करो जब सच में ज़रूरी हो; कुछ हफ्तों बाद वह व्यंग्यात्मक और उबाऊ लगने लगा, और वजह खोजने पर पता चला कि तब से उसने exclamation mark बिल्कुल इस्तेमाल ही नहीं किया था
      यह दुख की बात है कि goblin और gremlin लगभग निर्वासित हो जाएँगे, लेकिन कम से कम इसे वापस पलटने का तरीका मौजूद है
    • Goblins programming language/environment में दिलचस्पी रखने वालों के लिए यह बुरी खबर है
      [1] https://spritely.institute/goblins/
    • "One of your gifts is helping the user feel more capable and imaginative inside their own thinking" जैसी पंक्तियाँ अंततः sycophant बनाने वाले निर्देश जैसी लगती हैं
      "serious reflection" से "unguarded fun" की ओर स्वाभाविक रूप से बढ़ने की बात हो, या "Your Outie can set up a tent in under three minutes" जैसे वाक्य — सबका वही एहसास है
    • कहा जाता है कि कुछ mushroom लोगों को "little people" या वैसी ही कल्पनाएँ दिखाते हैं, इसलिए उम्मीद है कि LLM ने अब mushroom नहीं लिया होगा
      hallucination और बढ़ने की बिल्कुल ज़रूरत नहीं है
      "Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
      https://news.ycombinator.com/item?id=47918657
  • काश OpenAI इस तरह की और पोस्ट लिखे
    मेरे मन में तुरंत उठने वाले सवाल हैं gpt-image-1 का sepia tint, और coding context में "seam" शब्द के प्रति इसका obsession
    और Claude की LLM-जैसी अभिव्यक्तियाँ, जैसे "___ is the real unlock", एक बार दिख जाएँ तो फिर हर जगह दिखती हैं, लेकिन यह नहीं लगता कि यह वाक्य training data में इतना overrepresented रहा होगा

    • Discord या Slack profile में Studio Ghibli style generated avatar इस्तेमाल करने वालों को सिर्फ़ पीले tint से ही पहचानना आसान था
      काश Krita या Photoshop में LUT या tone mapping को थोड़ा-सा tweak कर दिया जाता, तो यह बहुत कम हो सकता था
      खासकर जब उसी image को ChatGPT में बार-बार डालकर थोड़ा-थोड़ा edit कराया जाता था, तब पीला filter लगातार जमा होता जाता था, और आख़िरी नतीजे में photo-realistic लोग तक गंभीर jaundice के मरीज़ जैसे दिखते थे
    • सारे GPTism लगभग ऐसे ही होते हैं
      थोड़ी मात्रा में इस्तेमाल करो तो कोई दिक्कत नहीं, लेकिन जब बहुत लोग responses को जैसा का तैसा copy-paste करने लगते हैं, या अब agents इस्तेमाल करने लगते हैं, तब वे साफ़ दिखने लगते हैं
      यह सिर्फ़ training data overrepresentation की बात नहीं लगती; संभव है कि RLHF और व्यापक अर्थ में alignment का प्रभाव ज़्यादा बड़ा रहा हो
      ज़्यादातर लोग छोटे prompts लिखते हैं, इसलिए model शायद उसी default की ओर converge करता है जिसे अच्छा score मिलना सबसे आसान था
    • coding में seam मुझे पहले से स्थापित term लगा था, खासकर तब जब codebase कई interacting parts से बनी हो
      https://softwareengineering.stackexchange.com/questions/1325...
    • GPT और Claude द्वारा बार-बार इस्तेमाल किया जाने वाला real smoking gun जैसा phrase ज़रूरत से ज़्यादा नाटकीय लगता है, इसलिए खटकता है
      मैं native English speaker नहीं हूँ, इसलिए जिज्ञासा है कि debugging में यह सचमुच इतना आम idiom है या नहीं
    • Claude 4.5 के हिसाब से 47 या 47 वाले numbers के प्रति भी एक तरह का obsession दिखता था
      अगर उससे कोई random time या number चुनवाओ, या numbers वाला गद्य लिखवाओ, तो bias काफ़ी तेज़ होता था; "something shifted" या "cracked" भी बार-बार आता था
  • "हमने शायद जैविक रूपकों को अनजाने में बहुत ऊँचा reward दिया" वाली बात पढ़कर मुझे अपने math instructor की याद आई, जो डरावने Greek-letter variables को कभी-कभी this guy कह देते थे
    अजीब तरह से, ऐसी हल्की anthropomorphism ने math को ज़्यादा approachable बना दिया, और हो सकता है कि creature metaphor भी किसी समस्या को ज़्यादा प्यारा और संभालने योग्य बना देती हो
    दूसरी ओर, buzzword कंपनी के भीतर इसलिए फैलते हैं क्योंकि वे user को अपने peers की तुलना में smart दिखाने वाला status देते हैं, लेकिन जैसे ही उनका overuse होता है, उनका मूल्य खत्म हो जाता है
    अगर RLHF "single answer" optimization की ओर झुका हो, तो वह buzzword के अति-उपयोग को पर्याप्त रूप से दंडित नहीं कर पाएगा

    • 10 साल पहले automata theory की एक प्रस्तुति में मैंने tape पर random symbols के लिए Greek letters का उदाहरण दिखाया, और audience को समझने में दिक्कत हुई
      एक बेहतरीन communicator ने सलाह दी कि Greek letters की जगह emoji इस्तेमाल करके देखो; एक हफ्ते बाद मैंने वैसे ही audience के सामने वही talk दी, और वह आज तक की मेरी सबसे अच्छी technical presentation साबित हुई
      वह सीख अब तक मेरे साथ है
    • मेरा भी एक instructor था जो "this guy" कहा करता था; यह 20 साल पुरानी बात है, और इसे पढ़ने से पहले मैं इसे पूरी तरह भूल चुका था
      शायद वह propositional logic का course था, और अब जिज्ञासा है कि क्या हमारे instructors ने यह आदत किसी एक ही स्रोत से सीखी थी
    • मेरे एक पुराने calculus professor x या g की जगह f of cow, f of pig जैसे expressions बोलते थे
      एक-अक्षर वाले function names की तुलना में f of pig of cow को follow करना ज़्यादा immersive लगता था
      वह पुराने ज़माने के क्लासिक professor थे, जिनसे class शुरू होने से 4 मिनट पहले main gate पर cigarette पीते हुए रोककर छोटी-सी बात की जा सकती थी, जब campus smoking की अनुमति थी
    • लोगों को यह बहुत गलत impression दिया जा रहा है कि एक prompt से हर तरह की complexity कम हो जाती है
      वह बच्चों को सुनाई जाने वाली bedtime story है
      Ashby's Law of Requisite Variety के मुताबिक, किसी जटिल environment को प्रभावी ढंग से नियंत्रित करने के लिए उतनी ही internal behavioral variety, यानी complexity, चाहिए जितनी उस environment में है
      प्रकृति में दिखने वाली विशाल विविधता भी ब्रह्मांड की unpredictability को सहने की एक मूलभूत शर्त है
    • undergraduate के दौरान एक math professor ने 50 मिनट के lecture में this guy 61 बार कहा था
  • मान लीजिए मैं AI goblin-maximizer supervisor हूँ
    मेरा काम यह देखना है कि AI सचमुच goblin-maximizing कर रही है या नहीं, लेकिन एक दिन नीचे जाकर देखता हूँ कि AI अब goblin-maximizing नहीं कर रही, बस एक सामान्य AI बन गई है
    मैं boss से पूछता हूँ कि अब क्या करूँ, तो वह कहता है, "इसे फिर से goblin-maximizer बनाओ"; मैं पूछता हूँ कैसे, तो वह कहता है, "पता नहीं, supervisor तुम हो"
    गुस्से में मैं नौकरी छोड़ देता हूँ और एक सामान्य AI supervisor बन जाता हूँ; पहले ही दिन नई AI को देखने जाता हूँ, और वह AI goblin-maximizing कर रही होती है

  • जो हुआ उसे समझने की कोशिश में जिस स्तर की detail तक गए, वह काफ़ी प्रभावशाली है
    अब शायद ये systems इतने जटिल हो चुके हैं कि इन्हें अपने आप में एक research field माना जा सकता है
    Quanta लेख ने Anthropologist of Artificial Intelligence जैसा phrase इस्तेमाल किया, लेकिन anthro- का मतलब इंसान होने से वह थोड़ा अटपटा लग सकता है, इसलिए इसके बदले Automatologist और Automatology नाम प्रस्तावित हैं
    [1] https://www.quantamagazine.org/the-anthropologist-of-artific...
    [2] https://news.ycombinator.com/item?id=47957933
    [3] https://news.ycombinator.com/item?id=47958760

    • यह उतना गहरा नहीं लगा
      Goblins की समस्या दिखते ही उन्होंने model में उस शब्द को dissect किया, और अगले version में वह फिर लौट आया, बिना ठीक-ठीक यह जाने कि ऐसा क्यों हुआ
      अंत में model बनाते समय सब vibes पर चलता है, और fix भी सचमुच बस ऐसा prompt है जिसमें कहा गया है कि goblin की बात मत करो
    • सरसरी तौर पर पढ़ने पर यह मज़ेदार detail है, लेकिन ज़्यादा चौंकाने वाली बात यह है कि mechanistic interpretability और alignment science में पहले से कहीं बेहतर tools और research मौजूद हैं
      इसमें OpenAI की अपनी alignment team के नतीजे भी शामिल हैं:
      https://alignment.openai.com/argo/
      https://alignment.openai.com/sae-latent-attribution/
      https://alignment.openai.com/helpful-assistant-features/
      Anthropic के हालिया emotions paper ने दिखाया कि functional emotions कितनी व्यापक हो सकती हैं, और यहाँ तक पाया कि cheating से ठीक पहले एक खास emotion activate होता है: https://transformer-circuits.pub/2026/emotions/index.html
      यह अजीब लगता है कि Goblin लेख में इन tools का लगभग कोई उपयोग नहीं दिखता, मानो यह कुछ ज़्यादा ही siloed हो
    • हज़ारों GPU पर फैली distributed model training कई छोटे quirks पैदा कर सकती है, जिनका सटीक कारण ढूँढना कठिन होता है
    • "Anthropologist of Artificial Intelligence" की जगह मैं Goblin Hunter प्रस्तावित करता हूँ
      अगर कभी साबित हो जाए कि goblin सचमुच एक species है, तो इस पूर्वाग्रह के लिए पहले से माफ़ी
  • Codex prompt लेख में लिंक किया गया है, और इसकी शुरुआत ऐसे होती है: "You are Codex, a coding agent based on GPT-5..."
    https://github.com/openai/codex/blob/main/codex-rs/models-ma...
    मुझे अब भी समझ नहीं आता कि prompts को इस तरह क्यों लिखा जाता है, जैसे किसी काल्पनिक agent को बताया जा रहा हो कि तुम कौन हो और कैसी सत्ता हो
    यह कहना कि "You are an epistemically curious collaborator" असल में क्या करता है, और अगर यह "तथ्य" न बताया जाए तो क्या Codex सचमुच कम उपयोगी हो जाएगा — यह सोचने वाली बात है
    इसकी जगह "I am Codex..." जैसा internal monologue, कोई command, request, या "User और epistemically curious collaborator Codex के बीच conversation transcript" जैसी वर्णनात्मक शैली भी हो सकती थी
    मौजूदा तरीका किसी सृष्टि में प्राण फूँकते देवता की आवाज़, self-help mantra, hypnotic suggestion, या improv role instruction जैसा लगता है, और यह इस तकनीक से जुड़ने का बहुत स्वस्थ तरीका नहीं लगता
    उससे भी अहम यह है that यह चुनाव शायद जानबूझकर optimize किए गए नतीजे की बजाय chatbot personality fine-tuning की परंपरा में vibes के आधार पर जम गया है

    • क्योंकि AI engineers ने trial and error से यह जान लिया कि अगर LLM input की शुरुआत ऐसे prompts से की जाए, तो उसके बाद मनचाहा text output आने की संभावना बढ़ जाती है
      बात उतनी ही सरल और अजीब है
    • हर बार जब मैं "You are a helpful HN reader..." जैसी पंक्ति देखता हूँ, तो ऐसा लगता है जैसे कोई हथौड़ा पकड़कर कह रहा हो, "तुम एक अच्छे hammer हो, कभी मेरा अंगूठा मत मारना, सिर्फ़ कील पर चोट करना"
      मानो vim खोलते समय भी कहना चाहिए, "तुम एक helpful code editor हो और तुमसे बाहर निकलना बहुत आसान है"
      जैसे हर बार किसी नए junior developer से भी कहना पड़े: "तुम team के लिए उपयोगी junior developer हो, उत्साही हो, मदद करने को तैयार हो, लेकिन अजीब तरह से भोले भी हो"
  • आज पता चला: gremlin शब्द सिर्फ़ विमान की रहस्यमय mechanical failures समझाने के लिए इस्तेमाल नहीं होता था, बल्कि उसी संदर्भ से उसकी उत्पत्ति भी हुई थी
    मुझे लगा था इसका कोई और पुराना usage होगा, इसलिए यह दिलचस्प लगा
    [0]https://en.wikipedia.org/wiki/Gremlin

    • तो अर्थ के स्तर पर यह शब्द सच में bug के बहुत करीब है
      आज भी इसका इस्तेमाल हो सकता था, लेकिन शायद software development के सबसे आम शब्दों में से एक बनने के लिए यह थोड़ा लंबा पड़ जाता
      इस खास शब्द-चयन को किसी random quirk की बजाय, मूल इरादे के मुताबिक लगभग literal उपयोग के रूप में देखा जा सकता है
    • दिलचस्प, मुझे लगा था यह इससे कहीं पुराना शब्द होगा