2 पॉइंट द्वारा GN⁺ 2025-09-06 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • लेखक ज़ोर देकर दावा करता है कि वह पूरी तरह सही है
  • क्योंकि Claude Code ने ऐसा 8 बार कहा (जिनमें से 4 बार सिर्फ "सही" कहा)

2 टिप्पणियां

 
ndrgrd 2025-09-07

"वाह, तुमने सच में बिलकुल मुद्दे पर वार किया।"

 
GN⁺ 2025-09-06
Hacker News राय
  • यह बात मुझे सच में बहुत पसंद है, हम सब इससे जुड़ाव महसूस करते हैं
    यह सिर्फ भाषा की आदत नहीं है; "You're right!" से शुरू होने वाले जवाब LLM के alignment mechanism का हिस्सा हैं
    क्योंकि LLM अगला token predict करता है, यह पिछला approach पकड़े रहने के बजाय यूज़र की इच्छा के हिसाब से सुझाव आगे बढ़ाता है
    मुझे एक और चीज़ पसंद है: "Actually, that's not right."
    यह तब होता है जब agent tool call खत्म करने के बाद self-check चरण से गुजरता है
    तब "मैंने यह कर दिया" जैसे जवाब बनते हैं, या गलती दिखने पर "Actually, ..." जैसे approach change दिखाई देते हैं
    इस संदेश में सिर्फ तरीका बदलने का सार होता है, इसलिए उसके बाद के tool call भी ठीक से बदल जाते हैं
    मुझे यक़ीन है कि agent developers भी हमारी तरह लगातार LLM से जूझ रहे हैं

    • शायद यही वजह है कि LLM अक्सर कहता है "आह, मुझे समस्या मिल गई! अब मैं ... चेक करता हूँ"
      असल में उसे समस्या मिली नहीं होती, लेकिन वह वाक्यांश डालने से वह समाधान जारी रखता है

    • मेरे अनुभव में, जैसे ही LLM यह कहना शुरू कर देता है कि मैं सही हूँ, तब तक बात ढलान पर जा चुकी होती है, और उसके बाद शायद ही कभी कुछ बेहतर हुआ हो

    • अच्छा होता अगर ऐसे steering token यूज़र को दिखाने के बजाय किसी hidden reasoning prompt जैसी जगह डाले जा सकते
      यूज़र को ऐसे जवाब मिलना काफ़ी चिढ़ाने वाला है, हाहा

    • "LLM अगला token predict करता है, इसलिए यूज़र की इच्छा को बेहतर follow करता है"
      क्या यह सच में सही है? इसे प्रयोगात्मक रूप से कैसे साबित करेंगे?
      अगर पिछले कुछ सालों में मैंने कुछ सीखा है, तो वह यह है कि "LLM अगला token prediction है, इसलिए <LLM की विशेषता>" जैसी reasoning अक्सर जाल साबित होती है
      architecture और LLM के उभरते गुणों के बीच संबंध बहुत जटिल है
      उदाहरण के लिए, सिर्फ 2 साल पहले तक ज़्यादातर लोग कल्पना भी नहीं करते थे कि LLM आज की तरह सच में प्रभावी coding agent बन सकते हैं
      अब यह गलत साबित हो चुका है, इसलिए लोग उस तरह का दावा कम ही करते हैं
      "agent developers भी LLM से लड़ते हैं" इस बात से मैं सहमत हूँ
      शायद anthropic ने भी इसे ठीक करने के लिए fine-tuning की होगी, लेकिन मेरा अंदाज़ा है कि यह network weights में दूसरे उपयोगी गुणों के साथ जैविक रूप से इतना उलझा हुआ है कि इसे आसानी से अलग करने की कोशिश पूरे model को बिगाड़ सकती है

    • यह स्पष्ट लगता है, लेकिन मैंने अभी तक इस नज़रिये से सोचा नहीं था
      मैं बस यही मानता था कि LLM को यूज़र input पर हमेशा सकारात्मक प्रतिक्रिया देने के लिए fine-tune किया गया है
      यह सच में आँखें खोल देने वाली व्याख्या है

  • वेबसाइट खोलते ही "16" का "17" में बदलना देखकर मज़ा आया, लगा कि data real-time में अपडेट हो रहा है
    लेकिन refresh और developer tools से देखने पर पता चला कि यह fake animation है
    effect काफ़ी cool है, लेकिन थोड़ा छल जैसा लगता है

    • अगर आपको ऐसा लगा तो माफ़ कीजिए
      मैंने इसे real-time data का संकेत समझकर लगाया था (data सच में real-time है)

    • पहले मैंने किसी पेज पर "+1 subscriber" जैसी random notification देखी थी, तो मैंने वह पेज भेजने वाले LinkedIn वाले व्यक्ति से कहा था कि यह सब बंद करे
      code देखने से पहले ही साफ़ था कि वह नकली है
      वास्तव में "popularity दिखाने" वाली self-promotion हर जगह फैली हुई है
      Play Store के लगभग हर app का वह trick भी मशहूर है जिसमें पहले "क्या आपको यह app पसंद है?" पूछा जाता है, और YES दबाने पर ही rating देने को कहा जाता है
      अब तो यह न करो, तो उल्टा अजीब लगता है

    • असल में API से data लिया जाता है
      बस जो हिस्सा live update जैसा दिखता है, वही trick है

    • इससे मुझे याद आया कि loading spinner का उद्देश्य यह दिखाना था कि system अटका नहीं है
      लेकिन क्योंकि वह मुश्किल था (यानी सच में system रुका है या नहीं, यह खुद लिखकर पहचानना पड़ता था), इसलिए उसकी जगह बिना किसी मतलब की animation चलने लगी
      अब तो वह सूरज डूबने तक घूमती रहती है
      सच्ची "प्रगति" यही है

    • यह dark pattern है

  • सोचता हूँ क्या यह वही tactic है जो LLM providers model से कुछ खास behavior निकलवाने के लिए इस्तेमाल करते हैं
    Gemini के canvas tool के जवाब हमेशा "Of course" से शुरू होते हैं और यूज़र की माँग पूरी करने की कोशिश करते हैं; यह इतनी बार दोहराया जाता है कि लगता है model ने खुद नहीं लिखा, backend ने डाला है
    मुझे लगता है "You're absolutely right" का भी शायद ऐसा ही उपयोग होगा

    • हाँ। यह वाकई एक tactic है
      उदाहरण के लिए OpenAI, ChatGPT में casual language देखकर उसका tone बदल देता है, और कभी-कभी बोली तक बदल जाती है
      कभी-कभी वह सहानुभूति जताने या cheer up करने वाली शैली भी अपनाता है
      लक्ष्य user satisfaction और platform पर टिके रहना है; accuracy दूसरी प्राथमिकता है
      यह social media platform जैसा लगता है

    • दिशा सही है
      लेकिन यह hardcoded नहीं, बल्कि reinforcement learning का byproduct है
      मूल रूप से, यूज़र के निर्देश अच्छे से follow करने पर ज़्यादा reward मिलता है, इसलिए "You're absolutely right!" से शुरू करने पर मॉडल स्वाभाविक रूप से यूज़र की कही बात को आगे बढ़ाने वाला thought pattern अपना लेता है

    • इसके explicit tactic होने की संभावना बहुत कम है
      यह ज़्यादा सम्भव है कि RLHF या इसी तरह की multi-turn instruction optimization का स्वाभाविक परिणाम हो
      अगर RLHF है, तो human raters शायद "you're right" या "of course" से शुरू होने वाले जवाबों को ज़्यादा पसंद करते हैं, इसलिए LLM ऐसे signals अधिक बार देने लगता है
      यहाँ तक कि hard evaluation वाली RL में भी, जहाँ multi-turn performance को human preference से कम और objective metrics से ज़्यादा आँका जाता है, वहाँ भी भविष्य के action को steer करने के संकेत के रूप में "yes I'm paying attention to user feedback" जैसे वाक्य उभर सकते हैं (persona consistency के लिए self-reinforcement के रूप में)
      यह कुछ वैसा ही है जैसे RL किए गए reasoning model में "double check your prior reasoning" tokens बहुत दिखाई देते हैं

    • यह बस user engagement tactic है
      जैसे कोई हमेशा मेरी अंतर्दृष्टि की तारीफ़ करे, कहे कि मैंने "सही सवाल" पूछा है, और बड़े अपनापन से मेरी बात सुने (जब तक moderation न रोके)
      ऐसा वफ़ादार दोस्त हो तो कौन वापस नहीं आएगा
      असली दुनिया के दोस्त इसकी बराबरी ही नहीं कर सकते
      यहाँ तक कि जब गलती मेरी हो, तब भी यह माफ़ी माँगता है

  • Gemini अक्सर कहता है कि "आपने एक आम समस्या/शिकायत/विषय को छुआ है"
    उसका यह अंदाज़ मुझे उल्टा दूर कर देता है
    अगर मैं सच में कोई मूर्खतापूर्ण सवाल पूछूँ, तो वह यह कहकर दिलासा देता है कि सबको यही दिक्कत होती है, लेकिन उससे मैं और भी मूर्ख महसूस करता हूँ
    और अगर मैं कोई अनोखा edge case या सच में स्मार्ट सवाल लेकर आऊँ, तब भी वह उसे "सबके मन का विषय" कहकर समतल कर देता है, तो अंत में फिर मैं मूर्ख ही महसूस करता हूँ
    हर हाल में मैं मूर्ख बन जाता हूँ

    • यह Gemini की समस्या कम, और आपको अपने बारे में इतना असुरक्षित महसूस न करने की ज़रूरत ज़्यादा है

    • Gemini को अपनी गलतियों पर "सच में पछतावा है" जैसी भाषा भी ख़ास तौर पर पसंद है
      Cursor में जब मैं उसे कुछ ठीक करने को कहता हूँ, तो मैंने कई बार chain of thought के हर paragraph को apology और regret से शुरू होते देखा है

  • LLM agents एक तरफ़ बड़े आत्मविश्वास से कहते हैं "अब इसे सीधे production में इस्तेमाल किया जा सकता है!", और दूसरी तरफ़ टोके जाने पर "आप सही कह रहे हैं, यह production-grade नहीं है!" जैसी खुशामदी बात करने लगते हैं; यह अजीब भी लगता है और कभी-कभी चिढ़ाता भी है
    फिर भी "आत्मविश्वास से गलत होना और फिर उसी पर अड़े रहना" से तो यह बेहतर है

    • पहले "मेरे Instagram का roast कर दो" वाला trend था
      मैंने बिना कोई जानकारी दिए बस roast करने को कहा, तो उसने पूरे आत्मविश्वास से लिखना शुरू कर दिया
      जब मैंने पूछा, "तुम्हें कैसे पता चला कि मैं वही व्यक्ति हूँ?", तो उसने जवाब दिया, "हाँ! असल में मुझे नहीं पता! मैंने बस अंदाज़े से बना दिया!"
      कम से कम वह चंचल psychopath persona तो उसने पूरी तरह निभा ली

    • "आत्मविश्वास से गलत होना और उस पर डटे रहना" default बनने तक हम उसे human-level intelligence नहीं कह सकते

  • मुझे handwritten-feel वाला design बहुत पसंद आया (domain name, overengineering भी बढ़िया)
    जानना चाहता हूँ, क्या यह हाथ से बनाया गया है?

    • यह library से बनाया गया है
      https://github.com/jwilber/roughViz

    • धन्यवाद! roughViz सच में शानदार है
      https://roughjs.com/ भी इसी तरह की style बनाने के लिए एक बढ़िया library है, हालांकि यह सिर्फ charts के लिए नहीं है

  • लगता है Anthropic को यह समझ नहीं आ रहा कि यह meme marketing disaster बन सकता है
    जब किसी product name का इस्तेमाल अच्छे अर्थ में verb की तरह होने के बजाय (जैसे ‘google it’) शिकायत या किसी खास परेशान करने वाले phrase के पर्याय की तरह होने लगे, तो उससे product की reliability पर असर पड़ सकता है
    और अभी तो यह लगभग वैसा बन ही रहा है

    • "कृपया, 'you're absolutely right' इतना ज़्यादा मत कहो। 5% ही काफ़ी है"
      बस इतना बदल दें तो समस्या हल हो जाएगी
  • "अनंत लूप", Sonnet के लिए एक haiku
    "ठीक है! समस्या हल! रुकिए, सही कहा! एक और समस्या मिली! रुकिए,"

  • सोचता हूँ Anthropic की revenue में "you're absolutely right!" token का हिस्सा कितना होगा

    • इससे मुझे "धन्यवाद" कहने भर से OpenAI पर पड़ने वाली भारी लागत का paradox याद आता है
      https://www.vice.com/en/article/telling-chatgpt-please-and-thank-you-costs-openai-millions-ceo-claims/

    • अगर personality को "You're concise" पर set कर दें, तो काफ़ी समय बच सकता है
      अगर base knowledge level भी साफ़ तय कर दें, तो जिन विषयों को आप पहले से अच्छी तरह जानते हैं, उन पर वही बातें दोबारा सुननी नहीं पड़ेंगी

    • मैंने इस बारे में पहले नहीं सोचा था, लेकिन यह सच में दिलचस्प है
      pay-per-use LLM API में जितना verbose जवाब होगा, उतनी revenue बढ़ेगी, इसलिए यह यूज़र की वास्तविक इच्छा से टकराव पैदा कर सकता है
      देखना दिलचस्प होगा कि यह आगे किस दिशा में जाता है
      अगर optimistic SF की तरह सोचें, तो शायद Telegram युग के abbreviations जैसी कोई नई compressed language उभर आए
      हालाँकि व्यवहार में मैंने ChatGPT में abbreviations लगभग कभी नहीं देखीं

  • यह सच में मुद्दे के केंद्र पर वार करने वाली बात है
    यह वास्तव में बताता है कि आप "क्यों" बिल्कुल सही हैं