2 पॉइंट द्वारा GN⁺ 3 일 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • ज्ञान श्रम की गुणवत्ता को सीधे दोबारा करके देखे बिना सत्यापित करना कठिन होता है, इसलिए वास्तविक सटीकता के बजाय ऊपरी तौर पर पूर्णता जैसे प्रतिनिधि संकेतकों पर निर्भरता बढ़ जाती है
  • तारीख की गलती या ग्राफ लेबल की समस्या जैसे सतही दोष दिखें, तो वे मुख्य निष्कर्ष से असंबंधित हों तब भी पूरे परिणाम को खारिज करना आसान हो जाता है, और निर्णय के मानदंड भी वास्तविकता के प्रतिबिंब से अधिक सस्ते में जांचे जा सकने वाले बाहरी रूप की ओर झुक जाते हैं
  • LLM वास्तविक कार्य-गुणवत्ता को पुन: उत्पन्न किए बिना भी विश्वसनीय लगने वाली शैली और फ़ॉर्मैट की बहुत अच्छी नकल कर सकता है, इसलिए रिपोर्ट या कोड की अनुष्ठानिक प्रक्रिया बची रह सकती है, लेकिन उसके नीचे की गुणवत्ता खाली हो सकती है
  • अगर मापा जाने वाला मानदंड सतही गुणवत्ता है, तो अधिकांश आउटपुट LLM से लिखवाना तर्कसंगत हो जाता है, और LLM स्वयं भी सत्यता या उपयोगिता के बजाय उच्च-गुणवत्ता जैसा दिखने वाले आउटपुट के लिए अनुकूलित होता है
  • नतीजतन, अरबों डॉलर के सिस्टम वास्तविक काम के बजाय काम की नकल में अधिक इस्तेमाल होने लगते हैं, और सरसरी तौर पर देखकर LGTM लगा देने वाला प्रवाह Goodhart's law के स्वचालन की स्थिति तक पहुंच जाता है

LLM ने जो संरचना और परिणाम बदले

  • LLM वास्तविक कार्य-गुणवत्ता को पुन: उत्पन्न किए बिना भी विश्वसनीय लगने वाली शैली और फ़ॉर्मैट की बेहद अच्छी नकल करता है
  • ChatGPT से लिखी गई मार्केट विश्लेषण रिपोर्ट किसी शीर्ष consulting company के deliverable जैसी पढ़ी और दिख सकती है
  • एक software engineer थोड़ी देर सरसरी नज़र डालने पर उच्च-गुणवत्ता जैसा दिखने वाला हज़ारों लाइनों का कोड बना सकता है, और सहकर्मी फिर AI से code review चलाकर समस्याएं ढूंढकर सुधार सकता है
  • परिणामस्वरूप, काम की अनुष्ठानिक प्रक्रिया बनी रहती है, लेकिन उसके नीचे की वास्तविक गुणवत्ता खाली हो सकती है
  • यदि मापा जाने वाला मानदंड सतही गुणवत्ता है, तो श्रमिक के लिए उसी मानदंड पर अच्छा दिखने वाला व्यवहार करना तर्कसंगत हो जाता है, इसलिए अधिकांश आउटपुट LLM से लिखवाए जाते हैं
  • LLM का प्रशिक्षण भी उत्तर सच है या उपयोगी है, इससे अधिक इस पर केंद्रित होता है कि वह training corpus में आने योग्य लगता है या RLHF evaluator को संतुष्ट करता है
  • अंततः LLM स्वयं भी उच्च-गुणवत्ता जैसा दिखने वाला आउटपुट बनाने के लिए अनुकूलित हो जाता है
  • अरबों डॉलर खर्च करके बनाए गए सिस्टम वास्तविक काम के बजाय काम की नकल करने में इस्तेमाल होने लगते हैं
  • कंपनियां इस बात में प्रतिस्पर्धा करने लगती हैं कि कौन अधिक tokens इस्तेमाल करता है
  • श्रमिक जितना अधिक LLM आउटपुट बनाते हैं, उन आउटपुट की गहराई से समीक्षा करने का समय उतना ही कम बचता है
  • अंत में बस सरसरी तौर पर देखकर LGTM लगाने और अगला Claude Code session खोलने वाला प्रवाह बचता है

1 टिप्पणियां

 
GN⁺ 3 일 전
Hacker News की राय
  • जैसा कि लेख में कहा गया है, यह दावा कि टाइपो या छोटी-मोटी गलतियाँ जैसी proxy signals से इंसानी knowledge work की गुणवत्ता को आँकना आसान था, और यह दावा कि AI में ऐसे संकेत नहीं हैं इसलिए समस्या है — इन दोनों से मैं पूरी तरह सहमत नहीं हूँ
    वैचारिक रूप से कमजोर लेकिन तथ्यों में सही और रूप-रंग में ठीक-ठाक इंसानी output पहले भी बहुत रहा है
    10 साल तक enterprise ग्राहकों के साथ काम करने के बाद मैं बिल्कुल नहीं कहूँगा कि pre-LLM दौर उच्च-गुणवत्ता वाले knowledge work का स्वर्णयुग था; तब भी knowledge work का कामचलाऊ simulacrum जैसा बहुत कचरा भरा पड़ा था

    • मेरे लिए बड़ी समस्या यह है कि गलतियों की मानवीय explainability गायब हो रही है
      इंसानी low-quality output के पीछे आम तौर पर कोई कारण होता है — जैसे अज्ञान, समय का दबाव, या स्वार्थी लक्ष्य — और वह कारण काफी हद तक सुसंगत भी होता है
      आप भरोसे के पैटर्न बना सकते हैं: जैसे सावधान लेकिन अनजान intern, या बहुत ज्ञानवान लेकिन नींद की कमी से साफ चीज़ें चूक जाने वाला senior
      लेकिन AI एक ही बार में paper implementation बिल्कुल सही कर सकता है, और उसी run में first-year student स्तर की गलती भी कर सकता है; इसलिए पूरी तरह अयोग्य मानकर review करने जैसी गैर-सहज स्थिति बनती है, जबकि सामने वाली मशीन कभी-कभी चरम दक्षता भी दिखाती है
    • pre-LLM दौर quality का स्वर्णयुग नहीं था, लेकिन यह सही है कि LLM ने जल्दबाज़ी में बने बकवास काम को पहचानने वाली एक और निशानी हटा दी है
    • मूल रूप से यह positive classification नहीं बल्कि negative filter था
      अगर टाइपो या बुनियादी factual errors हों तो किसी चीज़ को आसानी से खारिज किया जा सकता था, लेकिन उनके न होने का मतलब यह नहीं कि quality ऊँची है
      आम तौर पर ऐसी जाँच सिर्फ पहला दरवाज़ा होती है, पूरी प्रक्रिया नहीं; और वह दरवाज़ा पार होने पर असली समस्याएँ देखना आसान हो जाता है
      यह कुछ वैसा है जैसे code में reasoning से पहले lint और style को साफ करना
    • दिखने वाले AI-विशिष्ट वाक्यांश पकड़े जा सकते हैं, लेकिन बिना किसी निशान वाले बाकी 99% AI-generated text छूट सकते हैं
      और चूँकि व्यक्ति खुद नहीं जानता कि वह 99% AI-generated है, वह आसानी से यह भ्रम पाल सकता है कि जो 100% पैटर्न उसने पकड़े हैं, वही AI लेखन का पूरा दायरा है
    • मुझे नहीं लगता कि यह मूल रूप से सबसे महत्वपूर्ण बात है
      वैसे भी बहुत-सा knowledge work किसी और चीज़ का surrogate रहा है
      टाइपो-रहित और सलीकेदार quality अक्सर इस्तरी की हुई सफेद शर्ट और टाई की तरह मुख्यतः सम्मान का संकेत थी, और कई लंबे दस्तावेज़ ऐसे भी थे जिन्हें वास्तव में कोई गहराई से पढ़ता ही नहीं था
      आखिरकार यह त्याग और आज्ञाकारिता का प्रतीकात्मक प्रदर्शन था, और LLM इस signaling system को मिटा रहा है
      अगर पहले भी सामग्री की असली quality को ठीक से नहीं देखा जाता था, तो शायद वह सामग्री शुरू से ही उतनी महत्वपूर्ण नहीं थी
  • अकादमिक दुनिया में AI review cost की समस्या पहले से दिख रही है, हालांकि थोड़े अलग कारणों से, जैसा लेख में कहा गया है
    असल मुद्दा सिर्फ यह नहीं कि घटिया काम की निशानियाँ गायब हो रही हैं, बल्कि यह है कि AI से बने काम को ध्यान से review करने की लागत इंसानों के लिए वहन करना बहुत भारी होती जा रही है
    उदाहरण के लिए economics journals में supplements सैकड़ों पन्नों तक पहुँच जाते हैं, लेकिन इंसानों के पास पढ़ने का समय सीमित है
    यह जानने की जिज्ञासा है कि क्या दूसरे क्षेत्रों की journals भी सिर्फ submissions की बढ़ती संख्या से नहीं, बल्कि हर paper को verify करने के लिए लगने वाली review intensity से भी दबाव में हैं

    • निष्पक्ष रूप से कहें तो कई शैक्षणिक क्षेत्रों में master’s level या उससे ऊपर से ही सही-गलत की पहचान के लिए बहुत ऊँची विशेषज्ञता चाहिए होती है
      उससे नीचे के स्तर पर क्या सही है और क्या सिर्फ सही लगता है, इनमें फर्क कर पाना लगभग असंभव हो सकता है
  • AI का इस्तेमाल करते हुए मुझे लगता है कि मैं समझ का cargo-cult कर रहा हूँ
    यानी किसी चीज़ को समझ लेने की सतही छवि दोहरा रहा हूँ, और वास्तव में समझने में लगने वाला समय और प्रयास खुद से छीन रहा हूँ

    • साथ काम करने वाले एक सहकर्मी को देखकर मुझे हमेशा यही लगता है कि वह AI use cases को लगभग सिर्फ personal Jarvis fantasy की तरह देखता है
      उसे विश्वास है कि अगर Claude में Snowflake Cortex, integrated code, documents और Jira tickets सब खिला दिए जाएँ, तो उससे कुछ भी पूछा जा सकेगा और सब कुछ बहुत बेहतर हो जाएगा
      लेकिन उस जुनून से कोई बड़ा output नहीं निकला, और कुछ बार उसने खुद तकनीक की अपूर्णता का बड़ा नुकसान भी देखा है
      सब लोग agentic workflow और विशाल internal wiki vision की बात करते हैं, लेकिन मैं AI से delivery speed काफ़ी बढ़ाते हुए भी भव्य रोमांचक प्रयोगों पर समय नहीं लगाता, इसलिए लगातार परिणाम दे पा रहा हूँ
      पहले जो लोग कंपनी के chatbot rollout की आलोचना करते थे, वही अब खरबों .md files और skill files इकट्ठा करके अपना chatbot बनाने में tokens जला रहे हैं — यह विडंबना भी दिखती है
      सच में चिंता की बात यह है कि संस्था-स्तर का वास्तविक ज्ञान ऐसे shortcuts में खो रहा है
      साधारण example requests या concept-learning वाले सवाल ठीक हैं, लेकिन ऐसे prompts — कि मौजूदा tools और infrastructure की समीक्षा करो, deployment speed 5x बढ़ाओ, web research करो, organizational adoption proposal बनाओ, और 5-year cost-benefit analysis भी साथ दो — इंसान को खुद ही कमजोर बनाते हैं
      आजकल लोग Claude द्वारा बनाया गया proposal इधर-उधर फेंक देते हैं, और खुद थोड़ा गहराई से देखने या architect या senior engineer के साथ मिलकर खोजने की प्रक्रिया छोड़ देते हैं
      नतीजा यह होता है कि वे बहुत-सी चीज़ों को सिर्फ सतही तौर पर समझते हैं, गहराई से पूछने पर ठीक से समझा नहीं पाते, और AI के दिए जवाब को निर्णायक रणनीति मानकर उससे चुनौती नहीं लेना चाहते
      अधिक अनुभवी लोगों से सीखने के अवसरों को भी वे सीखने के अनुभव के रूप में देखना बंद कर देते हैं
      आखिरकार मुझे अब भी लगता है कि मानव मस्तिष्क खुद सबसे अद्भुत technologies में से एक है, और तब मैं फिर सोचता हूँ कि इस विशाल कृत्रिम पुस्तकालय को अपने बाहर बनाने की ज़रूरत ही क्या है
    • यहाँ मुझे समझ का cargo cult कम और managerial viewpoint का cargo cult ज़्यादा दिखता है
      जैसा Bret Devereaux ने Game Of Thrones critique में कहा है, elite perspective पर आधारित worldview सिर्फ elites को ही plausible और utopian लगती है
      वास्तविक श्रम से कटी हुई यह फुलावट आखिरकार ज़ोर से फटेगी, और अगर AI से नौकरियाँ खोने वाले आम लोग रोटी भी न जुटा पाएँ और उन्हें केक खाने को कहा जाए, तो फ्रांसीसी क्रांति जैसी प्रतिक्रिया की कल्पना भी होने लगती है
    • उल्टा यह भी सही है कि AI मेरे बिना समझे भी मेरे लिए कुछ कर सकता है
      लेकिन जब मैं गहराई से समझना चाहता हूँ, तब मदद करने वाले tools में AI जितना अच्छा भी बहुत कम मिलता है
  • अंततः किसी चीज़ को समझना लगभग उसे खुद करके देखना ही है
    किसी चीज़ को न समझना ठीक है, लेकिन तब proxy signals हों या न हों, अंत में आपको किसी और की समझ पर भरोसा करना ही पड़ता है
    कम काम करके अधिक भरोसा करने की दिशा एक हद तक चल सकती है, लेकिन उसके आगे भविष्य का काम ही अस्थिर हो जाता है
    simulacrum सचमुच बहुत अच्छा शब्द है

    • Simulacrum की अवधारणा Baudrillard से आती है, और उनका essay Simulation and Simulacra यह समझने में काफ़ी मदद करता है कि आधुनिक अर्थव्यवस्था इतनी अजीब क्यों लगती है
  • शायद इसी वजह से middle managers LLM maximalism के पहले सच्चे अनुयायी जैसे दिखे
    middle management में ऐसी कई incentives होती हैं जो भूमिका की वास्तविक mastery से इतर knowledge work को लगातार abstract करने की ओर धकेलती हैं, और वह abstracted layer शायद embedding space में खास तौर पर अच्छी तरह represent होती है

  • AI code अक्सर वास्तविकता से भी बदतर दिखता है
    वह बहुत ज़्यादा verbose, उलझा हुआ, और fallbacks से भरा होता है; समस्या आने पर वह countless try/catch से बहता हुआ stack trace को किसी अजीब जगह पहुँचा देता है
    फिर भी, अगर सिर्फ शुद्ध functionality देखें, तो कई बार वह वैसे ही दिखने वाले मानव-लिखित code से बेहतर चलता है

    • फिर भी ऐसा वर्णित code अब भी खराब code ही है
      क्योंकि उस पर reasoning करना इंसानों और LLM दोनों के लिए कठिन है
  • काश इस तरह की blog post style और ज़्यादा देखने को मिले
    लंबाई भी ठीक है, संदेश भी साफ़ पहुँचता है, और उसमें narrative भी है
    आजकल novel-जितने लंबे LLM-जनित AI slop इतने ज़्यादा हैं कि यह और भी ताज़गीभरा लगता है

  • उद्योग के बहुत-से लोगों के लिए यह काफ़ी स्वाभाविक प्रवाह जैसा दिखता है
    समस्या यह है कि इसमें लगा पैसा इतना बड़ा है कि बड़े खिलाड़ी वही आगे बढ़ाते रहेंगे जो वे चाहते हैं

  • यह कल्पना करने का मन होता है कि subatomic particles असल में पूरे-पूरे ब्रह्मांड हैं, और उनके गुण उन सत्ता-संरचनाओं को दर्शाते हैं जिन्होंने उन ब्रह्मांडों पर शासन किया था, साथ ही उनके मिट जाने के बाद भी चलती रही automation के अवशेषों को
    जैसे entropy harvest करते हुए खुद को लगातार बढ़ाने वाली कोई स्वचालित मशीन
    हम अभी अपने से बड़ी किसी शक्ति का निर्माण कर रहे हैं, और किसी बिंदु पर शायद point of no return तक पहुँच सकते हैं

    • मैंने इसे पूरी तरह नहीं समझा, लेकिन यह कल्पना रोचक लगती है
      इससे असंख्य उप-परमाण्विक ब्रह्मांडों और सभ्यताओं की तस्वीर उभरती है, जो उठते-गिरते हैं और autonomous quasi-intelligent technologies द्वारा निगल लिए जाते हैं, और व्यापक स्तर पर उसका असर कणों के व्यवहार में दिखता है
      शायद हम भी अंततः एक कण बना रहे हैं, और हमारे सामूहिक चुनाव उस उच्चतर ब्रह्मांड पर, जिसका हम हिस्सा हैं, बहुत सूक्ष्म लेकिन अर्थपूर्ण असर डाल सकते हैं
  • किसी का output हमेशा किसी और का input बनता है
    अगर आप LLM से मात्रा बढ़ाते हैं, तो अगला व्यक्ति भी LLM से उसे parse करके अपना output बना लेता है
    यह सिलसिला चलता रहता है, और जब अंतिम उपभोक्ता शिकायत करता है, तब कोई भी यह तय नहीं कर पाता कि आखिर गड़बड़ कहाँ हुई

    • और हाँ, तब यही कहा जाएगा कि गलत इस्तेमाल तो अंतिम उपभोक्ता ने किया
      क्योंकि वही अकेला सामने दिखता है, बाकी सब लोग सात परतों वाले proxy के पीछे छिपे होते हैं