ज्ञान कार्य का सिमुलाक्रम (माया-जैसा प्रतिरूप)

(blog.happyfellow.dev)

2 पॉइंट द्वारा GN⁺ 3 일 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

जब LLM ऊपरी गुणवत्ता की लगभग पूरी तरह नकल कर लेते हैं, तो ज्ञान कार्य की वास्तविक गुणवत्ता को परखने वाले proxy measure निष्प्रभावी हो जाते हैं
ज्ञान कार्य में स्वाभाविक गुणवत्ता का मूल्यांकन करना कठिन होता है, इसलिए अब तक दस्तावेज़ की औपचारिक परिपूर्णता जैसे proxy measure पर निर्भर रहा गया है, लेकिन LLM इन्हें आसानी से पार कर लेते हैं
AI द्वारा लिखे गए कोड और रिपोर्ट ऊपर से पेशेवर दिखते हैं, लेकिन वास्तविक शुद्धता या उपयोगिता बिना सत्यापन के ही आगे बढ़ जाती है
LLM स्वयं भी "क्या यह सही उत्तर है" के बजाय "क्या यह विश्वसनीय लगता है" पर प्रशिक्षित होते हैं, इसलिए उनमें भी उसी proxy measure समस्या की अंतर्निहित मौजूदगी है
यह चेतावनी है कि अरबों डॉलर लगाकर बनाए गए सिस्टम वास्तविक काम के बजाय काम के भ्रम को निभाने वाले औज़ार बनकर इस्तेमाल हो रहे हैं

Proxy Measure की भूमिका और सीमाएँ

जब कोई market analysis report मिलती है, तो तारीख़ की गलती, टाइपो, या ग्राफ़ की पुनरावृत्ति जैसे सतही दोषों के आधार पर पूरी रिपोर्ट को खारिज कर देना आम बात है
असल दिलचस्पी इस बात में होती है कि क्या रिपोर्ट वास्तविकता को दर्शाती है और बेहतर निर्णय लेने में मदद करती है, लेकिन इसे सीधे सत्यापित करना महंगा पड़ता है
सतही गुणवत्ता की जांच की लागत कम होती है, और उसका वास्तविक गुणवत्ता से काफ़ी अच्छा सहसंबंध होता है, इसलिए वह proxy measure की तरह काम करती रही है
यह समस्या हर तरह के ज्ञान कार्य में मौजूद है, और किसी दूसरे के काम की गुणवत्ता का निष्पक्ष आकलन करने में बहुत मेहनत लगती है, इसलिए संरचना proxy measure पर बहुत अधिक निर्भर रहती है

LLM ने proxy measure को कैसे निष्प्रभावी किया

proxy measure अब तक incentive mismatch (misaligned incentives) को दबाने का काम करते थे, लेकिन LLM ने इस संतुलन को तोड़ दिया
LLM वास्तविक काम की गुणवत्ता को पुनःनिर्मित किए बिना भी लेखन शैली का simulation करने में बेहद कुशल हैं
अगर ChatGPT से market analysis report मांगी जाए, तो उसका परिणाम किसी शीर्ष consulting firm के विशेषज्ञ द्वारा लिखी गई रिपोर्ट जैसा दिखता है
अगर कोई software engineer AI की मदद से हज़ारों पंक्तियों का कोड लिखता है, तो कुछ सेकंड की सरसरी नज़र में वह उच्च-गुणवत्ता वाले कोड जैसा दिखता है
- सहकर्मी भी AI से code review करवा रहे हैं, और मिली समस्याओं को यांत्रिक ढंग से निपटाते हुए काम की रस्म (ritual) ही बनाए रखते हैं, जबकि वास्तविक गुणवत्ता की कोई गारंटी नहीं होती

LLM के भीतर मौजूद वही समस्या

LLM का training process स्वयं भी यह नहीं परखता कि "क्या उत्तर सच है" या "क्या उत्तर उपयोगी है"
प्रशिक्षण के मानदंड अधिकतर यह होते हैं: "क्या यह ऐसा उत्तर है जो training data में आ सकता था" या "क्या यह ऐसा उत्तर है जिससे RLHF evaluator संतुष्ट हो"
नतीजतन, LLM ऐसे output देने के लिए optimize किए जाते हैं जो उच्च-गुणवत्ता जैसे दिखें, और इस तरह की optimization में वे बेहद सक्षम हैं

मौजूदा स्थिति को लेकर चेतावनी

अरबों डॉलर लगाकर बनाए गए सिस्टम काम के सिमुलाक्रम (भ्रमात्मक प्रतिरूप) को निभाने में इस्तेमाल हो रहे हैं
कंपनियाँ token consumption leaderboard में नंबर 1 बनने की होड़ में हैं
जितना अधिक कर्मचारी LLM output बनाते हैं, उतना ही कम समय उन output को गहराई से देखने में लगाया जाता है
आखिर में बचता सिर्फ इतना है कि सरसरी नज़र डालकर "LGTM" लगा दिया जाए, और फिर 17वां Claude Code session खोल लिया जाए

1 टिप्पणियां

GN⁺ 3 일 전

Hacker News की राय

जैसा कि लेख में कहा गया है, यह दावा कि टाइपो या छोटी-मोटी गलतियाँ जैसी proxy signals से इंसानी knowledge work की गुणवत्ता को आँकना आसान था, और यह दावा कि AI में ऐसे संकेत नहीं हैं इसलिए समस्या है — इन दोनों से मैं पूरी तरह सहमत नहीं हूँ
वैचारिक रूप से कमजोर लेकिन तथ्यों में सही और रूप-रंग में ठीक-ठाक इंसानी output पहले भी बहुत रहा है
10 साल तक enterprise ग्राहकों के साथ काम करने के बाद मैं बिल्कुल नहीं कहूँगा कि pre-LLM दौर उच्च-गुणवत्ता वाले knowledge work का स्वर्णयुग था; तब भी knowledge work का कामचलाऊ simulacrum जैसा बहुत कचरा भरा पड़ा था
- मेरे लिए बड़ी समस्या यह है कि गलतियों की मानवीय explainability गायब हो रही है
  इंसानी low-quality output के पीछे आम तौर पर कोई कारण होता है — जैसे अज्ञान, समय का दबाव, या स्वार्थी लक्ष्य — और वह कारण काफी हद तक सुसंगत भी होता है
  आप भरोसे के पैटर्न बना सकते हैं: जैसे सावधान लेकिन अनजान intern, या बहुत ज्ञानवान लेकिन नींद की कमी से साफ चीज़ें चूक जाने वाला senior
  लेकिन AI एक ही बार में paper implementation बिल्कुल सही कर सकता है, और उसी run में first-year student स्तर की गलती भी कर सकता है; इसलिए पूरी तरह अयोग्य मानकर review करने जैसी गैर-सहज स्थिति बनती है, जबकि सामने वाली मशीन कभी-कभी चरम दक्षता भी दिखाती है
- pre-LLM दौर quality का स्वर्णयुग नहीं था, लेकिन यह सही है कि LLM ने जल्दबाज़ी में बने बकवास काम को पहचानने वाली एक और निशानी हटा दी है
- मूल रूप से यह positive classification नहीं बल्कि negative filter था
  अगर टाइपो या बुनियादी factual errors हों तो किसी चीज़ को आसानी से खारिज किया जा सकता था, लेकिन उनके न होने का मतलब यह नहीं कि quality ऊँची है
  आम तौर पर ऐसी जाँच सिर्फ पहला दरवाज़ा होती है, पूरी प्रक्रिया नहीं; और वह दरवाज़ा पार होने पर असली समस्याएँ देखना आसान हो जाता है
  यह कुछ वैसा है जैसे code में reasoning से पहले lint और style को साफ करना
- दिखने वाले AI-विशिष्ट वाक्यांश पकड़े जा सकते हैं, लेकिन बिना किसी निशान वाले बाकी 99% AI-generated text छूट सकते हैं
  और चूँकि व्यक्ति खुद नहीं जानता कि वह 99% AI-generated है, वह आसानी से यह भ्रम पाल सकता है कि जो 100% पैटर्न उसने पकड़े हैं, वही AI लेखन का पूरा दायरा है
- मुझे नहीं लगता कि यह मूल रूप से सबसे महत्वपूर्ण बात है
  वैसे भी बहुत-सा knowledge work किसी और चीज़ का surrogate रहा है
  टाइपो-रहित और सलीकेदार quality अक्सर इस्तरी की हुई सफेद शर्ट और टाई की तरह मुख्यतः सम्मान का संकेत थी, और कई लंबे दस्तावेज़ ऐसे भी थे जिन्हें वास्तव में कोई गहराई से पढ़ता ही नहीं था
  आखिरकार यह त्याग और आज्ञाकारिता का प्रतीकात्मक प्रदर्शन था, और LLM इस signaling system को मिटा रहा है
  अगर पहले भी सामग्री की असली quality को ठीक से नहीं देखा जाता था, तो शायद वह सामग्री शुरू से ही उतनी महत्वपूर्ण नहीं थी
अकादमिक दुनिया में AI review cost की समस्या पहले से दिख रही है, हालांकि थोड़े अलग कारणों से, जैसा लेख में कहा गया है
असल मुद्दा सिर्फ यह नहीं कि घटिया काम की निशानियाँ गायब हो रही हैं, बल्कि यह है कि AI से बने काम को ध्यान से review करने की लागत इंसानों के लिए वहन करना बहुत भारी होती जा रही है
उदाहरण के लिए economics journals में supplements सैकड़ों पन्नों तक पहुँच जाते हैं, लेकिन इंसानों के पास पढ़ने का समय सीमित है
यह जानने की जिज्ञासा है कि क्या दूसरे क्षेत्रों की journals भी सिर्फ submissions की बढ़ती संख्या से नहीं, बल्कि हर paper को verify करने के लिए लगने वाली review intensity से भी दबाव में हैं
- निष्पक्ष रूप से कहें तो कई शैक्षणिक क्षेत्रों में master’s level या उससे ऊपर से ही सही-गलत की पहचान के लिए बहुत ऊँची विशेषज्ञता चाहिए होती है
  उससे नीचे के स्तर पर क्या सही है और क्या सिर्फ सही लगता है, इनमें फर्क कर पाना लगभग असंभव हो सकता है
AI का इस्तेमाल करते हुए मुझे लगता है कि मैं समझ का cargo-cult कर रहा हूँ
यानी किसी चीज़ को समझ लेने की सतही छवि दोहरा रहा हूँ, और वास्तव में समझने में लगने वाला समय और प्रयास खुद से छीन रहा हूँ
- साथ काम करने वाले एक सहकर्मी को देखकर मुझे हमेशा यही लगता है कि वह AI use cases को लगभग सिर्फ personal Jarvis fantasy की तरह देखता है
  उसे विश्वास है कि अगर Claude में Snowflake Cortex, integrated code, documents और Jira tickets सब खिला दिए जाएँ, तो उससे कुछ भी पूछा जा सकेगा और सब कुछ बहुत बेहतर हो जाएगा
  लेकिन उस जुनून से कोई बड़ा output नहीं निकला, और कुछ बार उसने खुद तकनीक की अपूर्णता का बड़ा नुकसान भी देखा है
  सब लोग agentic workflow और विशाल internal wiki vision की बात करते हैं, लेकिन मैं AI से delivery speed काफ़ी बढ़ाते हुए भी भव्य रोमांचक प्रयोगों पर समय नहीं लगाता, इसलिए लगातार परिणाम दे पा रहा हूँ
  पहले जो लोग कंपनी के chatbot rollout की आलोचना करते थे, वही अब खरबों .md files और skill files इकट्ठा करके अपना chatbot बनाने में tokens जला रहे हैं — यह विडंबना भी दिखती है
  सच में चिंता की बात यह है कि संस्था-स्तर का वास्तविक ज्ञान ऐसे shortcuts में खो रहा है
  साधारण example requests या concept-learning वाले सवाल ठीक हैं, लेकिन ऐसे prompts — कि मौजूदा tools और infrastructure की समीक्षा करो, deployment speed 5x बढ़ाओ, web research करो, organizational adoption proposal बनाओ, और 5-year cost-benefit analysis भी साथ दो — इंसान को खुद ही कमजोर बनाते हैं
  आजकल लोग Claude द्वारा बनाया गया proposal इधर-उधर फेंक देते हैं, और खुद थोड़ा गहराई से देखने या architect या senior engineer के साथ मिलकर खोजने की प्रक्रिया छोड़ देते हैं
  नतीजा यह होता है कि वे बहुत-सी चीज़ों को सिर्फ सतही तौर पर समझते हैं, गहराई से पूछने पर ठीक से समझा नहीं पाते, और AI के दिए जवाब को निर्णायक रणनीति मानकर उससे चुनौती नहीं लेना चाहते
  अधिक अनुभवी लोगों से सीखने के अवसरों को भी वे सीखने के अनुभव के रूप में देखना बंद कर देते हैं
  आखिरकार मुझे अब भी लगता है कि मानव मस्तिष्क खुद सबसे अद्भुत technologies में से एक है, और तब मैं फिर सोचता हूँ कि इस विशाल कृत्रिम पुस्तकालय को अपने बाहर बनाने की ज़रूरत ही क्या है
- यहाँ मुझे समझ का cargo cult कम और managerial viewpoint का cargo cult ज़्यादा दिखता है
  जैसा Bret Devereaux ने Game Of Thrones critique में कहा है, elite perspective पर आधारित worldview सिर्फ elites को ही plausible और utopian लगती है
  वास्तविक श्रम से कटी हुई यह फुलावट आखिरकार ज़ोर से फटेगी, और अगर AI से नौकरियाँ खोने वाले आम लोग रोटी भी न जुटा पाएँ और उन्हें केक खाने को कहा जाए, तो फ्रांसीसी क्रांति जैसी प्रतिक्रिया की कल्पना भी होने लगती है
- उल्टा यह भी सही है कि AI मेरे बिना समझे भी मेरे लिए कुछ कर सकता है
  लेकिन जब मैं गहराई से समझना चाहता हूँ, तब मदद करने वाले tools में AI जितना अच्छा भी बहुत कम मिलता है
अंततः किसी चीज़ को समझना लगभग उसे खुद करके देखना ही है
किसी चीज़ को न समझना ठीक है, लेकिन तब proxy signals हों या न हों, अंत में आपको किसी और की समझ पर भरोसा करना ही पड़ता है
कम काम करके अधिक भरोसा करने की दिशा एक हद तक चल सकती है, लेकिन उसके आगे भविष्य का काम ही अस्थिर हो जाता है
simulacrum सचमुच बहुत अच्छा शब्द है
- Simulacrum की अवधारणा Baudrillard से आती है, और उनका essay Simulation and Simulacra यह समझने में काफ़ी मदद करता है कि आधुनिक अर्थव्यवस्था इतनी अजीब क्यों लगती है
शायद इसी वजह से middle managers LLM maximalism के पहले सच्चे अनुयायी जैसे दिखे
middle management में ऐसी कई incentives होती हैं जो भूमिका की वास्तविक mastery से इतर knowledge work को लगातार abstract करने की ओर धकेलती हैं, और वह abstracted layer शायद embedding space में खास तौर पर अच्छी तरह represent होती है
AI code अक्सर वास्तविकता से भी बदतर दिखता है
वह बहुत ज़्यादा verbose, उलझा हुआ, और fallbacks से भरा होता है; समस्या आने पर वह countless try/catch से बहता हुआ stack trace को किसी अजीब जगह पहुँचा देता है
फिर भी, अगर सिर्फ शुद्ध functionality देखें, तो कई बार वह वैसे ही दिखने वाले मानव-लिखित code से बेहतर चलता है
- फिर भी ऐसा वर्णित code अब भी खराब code ही है
  क्योंकि उस पर reasoning करना इंसानों और LLM दोनों के लिए कठिन है
काश इस तरह की blog post style और ज़्यादा देखने को मिले
लंबाई भी ठीक है, संदेश भी साफ़ पहुँचता है, और उसमें narrative भी है
आजकल novel-जितने लंबे LLM-जनित AI slop इतने ज़्यादा हैं कि यह और भी ताज़गीभरा लगता है
उद्योग के बहुत-से लोगों के लिए यह काफ़ी स्वाभाविक प्रवाह जैसा दिखता है
समस्या यह है कि इसमें लगा पैसा इतना बड़ा है कि बड़े खिलाड़ी वही आगे बढ़ाते रहेंगे जो वे चाहते हैं
यह कल्पना करने का मन होता है कि subatomic particles असल में पूरे-पूरे ब्रह्मांड हैं, और उनके गुण उन सत्ता-संरचनाओं को दर्शाते हैं जिन्होंने उन ब्रह्मांडों पर शासन किया था, साथ ही उनके मिट जाने के बाद भी चलती रही automation के अवशेषों को
जैसे entropy harvest करते हुए खुद को लगातार बढ़ाने वाली कोई स्वचालित मशीन
हम अभी अपने से बड़ी किसी शक्ति का निर्माण कर रहे हैं, और किसी बिंदु पर शायद point of no return तक पहुँच सकते हैं
- मैंने इसे पूरी तरह नहीं समझा, लेकिन यह कल्पना रोचक लगती है
  इससे असंख्य उप-परमाण्विक ब्रह्मांडों और सभ्यताओं की तस्वीर उभरती है, जो उठते-गिरते हैं और autonomous quasi-intelligent technologies द्वारा निगल लिए जाते हैं, और व्यापक स्तर पर उसका असर कणों के व्यवहार में दिखता है
  शायद हम भी अंततः एक कण बना रहे हैं, और हमारे सामूहिक चुनाव उस उच्चतर ब्रह्मांड पर, जिसका हम हिस्सा हैं, बहुत सूक्ष्म लेकिन अर्थपूर्ण असर डाल सकते हैं
किसी का output हमेशा किसी और का input बनता है
अगर आप LLM से मात्रा बढ़ाते हैं, तो अगला व्यक्ति भी LLM से उसे parse करके अपना output बना लेता है
यह सिलसिला चलता रहता है, और जब अंतिम उपभोक्ता शिकायत करता है, तब कोई भी यह तय नहीं कर पाता कि आखिर गड़बड़ कहाँ हुई
- और हाँ, तब यही कहा जाएगा कि गलत इस्तेमाल तो अंतिम उपभोक्ता ने किया
  क्योंकि वही अकेला सामने दिखता है, बाकी सब लोग सात परतों वाले proxy के पीछे छिपे होते हैं

ज्ञान कार्य का सिमुलाक्रम (माया-जैसा प्रतिरूप)

Proxy Measure की भूमिका और सीमाएँ

LLM ने proxy measure को कैसे निष्प्रभावी किया

LLM के भीतर मौजूद वही समस्या

मौजूदा स्थिति को लेकर चेतावनी

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय