जिन चीज़ों को ट्रेन नहीं किया जा सकता

(saranormous.substack.com)

5 पॉइंट द्वारा GN⁺ 4 시간 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

2026 के मध्य तक निवेशकों के बीच "AI psychosis" जैसी निराशावादी सोच फैल रही है, जिसका मुख्य तर्क यह है कि जब model हर चीज़ बेहतर करने लगेंगे, तो उनके ऊपर बनी सारी कंपनियाँ सिर्फ समाहित हो जाने वाली thin wrapper रह जाएँगी
पहला AI SWE, Devin, 2024 में standard benchmark tasks का सिर्फ 13% ही हल कर पाया था, लेकिन डेढ़ साल में सबसे अच्छे agent 80% के उत्तरार्ध तक पहुँच गए; यानी मापे जा सकने वाले क्षेत्रों को model तेज़ी से घेर रहे हैं
जिसे मापा जा सकता है, वह training का target बन जाता है और commodity में बदल जाता है, लेकिन निजी और सत्यापित करने में महँगे सही उत्तर leaderboard से नहीं पढ़े जा सकते
असली value license, liability और जिम्मेदारी तय होने जैसी उन जगहों में है जहाँ model पहुँच नहीं सकते; bottleneck intelligence नहीं बल्कि permission और accountability है
जैसे-जैसे intelligence सस्ती होगी, value उन कुछ जगहों की ओर खिसकेगी जहाँ model पहुँच नहीं सकते; ‘untrainable’ क्षेत्र ही अंतिम moat है

निवेशकों की निराशा और उसका तर्क

2026 के मध्य की निवेशक-जनित निराशा का मतलब है कि निवेश करने लायक कुछ बचा ही नहीं, और बस Anthropic और Nvidia में पैसा लगाकर बाकी से हाथ खींच लेना चाहिए
तर्क यह है कि जब model हर चीज़ बेहतर करने लगेंगे, तो उनके ऊपर बनी सारी कंपनियाँ समाहित होने की प्रतीक्षा करती thin wrapper होंगी, और अंत में सिर्फ compute और frontier weights में ही value बचेगी
- इस तर्क का सबसे मजबूत उदाहरण software क्षेत्र को माना जाता है

software हमें वास्तव में क्या सिखाता है

2024 में लॉन्च के समय Devin standard software benchmark में सिर्फ 13% tasks हल कर पाया था और इसलिए उसे largely ignore किया गया, लेकिन डेढ़ साल बाद सर्वश्रेष्ठ agent 80% के उत्तरार्ध तक पहुँच गए और Goldman Sachs और U.S. Army के भीतर वास्तविक काम करने लगे
लगभग सभी ने इससे गलत निष्कर्ष निकाला कि "model ने software engineering को निगल लिया", लेकिन engineering हमेशा से मापन का विरोध करती रही है, और सबसे अधिक मापे जा सकने वाला हिस्सा ही सबसे महत्वपूर्ण हिस्सा नहीं होता
MIT के Mert Demirer और सह-लेखकों ने 1 लाख से अधिक developers पर इसे मापा: नवीनतम coding agent लिखे गए code की मात्रा लगभग 180% बढ़ाते हैं, लेकिन वास्तव में deploy किए गए code की मात्रा केवल लगभग 30% बढ़ती है
- code लिखना सस्ता हो गया है, लेकिन बाकी सब अब भी इंसानों से होकर गुजरता है, और वही हिस्सा महत्वपूर्ण है

जिसे मापा जा सकता है, वह training का लक्ष्य बन जाता है

benchmark वही है जिसे मापा जा सकता है, और जिसे मापा जा सकता है उसे training से attack किया जा सकता है; इसलिए coding agent सबसे पहले mature हुए
- compiler और test suite मुफ्त verifier की तरह काम करते हैं; उत्तर खुद को जाँच लेता है, इसलिए उसे pass होने तक बार-बार चलाया जा सकता है
लेकिन test pass होना यह नहीं बताता कि वह बदलाव 10 साल पुराने codebase के लिए सही विकल्प है या नहीं
- किसी module के होने के तीन undocumented कारण, या वह deployment pipeline जो ऐसे cron job से चलती है जिसकी जिम्मेदारी कोई नहीं लेता — ये सब leaderboard से नहीं पढ़े जा सकते
जटिल systems की correctness तभी पता चलती है जब उन्हें दुनिया में काफी लंबे समय तक चलाया जाए, और ज़्यादा स्मार्ट model दुनिया को तेज़ नहीं घुमा सकते
- OpenAI reasoning model के अग्रदूत Noam Brown ने कहा कि 1 साल के पैमाने पर agent को evaluate करने का एकमात्र पक्का तरीका शायद उसे 1 साल तक चलाकर देखना ही हो

जो केवल संगठन की गति से चलता है

Gabe Pereyra के अनुसार असली automation सिर्फ model सुधार से नहीं आती; इसके लिए product·model·workflow·firm को साथ चलना पड़ता है, और इनमें से तीन चीज़ें संगठन की गति से चलती हैं
benchmark जहाँ नहीं पहुँच पाते, वहाँ इंसानों को बदलना पड़ता है — जैसे किसी सशंकित partner के काम करने के तरीके को बदलना, या rebuild के दौरान टीम को साथ बनाए रखना
- CEO की hiring में analytical ability जितनी ही लोगों को संभालने की क्षमता को महत्व दिया जाता है, और अधिक स्मार्ट model इस weighting को नहीं बदलते
हर कंपनी ने अपने engineers को frontier coding model दे दिए हैं, लेकिन उस गति से engineering org को बदल देने वाली एक भी कंपनी नहीं है
- adoption एक quarter में हो गया, लेकिन पुनर्निर्माण में साल लग रहे हैं

जो पढ़ा जा सकता है, वह छिनता जा रहा है

जिसे leaderboard पर रखा जा सकता है, उसे training से attack किया जा सकता है; इसलिए हर मापने योग्य काम पहले ही commodity बनने की ओर बढ़ रहा है, और यह दिशा अब उलटने वाली नहीं
Rippling के Matt MacInnis की उपमा के अनुसार, सामान्य सवाल का जवाब देने वाला token लगभग बेकार है क्योंकि किसी भी model से वह जवाब लिया जा सकता है, लेकिन company data पर reasoning करने वाला token कहीं अधिक मूल्यवान है
पढ़े जा सकने वाले काम दोनों दिशाओं से दबाव में हैं
- नीचे से tasks saturate हो रहे हैं, इसलिए buyer अब "कौन सा model है" नहीं बल्कि "कितना खर्च है" पूछता है, और बात उस हफ्ते के सबसे सस्ते open/distilled model तक गिर जाती है
- ऊपर से lab retrieval, routing, tool use, reasoning policy जैसी model को घेरने वाली scaffolding को weights के भीतर खींचते जा रहे हैं; यही absorption frontier है
margin pressure उलटी दिशा में भी काम करता है: general-purpose agent को हर चीज़ के लिए तैयार रहना पड़ता है इसलिए वे महँगे हैं, जबकि focused application को एक workflow के लिए token cost के छोटे हिस्से पर tune किया जा सकता है, और वह लाभ सीधे अपने पास रख सकता है

2x2 और ‘untrainable’ क्षेत्र

हर काम पर दो सवाल पूछे जा सकते हैं: क्या उसकी correctness निजी है और उसे स्थापित करने की लागत अधिक है, और क्या वह ऐसे systems के भीतर बंद है जिनमें बाहर से प्रवेश नहीं किया जा सकता
जब इसे task saturation के साथ cross किया जाता है तो 2x2 संरचना बनती है
- saturation + public answer = commodity token, जिस पर open model कब्ज़ा करते हैं
- frontier + public answer (जहाँ coding benchmark आते हैं) = lab जीतते हैं; अगर evaluation मुफ्त है तो ownership का मतलब नहीं रहता
- अंतिम कोना = frontier काम जहाँ correctness केवल निजी रूप में मौजूद होती है, और यही untrainable है
inference cloud में AI-native अग्रणी कंपनियों के अधिकांश token general-purpose open model नहीं बल्कि custom model से generate होते हैं; इससे भी यह बात दिखती है
इस अंतिम कोने में प्रवेश की दीवार की ऊँचाई अलग-अलग होती है
- किसी व्यक्तिगत developer का toy codebase portable और standardized होता है, इसलिए प्रवेश आसान है
- लेकिन किसी bank का production system न तो portable होता है, न standardized; SWE-Bench Verified पर 2% ज्यादा स्मार्ट होने से root access नहीं मिल जाता

bottleneck intelligence नहीं, permission और accountability है

बेहतर model भी private ground truth को public नहीं बना सकते; वे license hold नहीं कर सकते, liability पर sign नहीं कर सकते, company files के मालिक नहीं बन सकते, और न ही गलत उत्तर पर मुकदमा झेलने वाले पक्ष बन सकते हैं
- bottleneck intelligence नहीं बल्कि permission और accountability है
उस दरवाज़े पर lock भी है और deadbolt भी
- lock है environment: security review, integration और उस नतीजे पर नाम लगाने वाले contract के ज़रिए trust कमाने के बाद ही system के भीतर AI की usefulness verify की जा सकती है
- deadbolt है user: अमेरिका के बहुत से doctors का रोज़ OpenEvidence खोलने की आदत किसी compute से खरीदी नहीं जा सकती
अगर कल एक perfect medical model train भी कर लिया जाए, तब भी doctors की आदतों या UCSF की decision flow में प्रवेश का सीधा रास्ता नहीं होगा; trust संबंधों और user consent पर धीरे-धीरे बनता है

इस काम की मूल प्रकृति

application को untrainable कोने में जगह दिलाने का रास्ता चमकदार नहीं है; वह है कंपनी की निजी वास्तविकता को model के लिए संभालने योग्य बनाने हेतु arrange करना, उसे action लेने के tools देना, और customer के साथ मिलकर workforce reality बदलना
- जो कंपनियाँ यह translation लाती हैं, उनकी नकल करना कठिन होता है, और यह translation कभी समाप्त नहीं होती
- integration और maintenance तब तक जारी रहते हैं जब तक relationship जारी है, और domain-specific engineers और tools को customer के पास रख पाने वाली टीमें जीतती हैं
उदाहरण: बड़े law firm में M&A
- एक शीर्ष white-shoe law firm में सिर्फ M&A विभाग ही सालाना लगभग 1,000 deals संभालता है; सैकड़ों associates अपने-अपने client files desktop पर डाउनलोड करके उन्हें general-purpose agent से scan नहीं करा सकते
  - इसके कई कारण हैं, जिनमें confidentiality भी शामिल है; और अगर यह संभव भी हो, तो हासिल केवल किसी एक व्यक्ति के एक-एक revision के टुकड़े होंगे, पूरी deal flow नहीं दिखेगी
- सार्थक signal deal के स्तर पर मौजूद होता है, और deal का अपना आकार होता है
  - M&A में NDA·term sheet·diligence·purchase agreement·ancillaries·closing checklist होती हैं
  - IP litigation में motion·discovery·prior art·और आगे की motions होती हैं
  - हर practice area अलग है, और न lawyers एक-दूसरे के बदले इस्तेमाल हो सकते हैं, न tools
- law firm वास्तव में जिस समस्या को हल करता है वह इससे भी ऊपर की है: सभी practice areas को parallel में चलाना, top partner का सैकड़ों मामलों को एक साथ चलाना, नए मामले लाना और associates को train करना
  - ऐसे law firm का transformation कोई single task नहीं है जिसे eval में लिखा जा सके; इसमें बेहद अस्पष्ट intermediate goals, अधूरा feedback, बहुत लंबी समयावधि और लगातार बदलता environment होता है, जिसे एक operator को बारीकी से चलाना पड़ता है

जिसे पढ़ना कठिन है, उसे बेचना भी कठिन है

बाहर से किसी को, यहाँ तक कि कंपनी खुद को भी, यह पता नहीं होता कि AI operations बदल पाएगा या नहीं; इसलिए सबसे मजबूत business बाहरी proof देना छोड़कर भीतर जाते हैं और outcome पर pricing करते हैं
Sierra तब charge करता है जब agent customer problem को resolve कर दे; अगर मामला इंसान को escalate करना पड़े तो charge नहीं करता; pricing ही evaluation बन जाती है, और यह इसलिए काम करती है क्योंकि Sierra के पास resolved की definition का control है
Cognition का Devin भी software में इसी तरह performance guarantee देता है; यह तरीका सिर्फ trusted system के भीतर के outcomes पर ही संभव है

token serving भी पूरी तरह commodity नहीं है

जिसे pure commodity कहा जाता था, वह token serving भी वास्तव में वैसा व्यवहार नहीं करता; सबसे अच्छे AI-native enterprise serving को एक-दो providers (Baseten या Fireworks) पर केंद्रित करते हैं
- token प्रति लागत योजना के मुताबिक commodity बन रही है, लेकिन वास्तविक traffic के नीचे reliability और scarce compute तक guaranteed access commodity नहीं है
- कहाँ serve करना है, यह कौन सा model चुनना है उससे अलग निर्णय है; inference में commodity की तरह व्यवहार करने वाली चीज़ price है, सब कुछ नहीं

यह आपत्ति कि lab ही supplier है

एक सामान्य आपत्ति यह है कि lab ही supplier हैं, इसलिए वे अपने product को cost से नीचे चलाकर दूसरों को खत्म कर सकते हैं या API access रद्द करके बाजार सीधे अपने हाथ में ले सकते हैं; यही निराशावाद का असली रूप है
यह तर्क तभी सही होगा जब model layer single-player game हो, लेकिन स्पष्ट रूप से ऐसा नहीं है
- यह 6 महीने पीछे चल रहे अंतरराष्ट्रीय players सहित किसी "3.5-player deathmatch" जैसा है, और development league पिछले साल से 5 गुना बड़ी है
- customer suppliers के बीच competition चाहते हैं, और lab किसी एक application को मारने से ज्यादा market share चाहते हैं
lab के बीच सीधी प्रतिस्पर्धा वाले market में यह साफ दिखता है; consumer chat में सबसे अच्छा model कभी बस अपने-आप नहीं जीत गया
- ChatGPT कई सालों से वास्तविक competition के बीच lead बनाए हुए है; अभी जो share खो रहा है वह बेहतर model की वजह से नहीं बल्कि Android और Search की ताकत वाले Gemini की ओर जा रहा है
- prediction market और internet sentiment के अनुसार सर्वोत्तम model माने जाने वाले Anthropic का consumer chat में लगभग कोई असर नहीं, और उसने enterprise और coding में business बनाया है
- अगर सबसे केंद्रीय application category में भी बेहतर model competitors के users नहीं खींच पाते, तो वे integration के बिना hospital records या bank liability तक नहीं पहुँच सकते

यह तय करने का अधिकार कि अच्छा उत्तर क्या है

अगर बाहर से score नहीं किया जा सकता, तो अंदर किसी को तय करना होगा कि अच्छा उत्तर क्या है, और वही पूरी game है
- जब ऐसे फैसले काफी मात्रा में जमा होकर record हो जाते हैं, तो वे benchmark बन जाते हैं; Harvey ने legal के लिए और Sierra ने voice agent के लिए ऐसा किया
- किसी क्षेत्र में good को define करने का अधिकार उसी को मिलता है जो पहले से उस क्षेत्र के उपयोग में मौजूद हो; और यह अधिकार उन्होंने वास्तविक adoption की कठिन लड़ाई लड़कर पाया है
जो evaluations वास्तव में पैसे का फैसला करते हैं वे निजी और firm-specific होते हैं: इस तरह के मामले में यह firm किसे अच्छा काम मानता है; law की गहराई किसी भी public test से बहुत आगे है, इसलिए यह कभी पूरा नहीं होता
यह measurement नहीं बल्कि क्या सच है और क्या अच्छा है, इस पर judgment है; यही record होकर standard बनता है, और foundation lab चाहे कितने भी स्मार्ट हों, इसे लिख नहीं सकते
- यह स्थान सिर्फ क्षेत्र के भीतर मौजूद होता है; authority वहीं जाकर टिकती है जहाँ वह मूल रूप से थी
- legal benchmark को senior lawyers तय करते हैं, safe clinical answer की definition doctors करते हैं, और resolved का मतलब वही company तय करती है जिसके पास पहले से customer relationship है

अंतहीन बचाव जिसे बार-बार फिर से underwrite करना पड़ता है

जैसे-जैसे और काम मापे जाने लगते हैं, absorption frontier लगातार ऊपर चढ़ती जाती है, और जो मापने योग्य हो जाता है वह खा लिया जाता है
untrainable ज़मीन उसी व्यक्ति के पैरों के नीचे सिकुड़ती जाती है जो उस पर खड़ा है; इसलिए किसी सुरक्षित जगह टिके नहीं रह सकते, बल्कि लगातार वहाँ जाना पड़ता है जहाँ अब तक scoring नहीं हुई है, और बार-बार re-underwrite करना पड़ता है
अगर किसी संकरे task में निजी data और अपने evals के साथ frontier तक train किया जाए, तो उस बिंदु पर general-purpose model को हराया जा सकता है, और वह specialized model moat का हिस्सा बन जाता है
इसके उलट general-purpose model से प्रतिस्पर्धा करना एक capital war है जिसमें वही जीतता है जिसके पास सबसे अधिक compute है; यह उन कंपनियों का जाल है जिनकी पहुँच उथली है और जिनके task पढ़ने में आसान हैं
- जिस दिन survival के लिए आप general-purpose क्षेत्र में frontier को हराने लायक train करने का फैसला करते हैं, उसी दिन विजेता का निर्णय data center के पैमाने से हो जाता है, और अंत स्वतंत्र champion नहीं बल्कि compute-समृद्ध पक्ष को बिक्री पर होता है

अधिक कठिन हमला: क्या बनाया जाए

ऊपर की सारी बात defense है; इससे भी कठिन attack यह है कि शुरुआत में क्या बनाना चाहिए, और ऐसी समझ साल में शायद तीन बार मिलती है
model यहाँ मदद नहीं करते; वे जो दिखाओ वही कर देंगे, लेकिन किस चीज़ की ओर इशारा करना मूल्यवान है यह नहीं बता सकते, और क्योंकि उसे benchmark नहीं किया जा सकता, इसलिए उसे train भी नहीं किया जा सकता
- यही कारण है कि मौजूदा दिग्गज सब कुछ नहीं ले जाते; अगली चीज़ किसी ऐसे व्यक्ति से आती है जो दूसरों से पहले उसका उपयोग ढूँढ़ ले
- शायद intent compute से भी अधिक दुर्लभ input है

निष्कर्ष: इतिहास वाली value

निराशावाद आधा सही है: thin wrapper layer सचमुच absorb हो रही है, और आज जो बहुत-सी चीज़ें कंपनी जैसी दिखती हैं, वे वास्तव में thin wrapper हैं
- लेकिन यह इस बारे में गलत है कि उससे बचेगा क्या; absorption का mechanism स्पष्ट है, पर अंतिम destination अस्पष्ट है
intelligence लगातार सस्ती होती जाएगी और value उन कुछ जगहों की ओर फिसलेगी जहाँ model पहुँच नहीं सकते; वही जगह untrainable है — संबंध, trust और संचित judgment जैसी ऐसी 'इतिहास वाली value' जो समय के साथ बनती है और training से कॉपी नहीं की जा सकती
इसलिए intelligence को own करने की कोशिश मत कीजिए; उसकी बजाय उस क्षेत्र के भीतर जाइए जहाँ सही उत्तर केवल उसी क्षेत्र के भीतर मौजूद होते हैं ("get inside one")
- कंपनी की निजी वास्तविकता को model के लिए संभालने योग्य बनाने वाला वह गैर-आकर्षक translation काम खुद कीजिए
- उस क्षेत्र में क्या good है, इसका record बनाकर standard define करने वाला पक्ष बनना ही मुख्य बात है, क्योंकि यह जगह खाली नहीं रहती; अगर आप नहीं करेंगे तो कोई और करेगा
इस साल सबसे अधिक उद्धृत benchmark score शेखी की चीज़ नहीं बल्कि चेतावनी है: यह उस क्षेत्र का नक्शा है जो जल्द बेकार हो जाएगा, और यह सूचना भी कि good को define करने का अधिकार जल्द किसके हाथ से निकलने वाला है
- किसी चीज़ का सार्वजनिक रूप से मापा जा सकना इस बात का संकेत है कि वह जल्द commodity बन जाएगी; public scoring में हर कोई catch up कर सकता है, इसलिए उस score पर नंबर 1 रहने वाला भी good के मानक तय करने का अधिकार खो देता है

जिन चीज़ों को ट्रेन नहीं किया जा सकता

निवेशकों की निराशा और उसका तर्क

software हमें वास्तव में क्या सिखाता है

जिसे मापा जा सकता है, वह training का लक्ष्य बन जाता है

जो केवल संगठन की गति से चलता है

जो पढ़ा जा सकता है, वह छिनता जा रहा है

2x2 और ‘untrainable’ क्षेत्र

bottleneck intelligence नहीं, permission और accountability है

इस काम की मूल प्रकृति

उदाहरण: बड़े law firm में M&A

जिसे पढ़ना कठिन है, उसे बेचना भी कठिन है

token serving भी पूरी तरह commodity नहीं है

यह आपत्ति कि lab ही supplier है

यह तय करने का अधिकार कि अच्छा उत्तर क्या है

अंतहीन बचाव जिसे बार-बार फिर से underwrite करना पड़ता है

अधिक कठिन हमला: क्या बनाया जाए

निष्कर्ष: इतिहास वाली value

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.