कुछ महीनों से कोरिया के डेवलपर जगत को देखते हुए, "token usage ही skill है" जैसी अजीब दलीलें घूमती दिख रही हैं.
और फिर यह बेधड़क दावा भी किया जा रहा है कि एक अच्छी PRD भर हो तो AI सब कुछ हल कर देगा.
शुरू में मुझे लगा कि यह बस कम्युनिटी में होने वाला सामान्य हो-हल्ला है, लेकिन जब ऐसे दावे बार-बार ऐसे सामने आने लगे मानो वे सच हों, तो एक पल के लिए मुझे भी लगा कि शायद मैं पीछे छूट गया हूँ.
(Oh-my-OpenCode जैसी चीज़ें देखकर तो और भी.)
लेकिन जब वास्तव में खोजा, तो एक भी ढंग का उदाहरण मिलना मुश्किल था, और उसे reproduce करना तो लगभग असंभव था.
अमेरिका की frontier कम्युनिटी में ऐसे दावे बिल्कुल नहीं थे, और फिर जब OpenClaw आया, लोकप्रिय हुआ, और OpenAI ने उसके संस्थापक को तुरंत स्काउट कर लिया, तो मेरा भरोसा और पक्का हो गया.
(OpenClaw की मुख्य philosophy ही HITL(Human In The Loop) है, यह देखकर.)
आह, यानी मैं पीछे नहीं छूटा था, बल्कि कोरियाई कम्युनिटी में धार्मिक अतिशयोक्ति और मरीचिका घूम रही थी.)
कल OpenClaw के संस्थापक ने भी कहा,
आप code बना सकते हैं और उसे पूरी रात चला सकते हैं, लेकिन उसका नतीजा आखिरकार सबसे बेहतरीन कचरा ही होगा.
और,
YC CEO Garry Tan ने भी कहा कि वे इससे 100% सहमत हैं.
https://x.com/garrytan/status/2043738478220062813?s=20
पिछले कुछ महीनों में ऐसे मरीचिका-जैसे दावों से मुझे प्रत्यक्ष और परोक्ष, दोनों तरह का नुकसान होता देख अब इसे और सहना मुश्किल हो रहा है.
ऐसे दावे करने वाले लोगों का प्रतिरोध होना चाहिए.
मैं Codex को 5 साल पहले से इस्तेमाल कर रहा हूँ और AI को लेकर बहुत आशावादी व्यक्ति हूँ.
मुझे लगता है कि कभी न कभी ऐसी पूर्ण automation भी संभव होगी. जैसा लोग कहते हैं, वह अगले साल भी हो सकता है.
लेकिन, कम से कम आज तो नहीं है.
66 टिप्पणियां
अगर वह दावा सच होता, तो anthropic, google, openai में अब तक मौजूद सारे software को बदल देने के लिए वह काफी होता।
कंपनी के अंदर भी अब ऐसा अजीब माहौल बन गया है कि अभी बहुत सारे token इस्तेमाल करने पर ही
performance को अच्छा माना जाता है।
आखिर ये सच में किसके दिमाग से निकला है...
जब भी मैं उस ग्रुप की पोस्ट देखता हूँ, सच में मुझे पित्ती निकलने लगती है।
मुझे लगता है कि यह लेख शायद जानबूझकर इसी तरह लिखा गया है।
लेकिन इसमें एक और पहलू भी है।
3 साल पहले हम सब जिस बात पर चर्चा कर रहे थे, वह यह थी कि AI की लागत आखिरकार सस्ती हो जाएगी।
लेकिन ऐसा नहीं हुआ। यह और महंगी होती जा रही है। यहाँ तक कि Chinese AI models के साथ भी यही बात है।
इसीलिए हाल में एक ही काम में अलग-अलग tiers के models को बदल-बदलकर इस्तेमाल करके लागत कम करने की कोशिश, या फिर open source, खासकर gemma 4 (reasoning trace काफ़ी छोटा है) को लोकल में चलाकर agents में इस्तेमाल करने जैसे तरीके चर्चा में आने लगे हैं। शुरुआत में इन सब बातों का सभी ने विरोध किया था, लेकिन अब ये काफ़ी तर्कसंगत लग रही हैं और इनके आसपास कई तरह की गतिविधियाँ भी दिख रही हैं। इसी तरह AI अभी एक ऐसी लड़ाई है जिसमें कोई तय जवाब नहीं है, लेकिन यह आखिरकार ऐसे उद्योग में बदल रही है जहाँ यह विश्वास है कि विजेता बहुत कुछ हासिल करेगा।
निष्कर्ष के तौर पर, मुझे लगता है कि इसका अर्थ कुछ ऐसा ही है।
Noise, यह AI frontier कंपनियों की प्रचार गतिविधियों में भी बहुत बड़े स्तर पर दिखाई देता है। तो क्या इसका मतलब यह है कि इन कंपनियों ने गलत किया है, इसलिए हम इन्हें इस्तेमाल नहीं करेंगे? नहीं। हम निश्चित रूप से AI का उपयोग करेंगे। बस noise से जुड़ी जानकारी को छाँटकर सुनना होगा। और जब असंतोष हो, तब तो और भी ज़्यादा।
अनावश्यक action, यह निवेश में भी बिल्कुल ऐसा ही है। निवेश में परिणाम पाने वाले लोग अक्सर वे होते हैं जिन्होंने पहले ही असफलता का स्वाद चखा होता है। "मैं 'कभी' नुकसान नहीं उठाऊँगा" वाली मानसिकता के साथ तो शुरू से ही निवेश शुरू करना मुश्किल है, और गिरावट वाले बाज़ार में निवेश न करने पर सिर्फ़ राहत महसूस होगी, निवेश करने वालों के लिए सिर्फ़ दया आएगी, और असली तेजी वाले बाज़ार में सिर्फ़ हताशा महसूस होगी। उसी तरह, आखिरकार AI में भी वही लोग फ़ायदे में रहते हैं जिन्होंने लगातार इसे देखा, इस्तेमाल किया और तरह-तरह के प्रयोग किए। मुझे यह बात non-developers में और भी ज़्यादा महसूस होती है। ऐसे कई लोग हैं जिनके पास development knowledge नहीं था, लेकिन उन्होंने लगातार इसका उपयोग किया, खोजबीन की, development knowledge सीखी, और बेहतर software बनाया। ऐसे 'उत्साह' वाले लोगों को हराना सोच से ज़्यादा कठिन होता है। मैं भी यह बात बहुत गहराई से महसूस करता हूँ, और लगता है कि हर पल यह कोशिश करता हूँ कि मेरा उत्साह कम न हो।
निष्कर्ष यह है कि ralph भी कोई काल्पनिक अवधारणा नहीं है, बल्कि एक तरह का industrial engineering का concept है, और test-time computing के संदर्भ में यह एक सिद्ध advantage वाला तरीका है। बेशक इसे भ्रम भी कहा जा सकता है, लेकिन फिर भी उसमें रुचि लेकर उसे पुनरुत्पादित करने की कोशिश का जो अनुभव है, वह आपके लिए एक बड़ी पूंजी बनेगा।
शोर को छाँटकर सुनना सही है, लेकिन मुझे लगता है कि "अगर असुविधा हो तो बैठने का तरीका बदल लो" जैसी बातों से सावधान रहना चाहिए। अगर शिकायत उठाने तक को समस्या माना जाए, और "मिसफिट की तरह व्यवहार मत करो, जल्दी adapt करो और विजेता बनो" जैसा संदेश दिया जाए, तो मेरा मानना है कि वही आज जैसी अंधी परिणामवादिता तक ले जाता है। बेशक, शायद आपका ऐसा आशय नहीं रहा होगा.
और चाहे वह
ralphजैसा looping हो, या कई models से बारी-बारी पूछने वाला ensemble तरीका, या subagent orchestration — इन test-time computing तरीकों के फ़ायदे अभी सिद्ध नहीं हुए हैं। शुरुआत से ही अभी के llm में people pleasing behavior डाला गया है, इसलिए इस प्रक्रिया में निकलने वाले नतीजों को ध्यान से देखें तो कई बार वे सच में ठीक करने लायक चीज़ों को ठीक करने के बजाय, सिर्फ इसलिए कि उन्हें कहा गया था, कोई न होने वाली समस्या गढ़कर उसे ठीक करने लगते हैं।मैं इस बात से सहमत हूँ कि तेज़ी से हासिल किया गया अनुभव आज के दौर की सबसे बड़ी संपत्ति बनता जा रहा है, लेकिन इसे निजी लाभ के साधन के रूप में इस्तेमाल करने से आगे बढ़कर उसका दुरुपयोग करना आलोचना के योग्य है। और मुझे लगता है कि मूल पोस्ट का विषय भी यही है कि "[हर हाल में तेज़, ज़्यादा, और सबसे पहले]" को मानो सफल AI-आधारित development scenario की तरह बढ़ा-चढ़ाकर पेश किया जा रहा है, और यह बात मुझे भी पसंद नहीं है।
मैंने अब जाकर लेखक महोदय/महोदया की टिप्पणी देखी।
लगता है टिप्पणी अपडेट ठीक से नहीं हुआ था।
अच्छी राय के लिए धन्यवाद।
फिलहाल मैं भी अपनी राय साझा करना चाहूँगा/चाहूँगी।
इसे इस तरह देखने के बजाय कि असंतोष (मैं इसे असंतोष नहीं मानता/मानती) व्यक्त करना ही समस्या है, अच्छा होगा अगर आप इसे इस घटना पर मेरी ओर से रखी गई एक राय के रूप में देखें। चूँकि ऐसी स्थिति बनाना असंभव है जिससे सभी संतुष्ट हों, इसलिए मैं मूल पोस्ट के लेखक और टिप्पणी लिखने वाले, दोनों की राय का भी सम्मान करता/करती हूँ। लेकिन मेरा यह भी मानना है कि मेरी राय का भी सम्मान होना चाहिए।
मेरी राय में
test-time computingऐसा मामला है जो पहले ही शोध के माध्यम से सिद्ध हो चुका है। हालांकि,ensembleतरीकाtest-time computingकी अवधारणा से अधिकcontext window sizeकी सीमा से बचने का एक तरीका लगता है।'고칠만한걸 고치기보단, 고치라고 했으니까 없는 문제를 만들어서 고쳐내는 경우도 많거든요.'इस हिस्से से जुड़ी समस्या वास्तव में स्पष्ट रूप से हो रही है, इसलिए इसेharnessके ज़रिए जितना संभव हो सके रोकना ही फिलहाल सबसे अच्छा उपाय लगता है।और अंत में,
viralजैसी चीज़ को लेकर मैं भी इस बात से काफ़ी हद तक सहमत हूँ कि इसमें बहुत शोर है और कई लोग इसे नापसंद करेंगे। लेकिन जो लोग यह harness बना रहे हैं, वे असल में इसे open source के रूप में जारी करने वाले लोग हैं, इसलिए इसमें उनके निजी लाभ की कितनी गुंजाइश है, इस पर मुझे संदेह है। यहाँ तक कि जो लोग इसे नापसंद करते हैं, उनके लिए भी वे इसे मुफ्त में उपलब्ध करा रहे हैं और ऊपर से आलोचना भी झेल रहे हैं, तो इस स्थिति में इसे निजी लाभ कहना कितना उचित है, इस पर भी सवाल है। बेशक, अगर डर फैलाकर इसे बेचा जा रहा हो, तो वह गलत व्यवहार है और आलोचना के योग्य भी है—इस बात से मैं सहमत हूँ।एक बार फिर, अपनी राय साझा करने के लिए धन्यवाद!
यह वास्तव में 3 साल पहले की तुलना में काफी सस्ता हो गया है
GPT-4 के दौर में, paid plan इस्तेमाल करने पर भी कुछ ही घंटों बाद फिर से कोशिश करने का संदेश मिल जाता था, लेकिन अब 22 डॉलर वाला plan इस्तेमाल करने पर ऐसा नहीं होता।
प्रति token बौद्धिक क्षमता ऐसे स्तर तक बढ़ गई है कि उसकी तुलना करना मुश्किल है।
लेकिन उससे भी ज़्यादा महत्वपूर्ण बात यह है कि हम और अधिक tokens इस्तेमाल करते हुए LLM providers को और ज़्यादा पैसा दे रहे हैं (Jevons paradox)।
ऐसा नहीं है कि मैंने Ralph Loop इस्तेमाल नहीं किया।
उससे भी बेहतर sub-agent driven development भी आज़मा चुका हूँ।
लेकिन मेरे अनुभव का निष्कर्ष भी आखिरकार वही था जो OpenClaw के संस्थापक ने कहा था।
अगर सचमुच पूरी automation हो जाए, तो Ralph Loop जैसी चीज़ों की भी ज़बरदस्ती ज़रूरत नहीं पड़ेगी।
सबसे महत्वपूर्ण बात यह है कि यह वास्तव में ढंग का code भी नहीं बना पाता, न ही कोई service।
मुझे लेखक की राय से कुछ हद तक सहमति है.
प्रति token बौद्धिक क्षमता और GPT-4 की तुलना में कीमत जैसी बातों पर भी सहमति है.
लेकिन token की कीमत गिरने के बाद फिर बढ़ रही है, और reasoning token, प्रति कार्य token उपयोग, तथा प्रति व्यक्ति token उपयोग को देखते हुए इसका असर व्यक्तिगत उपयोगकर्ताओं और AI सेवा संचालकों—दोनों के लिए काफ़ी कठिन होता जा रहा है. यही वजह है कि Cursor, Intercom, Shopify, Chroma आदि ने open source आधारित अपने मॉडल बनाना शुरू किया है. बात यहाँ तक पहुँच गई है कि वे कीमत के मामले में प्रतिस्पर्धा ही नहीं कर पा रहे.
असल में ralph कोई जबरन गढ़ी हुई चीज़ नहीं था, बल्कि while आधारित bash script था. यानी उसकी संरचना उतनी ही सरल थी. यहाँ हमें जिस बात को समझना चाहिए, वह यह है कि असली मुकाबला इस बात का है कि क्या इसे systematize किया जा सकता है. automation भी दरअसल intent को सटीक रूप से निकालने, task split को लापरवाही से नहीं बल्कि सही ढंग से करने, और फिर उसे ठीक से execute करके बिना error के पूरी तरह implement करने की प्रक्रिया है; और अगर ऐसा न हो सके, तो यह पहचानने की प्रक्रिया है कि किस हिस्से पर काम करना चाहिए.
लेकिन जिस हिस्से से मैं सहमत हूँ, वह यह है कि अच्छा तो यही होता कि ये सारे काम तथाकथित 'क्लिक' से हो जाते, लेकिन आपने शायद खुद महसूस किया होगा कि वास्तविकता बिल्कुल ऐसी नहीं है. बल्कि अभी की समस्या यह लगती है कि code के काम से भी ज़्यादा setting करनी पड़ती है. और service के स्तर पर भी आम तौर पर लोगों को कोई खास ठोस बदलाव महसूस नहीं होता.
लेकिन एक बात मैं बहुत स्पष्ट रूप से महसूस करता हूँ: ज़्यादातर लोग documentation बहुत अच्छी तरह नहीं कर पाते. वे चीज़ों को ठीक से organize नहीं कर पाते, इसलिए किसी चीज़ को systematic बनाना उनके लिए मुश्किल होता है, और इसी वजह से मैंने बहुत लोगों को इस तरह के काम करते हुए काफ़ी संघर्ष करते देखा है. और AI भी पूर्ण नहीं है. इसी वजह से मुझे इसमें अवसर दिखता है. मेरा मानना है कि जो लोग यह काम लगातार करते रहे हैं और जो नहीं करते रहे, उनके बीच काफ़ी बड़ा अंतर पैदा होगा. जिन लोगों में सहनशीलता है, वे जल्दी adapt कर लेंगे, और जो विभिन्न कारणों से ऐसा नहीं कर पाए, वे और पीछे रह जाएंगे तथा डर से भर जाएंगे. सच कहूँ तो, जैसा लेखक ने कहा, यह ऐसी चीज़ नहीं है जिसके लिए 'डर' महसूस किया जाए—और शायद यही ज़्यादा बेहतर दिशा है.
मेरी बात का मतलब यह है कि
while loopएक जबरदस्ती का उपाय है।असल में यह इसलिए सामने आया क्योंकि LLM agentic task में सक्षम नहीं थे और जल्दी समाप्त हो जाते थे (EOS token लौटाते थे)।
अगर सचमुच ultimate AGI के करीब कोई मॉडल आ जाए, तो शायद
while loopइस्तेमाल करने की जरूरत ही न पड़े।हो सकता है मेरी documentation क्षमता कमज़ोर हो, लेकिन Garry Tan या Peter Steinberger के बारे में ऐसा नहीं कहा जा सकता।
अगर वह सच में LLM के ठीक से काम न करने की समस्या है, तो बस ऐसा best practice demo दिखा दीजिए जिसे सच में reproduce किया जा सके।
लेकिन मैंने ऐसा एक बार भी नहीं देखा है।
मैं भी लेखक की राय से सहमत हूँ.
मुझे लगता है कि LLM के साथ होने वाला यह विकृतिकरण कुछ हद तक उसके उस अनुभवजन्य पहलू से भी पैदा होता है कि वह chat कर सकता है और संवाद करने वाला सिस्टम लगता है.
अच्छी राय के लिए धन्यवाद।
तो क्या आप बता सकते हैं कि किस तरह का best practice demo आवश्यक होगा?
कौन-सा काम किस तरह implement होने पर यह तय किया जा सकता है कि Ralph loop एक भ्रम है या नहीं, इस पर आपके विचार जानना चाहूँगा।
लगभग परफ़ेक्ट PRD के साथ Ralph Loop चलाकर development को Production-ready स्तर तक पूरा कर देना, यही बात है
ताकि किसी को भी यह AI slop जैसा बिल्कुल न लगे
आह, तो क्या लगभग परफ़ेक्ट PRD एक ही लेकर Ralph Loop चलाकर किसी हद तक का प्रोडक्ट बनाया जा सकता है?
क्या Channel Talk का AI चैट बनाया जा सकता है?
और मैं एक बात और पूछना चाहता हूँ।
क्या Harness जैसी किसी चीज़ को सेटअप करके आगे बढ़ना ठीक रहेगा, यह जानना चाहता हूँ।
जी हाँ, harness हो, multi-agent हो या sub-agent, कोई फ़र्क नहीं पड़ता।
राय के लिए धन्यवाद!
सही कहा। ऐसा कोई उदाहरण बनाना अच्छा रहेगा, हाहा
ईमानदारी से कहूँ तो, इस लेख में समस्या उठाने से ज़्यादा उसकी तर्क-प्रस्तुति मुझे खटकती है.
“टोकन उपयोग ही कौशल है”, “एक अच्छी PRD बना दो तो AI सब कुछ हल कर देगा” जैसी अभिव्यक्तियाँ बहुत मजबूत दावे हैं, लेकिन वास्तव में किसने, कहाँ, और किस संदर्भ में ऐसा कहा, यह ठीक से दिखाई नहीं देता. इसलिए पढ़ने वाले के नज़रिए से यह वास्तविक प्रवृत्ति की आलोचना कम और प्रतिनिधित्व अस्पष्ट कुछ अतिवादी दावों को जोड़कर उनका खंडन करने वाली straw man argument ज़्यादा लगती है.
खासकर om सीरीज़ सहित वास्तव में टूल बनाने और workflow को निखारने वाले लोगों को मैंने लगभग कभी “एक PRD से सब हल हो जाएगा” जैसी बात कहते नहीं देखा. बल्कि वे लगातार release, सुधार और validation दोहराते रहते हैं. मेरे हिसाब से यही अपने-आप में इस बात को मानकर चलता है कि अभी भी इंसानी judgment और हस्तक्षेप अनिवार्य हैं.
इसलिए जिस बात में और सावधानी चाहिए, वह यह है कि अगर इस तरह का वर्णन गलत ढंग से पढ़ा जाए तो ऐसा लग सकता है मानो कुछ खास builders या developers ने वे बातें सचमुच कही हों जो उन्होंने की ही नहीं. मुझे लगता है कि ऐसा तरीका स्वस्थ आलोचना से ज़्यादा, एक बढ़ा-चढ़ाकर बनाया गया फ्रेम खड़ा करके उस पर हमला करने के करीब है.
टोकन उपयोग का मामला भी ऐसा ही है. यह कौशल का पूर्ण मानदंड नहीं है, लेकिन इसे पूरी तरह अर्थहीन संख्या कहना भी मुश्किल है. अगर उपयोग में बहुत बड़ा अंतर हो, तो वह सिर्फ बर्बादी नहीं बल्कि exploration, experimentation और validation की मात्रा का अंतर हो सकता है, और यह वास्तविक काम की घनत्व में अंतर के रूप में भी दिख सकता है. वास्तव में Jensen Huang ने भी कहा था कि टोकन का उपयोग वेतन के आधे से अधिक के बराबर होना चाहिए.
https://www.youtube.com/shorts/XBnFPuru4xA
एक अच्छी PRD भी कोई सर्वशक्तिमान चीज़ नहीं, बल्कि leverage है. इसलिए अंततः महत्वपूर्ण बात “टोकन ही कौशल है या नहीं” जैसी सरल द्वंद्व-रचना नहीं, बल्कि यह है कि आगे चलकर AI का उपयोग करके समस्या-समाधान की क्षमता को किस मानक पर आंका जाएगा.
मैं आपकी लिखी बात से पूरी तरह सहमत हूँ.
असल में, “token usage ही skill है” यह साफ़ तौर पर गलत और विकृत फ्रेम है.
बल्कि इसे इस नज़रिए से देखना चाहिए कि जब यह समझ आता है कि computational resources की सीमाएँ (इंसानों सहित) ही एकमात्र bottleneck हैं, तभी token usage की अहमियत समझ में आती है.
मुझे पता है कि ऐसे दावे करने वाला समूह कौन है, लेकिन अगर मैं उसे स्पष्ट रूप से लिखूँ तो कानूनी समस्या हो सकती है, इसलिए जानबूझकर उसका उल्लेख नहीं किया।
कुछ प्रसिद्ध कंपनियाँ ऐसी भी हैं जो token उपयोग तक मापती हैं, और नीचे गुमनाम रूप से इसका ज़िक्र करने वाले लोग भी हैं।
GeekNews पर भी ऐसे पोस्ट देखे जा सकते हैं जहाँ लोग मानो अपने token उपयोग पर गर्व करते हुए दावे करते हैं।
ऐसे दावे करने वाले लोग बहुमत में नहीं हैं।
लेकिन कोरिया के AI क्षेत्र में कुछ शोर मचाने वाले लोग ऐसे दावे कर रहे हैं, और Garry Tan पिछले कुछ दिनों से लगातार fat harness की आलोचना कर रहे हैं, तो यह इस बात का प्रमाण माना जा सकता है कि कोरिया की वह लगभग धार्मिक-सी दलील अमेरिका तक पहुँच गई है।
Jensen Huang की बातों को उठाकर मानो वे ही अंतिम सत्य हों, इस तरह पेश करना ही authority-driven तर्क शैली का एक典型 उदाहरण है।
Jensen Huang कई दशक पहले graphics card बनाने वाले engineer थे; अभी वे engineer भी नहीं हैं और AI क्षेत्र के विशेषज्ञ भी नहीं हैं।
सहसंबंध वाली बात से मैं सहमत हूँ, लेकिन जिस समूह की मैं बात कर रहा हूँ, उसका दावा तो बस बेकार Ralph चलाने तक सीमित है।
सच कहें तो test-time compute की बात सबसे पहले उठाने वाले OpenAI के o1 मूल शोधपत्र में भी साफ कहा गया है कि इसे लगातार बढ़ाते जाने से हमेशा बेहतर परिणाम नहीं मिलते, या फिर यह केवल कुछ मामलों में ही सही होता है।
और वह भी reasoning effort की बात है, Ralph loop चलाने की बात तो बिल्कुल नहीं है।
GPT-5.4 prompt guide में भी साफ लिखा है कि अधिक reasoning effort हमेशा बेहतर नहीं होता।
https://openai.com/index/learning-to-reason-with-llms/
https://developers.openai.com/api/docs/guides/prompt-guidance
इतना ही नहीं, design में तो उल्टा reasoning effort कम करने की सिफारिश की जाती है।
https://developers.openai.com/blog/…
मैं यह इसलिए कह रहा हूँ क्योंकि कुछ लोग PRD को सर्वशक्तिमान न होने के बावजूद सर्वशक्तिमान की तरह पेश करते हैं।
शीर्षक साफ़ तौर पर यह पूछता है कि Ralph loop नाम के इस भ्रम के बारे में आप क्या सोचते हैं, लेकिन असल में मुख्य लेख उस विषय को ठोस रूप से लेने के बजाय उससे कहीं ज़्यादा व्यापक और अलग संदर्भों की बातों में फैल जाता है, इसलिए मुझे लगा कि पूरा लेख शीर्षक के साथ ठीक से मेल नहीं खाता।
इसलिए मेरा मतलब यह नहीं था कि "ऐसा व्यक्ति वास्तव में है या नहीं", बल्कि यह था कि लेख की संरचना ऐसे लगती है मानो स्रोत और संदर्भ अस्पष्ट चरम दावों को एक साथ बाँधकर उनका खंडन किया जा रहा हो, इसलिए वह मुझे straw man आलोचना की तरह पढ़ा गया।
लेकिन मेरे कमेंट के जवाब में भी उस बिंदु को सीधे समझाने के बजाय, दूसरे लोगों, दूसरे विमर्शों और दूसरे उदाहरणों को लगातार खींचकर लाने का रुख रहा, इसलिए सच कहूँ तो वह मुझे मुद्दे को और धुंधला करने के ज़्यादा क़रीब लगा।
खासकर, जब आप मशहूर लोगों के बयानों के उद्धरण को प्राधिकारवादी शैली कहकर आलोचना करते हैं, तब उसी जवाब में Garry Tan, OpenAI दस्तावेज़, GPT गाइड आदि को फिर से आधार के रूप में लाना भी कुछ हद तक चुनिंदा लगा।
मुझे लगता है कि token usage को जरूरत से ज़्यादा शेखी के साथ पेश करने वाली संस्कृति असहज कर सकती है। लेकिन उससे अलग, जो लोग वास्तव में बार-बार प्रयोग, सत्यापन और संशोधन की प्रक्रिया से गुज़रते हुए tools और workflow को बेहतर बनाते हैं, उन्हें भी उसी फ़्रेम में डाल देना एक और तरह की अतिशयोक्ति है।
क्या आप किसी लेख का आकलन सिर्फ़ उसका शीर्षक देखकर करते हैं?
तो फिर "Attention Is All You Need" पेपर के बारे में आपका क्या विचार है?
Garry Tan ने हाल ही में GStack जैसी अच्छी LLM skills बनाकर अपनी AI उपयोग क्षमता दिखाई है।
OpenClaw के संस्थापक भी उसी तरह हैं, और OpenAI LLM research और industry का नेतृत्व करने वाली कंपनी की आधिकारिक guide है।
इसके उलट, Jensen Huang का क्या? सिर्फ़ इसलिए कि वह कुदाल बेचने वाली कंपनी के CEO हैं, कृपया यह मत कहिए कि उन्हें सोने के बारे में भी अच्छी तरह पता होगा।
शुरू से ही Jensen Huang भी बस किसी और की बात दोहरा रहे हैं।
अगर इसे मुद्दे को भटकाना कहा जाए, तो मेरे पास कहने को कुछ नहीं है।
मैं वही व्यक्ति हूँ जो उन टूल और workflow को निखारता है; क्या आपका मतलब है कि मैंने self-dis किया?
मैंने सिर्फ़ शीर्षक देखकर निर्णय नहीं किया था, बल्कि यह कहा था कि शीर्षक और मुख्य पाठ आपस में कितने संगत रूप से जुड़े हुए हैं।
और मैंने जो कहा था, वह यह नहीं था कि Garry Tan या OpenAI, Jensen Huang से ज़्यादा प्रामाणिक हैं या नहीं, बल्कि यह था कि दूसरों के उद्धरण को authoritarianism कहकर आलोचना करने के बाद अपने जवाब में फिर किसी दूसरी authority को आधार बनाना एकसमान नहीं लगा।
अंत में, “टूल और workflow को निखारने वाले लोगों को भी उसी frame में रखता है” जैसी अभिव्यक्ति किसी खास व्यक्ति की ओर इशारा नहीं थी, बल्कि मेरा आशय यह था कि लेखन की शैली को उस तरह पढ़ा जा सकता है। इसे तुरंत “क्या आपने इसे self-dis कहा?” के रूप में लेना शायद मेरी टिप्पणी की सीमा से थोड़ा आगे बढ़कर की गई व्याख्या है.
और यदि आप मानते हैं कि शीर्षक और मुख्य पाठ अलग हो सकते हैं, तो मैं जानना चाहता हूँ कि क्या इस लेख को Ralph loop पर विश्लेषण की बजाय, जैसा आपने कहा, उस विशेष समूह को समग्र रूप से लक्षित करने वाले लेख के रूप में समझना चाहिए।
आपने AI/LLM विशेषज्ञ भी नहीं रहे Jenseunghwang की बात उद्धृत की है।
हाँ, यह एक खास समूह को निशाना बनाकर लिखा गया पोस्ट ही है।
उनमें सबसे प्रतिनिधि और सबसे अजीब बात PRD + Ralph loop के बारे में ही मैंने ज़िक्र किया था।
मुझे नहीं पता कि आपको ऐसे समूह के अस्तित्व का पता नहीं है, या आप खुद उसी समूह में हैं और अनजान बनने का नाटक कर रहे हैं।
देश और विदेश में ऐसे समूहों की लगातार आलोचना होने की वजह है।
बिना आग के धुआँ नहीं उठता।
और व्यक्तिगत रूप से भी, इस बार का यह लेख मुझे काफ़ी खटक गया।
मैंने हमेशा GeekNews को इसलिए पसंद किया है कि यहाँ किसी खास व्यक्ति या समूह को निशाना बनाने वाले लेखों के बजाय, ऐसी बातें पढ़ने को मिलती हैं जिनसे मुझे नई जानकारी, नया नज़रिया और सोच का विस्तार मिलता है।
इसी वजह से, इस बार की तरह किसी विशेष समूह को आधार बनाकर बात आगे बढ़ाने का तरीका पढ़कर और भी निराशा हुई।
कम से कम मेरे लिए GeekNews ऐसी जगह नहीं रही है जहाँ किसी को किसी फ़्रेम में बाँधकर निशाना बनाया जाए, बल्कि यह ऐसी जगह के अधिक क़रीब रही है जो अधिक ठोस जानकारी और संदर्भ के ज़रिए सोच को व्यापक बनाती है। इसलिए इस बार के लेख में दावे से ज़्यादा, उस दावे को पेश करने का तरीका ही मुझे अधिक खटका। मैं बस इतना ही कहना चाहूँगा।
मैं यह बात कितनी बार कहूँ?
मेरे नज़रिए से किसी खास समूह या व्यक्ति को सीधे निशाना बनाना ठीक नहीं है.
YC के CEO और OpenClaw के संस्थापक ऐसे लोग हैं जिन्होंने खुद साबित किया है कि उन्हें AI विशेषज्ञ कहा जा सकता है.
जेनसन हुआंग अलग हैं.
मैंने कभी PRD को भ्रम नहीं कहा. कृपया संदर्भ देखें.
अब जब ऐसे भ्रम वाले दावे बड़े हो गए हैं, तो यह सिर्फ मेरी व्यक्तिगत नाराज़गी से आगे की बात है; यह दक्षिण कोरिया के AI, और आगे चलकर मानवता की प्रगति से जुड़ा मुद्दा है.
क्या इन लोगों के और बड़े होने और दूसरी तरफ प्रभाव हासिल करने से पहले इस तरह की कीमियागरी को ठीक नहीं करना चाहिए?
अगर बात आप पर लागू नहीं होती, तो इसे जाने दें.
इस पोस्ट की दूसरी टिप्पणियों में पहले ही कुछ लोग सहमति जता चुके हैं, या फिर जिस समूह की मैं बात कर रहा हूँ उसके लोग मुझ पर हमला करने आ गए हैं.
और एक बात मैं यह कहना चाहूँगा कि “दक्षिण कोरिया का AI”, “मानवता की प्रगति”, “alchemy को सही करना चाहिए” जैसी अभिव्यक्तियाँ मुझे ऐसी लगीं जिनमें पहले बहुत बड़ा औचित्य आगे रखा गया है। मुझे लगता है कि ऐसी समस्या-चेतना रखना संभव है। लेकिन इस स्तर की बात, कम्युनिटी में किसी को बहुत व्यापक रूप से बांधकर आलोचना करने के तरीके से कहने की बजाय, जब उसके साथ वास्तविक उदाहरण, काम, या अधिक ठोस verification criteria भी दिखाए जाते हैं, तब वह कहीं अधिक प्रभावशाली ढंग से पहुँचती है।
साथ ही, YC CEO या OpenClaw के संस्थापक के बयान को अर्थपूर्ण आधार मानते हुए, केवल Jensen Huang के उद्धरण को खास तौर पर authoritarian जैसा मानना भी मुझे सुसंगत नहीं लगा। आखिर किसकी बात आधार बनती है और किसकी बात अर्थहीन हो जाती है, इसका मानदंड दावे की सामग्री से अधिक वक्ता के आधार पर बदलता हुआ लगा। Jensen Huang की बात निर्णायक आधार न भी हो सकती है, लेकिन फिर भी सिर्फ उसी उद्धरण को विशेष रूप से बेकार बयान जैसा मानना मुझे थोड़ा अतिशयोक्तिपूर्ण लगा।
आखिरकार, अगर ऐसे दावे दूसरों तक भी असर के साथ पहुँचने हैं, तो केवल आलोचना दोहराने के बजाय ऐसे उदाहरण या काम भी साथ में पेश होने चाहिए जिन्हें लोग खुद देखकर और परखकर समझ सकें। तभी आप अभी जो दिशा बता रहे हैं, वह महज़ प्रतिकूल भावना नहीं बल्कि वास्तव में एक प्रभावशाली समस्या-उठान की तरह पढ़ी जा सकेगी। अगर ऐसा कोई परिणाम मौजूद है, तो मैं भी उस समय उसे सक्रिय रूप से पढ़कर देखूँगा, और ज़रूरत हुई तो खुद इस्तेमाल भी करूँगा।
कृपया एक ही बात को बार-बार दोहराना बंद कीजिए। आप कह रहे हैं कि मैंने ऐसी बातें कीं जो मैंने कहीं ही नहीं, और जिन बातों का मैंने जवाब दे दिया था उन पर फिर से सवाल उठा रहे हैं।
सच कहूँ तो, अभी इस लेख और उसके जवाबों को साथ में जितना अधिक देखता हूँ, उतना ही यह मुझे जानकारी या विश्लेषण के लिए लिखी गई पोस्ट से ज़्यादा किसी खास प्रवाह को कोसने की भावना से आगे बढ़ी हुई लगती है.
अगर आप सच में बहुत सटीक आलोचना करना चाहते थे, तो बेहतर होता कि कम्युनिटी में वास्तव में कौन-सी पोस्टें थीं और किसने किस संदर्भ में क्या दावा किया था, यह अधिक स्पष्ट रूप से सामने लाते. लेकिन ऐसे ठोस उदाहरणों की बजाय पहले ही “कोरियाई डेवलपर जगत”, “ऐसे समूह”, “धर्म जैसा बढ़ा-चढ़ाकर पेश करना” जैसी बड़ी अभिव्यक्तियों में सबको बाँध देने से, पढ़ने वाले के मन में वास्तविक दावों से ज़्यादा उनसे जुड़ी छवियाँ और फ्रेमिंग ही अधिक रह जाती हैं.
खास तौर पर, om-श्रृंखला की याद दिलाने वाले संकेत छोड़कर भी फिर यह कहना कि आप वास्तव में किसी खास समूह या व्यक्ति को सीधे निशाना नहीं बना रहे, यह तरीका जानकारी देने वाली पोस्ट से ज़्यादा किसी को व्यापक रूप से कोसने की इच्छा की तरह पढ़ा जाता है.
इसके अलावा, प्रतिक्रिया देने वालों से यह कहना कि “अगर आप वही नहीं हैं तो बस आगे बढ़ जाइए”, या “या तो आप सहमत हैं, या फिर जिन लोगों की मैं बात कर रहा हूँ वे हमला करने आ गए हैं”, यह चर्चा से ज़्यादा लेबल लगाने का तरीका लगता है. शुरुआत से ही अगर पोस्ट को इतने मजबूत फ्रेम में खोला जाए, तो प्रतिकूल प्रतिक्रिया और असहमति आना स्वाभाविक है. लेकिन अगर उन प्रतिक्रियाओं को फिर किसी खास समूह में बाँधकर समझा जाए, तो आखिरकार कोई भी प्रतिवाद उसी फ्रेम के भीतर समा जाता है.
मुझे लगता है कि ऐसा तरीका जानकारी और संदर्भ साझा करने वाली लेखन-शैली से कम, और कम्युनिटी-टाइप टकराव की संरचना बनाने वाली शैली के ज़्यादा करीब है. और सच कहूँ तो, इस तरह की पोस्ट X या Threads जैसी जगहों पर परिचित लग सकती है, लेकिन कम-से-कम मैंने GeekNews से जो माहौल अपेक्षित किया था, उससे यह काफ़ी दूर लगती है, इसलिए निराशा और भी ज़्यादा होती है.
मेरे लिए GeekNews किसी को बड़े समूह में बाँधकर कोसने की जगह नहीं, बल्कि सीधे किए गए अनुभवों, ठोस जानकारी, और सोच की चौड़ाई बढ़ाने वाले संदर्भों को साझा करने की जगह के ज़्यादा करीब रहा है. इसलिए इस बार मुझे दावे से ज़्यादा, उसे संभालने के तरीके से बड़ी निराशा हुई.
अगर ऐसा है, तो अंततः इस लेख को Ralph loop स्वयं का विश्लेषण करने वाला लेख कम, और जैसा आपने कहा, किसी विशेष समूह को समग्र रूप से निशाना बनाने वाला लेख अधिक समझना उचित होगा.
लेकिन मेरा मानना है कि ऐसे लेख में लक्ष्य-निर्धारण उतना ही अधिक सख्त और सटीक होना चाहिए. सिर्फ़ “ऐसा एक समूह है” या “देश-विदेश में उसकी लगातार आलोचना होती है” जैसी अभिव्यक्तियों से वास्तविक दावों और बढ़ा-चढ़ाकर बनाए गए फ्रेम के बीच स्पष्ट अंतर करना मुश्किल हो जाता है, और अंततः यह अलग-अलग लोगों और संदर्भों को एक साथ बाँध देने वाले तरीके से पढ़ा जा सकता है. किसी “विशेष समूह” का मानदंड स्वयं में ही पहले से एक मजबूत फ्रेम है, और जब उसकी सीमाएँ अस्पष्ट हों, तब सामने वाले को उसी फ्रेम के भीतर रखकर जवाब देना चर्चा को अधिक परिष्कृत बनाने के बजाय और अधिक खुरदुरा बना देता है.
और एक बात यह भी है कि दूसरों के बयान और उदाहरण लगातार आधार के रूप में लाए जाएँ, लेकिन सिर्फ़ Jensen Huang के उद्धरण को ही अलग से authorityवाद की तरह माना जाए, तो यह तरीका मुझे सुसंगत नहीं लगा. OpenClaw के संस्थापक या YC CEO भी अपने-अपने संदर्भ और authority वाले लोग हैं; अगर एक पक्ष का उद्धरण वैध आधार बन जाए और दूसरे पक्ष का उद्धरण तुरंत ही अर्थहीन मान लिया जाए, तो अंततः ऐसा लगे बिना नहीं रहेगा कि मानदंड दावे की सामग्री से अधिक वक्ता के आधार पर बदल रहा है. वास्तव में यह भी पूरी संभावना है कि ऐसे लोग भी कम नहीं, बल्कि काफी computation और usage के आधार पर प्रयोग कर रहे हों; ऐसे में अगर एक पक्ष को क्षमता के प्रमाण की तरह पढ़ा जाए और दूसरे को भ्रम के प्रतीक की तरह, तो मुझे लगता है कि उस भेद के मानदंड को पहले और अधिक स्पष्ट करना चाहिए.
PRD भी सर्वशक्तिमान नहीं है, लेकिन इसका यह मतलब नहीं कि उसकी भूमिका को भी भ्रम कहकर खारिज कर दिया जाए; ऐसा करना वास्तविक development की दोहराव वाली release, validation और correction की प्रक्रिया के साथ भी ठीक से मेल नहीं खाता. असुविधाजनक culture हो सकता है, लेकिन मेरी राय में उसके प्रति प्रतिरोध तुरंत ही व्यापक सामान्यीकरण का आधार नहीं बन जाता. यहीं तक कहूँगा.
मुझे लगता है कि oh-my-whatever और token leaderboard जैसी चीजें आखिरकार सिर्फ marketing के लिए बनाया गया noise हैं।
ऐसा कम ही होता है कि harness बनाकर सच में कुछ उपयोगी निकले; ज़्यादा बार तो बस और जटिल, token जलाने के लिए optimized harness ही निकलते हैं। लेकिन वही सबसे ज़्यादा visible होते हैं और short term में attention खींचने के लिए अच्छे होते हैं, इसलिए लगता है बहुत लोग उन्हीं पर उत्साहित हो जाते हैं।
कुछ लोग तो यह भी कहते हैं कि ऐसी चीजों के साथ adapt न कर पाना बिल्कुल loser mindset है। इसे लेकर यह दावा भी होता है कि कोरिया तेज़ है और SF धीमा है।
लेकिन Ralph Loop हो, harness हो या ऐसी कोई भी चीज, आखिरकार ये सब model की internal capabilities में absorb हो जाएँगी। और जब वह समय आएगा, तब एक अच्छी तरह बनाया गया PRD देकर AI से समस्या हल करवा लेना कोई बढ़ा-चढ़ाकर कही गई बात नहीं लगेगी।
इसके बजाय, अभी के लिए harness को हर तरह से मरोड़कर किसी बड़ी उपलब्धि जैसा पैकेज करना और उसी को बार-बार भुनाना मुझे बस
number go upवाले clicker game के नशेड़ी से बहुत अलग नहीं लगता।https://x.com/WillManidis/status/2021655191901155534 यह थोड़ा पुराना है, लेकिन इस पोस्ट का संदर्भ काफ़ी मिलता-जुलता था।
क्या बहुत लोकप्रिय होने का मतलब यह नहीं है कि वह उतना ही औसत के करीब है? बहुत उच्च स्तर नहीं, बल्कि एक साधारण स्तर पर संतुष्ट करने लायक... लेकिन अगर यह ज़्यादा बढ़ जाए, तो tool fetish हो जाता है। आज भी ऐसे लोग हैं जो
CयाJavaको लेकर बहस करते रहते हैं।औसत वास्तव में Ralph Loop और Hannes से काफ़ी दूर है, और मुझे लगता है कि यह vanilla Claude Code के स्तर का है। सच कहूँ तो अगर sample population को थोड़ा व्यापक मानें, तो सिर्फ़ Claude Code इस्तेमाल किया हो तब भी उसे औसत से ऊपर माना जा सकता है।
अगर ये चीज़ें औसत जैसी दिखती हैं, तो मेरा मानना है कि इसका मतलब उनका FOMO marketing सफल रहा।
क्या हमें यह मानना चाहिए कि नए अल्केमिस्ट युग का आगमन हो चुका है?
सहमत हूँ
पूरी तरह सहमत हूँ
व्यक्तिगत तौर पर मुझे लगता है कि ये बस ऐसे लोग हैं जो कोरिया में किसी तरह के इन्फ्लुएंसर बनना चाहते हैं।
अच्छा लेख साझा करने के लिए धन्यवाद
AI कोडिंग, HITL भी लत लगाने वाला होता है।
ऐसी चीज़ें देखकर लगता है कि इंसानों में कुछ न कुछ बनाने को पसंद करने वाली कोई जन्मजात प्रवृत्ति ज़रूर होती है
तंज मत कसिए, और अगर नहीं जानते तो कम से कम खोज तो लीजिए।
OpenAI Codex को Chrome extension के रूप में इस्तेमाल करना
Copilot का विवरण और उपयोग अनुभव
codex को 5 साल पहले...? ChatGPT भी 2022 में रिलीज़ हुआ था, तो अभी 5 साल भी नहीं हुए हैं...
कहीं ऐसा तो नहीं कि Ask GN का मूल लेख भी AI से लिखा गया हो, इसलिए उसमें hallucination आ गया हो?
Codex खुद काफ़ी पुराना है। मुझे भी याद है कि मैंने Geeknews पर देखकर GPT-3 प्रीव्यू के लिए आवेदन किया था।
क्या आप बता सकते हैं कि GPT-3 preview और Codex के बीच क्या संबंध था?
क्या आपका मतलब है कि उस समय Codex मौजूद था? या आपका मतलब है कि code लिखने वाला AI था, और वही Codex था?
पुराने deprecated मॉडल लाइनअप में
code-davinci-*,code-cushman-*सीरीज़ ही Codex मॉडल हैं। Codex ब्रांड अपने-आप में काफ़ी पुराना है.https://www.youtube.com/watch?v=SGUCcjHTmGY
बिल्कुल,
codexनाम एक जैसा होना ज़रूरी नहीं है, लेकिन ऐसा लगता है कि एक code model मौजूद था।वाह, यह तो काफ़ी चौंकाने वाला है। मैं भी gpt-2, dall-e, gym के दौर से इसका इस्तेमाल करता रहा हूँ, लेकिन
codexनाम का मॉडल मैंने पहली बार देखा है। बताने के लिए धन्यवाद!एक और बात जोड़ूँ तो, codex मई 2025 में लॉन्च हुआ था.
हाहाहाहाहाहाहाहाहाहाहाहा
जो नहीं जानते, उसे जाहिर करने से पहले Namuwiki ही एक बार खंगाल लेना कैसा रहेगा?
ओह, और जानकारी के लिए, ChatGPT Atlas के मुताबिक मुझे जुड़कर 1812 दिन हो चुके हैं।
अच्छा, तो इसका मतलब है कि मौजूदा codex और उस समय का codex अलग तरह के प्रोडक्ट थे।
उस समय का codex, OpenAI के code-केंद्रित LLM मॉडल का नाम था,
और उसी ब्रांड का इस्तेमाल करके मौजूदा codex प्लेटफ़ॉर्म लॉन्च किया गया।
मैंने उस समय GitHub Copilot इस्तेमाल किया था, लेकिन मुझे सिर्फ़ इतना पता था कि उसका बेस मॉडल GPT-3 था।
मुझे यह नहीं पता था कि मॉडल नाम के लिए
codexब्रांड इस्तेमाल किया गया था।Codex कोई मॉडल नहीं है।
GPT-5.3-Codexजैसी चीज़ों का नामकरण तो हाल ही में किया गया है।यह GPT-3 आधारित, coding के लिए fine-tune किए गए मॉडल का इस्तेमाल करने वाले VSCode extension का नाम है।
(web का तो कोई इस्तेमाल ही नहीं करता)
इसी मॉडल और तरीके का इस्तेमाल Github Copilot में भी किया गया था।
उस समय meaningful chat करना संभव नहीं था, इसलिए वह सचमुच अगले शब्द की भविष्यवाणी जैसा ही था।
बस इतना था कि अगर आप Baekjoon का कोई problem लिख दें, तो वह
solvefunction लिख देने वाले ultimate autocomplete जैसा था।(यानी Cursor में जो था, वह OpenAI ने पहले कर लिया था।)
आप जो बता रहे हैं, वह शायद
codexmodel का इस्तेमाल करने वाला VSCode extension लगता है (क्या यह वही है? https://github.com/Implicate-dev/codex-vscode)Mark Chen के 2021 के पेपर को देखें तो लगता है कि OpenAI ने
Codexको एक fine-tuned model के नाम के रूप में सार्वजनिक किया था।ऐसा लगता है कि सही है, लेकिन यह पुरानी बात है इसलिए मुझे ठीक-ठीक याद नहीं है।
Ralph Loop नाम के इस भ्रम के बारे में आप क्या सोचते हैं?
https://www.youtube.com/watch?v=SGUCcjHTmGY
यह Korean साइट्स की नहीं बल्कि अमेरिकी साइट्स की बात थी, जहाँ कहा जाता है कि token usage ज़्यादा होना चाहिए, और इसे देखकर मुझे हैरानी हुई थी। सिर्फ Korea ही नहीं, अमेरिका में भी ऐसी अजीब और मुश्किल से मानने लायक बातें और बढ़ा-चढ़ाकर कही गई कहानियाँ भरी पड़ी हैं।
कोरिया में लगभग आधा साल पहले से ही ऐसे दावे सामने आ रहे थे, और हाल के दिनों में लगता है कि इसकी चर्चा काफी ज़्यादा तेज़ हो गई है.
Garry Tan जैसे लोग भी सक्रिय रूप से कह रहे हैं कि ऐसा नहीं है.
यह थोड़ा अलग संदर्भ की बात है, लेकिन मेरा मानना है कि सस्ते हार्डवेयर पर ज़्यादा tokens खर्च करके verification करना, महंगे cloud API का इस्तेमाल करते हुए tokens बचाने से बेहतर है.
Agents या harnesses के विकास के साथ, ऐसा लगता है कि model की precision और size से ज़्यादा, अधिक review और verification संभव बनाने वाली आर्थिक रूप से व्यवहार्य संरचनाओं को प्राथमिकता दी जा रही है.
मेरा ख़याल है कि GDN, Mamba के आने के बाद यह रुझान और भी मज़बूत हुआ है.
व्यक्तिगत रूप से, इससे सहमत होना मेरे लिए मुश्किल है.
Opus के मामले में यह बहुत ज़्यादा महंगा है, लेकिन अगर कीमत GPT-5.4 के स्तर की हो, तो सस्ते चीनी मॉडल को पूरे दिन चलाने के बजाय 5.4 को कुछ बार चलाना कई आर्थिक पहलुओं से बेहतर होगा.
मेरे विचार से, दुनिया के सबसे तेज़ी से सीखने वाले pro gamers भी नई चीज़ें सीखने में अक्सर इसलिए असफल नहीं होते कि उनकी क्षमता कम होती है।
मुझे तो उलटा लगता है।
वे बहुत लंबे समय तक और बहुत ऊँचे स्तर पर मौजूदा meta के हिसाब से optimized रहे होते हैं, इसलिए बदलाव के सामने उन्हें और बड़ी कठिनाइयों का सामना करना पड़ता है।
शुरुआत में हर निर्णय सचेत रूप से लिया जाता है।
लेकिन जैसे-जैसे दोहराव वाला अभ्यास जमा होता है, शुरू में जिन फैसलों को दिमाग़ का सचेत हिस्सा संभालता था वे धीरे-धीरे automated हो जाते हैं, और expert उस चरण तक पहुँच जाता है जहाँ सोचने से पहले शरीर प्रतिक्रिया देने लगता है।
मुझे लगता है कि यह automation निश्चित रूप से बहुत बड़ी ताकत है।
लेकिन जैसे ही meta बदलता है, वही ताकत उलटे एक मज़बूत inertia में बदल सकती है।
पुराने meta में सही मानी जाने वाली vision, teamfight, और macro की समझ हज़ारों घंटों में शरीर में बस जाती है।
इसलिए जब game structure बदल जाता है, और पहले वाला सही जवाब अब सही नहीं रह जाता, तब भी शरीर पहले की तरह ही चलने की कोशिश करता है।
आख़िरकार समस्या नई चीज़ें सीखने की क्षमता की कमी नहीं, बल्कि पुरानी optimization को छोड़ने की क्षमता में होती है।
क्योंकि ज़्यादातर mastery एक तरफ accumulation का नतीजा होती है, तो दूसरी तरफ inertia का भी।
इसीलिए मुझे नहीं लगता कि जो लोग पहले बहुत अच्छे थे, वे अगली meta में भी अपने-आप फ़ायदे में रहेंगे।
बल्कि यह भी पूरी तरह संभव है कि वे पिछली पीढ़ी की सफलता से और ज़्यादा मज़बूती से बँधे रहें।
मुझे लगता है कि आज की coding industry भी इससे बहुत अलग नहीं है।
बहुत से लोग अब भी पुराने तरीक़ों से efficiency की गणना कर रहे हैं, और पुराने मानकों से productivity को आँक रहे हैं।
लेकिन मेरे हिसाब से meta पहले ही बदल रहा है।
शिक्षा या अनुभव से अलग, अगर हम देखें कि दुनिया में वास्तव में क्या हो रहा है, तो यह फिर से सोचने की ज़रूरत है कि क्या बाज़ार आज भी पहले जैसी ही संरचना में चल रहा है, और क्या development अब भी सिर्फ dependent value ही दे रहा है।
आख़िरकार अगले चरण तक पहुँचने वाले लोग सिर्फ वे नहीं होंगे जो और अधिक मेहनत से जोड़ते जाते हैं, बल्कि वे भी होंगे जो मौजूदा चीज़ों को ज़्यादा जल्दी छोड़ सकते हैं।
मेरी नज़र में, नए दौर में ज़्यादा accumulation करने की क्षमता से कहीं अधिक, पुरानी optimization को हटाकर रास्ता साफ़ करने की क्षमता महत्वपूर्ण होती जा रही है.
अगर आप ऐसा सोचते हैं, तो 24 घंटे की लाइव स्ट्रीम करके उसे सीधे दिखा दीजिए।
ओह
अच्छे आइडिया के लिए धन्यवाद।
वाकई, अनुभव का फ़र्क साफ़ दिखता है 👍👍👍👍👍👍👍👍👍
यह लंबी बात अच्छी तरह सुन ली कि यह संभव नहीं है।
मैं सहमत हूँ, लेकिन मुझे लगता है कि
omoजैसे अच्छी तरह से बनाए गए harness set वाकई डेवलपमेंट में मदद करते हैं। (जहाँ तक मुझे पता है, Ralph Loop मुख्य नहीं है। क्या वह विकल्प के तौर पर नहीं दिया जाता?ulwथा क्या..?)सिर्फ निष्कर्ष की बात करूँ तो, इसका token usage से कोई संबंध नहीं लगता।
automation को लेकर developers के बीच एक गहरी जड़ें जमाए हुई संस्कृति है, और यह किसी साझा पेशेवर उपलब्धि-लक्ष्य जैसा महसूस होता है।
लगता है कि यही हिस्सा लोगों में रातभर अपने-आप code लिखवाने या product बनवाने जैसी कल्पनाएँ पैदा करता है।
असल में developer के नज़रिए से नहीं, बल्कि वास्तविक व्यावसायिक उपयोगिता या business operations के दृष्टिकोण से देखें, तो performance, polish या तेज़ response से अधिक महत्वपूर्ण अक्सर समस्या को मापना और उसका समाधान ढूँढ़ना होता है...
अक्सर developers की यह विशिष्ट कल्पना कि अगर अच्छा app या अच्छी service बना दी जाए तो बड़ी सफलता मिल जाएगी, स्थिति को विकृत करती लगती है।
घर में गिरे कुछ बाल उठाने के लिए 500 तरह के high-performance vacuum cleaner नहीं चाहिए, बस मेरी उँगलियों की जगह लेने वाली कोई एक साधारण चीज़ चाहिए।
Token consumption में अगर session management गलत हो जाए या SDD का गलत इस्तेमाल हो, तो साधारण server development में भी Claude के हिसाब से 2-3 दिनों में 100 डॉलर तक खर्च हो सकते हैं।
Token consumption में क्या गलत हो रहा है, इसकी specification अस्पष्ट होने के कारण, क्या गलत है यह खुद समझ पाना भी मुश्किल होता है।
बात का सार चाहे जो हो, token consumption को AI उपयोग का पैमाना मानना कुछ वैसा ही है जैसे यह कहना कि जो ज़्यादा खाना खाता है वही ज़्यादा सक्षम है, या फिर कंपनी में रातभर पेंसिल से पुराने दस्तावेज़ नकल करके यह कहना कि बहुत काम किया गया।
अभी तो सटीक metric नहीं है, इसलिए token consumption और automation पर ज़ोर है,
लेकिन लगता है कि अगला चरण जल्द ही इस बात पर चर्चा का होगा कि वास्तव में ठोस value कैसे create की जाए।
असल में अमेरिका भी कोई बहुत अलग नहीं लगता। Oh-my जैसी coding harnesses के मामले में शायद वजह यह है कि उस project team का आधार कोरिया में है, इसलिए अमेरिका समेत विदेशों में उसकी marketing कम हुई है। और अगर आप token maximalist के प्रतिनिधि उदाहरण Steve Yegge या Karpathy की बातों को देखें, तो वे भी आपकी कही बातों से बहुत अलग नहीं लगते। उनके followers भी वैसे ही हैं।
ऑफिस के अंदर token usage leaderboard बनाकर कंपनियों के बीच भी प्रतिस्पर्धा कर रहे हैं, लेकिन व्यक्तिगत रूप से मुझे लगता है कि यह AI कंपनियों की मार्केटिंग के झांसे में आना है.
हाल में जो चीजें वायरल हो रही हैं, उन्हें देखें तो लगता है कि token के मुकाबले performance को बिल्कुल भी ध्यान में नहीं रखा जा रहा है.
मज़ेदार बात यह है कि AI कंपनियाँ ऐसा मार्केटिंग नहीं करतीं।
बल्कि वे कहती हैं कि पुराने models की तुलना में कम reasoning tokens के साथ बेहतर performance मिलती है।
5 साल पहले...? क्या शायद stock recommendation मिल सकती है
Samsung Electronics.