अगर आप Claude Blue की वजह से परेशान हैं
(kciter.so)- AI की तेज़ प्रगति के कारण अपनी विशेषज्ञता के प्रतिस्थापित हो जाने से उपजी मनोवैज्ञानिक उदासी महसूस करने वाले डेवलपर्स की संख्या बढ़ रही है
- ऐसे अवसाद का अनुभव करने वाले डेवलपर्स बढ़ने के साथ इसे Claude Blue नाम दिया जाने लगा
- साथ ही, हर दिन उमड़ते नए buzzwords डेवलपर्स के FOMO और चिंता को और बढ़ा रहे हैं
- डर पर काबू पाने की कुंजी समझने में है
- असंख्य तरह की 'engineering' आखिरकार "API को उचित input भेजना और response को process करना" की प्रक्रिया के रूपांतर भर हैं, और यह काम डेवलपर्स पहले से ही अच्छी तरह करते आए हैं
- FOMO पैदा करने वाले content के बहाव में न बहें; मूल बात समझ लें तो नया शब्द आने पर भी उसे अपने मौजूदा ज्ञान-ढांचे में रखकर शांत दिमाग से परख सकते हैं
डर की संरचना और उससे निकलने के तरीके
- इंसान जिसकी असलियत नहीं जानता उसके सामने डर महसूस करता है। AI को लेकर डर भी AI से ज़्यादा इस बात से आता है कि यह कैसे काम करता है, यह नहीं पता
- जब उसकी असलियत समझ में आती है, तो जादू तकनीक जैसा दिखने लगता है, और तकनीक ऐसी चीज़ है जिसे सीखा जा सकता है और जिसकी सीमाएँ होती हैं
- एक सर्वे के अनुसार, AI से पैदा हुए information overload के कारण 24% कर्मचारियों की mental health और खराब हुई है
LLM की असलियत
- LLM एक next-word prediction model है, जो "दिए गए input के लिए सबसे उपयुक्त output उत्पन्न करता है"
- ChatGPT, Claude, Gemini सभी एक ही सिद्धांत पर काम करते हैं, और सेवा की असल प्रकृति HTTP API call है जिसमें client message भेजता है और model streaming के ज़रिये token लौटाता है
- AI agent की ताकतवर coding capability भी इसी API call को घेरने वाली परत भर है
AI agent के अधिक स्मार्ट बनने की प्रक्रिया
- Prompt engineering: role देना, Few-Shot, Chain-of-Thought आदि आखिरकार input text के context को अधिक ठोस बनाकर output की दिशा को guide करने के तरीके हैं
- Output format control: JSON Schema, Function Calling आदि के ज़रिये model के output को program द्वारा parse की जा सकने वाली संरचना में बदला जाता है। Function Calling के माध्यम से model tool call कर सकता है और runtime उसे execute कर सकता है। MCP, RAG भी tool calling का ही एक रूप हैं
- Context engineering: सवाल कैसे पूछना है यह नहीं, बल्कि model inference से पहले क्या देखेगा इसे design करना। Input लंबा होने पर focus कम हो जाता है, इसलिए सही जानकारी को सही जगह रखना सबसे महत्वपूर्ण है
- Prompt splitting: एक बहुत बड़े prompt के बजाय छोटे और केंद्रित कई prompts में बाँटकर process करना। Sub-Agent, Skill आदि इसी श्रेणी में आते हैं
- Harness engineering: model के चारों ओर बने पूरे execution environment को design करना। इसमें guide (कार्रवाई से पहले दिशा तय करना) और sensor (कार्रवाई के बाद नतीजे की जाँच) शामिल होते हैं
- Ralph loop: completion criteria पूरी न होने पर उसी prompt को बार-बार inject करने की तकनीक। प्रगति को file system और git में सहेजकर हर बार नए context में भी आगे बढ़ा जा सकता है। यह harness की एक उप-रणनीति भर है, harness स्वयं नहीं
FOMO से बाहर निकलना
- ज्ञान होने के बावजूद बेचैनी इसलिए रहती है क्योंकि FOMO पैदा करने वाले लोग हमें ऐसा महसूस कराते हैं मानो हमें कुछ भी नहीं पता
- FOMO से बचने का एक अच्छा तरीका यह देखना है कि FOMO पैदा करने वालों ने वास्तव में हल क्या किया है
- ज़्यादातर मामलों में उन्होंने प्रक्रिया को संक्षिप्त किया है, समस्या को हल नहीं
- अगर आप मूल बात समझते हैं, तो नई जानकारी आने पर यह नया paradigm है, पुराने concept का रूपांतरण है, या महज़ अतिशयोक्ति है — इसका निर्णय आप खुद कर सकते हैं
आगे क्या करना चाहिए
- ज़रूरी नहीं कि आपको कुछ न कुछ करना ही पड़े। अगर AI आपकी समस्या में मददगार नहीं है, तो जैसे अभी तक कर रहे थे वैसे ही चलते रहें। आखिरकार यह सिर्फ एक tool है; ज़रूरत हो तो इस्तेमाल करें, नहीं हो तो छोड़ दें
- हर चीज़ का कोई एक सही जवाब नहीं होता। इसलिए answer key खोजने की कोशिश करने की ज़रूरत नहीं है
- अगर ज्ञान है, तो आगे कोई नया शब्द आए तब भी यह समझने की नज़र बनी रहेगी कि बात किस बारे में हो रही है
17 टिप्पणियां
FOMO महसूस न करने का एक अच्छा तरीका यह है कि देखा जाए FOMO पैदा करने वाले लोग वास्तव में AI का इस्तेमाल करके क्या हल कर पाए हैं.
यह बात सच में बहुत relatable लगती है, haha
"अगर AI मेरी समस्या में मदद नहीं करता, तो मैं अभी जैसे जी रहा हूँ वैसे ही जी सकता हूँ। आखिरकार यह सिर्फ़ एक tool है; ज़रूरत हो तो इस्तेमाल करो, ज़रूरत न हो तो मत करो" इतना आसान नहीं है T_T
हिहि अब मैं क्या करूँ
क्या पूरी विशेषज्ञता ही प्रतिस्थापित की जा सकती है? शब्द गढ़ने की प्रक्रिया से ही यह अजीब लगती है।
मूल लेख में कहीं भी यह दावा नहीं किया गया था कि AI पूरी विशेषज्ञता की जगह ले सकता है। मैं भी ऐसा नहीं सोचता...
लगता है GPT-3 की बात हो रही है।
मुझे लगता था कि GPT के बाद बाज़ार में आए बड़े language model, diffusion model इस्तेमाल करने वाले कुछ मॉडलों को छोड़कर, सभी next token predict करने वाले फ़ॉर्मेट में ही काम करते हैं। अगर कोई ऐसा मॉडल है जो किसी अलग तरीके से काम करता है, तो बताने के लिए आभारी रहूँगा।
तो क्या फिर नवीनतम मॉडल कुछ अलग है? अगर इसमें कोई गलत बात हो तो कृपया बताइए, इससे मेरे सहित दूसरे लोगों को भी मदद मिल सकती है haha
अगर आप आधुनिक LLM को "अगला शब्द predict करना" कहकर खारिज करेंगे, तो AlphaGo भी आखिर "अगली चाल predict करना" भर ही है।
ChatGPT से आगे, अगला शब्द predict करना सिर्फ़ साधारण pre-trained तक सीमित नहीं है।
असल में यह लक्ष्य हासिल करने वाला मॉडल है।
क्या AlphaGo भी अगली चाल का अनुमान इस तरह नहीं लगाता कि किस चाल की जीतने की संभावना सबसे ज़्यादा है?????
काफ़ी भ्रमित करने वाला है। क्या आप मज़ाक कर रहे हैं, या फिर कोई नई तकनीक या स्किल आ गई है जिसके बारे में मुझे नहीं पता??
"win rate" ही असली कुंजी है।
सिर्फ अगला शब्द predict करने से तो काम की बात लिखना तो दूर, coding या math भी ठीक से नहीं हो पाती।
ऐसी तकनीकें 60~70 के दशक में आ चुकी थीं।
(सख्ती से कहें तो यह शब्द भी नहीं है)
उम्.. मुझे लग रहा है कि शायद यह लेख मेरी मंशा से अलग तरह से पहुँच गया हो। अगर इस लेख से ऐसा महसूस हुआ कि मैं LLM के तकनीकी मूल्य को कम करके दिखा रहा हूँ, तो मैं क्षमा चाहता हूँ。
हालाँकि, इस लेख का उद्देश्य अतिरंजित पैकेजिंग और रहस्यवाद को हटाकर चीज़ों को ठंडे दिमाग से देखना था। इसलिए व्यक्तिगत रूप से, जब इसे 'लक्ष्य हासिल करने वाला मॉडल' कहा जाता है, तो मुझे लगता है कि इसमें रहस्यवाद जुड़ जाता है। आखिरकार, चाहे सामान्य software हो या model, दोनों किसी न किसी 'लक्ष्य' को हासिल करने के लिए ही होते हैं।
इसलिए, अपनी व्यक्तिगत जिज्ञासा जोड़ते हुए, मैं फिर से पूछना चाहूँगा कि क्या आपने जो अभिव्यक्ति कही, वह तकनीकी रूप से अधिक सटीक है।
gpt 3 : अगला शब्द predict करना -> सही
gpt 3 के बाद के transformer-आधारित models : अगला शब्द predict करना -> सही.
AlphaGo, AlphaZero, MuZero, ... : अगली चाल predict करना -> सही.
(किसी खास) लक्ष्य को हासिल करने वाला model -> सही.
इस बात में कुछ भी गलत नहीं है
शायद ऐसा भी कहा जा सकता है।
लेकिन आखिरकार मॉडल खुद में सिर्फ़ एक input/output function ही है।
इसलिए, अगर यह मान लिया जाए कि उसे उपयुक्त harness और agent loop दिया गया है, तो यह कहना सही लगता है कि मॉडल लक्ष्य हासिल करता है।
क्या इसे इस तरह संक्षेपित किया जा सकता है? “अगले token की भविष्यवाणी” implementation स्तर की व्याख्या के रूप में सटीक है, लेकिन मॉडल की क्षमताओं या उद्देश्य को समझाने के तरीके के रूप में अधूरी है।
तो फिर शायद बीच का रास्ता यह हो कि हम ऐसा मॉडल चुनें जो बेहतर predict करता हो 😄