- जब अमेरिकी frontier labs की API कीमतें लगातार बढ़ रही हैं, तब कम-लागत वाले देशों के इंजीनियरों और DeepSeek जैसे open source मॉडल का संयोजन एक किफायती विकल्प के रूप में उभर रहा है
- GPT-5.5, Gemini 3.5 Flash, Opus-4.7 जैसे नवीनतम frontier मॉडल 2~3 गुना कीमत वृद्धि या token खपत में बढ़ोतरी लागू कर रहे हैं
- blended token मानक पर तुलना करने पर Anthropic·OpenAI लगभग $2.80/M पर हैं, जबकि DeepSeek $0.094/M पर है, यानी लगभग 30 गुना कीमत का अंतर
- frontier मॉडल अधिक शक्तिशाली हैं, लेकिन coding उपयोग के लिए OSS मॉडल पर्याप्त रूप से अच्छे हो चुके हैं, और सक्षम इंजीनियरों के साथ मिलकर यह अंतर और घट सकता है
- कीमतें अनंत तक नहीं बढ़ सकतीं, क्योंकि आउटसोर्सिंग + LocalAI का संयोजन एक price ceiling की तरह काम करता है
frontier labs की inference लागत में बढ़ोतरी का रुझान
- इस आम धारणा के विपरीत कि inference लागत घट रही है, अमेरिकी frontier labs की कीमतें स्पष्ट रूप से बढ़ती प्रवृत्ति में हैं
- GPT-5.5 ($5/$30) का लॉन्च GPT-5.4 के केवल 2 महीने बाद हुआ, और कुल API कीमतें 2 गुना बढ़ गईं
- 8 महीने पहले के GPT-5 ($1.25/$10) की तुलना में यह 3 गुना से अधिक महंगा है
- Gemini 3.5 Flash ($1.50/$9.00), पिछले मॉडल Gemini-3-flash-preview ($0.50/$3.00) की तुलना में 3 गुना महंगा है
- Gemini-3-flash-preview भी 2.5 Flash ($0.30/$2.50) की तुलना में पहले से महंगा था
- Anthropic Opus-4.7 ने नया tokenizer अपनाकर token खपत 32~47% बढ़ा दी, जिससे Opus-4.6 की तुलना में वास्तविक लागत बढ़ी
frontier closed-source मॉडल बनाम open source मॉडल
- blended token खपत अनुपात के आधार पर तुलना: हर 1M input (+cache) token पर 50k output token (लगभग 5% से कम) का अनुमान
- बड़े agent loop में turn अधिक होते हैं, इसलिए read अनुपात अधिक रहता है; यह एक conservative अनुमान है
- cache को शामिल करने के बाद provider-वार औसत blended कीमत की तुलना (स्रोत: openrouter.ai)
-
provider-वार कीमत तुलना
- Anthropic: input $1.57 / output $25.00 / cache hit rate 79.6% → blended $2.82
- OpenAI: input $1.30 / output $30.22 / cache hit rate 84.8% → blended $2.80
- DeepSeek: input $0.055 / output $0.870 / cache hit rate 88.1% → blended $0.094
- फिलहाल closed-source frontier मॉडल DeepSeek के नवीनतम मॉडल से अधिक शक्तिशाली हैं, लेकिन क्या यह 30 गुना कीमत अंतर को सही ठहराने लायक है, यह संदिग्ध है
- OSS LLM को frontier स्तर का होना जरूरी नहीं; coding उपयोग के लिए पर्याप्त प्रदर्शन ही काफी है, और वे उस स्तर तक पहुँच चुके हैं
token खपत में बढ़ोतरी का रुझान
- tokenmaxxing ट्रेंड पिछले कुछ महीनों और वर्षों में तेज़ हुआ है (Pragmatic Engineer ब्लॉग संदर्भ)
- सक्षम इंजीनियरों के बीच इस बात पर सहमति है कि tokenmaxxing को लक्ष्य बनाना मूर्खता है, हालांकि यह अलग विषय है
- token खपत में तेज़ बढ़ोतरी GPU की लगातार कमी से भी स्पष्ट होती है
- token खपत बढ़ना और प्रति token कीमत बढ़ना, दोनों साथ-साथ चल रहे हैं, और यह अमेरिकी frontier labs की value capture रणनीति से जुड़ा है
(मानव + quasi-frontier LLM) बनाम frontier LLM
- मानव इंजीनियर और AI agent की 12 आयामों पर तुलना करने वाला अलग विश्लेषण मौजूद है (signalbloom.ai)
- निष्कर्ष: AI agent coding में पहले ही इंसानों से आगे निकल चुके हैं, और सीमित दायरे वाली debugging में भी जल्द आगे निकलने की संभावना है
- लेकिन अच्छी engineering के लिए जरूरी अन्य प्रमुख क्षमताओं में AI अब भी पीछे है
- long-term memory
- Meta memory: यह स्पष्ट रूप से पहचानने की क्षमता कि वह क्या जानता है और क्या नहीं
- Evidential Sufficiency Assessment: यह तय करना कि कार्रवाई के लिए पर्याप्त प्रमाण हैं या नहीं
- मौजूदा statistical architecture को सुदृढ़ करने या किसी अन्य breakthrough से बदलने की जरूरत है
- task निष्पादन क्षमता और AI autonomy एक ही चीज़ नहीं हैं
लागत crossover परिदृश्य
-
मुख्य तुलना
- यह विश्लेषण कि कम-लागत वाले देश के इंजीनियर + पर्याप्त सक्षम मॉडल का संयोजन, शीर्ष frontier मॉडल की तुलना में price-to-value में बेहतर कब हो जाता है
- चर: इंजीनियर वेतन, वेतन वृद्धि दर, शुरुआती token मात्रा, token वृद्धि दर, frontier कीमत, frontier कीमत परिवर्तन दर, DeepSeek कीमत, अवधि
-
परिणाम
- 11 महीने पर crossover होता है, जब frontier inference लागत इंजीनियर + DeepSeek संयोजन ($1,116.61/माह) की लागत से अधिक हो जाती है
राय और सीमाएँ
- चार्ट में कुछ सरलीकृत मान्यताएँ शामिल हैं
- भविष्य की inference कीमतें, token खपत रुझान जैसे चर
- reflexivity: बाज़ार प्रतिभागी देखे गए परिणामों के आधार पर अपना व्यवहार बदलते हैं
- निम्नलिखित तत्व शामिल नहीं किए गए हैं, और इन्हें शामिल करने पर local मॉडल के पक्ष में परिणाम और मजबूत हो सकते हैं
- local मॉडल की तेज़ प्रदर्शन सुधार दर
- आने वाले महीनों और वर्षों में जोड़ा जाने वाला अतिरिक्त inference hardware
- मुख्य तर्क: AI लागत एक स्तर से ऊपर पहुँचकर कंपनियों के लिए चिंताजनक cash burn और कुल खर्च का बड़ा हिस्सा बन जाती है
- इसी वजह से frontier labs की कीमत वृद्धि की मात्रा और गति पर एक ऊपरी सीमा बनती है
1 टिप्पणियां
Hacker News की राय
LLM की कीमत पर चर्चा करते समय लोग मूल बात चूक रहे हैं। subscription token pricing, API pricing की तुलना में 10~40 गुना सस्ती है, इसलिए $90 प्रति माह वाला Claude subscription, API token pricing में बदलने पर लगभग $1000~$4000 के बराबर बैठता है
दूसरा, मॉडल को संभालने वाले “operator” की क्षमता नतीजों में बहुत बड़ा फर्क डालती है। prompt अच्छी तरह लिखने वाला और पहल करने वाला अनुभवी senior developer, motivation और बुनियादी क्षमता की कमी वाले टीम सदस्य की तुलना में कहीं बेहतर परिणाम देता है
आखिर में, Opus जैसे 5T-स्तर के cutting-edge model और benchmark पर ही ज़्यादा चमकने वाले DeepSeek के छोटे distilled model के बीच capability, determinism और error handling में बड़ा अंतर है
इसलिए बड़े enterprise, discounted subscription plans की तुलना में काफ़ी ज़्यादा भुगतान करते हैं
और local model को “DeepSeek से distilled” कहना शायद गलतफहमी है। local models सिर्फ benchmark पर ही अच्छा नहीं करते, और Qwen 3.6 काफ़ी अच्छा model है। बेशक यह Opus नहीं है, लेकिन बहुत तेज़ है, और speed भी अपने आप में एक quality है
ये कंपनियाँ भारी घाटे में चल रही हैं और इन पर सैकड़ों अरब डॉलर के debt और commitments हैं। इन्हें बहुत जल्द monetization का नल खोलना होगा
यह मामला पेड़ों को देखकर जंगल न देख पाने जैसा लगता है। ChatGPT के साथ काम करना, पुराने enterprise दौर में India offshore developers के साथ काम करने जैसा अजीब तरह से मिलता-जुलता अनुभव देता है। साफ़-साफ़ निर्देश दो तो productive होता है, लेकिन अपने हाल पर छोड़ दो तो बहुत से WTF moments पैदा होते हैं
LLMs में outsourcing developers की जगह लेने की अच्छी संभावना है। क्योंकि context जानने वाले internal employees, LLMs का इस्तेमाल करके वही काम कर सकते हैं जो पहले offshore developers किया करते थे
कंपनियाँ हमेशा marginal cost कम करना चाहती हैं। वे अमेरिका में 1 software architect रखकर specifications लिखवाएँगी, और India में 10 developers रखकर 100 agents की देखरेख करवाएँगी
remote developers के विपरीत outsourcing की समस्या यह है कि इसे सही तरह से चलाने के लिए सचमुच बेहतरीन managers और technical leaders चाहिए होते हैं
अनुभव से कहूँ तो असरदार नतीजे पाने के लिए बहुत ही विस्तृत design docs और work specs लिखने पड़ते हैं। आम तौर पर वे एक प्रभावी prompt जितने विस्तार वाले होने चाहिए
अगर आपने पहले ही इतनी विस्तृत spec लिख दी है, तो फिर outsourcing developers और frontier models की ज़रूरत ही क्यों है?
जिन कंपनियों में मजबूत product/project leaders बहुत बारीकी से निगरानी करते हैं, वे शायद developers की नई पीढ़ी तैयार कर लेंगी, लेकिन कुछ कंपनियाँ marketing claims पर भरोसा करके असफल होंगी क्योंकि उनका software maintain न किया जा सकने लायक बन जाएगा
मुझे लगता है कि 10 साल बाद भी developers की संख्या आज के आसपास ही होगी, और हम उससे अधिक products बना रहे होंगे। AI का इस्तेमाल अर्थपूर्ण, अलग-थलग domains की automation में होगा, लेकिन ज़्यादातर software development higher level of abstraction पर होगा, जहाँ वही concepts कम textual garbage के साथ व्यक्त किए जाएँगे
code का मूल फोकस अजीब edge cases की जटिलता को ठोस रूप से encode करने और उजागर करने पर और अधिक होगा
जब मैंने software development शुरू किया था, तब मैंने एक बेहद गंदे MUD पर काम किया था जो कई लोगों के हाथों से गुज़रकर आया था। यह कल्पना करना कठिन है कि सख्त supervision और fixes के बिना AI द्वारा बनाए गए कीचड़ जैसे ढेर और spaghetti code को कौन खुशी-खुशी खंगालना चाहेगा
software development का सार हमेशा problem solving रहा है, या और सही कहें तो problem identification। समय के साथ हम इस बिंदु पर ध्यान केंद्रित करने के लिए बाकी बिखरी चीज़ों को लगातार हटाते आए हैं। यह प्रवाह जारी रहेगा, और शायद समस्याओं को व्यक्त करने वाली अधिक संक्षिप्त और अमूर्त भाषाओं की ओर बढ़ेगा, जबकि tricky logic flows, driver parts, और mathematics को libraries और tools में और ज़्यादा अलग कर दिया जाएगा
engineers सहयोगी हों तब भी, managers या business owners करीबी collaboration से बचते हैं और दूरी बनाकर काम करने का तरीका थोपते हैं। जैसे हफ्ते में एक बार call करना
मैंने यह खुद झेला है। एक बार outsourcing dev team पर £300k खर्च किए गए; शुक्र है वह मेरा पैसा नहीं था, और अंत में कुछ भी deliver नहीं हुआ। ज़्यादातर समय सिर्फ़ काम की दिशा मिलाने में निकल गया
मैं और मेरा partner कुछ हद तक जानते थे कि हमें क्या चाहिए, और alignment के लिए ज़्यादा बार sync करना चाहते थे, लेकिन उधर के managers बार-बार रोकते रहे। यही consulting business model है
remote full-time employees में incentives उलटे होते हैं। वे सचमुच full-time employees होते हैं, communication रोकने वाली management layers नहीं होतीं, और अगर वे आलसी या ठग नहीं हैं, तो वे दिलचस्प समस्याएँ हल करना चाहेंगे, न कि बोरियत में पड़े रहना
मुझे लगता है कि मूल लेख की धारणा भी यहीं चूकती है। DeepSeek और frontier models के बीच का अंतर आम तौर पर इतना नहीं होता कि उसे low-quality outsourcing से भर दिया जाए। अंत में आपको बहुत skilled outsourcing engineers को पैसे देने पड़ते हैं, और वे बहुत सस्ते हों यह ज़रूरी नहीं। वैसे भी outsourcing सिर्फ़ cost की वजह से नहीं, capability और capacity की वजह से भी की जाती है
हर चीज़ को सही स्तर की detail तक specify करना पड़ता है, और उस बिंदु तक पहुँचते-पहुँचते LLM भी काफ़ी अच्छा कर सकता है। ऊपर से, कई outsourcing teams internal teams से बिल्कुल अलग तरीके से चीज़ें बनाती हैं, और delivery quality व speed का अंतर बहुत बड़ा होता है
जब सब कुछ इतनी तेज़ी से बदल रहा है, तो किसी और के कर्मचारियों को latest trends के हिसाब से train करने में मैं अपना समय और पैसा क्यों लगाऊँ, यह भी सवाल है
मेरा एक दोस्त है जो अमेरिकी software company में executive है; वह पूर्वी यूरोप office की programmer teams में से कुछ को निकालकर उनकी जगह कम संख्या वाले अमेरिकी programmers और AI लाने की तैयारी कर रहा है। उसका कहना है कि वह setup कहीं ज़्यादा productive है और नई features बहुत तेज़ी से बनाता है
manufacturing पर लागू करें तो, robot-first strategy का लक्ष्य सिर्फ़ manufacturing को देश के भीतर वापस लाना नहीं होना चाहिए, उससे आगे जाना चाहिए। यानी नया outsourcing manufacturing destination बनना
इसलिए SMBs को शायद internal engineering, finance, और marketing staff उतना अधिक रखने की ज़रूरत नहीं रहेगी जितनी अभी है
अमेरिकी frontier AI का भविष्य API calls नहीं, बल्कि OAI/Anthropic के पास काम को consultants या external vendors की तरह ले जाने, बीच के काम को बड़े पैमाने पर देखे बिना product-जैसा result पाने के रूप में है
यह distillation threat और frontier performance को आगे धकेलने के लिए ज़रूरी proprietary execution environments बनाने की मेहनत के मेल से लगभग अनिवार्य है
OAI/Anthropic 100% सबकी jobs छीनकर “labor” को own करना चाहेंगे। यहाँ चीन वाला पक्ष नायक है
लेकिन जो बात वे नहीं समझ पाए, वह यह है कि definition करना खुद solution से भी कठिन है
मैंने लोकल मॉडल इस्तेमाल करने की सचमुच बहुत कोशिश की। अलग-अलग execution environments, tools, skills और prompts सब आज़मा लिए
लेकिन जब Claude Code और Anthropic models, या Codex और GPT 5.5 की तुलना Qwen, GLM, Gemma जैसे execution environments में की जाती है, तो state-of-the-art models साफ़ तौर पर बहुत आगे हैं। अब मुझे non-state-of-the-art models का मतलब समझ नहीं आता। जितना समय बचता है उससे ज़्यादा समय बर्बाद होता है
सीमित दायरे की coding, जैसे किसी खास function को लिखना, धीमा होने पर भी संभव है। लेकिन advanced consumer hardware पर सामान्य LLM chat के लिए इन्हें इस्तेमाल करना, cost को छोड़ दें तो, प्रतिस्पर्धी है
https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
अगर inference cost नीचे आती रही, जैसा पिछले कुछ वर्षों में होता आया है, तो इस साल के अंत तक आज के state-of-the-art models को laptop पर चलाना संभव हो जाएगा
software engineer के तौर पर यह व्यावहारिक रूप से इतना पर्याप्त है कि इसे पूरा खर्च कर पाना भी मुश्किल है, और efficiency gains को देखें तो यह बहुत सस्ता है
ऊपर से जब Claude/Codex पहले से अच्छा काम कर रहे हैं और हर महीने बेहतर हो रहे हैं, तो कौन execution environments के साथ छेड़छाड़ करना या agent orchestration define करना चाहेगा
ज़्यादा संभावित परिदृश्य यह है कि नीचे का हिस्सा गायब हो जाएगा, और ऊपर का हिस्सा state-of-the-art models की वजह से और अधिक productive बनेगा
developer जितना कमजोर होगा, उसे उतनी अधिक सक्षम AI की ज़रूरत होगी। इस लेख की premise इसलिए नहीं टिकती क्योंकि यह कमजोर developers + कमजोर AI को, मजबूत developers + लगभग autonomous AI से बेहतर मानने की गलती करती है
state-of-the-art AI का इस्तेमाल करने वाला कमजोर developer जो product बनाता है, वह पहले ही उस सक्षम developer से खराब है जो 2 साल पुरानी AI के साथ काम कर रहा था
और साफ़ कहें तो, मजबूत developers 2 साल पहले भी AI का इस्तेमाल करके high-quality products बना सकते थे। नवीनतम AI के साथ भी कमजोर developers अब भी जूझते हैं, लेकिन मजबूत developers ज़्यादा सक्षम AI को और अधिक काम सौंपकर productivity और बढ़ा सकते हैं
बिना supervision वाले contractors या overhired juniors से भरी nightmare organizations आजकल के समय में कहीं अधिक घातक होंगी
मैं बार-बार यह narrative देखता हूँ कि DeepSeek को open source LLM के उदाहरण की तरह पेश किया जाता है, जबकि वे बहुत बड़ी मात्रा में tokens को cost price पर subsidize कर रहे हैं। अगर आप आलसी न हों और आलोचनात्मक ढंग से सोचें, तो यह समझना आसान है कि ऐसा क्यों है
खासकर उस स्थिति में जहाँ geopolitical risk की वजह से inference hardware पर कड़े प्रतिबंध हों, लोकल AI का इस्तेमाल करके state-of-the-art models के बराबर का स्तर पाना अभी भी बहुत महंगा और अक्षम है
यह दावा भी बहुत संदिग्ध है कि लंबी अवधि में लोकल LLMs इन state-of-the-art कंपनियों के लिए खतरा बन सकते हैं
tokens इसलिए महंगे होंगे क्योंकि वे बाज़ार पर पकड़ बनाना शुरू कर चुके हैं, और उस बढ़त का इस्तेमाल करके सीमाओं के भीतर और बाहर hardware distribution को सीमित करेंगे
कुछ workflows में लोकल LLMs का इस्तेमाल ज़्यादा हो सकता है, लेकिन वे ऐसे काम नहीं होंगे जिनके लिए state-of-the-art स्तर चाहिए, और long tail को पकड़ने के लिए state-of-the-art models के हल्के और छोटे versions जो कीमत देंगे, उसे हराना भी मुश्किल होगा
मेरी धारणा यह थी कि DeepSeek ने v4 को खास तौर पर cheap inference के लिए डिज़ाइन किया था, और 75% कम कीमत पर भी शायद वह नुकसान नहीं उठा रहा
मुझे लगता है कि engineer cost से ज़्यादा महत्वपूर्ण quality culture और व्यक्तिगत values हैं। पिछले कुछ वर्षों में outsourcing काम में मैंने बहुत ज़्यादा shortcuts देखे हैं, और AI को भी shortcuts बहुत पसंद हैं। दोनों का मेल cost savings जितनी value नहीं देता
अगर आप high-quality work और अपने काम पर गर्व को महत्व देते हैं, तो outsourced labor समाधान नहीं है। आम तौर पर उनकी लागत कम इसलिए होती है क्योंकि वे अपने काम पर बारीक ध्यान नहीं देते
इसके उलट, अगर आपको बस किसी तरह काम खत्म करना है और यह परवाह नहीं कि वह सही से हुआ या नहीं, तो जितना हो सके उतना कम पैसा खर्च करने से बेहतर कोई तरीका नहीं होगा
लेख एक बात को नहीं छूता। अच्छे engineers मौजूदा projects में coding पर, दूसरे कामों की तुलना में, इतना ज़्यादा समय नहीं लगाते। अच्छे engineers systems को end-to-end समझते हैं। offshore developers, Llama3 से भी बदतर हैं