आउटसोर्स्ड मानव संसाधन + LocalAI का संयोजन जल्द ही frontier labs से अधिक किफायती हो जाएगा

(signalbloom.ai)

14 पॉइंट द्वारा GN⁺ 2026-05-28 | 2 टिप्पणियां | WhatsApp पर शेयर करें

जब अमेरिकी frontier labs की API कीमतें लगातार बढ़ रही हैं, तब कम-लागत वाले देशों के इंजीनियरों और DeepSeek जैसे open source मॉडल का संयोजन एक किफायती विकल्प के रूप में उभर रहा है
GPT-5.5, Gemini 3.5 Flash, Opus-4.7 जैसे नवीनतम frontier मॉडल 2~3 गुना कीमत वृद्धि या token खपत में बढ़ोतरी लागू कर रहे हैं
blended token मानक पर तुलना करने पर Anthropic·OpenAI लगभग $2.80/M पर हैं, जबकि DeepSeek $0.094/M पर है, यानी लगभग 30 गुना कीमत का अंतर
frontier मॉडल अधिक शक्तिशाली हैं, लेकिन coding उपयोग के लिए OSS मॉडल पर्याप्त रूप से अच्छे हो चुके हैं, और सक्षम इंजीनियरों के साथ मिलकर यह अंतर और घट सकता है
कीमतें अनंत तक नहीं बढ़ सकतीं, क्योंकि आउटसोर्सिंग + LocalAI का संयोजन एक price ceiling की तरह काम करता है

frontier labs की inference लागत में बढ़ोतरी का रुझान

इस आम धारणा के विपरीत कि inference लागत घट रही है, अमेरिकी frontier labs की कीमतें स्पष्ट रूप से बढ़ती प्रवृत्ति में हैं
GPT-5.5 ($5/$30) का लॉन्च GPT-5.4 के केवल 2 महीने बाद हुआ, और कुल API कीमतें 2 गुना बढ़ गईं
- 8 महीने पहले के GPT-5 ($1.25/$10) की तुलना में यह 3 गुना से अधिक महंगा है
Gemini 3.5 Flash ($1.50/$9.00), पिछले मॉडल Gemini-3-flash-preview ($0.50/$3.00) की तुलना में 3 गुना महंगा है
- Gemini-3-flash-preview भी 2.5 Flash ($0.30/$2.50) की तुलना में पहले से महंगा था
Anthropic Opus-4.7 ने नया tokenizer अपनाकर token खपत 32~47% बढ़ा दी, जिससे Opus-4.6 की तुलना में वास्तविक लागत बढ़ी

frontier closed-source मॉडल बनाम open source मॉडल

blended token खपत अनुपात के आधार पर तुलना: हर 1M input (+cache) token पर 50k output token (लगभग 5% से कम) का अनुमान
- बड़े agent loop में turn अधिक होते हैं, इसलिए read अनुपात अधिक रहता है; यह एक conservative अनुमान है
cache को शामिल करने के बाद provider-वार औसत blended कीमत की तुलना (स्रोत: openrouter.ai)
provider-वार कीमत तुलना
- Anthropic: input $1.57 / output $25.00 / cache hit rate 79.6% → blended $2.82
- OpenAI: input $1.30 / output $30.22 / cache hit rate 84.8% → blended $2.80
- DeepSeek: input $0.055 / output $0.870 / cache hit rate 88.1% → blended $0.094
फिलहाल closed-source frontier मॉडल DeepSeek के नवीनतम मॉडल से अधिक शक्तिशाली हैं, लेकिन क्या यह 30 गुना कीमत अंतर को सही ठहराने लायक है, यह संदिग्ध है
OSS LLM को frontier स्तर का होना जरूरी नहीं; coding उपयोग के लिए पर्याप्त प्रदर्शन ही काफी है, और वे उस स्तर तक पहुँच चुके हैं

token खपत में बढ़ोतरी का रुझान

tokenmaxxing ट्रेंड पिछले कुछ महीनों और वर्षों में तेज़ हुआ है (Pragmatic Engineer ब्लॉग संदर्भ)
सक्षम इंजीनियरों के बीच इस बात पर सहमति है कि tokenmaxxing को लक्ष्य बनाना मूर्खता है, हालांकि यह अलग विषय है
token खपत में तेज़ बढ़ोतरी GPU की लगातार कमी से भी स्पष्ट होती है
token खपत बढ़ना और प्रति token कीमत बढ़ना, दोनों साथ-साथ चल रहे हैं, और यह अमेरिकी frontier labs की value capture रणनीति से जुड़ा है

(मानव + quasi-frontier LLM) बनाम frontier LLM

मानव इंजीनियर और AI agent की 12 आयामों पर तुलना करने वाला अलग विश्लेषण मौजूद है (signalbloom.ai)
निष्कर्ष: AI agent coding में पहले ही इंसानों से आगे निकल चुके हैं, और सीमित दायरे वाली debugging में भी जल्द आगे निकलने की संभावना है
लेकिन अच्छी engineering के लिए जरूरी अन्य प्रमुख क्षमताओं में AI अब भी पीछे है
- long-term memory
- Meta memory: यह स्पष्ट रूप से पहचानने की क्षमता कि वह क्या जानता है और क्या नहीं
- Evidential Sufficiency Assessment: यह तय करना कि कार्रवाई के लिए पर्याप्त प्रमाण हैं या नहीं
मौजूदा statistical architecture को सुदृढ़ करने या किसी अन्य breakthrough से बदलने की जरूरत है
task निष्पादन क्षमता और AI autonomy एक ही चीज़ नहीं हैं

लागत crossover परिदृश्य

मुख्य तुलना
- यह विश्लेषण कि कम-लागत वाले देश के इंजीनियर + पर्याप्त सक्षम मॉडल का संयोजन, शीर्ष frontier मॉडल की तुलना में price-to-value में बेहतर कब हो जाता है
- चर: इंजीनियर वेतन, वेतन वृद्धि दर, शुरुआती token मात्रा, token वृद्धि दर, frontier कीमत, frontier कीमत परिवर्तन दर, DeepSeek कीमत, अवधि
परिणाम
- 11 महीने पर crossover होता है, जब frontier inference लागत इंजीनियर + DeepSeek संयोजन ($1,116.61/माह) की लागत से अधिक हो जाती है

राय और सीमाएँ

चार्ट में कुछ सरलीकृत मान्यताएँ शामिल हैं
- भविष्य की inference कीमतें, token खपत रुझान जैसे चर
- reflexivity: बाज़ार प्रतिभागी देखे गए परिणामों के आधार पर अपना व्यवहार बदलते हैं
निम्नलिखित तत्व शामिल नहीं किए गए हैं, और इन्हें शामिल करने पर local मॉडल के पक्ष में परिणाम और मजबूत हो सकते हैं
- local मॉडल की तेज़ प्रदर्शन सुधार दर
- आने वाले महीनों और वर्षों में जोड़ा जाने वाला अतिरिक्त inference hardware
मुख्य तर्क: AI लागत एक स्तर से ऊपर पहुँचकर कंपनियों के लिए चिंताजनक cash burn और कुल खर्च का बड़ा हिस्सा बन जाती है
इसी वजह से frontier labs की कीमत वृद्धि की मात्रा और गति पर एक ऊपरी सीमा बनती है

2 टिप्पणियां

hmmhmmhm 2026-05-29

कोडिंग के लिए Qwen 3.6 35B A3B और रिसर्च के लिए Gemma 26B A4B इस्तेमाल करें तो लगता है कि कुछ हद तक काम निकल जाता है, लेकिन काश इससे भी सस्ते on-device उपकरण और आ जाएँ। Apple M4 Pro या उससे ऊपर, या फिर RTX 5070 Ti 16GB या उससे ऊपर होना चाहिए, तभी यह किसी तरह चल पाता है....

GN⁺ 2026-05-28

Hacker News की राय

LLM की कीमत पर चर्चा करते समय लोग मूल बात चूक रहे हैं। subscription token pricing, API pricing की तुलना में 10~40 गुना सस्ती है, इसलिए $90 प्रति माह वाला Claude subscription, API token pricing में बदलने पर लगभग $1000~$4000 के बराबर बैठता है
दूसरा, मॉडल को संभालने वाले “operator” की क्षमता नतीजों में बहुत बड़ा फर्क डालती है। prompt अच्छी तरह लिखने वाला और पहल करने वाला अनुभवी senior developer, motivation और बुनियादी क्षमता की कमी वाले टीम सदस्य की तुलना में कहीं बेहतर परिणाम देता है
आखिर में, Opus जैसे 5T-स्तर के cutting-edge model और benchmark पर ही ज़्यादा चमकने वाले DeepSeek के छोटे distilled model के बीच capability, determinism और error handling में बड़ा अंतर है
- आज पता चला कि बड़े enterprise जिन governance features और audit logs की वजह से इस्तेमाल करते हैं, Anthropic का Enterprise plan, API token rates के ऊपर प्रति seat $20 प्रति माह अतिरिक्त charge करता है
  इसलिए बड़े enterprise, discounted subscription plans की तुलना में काफ़ी ज़्यादा भुगतान करते हैं
- यह जानना दिलचस्प होगा कि Opus के 5T model होने का आधार क्या है
  और local model को “DeepSeek से distilled” कहना शायद गलतफहमी है। local models सिर्फ benchmark पर ही अच्छा नहीं करते, और Qwen 3.6 काफ़ी अच्छा model है। बेशक यह Opus नहीं है, लेकिन बहुत तेज़ है, और speed भी अपने आप में एक quality है
- non-cutting-edge models भी लगातार बेहतर हो रहे हैं। अगर कोई DeepSeek से 90% काम $100 में पूरा कर सकता है, और बाकी काम Anthropic या OpenAI को $100 देकर पूरा करा सकता है, तो Anthropic या OpenAI को $1000 देने के बजाय वही रास्ता चुनने की संभावना ज़्यादा है
- subscription token pricing का API से 10~40 गुना सस्ता होना अस्थायी स्थिति है। आने वाले कुछ महीनों में बड़ी price increase, कड़े usage limits, या दोनों की उम्मीद करनी चाहिए
  ये कंपनियाँ भारी घाटे में चल रही हैं और इन पर सैकड़ों अरब डॉलर के debt और commitments हैं। इन्हें बहुत जल्द monetization का नल खोलना होगा
- जब आपको पता है कि $90 प्रति माह वाला Claude subscription, API के हिसाब से $1000~$4000 के बराबर है, तब भी क्या इस ढाँचे को टिकाऊ नहीं मानना आपको अव्यावहारिक लगता है?
यह मामला पेड़ों को देखकर जंगल न देख पाने जैसा लगता है। ChatGPT के साथ काम करना, पुराने enterprise दौर में India offshore developers के साथ काम करने जैसा अजीब तरह से मिलता-जुलता अनुभव देता है। साफ़-साफ़ निर्देश दो तो productive होता है, लेकिन अपने हाल पर छोड़ दो तो बहुत से WTF moments पैदा होते हैं
LLMs में outsourcing developers की जगह लेने की अच्छी संभावना है। क्योंकि context जानने वाले internal employees, LLMs का इस्तेमाल करके वही काम कर सकते हैं जो पहले offshore developers किया करते थे
- उन WTF moments में से कितने सिर्फ इसलिए होते हैं कि “वे उस कमरे में मौजूद नहीं थे जहाँ वह फैसला लिया गया था”? ज़्यादातर enterprise software में ऐसे कई WTF moments भरे होते हैं, जो तरह-तरह के compromises की वजह से requirements बन जाते हैं
- आपके देश के बाहर भी talented developers हैं, जो भाषा पर पर्याप्त पकड़ रखते हैं और कम compensation स्वीकार करने को तैयार हैं। ऐसे developers बढ़ने की पूरी संभावना है
- LinkedIn पर काम के लिए गुहार लगाती outsourcing teams की संख्या देखें, तो यह बात काफ़ी सही लगती है
- India offshore developers भी कोई हल्के लोग नहीं हैं। उनके पास भी वही GPT models उपलब्ध हैं, और उनकी लागत शायद अमेरिका की median salary का दसवाँ हिस्सा हो
  कंपनियाँ हमेशा marginal cost कम करना चाहती हैं। वे अमेरिका में 1 software architect रखकर specifications लिखवाएँगी, और India में 10 developers रखकर 100 agents की देखरेख करवाएँगी
remote developers के विपरीत outsourcing की समस्या यह है कि इसे सही तरह से चलाने के लिए सचमुच बेहतरीन managers और technical leaders चाहिए होते हैं
अनुभव से कहूँ तो असरदार नतीजे पाने के लिए बहुत ही विस्तृत design docs और work specs लिखने पड़ते हैं। आम तौर पर वे एक प्रभावी prompt जितने विस्तार वाले होने चाहिए
अगर आपने पहले ही इतनी विस्तृत spec लिख दी है, तो फिर outsourcing developers और frontier models की ज़रूरत ही क्यों है?
- मज़ेदार बात यह है कि outsourcing की समस्याएँ AI की समस्याओं जैसी ही हैं, और सब कुछ 2000 के शुरुआती दशक की याद दिलाता है। कंपनियाँ यह देख कर चकित रह जाती हैं कि वे कितना पैसा बचा सकती हैं, जबकि उन्हें यह एहसास ही नहीं होता कि उनके product को कितना नुकसान पहुँच रहा है
  जिन कंपनियों में मजबूत product/project leaders बहुत बारीकी से निगरानी करते हैं, वे शायद developers की नई पीढ़ी तैयार कर लेंगी, लेकिन कुछ कंपनियाँ marketing claims पर भरोसा करके असफल होंगी क्योंकि उनका software maintain न किया जा सकने लायक बन जाएगा
  मुझे लगता है कि 10 साल बाद भी developers की संख्या आज के आसपास ही होगी, और हम उससे अधिक products बना रहे होंगे। AI का इस्तेमाल अर्थपूर्ण, अलग-थलग domains की automation में होगा, लेकिन ज़्यादातर software development higher level of abstraction पर होगा, जहाँ वही concepts कम textual garbage के साथ व्यक्त किए जाएँगे
  code का मूल फोकस अजीब edge cases की जटिलता को ठोस रूप से encode करने और उजागर करने पर और अधिक होगा
  जब मैंने software development शुरू किया था, तब मैंने एक बेहद गंदे MUD पर काम किया था जो कई लोगों के हाथों से गुज़रकर आया था। यह कल्पना करना कठिन है कि सख्त supervision और fixes के बिना AI द्वारा बनाए गए कीचड़ जैसे ढेर और spaghetti code को कौन खुशी-खुशी खंगालना चाहेगा
  software development का सार हमेशा problem solving रहा है, या और सही कहें तो problem identification। समय के साथ हम इस बिंदु पर ध्यान केंद्रित करने के लिए बाकी बिखरी चीज़ों को लगातार हटाते आए हैं। यह प्रवाह जारी रहेगा, और शायद समस्याओं को व्यक्त करने वाली अधिक संक्षिप्त और अमूर्त भाषाओं की ओर बढ़ेगा, जबकि tricky logic flows, driver parts, और mathematics को libraries और tools में और ज़्यादा अलग कर दिया जाएगा
- “outsourcing” developers या vendors का पूरा business model लोगों से ज़्यादा charge करना है। वे कहते हैं, “इस project पर 4 engineers लगाए गए,” लेकिन वे 4 लोग साथ में 5 और projects भी कर रहे होते हैं
  engineers सहयोगी हों तब भी, managers या business owners करीबी collaboration से बचते हैं और दूरी बनाकर काम करने का तरीका थोपते हैं। जैसे हफ्ते में एक बार call करना
  मैंने यह खुद झेला है। एक बार outsourcing dev team पर £300k खर्च किए गए; शुक्र है वह मेरा पैसा नहीं था, और अंत में कुछ भी deliver नहीं हुआ। ज़्यादातर समय सिर्फ़ काम की दिशा मिलाने में निकल गया
  मैं और मेरा partner कुछ हद तक जानते थे कि हमें क्या चाहिए, और alignment के लिए ज़्यादा बार sync करना चाहते थे, लेकिन उधर के managers बार-बार रोकते रहे। यही consulting business model है
  remote full-time employees में incentives उलटे होते हैं। वे सचमुच full-time employees होते हैं, communication रोकने वाली management layers नहीं होतीं, और अगर वे आलसी या ठग नहीं हैं, तो वे दिलचस्प समस्याएँ हल करना चाहेंगे, न कि बोरियत में पड़े रहना
- outsourcing आम तौर पर वही लौटाती है जिसका आप भुगतान करते हैं। कुछ मायनों में यह दूसरे तरीकों से ज़्यादा पारदर्शी है। लेकिन वह पारदर्शिता, यानी quality की कीमत, निर्णय लेने वाले executives या procurement organizations से होकर उन teams तक नहीं पहुँचती जिन्हें वास्तव में distributed work करना पड़ता है
  मुझे लगता है कि मूल लेख की धारणा भी यहीं चूकती है। DeepSeek और frontier models के बीच का अंतर आम तौर पर इतना नहीं होता कि उसे low-quality outsourcing से भर दिया जाए। अंत में आपको बहुत skilled outsourcing engineers को पैसे देने पड़ते हैं, और वे बहुत सस्ते हों यह ज़रूरी नहीं। वैसे भी outsourcing सिर्फ़ cost की वजह से नहीं, capability और capacity की वजह से भी की जाती है
- मेरी राय भी बिल्कुल यही है
  हर चीज़ को सही स्तर की detail तक specify करना पड़ता है, और उस बिंदु तक पहुँचते-पहुँचते LLM भी काफ़ी अच्छा कर सकता है। ऊपर से, कई outsourcing teams internal teams से बिल्कुल अलग तरीके से चीज़ें बनाती हैं, और delivery quality व speed का अंतर बहुत बड़ा होता है
  जब सब कुछ इतनी तेज़ी से बदल रहा है, तो किसी और के कर्मचारियों को latest trends के हिसाब से train करने में मैं अपना समय और पैसा क्यों लगाऊँ, यह भी सवाल है
- मेरी समस्या बस ownership की कमी थी। अगर वह छोटी और focused outsourcing company न हो, तो quality या maintainability की परवाह किए बिना चीज़ें बस बाहर भेज देना कंपनी के लिए ज़्यादा आसान होता है। हाँ, मेरा व्यक्तिगत sample size छोटा है
मेरा एक दोस्त है जो अमेरिकी software company में executive है; वह पूर्वी यूरोप office की programmer teams में से कुछ को निकालकर उनकी जगह कम संख्या वाले अमेरिकी programmers और AI लाने की तैयारी कर रहा है। उसका कहना है कि वह setup कहीं ज़्यादा productive है और नई features बहुत तेज़ी से बनाता है
- यह ज़्यादा plausible लगता है। मेरा bottleneck “code understanding” से हटकर user understanding की तरफ़ जा रहा है। बाद वाली चीज़ को validate करना programmers के अलावा लोग भी कर सकते हैं
- यह दिलचस्प उलटफेर है
  manufacturing पर लागू करें तो, robot-first strategy का लक्ष्य सिर्फ़ manufacturing को देश के भीतर वापस लाना नहीं होना चाहिए, उससे आगे जाना चाहिए। यानी नया outsourcing manufacturing destination बनना
- उसे फिर से हक़ीक़त में लौटकर agents की mass layoffs करने में कितना समय लगेगा? :-)
- outsourcing के बारे में बात सही है, लेकिन मुझे नहीं लगता कि इसकी वजह cheap offshore contractors हैं। अच्छे specialists और ज़्यादा independently काम करेंगे, और AI की वजह से वे ज़्यादा clients को support कर पाएँगे
  इसलिए SMBs को शायद internal engineering, finance, और marketing staff उतना अधिक रखने की ज़रूरत नहीं रहेगी जितनी अभी है
अमेरिकी frontier AI का भविष्य API calls नहीं, बल्कि OAI/Anthropic के पास काम को consultants या external vendors की तरह ले जाने, बीच के काम को बड़े पैमाने पर देखे बिना product-जैसा result पाने के रूप में है
यह distillation threat और frontier performance को आगे धकेलने के लिए ज़रूरी proprietary execution environments बनाने की मेहनत के मेल से लगभग अनिवार्य है
OAI/Anthropic 100% सबकी jobs छीनकर “labor” को own करना चाहेंगे। यहाँ चीन वाला पक्ष नायक है
- नहीं। project को दीवार के पार फेंक देने वाला तरीका लगभग हमेशा disaster बनता है। requirements कभी भी पर्याप्त रूप से साफ़ नहीं होतीं
- उम्मीद है कि ऐसा मॉडल काम करे। यह Prolog जैसी declarative programming languages की प्रेरणा की याद दिलाता है। यानी समस्या को इस तरह declare करो कि मशीन उसे हल कर सके, न कि imperative style में मशीन को बताओ कि क्या करना है
  लेकिन जो बात वे नहीं समझ पाए, वह यह है कि definition करना खुद solution से भी कठिन है
मैंने लोकल मॉडल इस्तेमाल करने की सचमुच बहुत कोशिश की। अलग-अलग execution environments, tools, skills और prompts सब आज़मा लिए
लेकिन जब Claude Code और Anthropic models, या Codex और GPT 5.5 की तुलना Qwen, GLM, Gemma जैसे execution environments में की जाती है, तो state-of-the-art models साफ़ तौर पर बहुत आगे हैं। अब मुझे non-state-of-the-art models का मतलब समझ नहीं आता। जितना समय बचता है उससे ज़्यादा समय बर्बाद होता है
- agentic coding में मैं 100% सहमत हूँ। बड़े पैमाने की coding में लोकल models और खराब, और धीमे, और महंगे हैं
  सीमित दायरे की coding, जैसे किसी खास function को लिखना, धीमा होने पर भी संभव है। लेकिन advanced consumer hardware पर सामान्य LLM chat के लिए इन्हें इस्तेमाल करना, cost को छोड़ दें तो, प्रतिस्पर्धी है
  https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- लोकल models नवीनतम state-of-the-art models से 3~6 महीने पीछे हैं, लेकिन उनका बड़ा फायदा यह है कि आपको अपनी सारी intellectual property किसी संदिग्ध third party को भेजनी नहीं पड़ती
  अगर inference cost नीचे आती रही, जैसा पिछले कुछ वर्षों में होता आया है, तो इस साल के अंत तक आज के state-of-the-art models को laptop पर चलाना संभव हो जाएगा
- मेरा भी यही हाल है। जब लोग Codex या Claude plan पर महीने के $200 खर्च करने या उसका reimbursement लेने पर नुक्ताचीनी करते हैं, तो झुंझलाहट होती है
  software engineer के तौर पर यह व्यावहारिक रूप से इतना पर्याप्त है कि इसे पूरा खर्च कर पाना भी मुश्किल है, और efficiency gains को देखें तो यह बहुत सस्ता है
  ऊपर से जब Claude/Codex पहले से अच्छा काम कर रहे हैं और हर महीने बेहतर हो रहे हैं, तो कौन execution environments के साथ छेड़छाड़ करना या agent orchestration define करना चाहेगा
- मैं भी इसी निष्कर्ष पर पहुँचा हूँ। एक query की लागत को देखें तो हमेशा Opus इस्तेमाल करना सबसे सस्ता विकल्प है
- मूल बात यह है कि अपने आपको उन कंपनियों का बंधक मत बनाइए जिनके हित आपके हितों से मेल नहीं खाते
ज़्यादा संभावित परिदृश्य यह है कि नीचे का हिस्सा गायब हो जाएगा, और ऊपर का हिस्सा state-of-the-art models की वजह से और अधिक productive बनेगा
developer जितना कमजोर होगा, उसे उतनी अधिक सक्षम AI की ज़रूरत होगी। इस लेख की premise इसलिए नहीं टिकती क्योंकि यह कमजोर developers + कमजोर AI को, मजबूत developers + लगभग autonomous AI से बेहतर मानने की गलती करती है
state-of-the-art AI का इस्तेमाल करने वाला कमजोर developer जो product बनाता है, वह पहले ही उस सक्षम developer से खराब है जो 2 साल पुरानी AI के साथ काम कर रहा था
और साफ़ कहें तो, मजबूत developers 2 साल पहले भी AI का इस्तेमाल करके high-quality products बना सकते थे। नवीनतम AI के साथ भी कमजोर developers अब भी जूझते हैं, लेकिन मजबूत developers ज़्यादा सक्षम AI को और अधिक काम सौंपकर productivity और बढ़ा सकते हैं
- ज़िंदगी में कम ही बार ऐसा हुआ है कि मैं ऐसी कंपनी में हूँ जहाँ ज्यादातर competent senior engineers के साथ काम करने का मौका मिल रहा है, और इसके लिए मैं सचमुच आभारी हूँ
  बिना supervision वाले contractors या overhired juniors से भरी nightmare organizations आजकल के समय में कहीं अधिक घातक होंगी
मैं बार-बार यह narrative देखता हूँ कि DeepSeek को open source LLM के उदाहरण की तरह पेश किया जाता है, जबकि वे बहुत बड़ी मात्रा में tokens को cost price पर subsidize कर रहे हैं। अगर आप आलसी न हों और आलोचनात्मक ढंग से सोचें, तो यह समझना आसान है कि ऐसा क्यों है
खासकर उस स्थिति में जहाँ geopolitical risk की वजह से inference hardware पर कड़े प्रतिबंध हों, लोकल AI का इस्तेमाल करके state-of-the-art models के बराबर का स्तर पाना अभी भी बहुत महंगा और अक्षम है
यह दावा भी बहुत संदिग्ध है कि लंबी अवधि में लोकल LLMs इन state-of-the-art कंपनियों के लिए खतरा बन सकते हैं
tokens इसलिए महंगे होंगे क्योंकि वे बाज़ार पर पकड़ बनाना शुरू कर चुके हैं, और उस बढ़त का इस्तेमाल करके सीमाओं के भीतर और बाहर hardware distribution को सीमित करेंगे
कुछ workflows में लोकल LLMs का इस्तेमाल ज़्यादा हो सकता है, लेकिन वे ऐसे काम नहीं होंगे जिनके लिए state-of-the-art स्तर चाहिए, और long tail को पकड़ने के लिए state-of-the-art models के हल्के और छोटे versions जो कीमत देंगे, उसे हराना भी मुश्किल होगा
- क्या पहले दावे के लिए कोई source है?
  मेरी धारणा यह थी कि DeepSeek ने v4 को खास तौर पर cheap inference के लिए डिज़ाइन किया था, और 75% कम कीमत पर भी शायद वह नुकसान नहीं उठा रहा
- OpenRouter पर DeepSeek model देने वाले दूसरे providers भी बहुत कम कीमत दे पा रहे हैं, इसलिए यह कहना कि tokens को cost price पर subsidize किया जा रहा है, पूरी तरह गलत है। उन providers के पास subsidize करने के लिए पैसा भी नहीं है
- मुझे ऐसा नहीं लगता। मैंने जो सुना है उसके मुताबिक DeepSeek inference पर नुकसान नहीं उठा रहा
मुझे लगता है कि engineer cost से ज़्यादा महत्वपूर्ण quality culture और व्यक्तिगत values हैं। पिछले कुछ वर्षों में outsourcing काम में मैंने बहुत ज़्यादा shortcuts देखे हैं, और AI को भी shortcuts बहुत पसंद हैं। दोनों का मेल cost savings जितनी value नहीं देता
अगर आप high-quality work और अपने काम पर गर्व को महत्व देते हैं, तो outsourced labor समाधान नहीं है। आम तौर पर उनकी लागत कम इसलिए होती है क्योंकि वे अपने काम पर बारीक ध्यान नहीं देते
इसके उलट, अगर आपको बस किसी तरह काम खत्म करना है और यह परवाह नहीं कि वह सही से हुआ या नहीं, तो जितना हो सके उतना कम पैसा खर्च करने से बेहतर कोई तरीका नहीं होगा
लेख एक बात को नहीं छूता। अच्छे engineers मौजूदा projects में coding पर, दूसरे कामों की तुलना में, इतना ज़्यादा समय नहीं लगाते। अच्छे engineers systems को end-to-end समझते हैं। offshore developers, Llama3 से भी बदतर हैं