Uber की मासिक $1,500 AI सीमा, AI टूल प्राइसिंग के लिए उपयोगी संकेत
(simonwillison.net)- Uber ने सभी कर्मचारियों के लिए हर AI coding tool पर मासिक token खर्च को $1,500 तक सीमित किया है, ताकि agentic coding tools की बढ़ती लागत का सामना किया जा सके
- यह सीमा सिर्फ Cursor या Claude Code जैसे agentic coding software पर लागू होती है, और एक टूल पर हुआ खर्च दूसरे टूल के बजट को प्रभावित नहीं करता
- Uber ने 2025 में 2026 का AI बजट बनाया था, लेकिन उसके बाद token ज़्यादा खर्च करने वाले coding agents उम्मीद से तेज़ लोकप्रिय हो गए और 2026 का बजट सिर्फ 4 महीने में खत्म हो गया
- अगर 2 टूल सक्रिय रूप से इस्तेमाल किए जाएँ, तो प्रति engineer वार्षिक सीमा $36,000 बनती है, जो Levels.fyi के अनुसार अमेरिका में Uber software engineer के median compensation $330,000 का लगभग 11% है
- AI tool pricing में individual subscribers के subsidized plans और बड़े enterprise द्वारा वास्तव में चुकाई जाने वाली API pricing के बीच बड़ा अंतर आ गया है, और Uber की यह सीमा दिखाती है कि कंपनियाँ किस लागत स्तर को वहन योग्य मानती हैं
Uber की AI coding tools पर खर्च सीमा
- Uber ने सभी कर्मचारियों के लिए हर AI coding tool पर मासिक token खर्च को $1,500 तक सीमित किया है
- यह सीमा पिछले कुछ महीनों में लागू की गई और सिर्फ Cursor या Anthropic के Claude Code जैसे agentic coding software पर लागू होती है
- यह per-tool सीमा है, इसलिए एक टूल पर हुआ खर्च दूसरे टूल के बजट को कम नहीं करता
- मासिक $1,500 की सीमा ज़्यादा खर्च को नियंत्रित करने के लिए एक तर्कसंगत तरीका मानी जा रही है, और इसे tokenmaxxing leaderboard की तुलना में अधिक उचित माना गया है, जो कर्मचारियों को AI usage में प्रतिस्पर्धा के लिए उकसाता है
प्राइसिंग संकेत और लागत गणना
- Uber का 2026 AI बजट सिर्फ 4 महीने में खत्म हो जाना इस संदर्भ से जुड़ा है कि 2025 में बजट बनाते समय token-heavy coding agents की लोकप्रियता का अनुमान लगाना मुश्किल था
- अगर माना जाए कि एक engineer 2 टूल सक्रिय रूप से उपयोग करता है, तो ऊपरी सीमा $3,000 प्रति माह और $36,000 प्रति वर्ष बनती है
- Levels.fyi के अनुसार अमेरिका में Uber software engineer का median annual compensation package $330,000 है, और $36,000 की वार्षिक सीमा उसका लगभग 11% है
- व्यक्तिगत उपयोग के आधार पर, अगर Anthropic और OpenAI में से प्रत्येक पर $1,000 प्रति माह के tokens खर्च किए जाएँ, तो individual subscribers के subsidized plans की वजह से मौजूदा लागत अभी भी प्रति provider लगभग $100 रहती है
- Uber जैसे बड़े enterprise को ऐसे personal subsidized plans अब नहीं मिलते, और मौजूदा usage pattern के हिसाब से Uber की सीमा के भीतर भी हर टूल के लिए $500 प्रति माह बचता है
1 टिप्पणियां
Hacker News की राय
यह जानने की जिज्ञासा है कि क्या AI कंपनियां मौजूदा प्रति-टोकन कीमत बनाए रखेंगी, या चीन से बढ़ती प्रतिस्पर्धा के कारण आखिरकार कीमतें घटानी पड़ेंगी।
सीमित बजट वाले कई लोग पहले ही DeepSeek जैसे चीनी open weight मॉडल की ओर जा रहे हैं।
यह भी सवाल है कि क्या चीन वास्तव में इन कंपनियों को सब्सिडी दे रहा है, या inference की लागत असल में बहुत कम है और Anthropic/OpenAI भविष्य के IPO को ध्यान में रखकर जितना हो सके उतना शुल्क ले रहे हैं।
अग्रणी लैब्स को कम-कीमत और mid-range मॉडल के मामले में कम से कम अपनी ऊंची प्रति-टोकन कीमतें घटानी पड़ सकती हैं। Qwen, DeepSeek, Kimi, GLM जैसे चीनी मॉडल सही execution environment के साथ अब इतने “काफी करीब” आ चुके हैं कि वे किफायती विकल्प बन सकते हैं।
हालांकि, कुछ मॉडल वही समस्या हल करने के लिए ज्यादा काम मांगते हैं, इसलिए अभी तुरंत अंतर पूरी तरह खत्म करना ज़रूरी न भी हो सकता है।
फिर भी, लगता है कि कीमतें किसी न किसी रूप में नीचे जाएंगी, और साथ ही सस्ते चीनी मॉडल की subscriptions में भी संभवतः सब्सिडी शामिल है, इसलिए समय के साथ वे भी कम उदार हो सकती हैं।
प्रति-टोकन कीमतें प्रतिस्पर्धी दबाव या ग्राहकों के पुराने सस्ते मॉडल अपनाने के प्रोत्साहन के कारण समय के साथ नीचे आती हैं, लेकिन data center का वित्तपोषण कर्ज से इस धारणा पर किया जाता है कि revenue समय के साथ बढ़ेगा।
उनके शब्दों में, “[AI कंपनियां] घटती कीमत वाले commodity से fixed cost चुका रही हैं।”
एक तरफ token revenue घट रहा है, दूसरी तरफ अगले frontier model को train करने की लागत बढ़ रही है, और साथ ही 10 साल के कर्ज भी चुकाने हैं।
0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
“समस्या को और बढ़ाने वाली बात यह है कि चीनी लैब्स अक्सर dual-use सक्षम मॉडल को open weight के रूप में जारी करती हैं। जब कोई मॉडल open weight हो जाता है, तो उसके मौजूदा safeguards भी हटाए जा सकते हैं, और फिर उसे दुर्भावनापूर्ण इरादे वाले राज्य और गैर-राज्य तत्व इस्तेमाल कर सकते हैं, जिनमें वे cyber और CBRN दुरुपयोग भी शामिल हैं जिन्हें वे safeguards रोकने के लिए बनाए गए थे।”
https://www.anthropic.com/research/2028-ai-leadership
यह जानने की जिज्ञासा है कि बड़ी कंपनियों को कब समझ आएगा कि flash मॉडल भी तब काफी अच्छे होते हैं जब:
बड़े मॉडल भी बड़े बदलावों में अब भी कमजोर हैं, संदिग्ध architecture बना देते हैं, और अगर project गंभीर है तो code review तो वैसे भी करना ही पड़ता है।
कोई भी मॉडल हो, अगर पर्याप्त ध्यान न दिया जाए तो codebase जल्दी बिगड़ जाता है।
निर्देश देते हुए बार-बार iterate करने वाली स्थिति में flash मॉडल 10 गुना सस्ते और काफी तेज़ हैं, तो फिर बड़े मॉडल का क्या लाभ? बड़े मॉडल को security और bug audit के लिए इस्तेमाल किया जा सकता है, और 300 लाइनों से कम के बदलावों में यदि मनचाहा code shape स्पष्ट बताया जाए, तो flash मॉडल भी लगभग वैसा ही काम करते हैं।
अगर यह संख्या काफी बढ़ती है, तो जैसा सुझाव दिया गया है, कंपनियां flash मॉडल पर ज्यादा गंभीरता से विचार करना शुरू कर सकती हैं।
लेकिन ऐसा करते हुए यहां का दूसरा सबसे अहम हिस्सा, यानी execution environment (harness), नज़रअंदाज़ हो जाता है। लोग अपने बनाए orchestrator के साथ planning/design/code/build/test चलाने वाली autonomous pipeline चलाते हैं और कई चरणों में agents का इस्तेमाल करते हैं।
हर चरण के लिए बेहतर suited मॉडल अलग होता है, और चरणों के बीच के outputs का मूल्यांकन भी LLM से कराया जाता है। हर काम के लिए Opus 4.8 ज़रूरी नहीं है।
execution environment वह आधार देता है जो यह तय करता है कि मॉडल में क्या देना है और उससे क्या निकलवाना है, और यह भी निर्धारित करता है कि कौन-सा मॉडल कौन-सा काम करेगा।
दिए गए token budget के भीतर गुणवत्ता मॉडल नहीं, बल्कि pipeline बनाती है।
या फिर बड़ा मॉडल आसान और कठिन सवालों का अंतर सीखकर उसी हिसाब से charge कर सकता है। अगर complexity मापी जा सके, तो शायद estimate भी दिया जा सकता है।
छोटे coding task के लिए छोटे मॉडल पर्याप्त हैं, लेकिन यह स्पष्ट नहीं कि बड़े मॉडल भी अधिकांश मामलों में काम को छोटे हिस्सों में क्यों नहीं बांट सकते।
वह engineering समस्या बन चुकी है, और उसे सुलझाने की ज़िम्मेदारी engineers पर डाल दी जाती है।
अब भी इतने लोग क्यों मानते हैं कि AI coding बस एक फ़ैड बनकर खत्म हो जाएगी, समझ नहीं आता
इसे शुरू हुए 2 साल भी नहीं हुए हैं, और कंपनियाँ पहले ही प्रति सीट हज़ारों डॉलर दे रही हैं, यहाँ तक कि कुछ जगहें महीने के 5,000 डॉलर भी दे रही हैं
सोचता हूँ, और कौन-सा टूल है जिसे बिना किसी आधार के इतनी तेज़ी से अपनाया गया हो
अभी जो AI LLM pull requests दिख रहे हैं, वे बस दूसरे लोगों के लिए और काम बढ़ा रहे हैं, और तथाकथित “builders” सिर्फ नए dashboard और demo करने लायक features के साथ अच्छे दिखते हैं
लेकिन code flow पर बात नहीं की जा सकती, न ही यह पूछा जा सकता है कि कोई चीज़ वैसी क्यों बनी, उसकी thought process क्या थी
यह कई लोगों के अनुभव से नीचे से बनकर नहीं आता, बल्कि जैसे शून्य से materialize हो गया हो; न कोई बुनियादी separation, न के बराबर abstraction
कोई भी उसे छूना नहीं चाहता। pull request बहुत बड़े होते हैं, और वे “authors” हमारे साथ on-call भी नहीं रहते
सारा श्रेय ले लेते हैं, पर असली काम नहीं करते
यह कुछ वैसा है जैसे घर का design बनाकर architect और engineer से कहना, “इसे चलने लायक बना दो”
कंपनियाँ ऐसा क्यों कर रही हैं, इसके लिए “क्योंकि AI coding फ़ैड नहीं है” से कहीं ज़्यादा तर्कसंगत वजहें हैं
pull request इतने बड़े होते हैं कि उस अव्यवस्था को कोई review नहीं कर सकता, और अगर deploy कर दिया, तो on-call के लिए तैयार रहना होगा
यह बेहतर हो सकता है, या नहीं भी हो सकता — अभी कहना मुश्किल है
यह बहुत बड़ा है, बहुत तेज़ है, इसलिए स्थिर नहीं लगता। यह स्तर बना रह सकता है, और बढ़ सकता है, या फिर ज़्यादा सामान्य usage और budget level पर वापस आ सकता है
मैं 100 डॉलर प्रति माह का subscription इस्तेमाल करता हूँ, लेकिन पिछले 30 दिनों की API लागत लगभग 1700 डॉलर रही है
यह इस्तेमाल के तरीके पर बहुत निर्भर करता है। अगर prompts से detailed design बनाओ, फिर उसे task list में बाँटो, और कई agents में डाल दो, तो कुछ हज़ार डॉलर जलाना बहुत आसान है
अगर ज़्यादा सावधानी से इस्तेमाल करो, एक समय में सिर्फ कुछ agents interactive तरीके से चलाओ, और pull request review / issue fixing / auto cleanup / performance optimization जैसी चीज़ों में उपयोग करो, तो यह लगभग 1500 डॉलर हो सकता है
अगर बस कभी-कभार सवाल पूछने हैं, एक बेहतर Stack Overflow की तरह, तो यह 100 डॉलर से बहुत कम रहेगा
आजकल मैं
/goalका काफ़ी दीवाना हूँ; कोई verifiable goal ढूँढकर उसे रातभर चलने दो, फिर अगली सुबह देखो कि वह कहाँ तक पहुँचा — यह Christmas morning जैसा लगता है1500 डॉलर प्रति माह मतलब प्रति सीट साल के 18,000 डॉलर
शायद Microsoft और Nvidia कुछ देख रहे हैं
अगर local LLM चलाने वाली 128GB machine 5,000~8,000 डॉलर की भी हो, तो वह सस्ती लगती है। tokens per second अभी काफ़ी नहीं हैं, लेकिन शायद काम चल जाए
असली bottleneck शायद code नहीं है, बल्कि यह है कि Uber ने इतना पैसा खर्च करके आखिर बनाया क्या, और उसका revenue पर कोई meaningful positive असर पड़ा भी या नहीं
मेरे लिए व्यक्तिगत रूप से 50 tok/s से कम पूरी तरह बेकार है
वैसे भी यह apples-to-oranges comparison है। open-weight models का inference काफ़ी सस्ता है, और Claude तथा OpenAI बस DeepSeek या OpenRouter के कई providers की तुलना में बहुत ऊँचा margin ले पा रहे हैं। open models commodity हैं
laptop depreciating asset है, उसमें economies of scale नहीं हैं, specs fixed रहते हैं, और इससे ऐसे बिखरे हुए devices का समूह बनता है जिन पर models को लगातार up-to-date रखना पड़ता है
power consumption और cooling की दिक्कतें जोड़ लें, तो समझ नहीं आता कि कंपनियाँ उस दिशा में क्यों जाएँगी
local hardware महँगा तब पड़ता है जब उस पर जटिल software stack चलाना हो, जो 10,000 तरीकों से टूट सकता है
भविष्य के local AI servers शायद बस AI के लिए किसी protocol से बात करेंगे, कमरे के किसी कोने में रखे होंगे, और कोई उनकी परवाह नहीं करेगा
फिर भी कई systems की access permissions की ज़रूरत पड़ सकती है, इसलिए पक्का नहीं, लेकिन लगता है कि अंत में कोई न कोई “box के अंदर AI” देगा, जिसमें latest open models जैसी चीज़ें होंगी
यह 24x365 कम-से-कम 20 tok/s generate करने के बराबर है, और असल में यह इससे कहीं ज़्यादा हो सकता है
open-weight models proprietary models की तुलना में बहुत सस्ते हैं, भले ही उन्हें किसी प्रतिष्ठित Western provider के ज़रिए दिया जाए; इसलिए उसी खर्च तक पहुँचने के लिए 100 tok/s से ज़्यादा चाहिए हो सकता है, जो data center hardware की श्रेणी में आता है
prosumer platform पर पहले वाले आँकड़े तक पहुँचना शायद संभव हो, लेकिन सिर्फ बहुत विशेष workloads में। agentic workloads में, जहाँ prefill पर बहुत समय जाता है, तस्वीर और खराब है। on-premises AI में यह बड़ी सीमा बन जाती है
अगर engineers AI tools का सही इस्तेमाल करें, तो productivity बहुत बढ़ सकती है, और LLM को junior या associate engineer की तरह इस्तेमाल किया जा सकता है
1500 डॉलर प्रति माह उस स्तर की productivity के मुकाबले बहुत सस्ता है; इंसानी engineer hire करने पर इससे कहीं ज़्यादा देना पड़ता
lock-in effect और switching cost को लेकर चिंता बढ़ती जा रही है
करीब एक साल से Claude इस्तेमाल कर रहा हूँ, और उसके भीतर काफ़ी “knowledge” जमा हो चुका है
आगे अगर Claude का price-to-performance कमज़ोर पड़ गया, तो चिंता होगी
मैंने storage को inference से अलग करने वाले distributed solution के बारे में सोचना शुरू किया है, लेकिन अभी के लिए Claude ही विकल्प है। जानना चाहता हूँ कि क्या किसी और को भी ऐसी चिंता है
knowledge आख़िर store कहाँ होती है?
मेरी knowledge आमतौर पर agent के बाहर planning documents में store होती है
और वैसे भी मैं हर agent window को नियमित रूप से archive कर देता हूँ
अगर कर्मचारी अपना AI/LLM budget खर्च न करे, तो क्या उसे salary hike मिल सकता है?
मुझे समझ नहीं आता कि बड़ी कंपनियों में self-hosting करके open-weight models चलाना, या ज़रूरी नहीं कि पूरी तरह on-premise ही हो बल्कि GPU servers किराये पर लेना, या together AI जैसी जगहों पर host करना, इससे ज़्यादा आम क्यों नहीं है
मैंने open-weight models और Opus, Gemini Pro जैसे premium models दोनों इस्तेमाल किए हैं, और बाद वाले थोड़ा बेहतर ज़रूर थे, लेकिन कीमत के अंतर को सही ठहराने जितने बिल्कुल भी नहीं थे
जिन उपयोगों के लिए मैंने इन्हें इस्तेमाल किया, वहाँ यह अंतर ज़्यादातर महत्वपूर्ण नहीं था, और मुझे लगता है कि दूसरे users के use cases भी अक्सर ऐसे ही होंगे
किसी शानदार developer/hacker को एक ताकतवर GPU server देकर जो चाहे वह model चलाने देना, और पूरी कंपनी के लिए ऐसा platform बनाए रखना — ये दोनों बिल्कुल अलग बातें हैं
ऐसे models को समझने और maintain करने वाले लोग, backend, availability वगैरह सब संभालना पड़ता है, और ऐसे लोगों का वेतन आमतौर पर software developers से काफ़ी ज़्यादा होने की संभावना होती है
इस अतिरिक्त झंझट की वजह से किसी top-tier external lab को पैसे देना और सबके लिए एक उचित spending cap लगा देना ज़्यादा आसान हो जाता है
इतने बड़े racks का utilization 24x7x365 नहीं होगा, और आम तौर पर यह कोई इतनी GPU-केंद्रित organization भी नहीं होगी कि बचे हुए compute पर model training करती रहे
अगर कीमत $100k~$200k या उससे ज़्यादा हो और जीवनकाल लगभग 2 साल का हो, तो इसे वित्तीय रूप से सही ठहराना मुश्किल है
self-hosting का खर्च भी कई developers पर amortize करने पर आसानी से लगभग $1000 प्रति माह तक पहुँच सकता है, और peak time में कड़े rate limits भी लग जाते हैं
अगर $1500 प्रति माह में से $1000 घटा दें, तो क्या बचे हुए $500 “AI productivity” में 10% गिरावट को सही ठहराते हैं? ज़्यादातर मामलों में मुझे नहीं लगता
निकट अवधि में, अगर coding-assistant model को self-host करना बिल्कुल ज़रूरी होने की कोई बहुत मज़बूत वजह नहीं है, तो मैं कहूँगा कि top 2~3 coding-assistant providers बेहतर विकल्प हैं
Claude Code license खरीदने की वजह से किसी को नौकरी से नहीं निकाला गया है
कई users के लिए GPU को pool करके उपलब्ध कराना, security controls बनाए रखते हुए docs और data lake से जोड़ना — यह भी आसान काम नहीं है
आखिरकार आपको इसे manage करने वाली team पर पैसा खर्च करना ही पड़ेगा
इसके लिए datacenter का dedicated hardware और उसे चलाने वाले विशेषज्ञ चाहिए
कंपनी को अपने मूल काम के अलावा procurement, assets, cost और ऐसी 1000 दूसरी चीज़ें manage करने का तरीका भी निकालना पड़ता है
और यह सब पहले से किसने सुलझा रखा है? AWS/Azure/OpenAI आदि ने
hardware maintenance और service operations के विशेषज्ञों को रखने में पैसा लगता है
LLM models जैसी आम चीज़ के लिए, अगर कोई कंपनी AWS को bytes भेजने को लेकर असाधारण रूप से संवेदनशील नहीं है, तो अपने hardware पर model उपलब्ध कराने का कोई खास कारण नहीं है
$1500 monthly cap के इस नंबर से ज़्यादा दिलचस्प बात यह है कि वे किसी cap तक पहुँचे
जिन ज़्यादातर engineering teams से मैंने बात की है, उन्हें यह तक नहीं पता कि developer per AI spending कितनी है, क्योंकि वह consolidated cloud bill में दब जाती है
एक hard cap दो उपयोगी बातचीत को मजबूर करता है: कौन-सा workflow API calls को सही ठहराता है और कहाँ local inference काफ़ी है, और क्या output को वास्तव में productivity metrics के मुकाबले मापा जा रहा है
ऐसे feedback loop के बिना यह बस इस बात की दौड़ बन जाती है कि tokens सबसे तेज़ कौन जला सकता है
Anthropic: https://support.claude.com/en/articles/12883420-view-usage-a...
OpenAI: https://help.openai.com/en/articles/10875114-workspace-analy...
“प्रति tool $1500 monthly cap, overspending पर एक उचित policy response लगता है” और “मेरा token usage Anthropic और OpenAI, दोनों पर लगभग $1000 प्रति माह है, लेकिन individual subscribers के लिए generous subsidized plans की वजह से मैं अभी provider per सिर्फ $100 चुका रहा हूँ” — यह पूरा प्रवाह किसी multi-level marketing business जैसा लगता है
जैसे ‘diamond’ लोग seminars में MLM का प्रचार करके पैसे कमाते हैं, और नीचे के स्तर पर उम्मीद लगाए लोगों से कहते हैं, “अभी AI subscription खरीदना ही ज़िंदगी का विजेता बनने का एकमात्र मौका है”
शायद MLM vs LLM जैसी कोई चीज़ भी है जो FOMO पैदा करती है