2 पॉइंट द्वारा GN⁺ 3 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Uber ने सभी कर्मचारियों के लिए हर AI coding tool पर मासिक token खर्च को $1,500 तक सीमित किया है, ताकि agentic coding tools की बढ़ती लागत का सामना किया जा सके
  • यह सीमा सिर्फ Cursor या Claude Code जैसे agentic coding software पर लागू होती है, और एक टूल पर हुआ खर्च दूसरे टूल के बजट को प्रभावित नहीं करता
  • Uber ने 2025 में 2026 का AI बजट बनाया था, लेकिन उसके बाद token ज़्यादा खर्च करने वाले coding agents उम्मीद से तेज़ लोकप्रिय हो गए और 2026 का बजट सिर्फ 4 महीने में खत्म हो गया
  • अगर 2 टूल सक्रिय रूप से इस्तेमाल किए जाएँ, तो प्रति engineer वार्षिक सीमा $36,000 बनती है, जो Levels.fyi के अनुसार अमेरिका में Uber software engineer के median compensation $330,000 का लगभग 11% है
  • AI tool pricing में individual subscribers के subsidized plans और बड़े enterprise द्वारा वास्तव में चुकाई जाने वाली API pricing के बीच बड़ा अंतर आ गया है, और Uber की यह सीमा दिखाती है कि कंपनियाँ किस लागत स्तर को वहन योग्य मानती हैं

Uber की AI coding tools पर खर्च सीमा

  • Uber ने सभी कर्मचारियों के लिए हर AI coding tool पर मासिक token खर्च को $1,500 तक सीमित किया है
  • यह सीमा पिछले कुछ महीनों में लागू की गई और सिर्फ Cursor या Anthropic के Claude Code जैसे agentic coding software पर लागू होती है
  • यह per-tool सीमा है, इसलिए एक टूल पर हुआ खर्च दूसरे टूल के बजट को कम नहीं करता
  • मासिक $1,500 की सीमा ज़्यादा खर्च को नियंत्रित करने के लिए एक तर्कसंगत तरीका मानी जा रही है, और इसे tokenmaxxing leaderboard की तुलना में अधिक उचित माना गया है, जो कर्मचारियों को AI usage में प्रतिस्पर्धा के लिए उकसाता है

प्राइसिंग संकेत और लागत गणना

  • Uber का 2026 AI बजट सिर्फ 4 महीने में खत्म हो जाना इस संदर्भ से जुड़ा है कि 2025 में बजट बनाते समय token-heavy coding agents की लोकप्रियता का अनुमान लगाना मुश्किल था
  • अगर माना जाए कि एक engineer 2 टूल सक्रिय रूप से उपयोग करता है, तो ऊपरी सीमा $3,000 प्रति माह और $36,000 प्रति वर्ष बनती है
  • Levels.fyi के अनुसार अमेरिका में Uber software engineer का median annual compensation package $330,000 है, और $36,000 की वार्षिक सीमा उसका लगभग 11% है
  • व्यक्तिगत उपयोग के आधार पर, अगर Anthropic और OpenAI में से प्रत्येक पर $1,000 प्रति माह के tokens खर्च किए जाएँ, तो individual subscribers के subsidized plans की वजह से मौजूदा लागत अभी भी प्रति provider लगभग $100 रहती है
  • Uber जैसे बड़े enterprise को ऐसे personal subsidized plans अब नहीं मिलते, और मौजूदा usage pattern के हिसाब से Uber की सीमा के भीतर भी हर टूल के लिए $500 प्रति माह बचता है

1 टिप्पणियां

 
GN⁺ 3 시간 전
Hacker News की राय
  • यह जानने की जिज्ञासा है कि क्या AI कंपनियां मौजूदा प्रति-टोकन कीमत बनाए रखेंगी, या चीन से बढ़ती प्रतिस्पर्धा के कारण आखिरकार कीमतें घटानी पड़ेंगी।
    सीमित बजट वाले कई लोग पहले ही DeepSeek जैसे चीनी open weight मॉडल की ओर जा रहे हैं।
    यह भी सवाल है कि क्या चीन वास्तव में इन कंपनियों को सब्सिडी दे रहा है, या inference की लागत असल में बहुत कम है और Anthropic/OpenAI भविष्य के IPO को ध्यान में रखकर जितना हो सके उतना शुल्क ले रहे हैं।

    • कई मॉडल open weight हैं और ऐसे third-party प्रदाताओं के पास भी उपलब्ध हैं जिन्हें सब्सिडी देने का कोई कारण नहीं है, इसलिए कुछ हद तक यह समझा जा सकता है कि इनकी inference लागत वास्तविक लागत के काफी करीब जितनी कम है।
      अग्रणी लैब्स को कम-कीमत और mid-range मॉडल के मामले में कम से कम अपनी ऊंची प्रति-टोकन कीमतें घटानी पड़ सकती हैं। Qwen, DeepSeek, Kimi, GLM जैसे चीनी मॉडल सही execution environment के साथ अब इतने “काफी करीब” आ चुके हैं कि वे किफायती विकल्प बन सकते हैं।
      हालांकि, कुछ मॉडल वही समस्या हल करने के लिए ज्यादा काम मांगते हैं, इसलिए अभी तुरंत अंतर पूरी तरह खत्म करना ज़रूरी न भी हो सकता है।
      फिर भी, लगता है कि कीमतें किसी न किसी रूप में नीचे जाएंगी, और साथ ही सस्ते चीनी मॉडल की subscriptions में भी संभवतः सब्सिडी शामिल है, इसलिए समय के साथ वे भी कम उदार हो सकती हैं।
    • Paul Kedrosky ने हाल ही में जिस duration mismatch का ज़िक्र किया, वह इसका एक पहलू है।
      प्रति-टोकन कीमतें प्रतिस्पर्धी दबाव या ग्राहकों के पुराने सस्ते मॉडल अपनाने के प्रोत्साहन के कारण समय के साथ नीचे आती हैं, लेकिन data center का वित्तपोषण कर्ज से इस धारणा पर किया जाता है कि revenue समय के साथ बढ़ेगा।
      उनके शब्दों में, “[AI कंपनियां] घटती कीमत वाले commodity से fixed cost चुका रही हैं।”
      एक तरफ token revenue घट रहा है, दूसरी तरफ अगले frontier model को train करने की लागत बढ़ रही है, और साथ ही 10 साल के कर्ज भी चुकाने हैं।
      0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
    • चिंता की कोई बात नहीं, token revenue बचाने के लिए बस चीनी मॉडल पर प्रतिबंध के पक्ष में lobbying कर लो।
      “समस्या को और बढ़ाने वाली बात यह है कि चीनी लैब्स अक्सर dual-use सक्षम मॉडल को open weight के रूप में जारी करती हैं। जब कोई मॉडल open weight हो जाता है, तो उसके मौजूदा safeguards भी हटाए जा सकते हैं, और फिर उसे दुर्भावनापूर्ण इरादे वाले राज्य और गैर-राज्य तत्व इस्तेमाल कर सकते हैं, जिनमें वे cyber और CBRN दुरुपयोग भी शामिल हैं जिन्हें वे safeguards रोकने के लिए बनाए गए थे।”
      https://www.anthropic.com/research/2028-ai-leadership
    • उलटे कीमतें बढ़ने की संभावना ज्यादा है। NVidia ने कहा है कि GPU hardware की कीमत कम से कम 2030 तक नहीं गिरेगी, और दुनिया भर में fab capacity की कमी है।
    • ज्यादातर सामान्य अमेरिकी कंपनियां cloud-आधारित चीनी AI कंपनियों के उपयोग पर रोक लगाएंगी, क्योंकि code, data, personal information आदि सब उधर भेजे जाते हैं।
  • यह जानने की जिज्ञासा है कि बड़ी कंपनियों को कब समझ आएगा कि flash मॉडल भी तब काफी अच्छे होते हैं जब:

    1. LLM से बड़े बदलाव न मांगे जाएं
    2. हर output की समीक्षा की जाए और सही दिशा बताई जाए
      बड़े मॉडल भी बड़े बदलावों में अब भी कमजोर हैं, संदिग्ध architecture बना देते हैं, और अगर project गंभीर है तो code review तो वैसे भी करना ही पड़ता है।
      कोई भी मॉडल हो, अगर पर्याप्त ध्यान न दिया जाए तो codebase जल्दी बिगड़ जाता है।
      निर्देश देते हुए बार-बार iterate करने वाली स्थिति में flash मॉडल 10 गुना सस्ते और काफी तेज़ हैं, तो फिर बड़े मॉडल का क्या लाभ? बड़े मॉडल को security और bug audit के लिए इस्तेमाल किया जा सकता है, और 300 लाइनों से कम के बदलावों में यदि मनचाहा code shape स्पष्ट बताया जाए, तो flash मॉडल भी लगभग वैसा ही काम करते हैं।
    • बात काफी सीधी है। संगठन प्रति engineer प्रति माह 1500 डॉलर खर्च करने को तैयार हैं, और यह संख्या अधिकांश full-time engineers के लिए “सामान्य” उपयोग के लगभग अनुरूप लगती है।
      अगर यह संख्या काफी बढ़ती है, तो जैसा सुझाव दिया गया है, कंपनियां flash मॉडल पर ज्यादा गंभीरता से विचार करना शुरू कर सकती हैं।
    • जितना बड़ा latest model वहन किया जा सके, उसे इस्तेमाल करना आसान फैसला है।
      लेकिन ऐसा करते हुए यहां का दूसरा सबसे अहम हिस्सा, यानी execution environment (harness), नज़रअंदाज़ हो जाता है। लोग अपने बनाए orchestrator के साथ planning/design/code/build/test चलाने वाली autonomous pipeline चलाते हैं और कई चरणों में agents का इस्तेमाल करते हैं।
      हर चरण के लिए बेहतर suited मॉडल अलग होता है, और चरणों के बीच के outputs का मूल्यांकन भी LLM से कराया जाता है। हर काम के लिए Opus 4.8 ज़रूरी नहीं है।
      execution environment वह आधार देता है जो यह तय करता है कि मॉडल में क्या देना है और उससे क्या निकलवाना है, और यह भी निर्धारित करता है कि कौन-सा मॉडल कौन-सा काम करेगा।
      दिए गए token budget के भीतर गुणवत्ता मॉडल नहीं, बल्कि pipeline बनाती है।
    • यह सोचने वाली बात है कि मॉडल को खुद किस हद तक तय करना चाहिए कि query किस मॉडल को भेजनी है।
      या फिर बड़ा मॉडल आसान और कठिन सवालों का अंतर सीखकर उसी हिसाब से charge कर सकता है। अगर complexity मापी जा सके, तो शायद estimate भी दिया जा सकता है।
      छोटे coding task के लिए छोटे मॉडल पर्याप्त हैं, लेकिन यह स्पष्ट नहीं कि बड़े मॉडल भी अधिकांश मामलों में काम को छोटे हिस्सों में क्यों नहीं बांट सकते।
    • पूरी तरह सहमत। बड़े मॉडल में काम को ज़रूरत से ज़्यादा जटिल बना देने की आदत भी होती है।
    • “LLM से बड़े बदलाव न मांगना” और “हर चीज़ की समीक्षा करके दिशा देना” जैसी बातों की management को परवाह नहीं होती।
      वह engineering समस्या बन चुकी है, और उसे सुलझाने की ज़िम्मेदारी engineers पर डाल दी जाती है।
  • अब भी इतने लोग क्यों मानते हैं कि AI coding बस एक फ़ैड बनकर खत्म हो जाएगी, समझ नहीं आता
    इसे शुरू हुए 2 साल भी नहीं हुए हैं, और कंपनियाँ पहले ही प्रति सीट हज़ारों डॉलर दे रही हैं, यहाँ तक कि कुछ जगहें महीने के 5,000 डॉलर भी दे रही हैं
    सोचता हूँ, और कौन-सा टूल है जिसे बिना किसी आधार के इतनी तेज़ी से अपनाया गया हो

    • क्योंकि कंपनियाँ दाँव लगा रही हैं कि इस खर्च के ज़रिए लोगों को निकालकर लागत घटाई जा सकती है
      अभी जो AI LLM pull requests दिख रहे हैं, वे बस दूसरे लोगों के लिए और काम बढ़ा रहे हैं, और तथाकथित “builders” सिर्फ नए dashboard और demo करने लायक features के साथ अच्छे दिखते हैं
      लेकिन code flow पर बात नहीं की जा सकती, न ही यह पूछा जा सकता है कि कोई चीज़ वैसी क्यों बनी, उसकी thought process क्या थी
      यह कई लोगों के अनुभव से नीचे से बनकर नहीं आता, बल्कि जैसे शून्य से materialize हो गया हो; न कोई बुनियादी separation, न के बराबर abstraction
      कोई भी उसे छूना नहीं चाहता। pull request बहुत बड़े होते हैं, और वे “authors” हमारे साथ on-call भी नहीं रहते
      सारा श्रेय ले लेते हैं, पर असली काम नहीं करते
      यह कुछ वैसा है जैसे घर का design बनाकर architect और engineer से कहना, “इसे चलने लायक बना दो”
    • यह बात निष्कर्ष तक नहीं पहुँचती। “कंपनियाँ पहले ही प्रति सीट हज़ारों डॉलर दे रही हैं” — इस तथ्य का किसी चीज़ के फ़ैड होने या न होने से शून्य संबंध है
      कंपनियाँ ऐसा क्यों कर रही हैं, इसके लिए “क्योंकि AI coding फ़ैड नहीं है” से कहीं ज़्यादा तर्कसंगत वजहें हैं
    • vibe coding का आउटपुट कभी शानदार होता है, लेकिन कभी कुछ तोड़ देता है, और कई बार ऐसी चीज़ भी फिर बिगाड़ देता है जिसे पहले कई बार ठीक किया जा चुका हो
      pull request इतने बड़े होते हैं कि उस अव्यवस्था को कोई review नहीं कर सकता, और अगर deploy कर दिया, तो on-call के लिए तैयार रहना होगा
      यह बेहतर हो सकता है, या नहीं भी हो सकता — अभी कहना मुश्किल है
    • मुझे तो ये बातें उल्टा इस बात का संकेत लगती हैं कि तस्वीर दिखने से अलग हो सकती है
      यह बहुत बड़ा है, बहुत तेज़ है, इसलिए स्थिर नहीं लगता। यह स्तर बना रह सकता है, और बढ़ सकता है, या फिर ज़्यादा सामान्य usage और budget level पर वापस आ सकता है
    • “AI coding एक फ़ैड है” और “हर कर्मचारी को unlimited tokens दे दो और यह भी मत देखो कि इसका net financial impact positive है या नहीं” — इन दोनों के बीच बहुत बड़ा spectrum है
  • मैं 100 डॉलर प्रति माह का subscription इस्तेमाल करता हूँ, लेकिन पिछले 30 दिनों की API लागत लगभग 1700 डॉलर रही है
    यह इस्तेमाल के तरीके पर बहुत निर्भर करता है। अगर prompts से detailed design बनाओ, फिर उसे task list में बाँटो, और कई agents में डाल दो, तो कुछ हज़ार डॉलर जलाना बहुत आसान है
    अगर ज़्यादा सावधानी से इस्तेमाल करो, एक समय में सिर्फ कुछ agents interactive तरीके से चलाओ, और pull request review / issue fixing / auto cleanup / performance optimization जैसी चीज़ों में उपयोग करो, तो यह लगभग 1500 डॉलर हो सकता है
    अगर बस कभी-कभार सवाल पूछने हैं, एक बेहतर Stack Overflow की तरह, तो यह 100 डॉलर से बहुत कम रहेगा
    आजकल मैं /goal का काफ़ी दीवाना हूँ; कोई verifiable goal ढूँढकर उसे रातभर चलने दो, फिर अगली सुबह देखो कि वह कहाँ तक पहुँचा — यह Christmas morning जैसा लगता है

  • 1500 डॉलर प्रति माह मतलब प्रति सीट साल के 18,000 डॉलर
    शायद Microsoft और Nvidia कुछ देख रहे हैं
    अगर local LLM चलाने वाली 128GB machine 5,000~8,000 डॉलर की भी हो, तो वह सस्ती लगती है। tokens per second अभी काफ़ी नहीं हैं, लेकिन शायद काम चल जाए
    असली bottleneck शायद code नहीं है, बल्कि यह है कि Uber ने इतना पैसा खर्च करके आखिर बनाया क्या, और उसका revenue पर कोई meaningful positive असर पड़ा भी या नहीं

    • मुझे यक़ीन नहीं कि tokens per second bottleneck नहीं है। ज़्यादातर लोग अब भी AI agents को interactive तरीके से इस्तेमाल करेंगे, रातभर autonomous चलाने के बजाय
      मेरे लिए व्यक्तिगत रूप से 50 tok/s से कम पूरी तरह बेकार है
      वैसे भी यह apples-to-oranges comparison है। open-weight models का inference काफ़ी सस्ता है, और Claude तथा OpenAI बस DeepSeek या OpenRouter के कई providers की तुलना में बहुत ऊँचा margin ले पा रहे हैं। open models commodity हैं
    • अपना on-premises model चलाना कहीं बेहतर है
      laptop depreciating asset है, उसमें economies of scale नहीं हैं, specs fixed रहते हैं, और इससे ऐसे बिखरे हुए devices का समूह बनता है जिन पर models को लगातार up-to-date रखना पड़ता है
      power consumption और cooling की दिक्कतें जोड़ लें, तो समझ नहीं आता कि कंपनियाँ उस दिशा में क्यों जाएँगी
    • लगता है कंपनियाँ आखिरकार local AI servers खरीदेंगी
      local hardware महँगा तब पड़ता है जब उस पर जटिल software stack चलाना हो, जो 10,000 तरीकों से टूट सकता है
      भविष्य के local AI servers शायद बस AI के लिए किसी protocol से बात करेंगे, कमरे के किसी कोने में रखे होंगे, और कोई उनकी परवाह नहीं करेगा
      फिर भी कई systems की access permissions की ज़रूरत पड़ सकती है, इसलिए पक्का नहीं, लेकिन लगता है कि अंत में कोई न कोई “box के अंदर AI” देगा, जिसमें latest open models जैसी चीज़ें होंगी
    • मूल दलील से सहमत हूँ, लेकिन latest local AI को 1500 डॉलर प्रति माह के स्तर पर चलाना पहले से ही आसान नहीं है, और यह भी अहम है कि यह सिर्फ एक सीट के हिसाब से है
      यह 24x365 कम-से-कम 20 tok/s generate करने के बराबर है, और असल में यह इससे कहीं ज़्यादा हो सकता है
      open-weight models proprietary models की तुलना में बहुत सस्ते हैं, भले ही उन्हें किसी प्रतिष्ठित Western provider के ज़रिए दिया जाए; इसलिए उसी खर्च तक पहुँचने के लिए 100 tok/s से ज़्यादा चाहिए हो सकता है, जो data center hardware की श्रेणी में आता है
      prosumer platform पर पहले वाले आँकड़े तक पहुँचना शायद संभव हो, लेकिन सिर्फ बहुत विशेष workloads में। agentic workloads में, जहाँ prefill पर बहुत समय जाता है, तस्वीर और खराब है। on-premises AI में यह बड़ी सीमा बन जाती है
    • मुझे लगता है कि असली बात यह नहीं कि Uber ने क्या बनाया, बल्कि productivity gain है
      अगर engineers AI tools का सही इस्तेमाल करें, तो productivity बहुत बढ़ सकती है, और LLM को junior या associate engineer की तरह इस्तेमाल किया जा सकता है
      1500 डॉलर प्रति माह उस स्तर की productivity के मुकाबले बहुत सस्ता है; इंसानी engineer hire करने पर इससे कहीं ज़्यादा देना पड़ता
  • lock-in effect और switching cost को लेकर चिंता बढ़ती जा रही है
    करीब एक साल से Claude इस्तेमाल कर रहा हूँ, और उसके भीतर काफ़ी “knowledge” जमा हो चुका है
    आगे अगर Claude का price-to-performance कमज़ोर पड़ गया, तो चिंता होगी
    मैंने storage को inference से अलग करने वाले distributed solution के बारे में सोचना शुरू किया है, लेकिन अभी के लिए Claude ही विकल्प है। जानना चाहता हूँ कि क्या किसी और को भी ऐसी चिंता है

    • वह “knowledge” क्या बस text files नहीं है? मैंने तो सिर्फ text files copy करके services के बीच आसानी से switch किया है
    • मुझे जो solution पसंद है, वह Cline coding agent का इस्तेमाल करना है। यह खुला है, और अलग-अलग providers और models के बीच आसानी से switch किया जा सकता है
    • समझ नहीं आता कि उसमें “knowledge” से आपका मतलब क्या है
      knowledge आख़िर store कहाँ होती है?
      मेरी knowledge आमतौर पर agent के बाहर planning documents में store होती है
      और वैसे भी मैं हर agent window को नियमित रूप से archive कर देता हूँ
  • अगर कर्मचारी अपना AI/LLM budget खर्च न करे, तो क्या उसे salary hike मिल सकता है?

    • शायद कम performance के कारण निकाल दिया जाएगा
  • मुझे समझ नहीं आता कि बड़ी कंपनियों में self-hosting करके open-weight models चलाना, या ज़रूरी नहीं कि पूरी तरह on-premise ही हो बल्कि GPU servers किराये पर लेना, या together AI जैसी जगहों पर host करना, इससे ज़्यादा आम क्यों नहीं है
    मैंने open-weight models और Opus, Gemini Pro जैसे premium models दोनों इस्तेमाल किए हैं, और बाद वाले थोड़ा बेहतर ज़रूर थे, लेकिन कीमत के अंतर को सही ठहराने जितने बिल्कुल भी नहीं थे
    जिन उपयोगों के लिए मैंने इन्हें इस्तेमाल किया, वहाँ यह अंतर ज़्यादातर महत्वपूर्ण नहीं था, और मुझे लगता है कि दूसरे users के use cases भी अक्सर ऐसे ही होंगे

    • मेरे $WORK में भी अभी इसी तरह की चर्चा हुई थी, और एक पारंपरिक वित्तीय कंपनी तथा NYSE-listed कंपनी होने के नाते, औसत कंपनी की IT विशेषज्ञता को देखते हुए सोच कुछ ऐसी होती है
      किसी शानदार developer/hacker को एक ताकतवर GPU server देकर जो चाहे वह model चलाने देना, और पूरी कंपनी के लिए ऐसा platform बनाए रखना — ये दोनों बिल्कुल अलग बातें हैं
      ऐसे models को समझने और maintain करने वाले लोग, backend, availability वगैरह सब संभालना पड़ता है, और ऐसे लोगों का वेतन आमतौर पर software developers से काफ़ी ज़्यादा होने की संभावना होती है
      इस अतिरिक्त झंझट की वजह से किसी top-tier external lab को पैसे देना और सबके लिए एक उचित spending cap लगा देना ज़्यादा आसान हो जाता है
    • अगर premium models सिर्फ 10% बेहतर भी हों, तब भी लगभग 0.5~1T के open-weight models को self-host करने की तुलना में उनकी कीमत सही ठहराई जा सकती है
      इतने बड़े racks का utilization 24x7x365 नहीं होगा, और आम तौर पर यह कोई इतनी GPU-केंद्रित organization भी नहीं होगी कि बचे हुए compute पर model training करती रहे
      अगर कीमत $100k~$200k या उससे ज़्यादा हो और जीवनकाल लगभग 2 साल का हो, तो इसे वित्तीय रूप से सही ठहराना मुश्किल है
      self-hosting का खर्च भी कई developers पर amortize करने पर आसानी से लगभग $1000 प्रति माह तक पहुँच सकता है, और peak time में कड़े rate limits भी लग जाते हैं
      अगर $1500 प्रति माह में से $1000 घटा दें, तो क्या बचे हुए $500 “AI productivity” में 10% गिरावट को सही ठहराते हैं? ज़्यादातर मामलों में मुझे नहीं लगता
      निकट अवधि में, अगर coding-assistant model को self-host करना बिल्कुल ज़रूरी होने की कोई बहुत मज़बूत वजह नहीं है, तो मैं कहूँगा कि top 2~3 coding-assistant providers बेहतर विकल्प हैं
      Claude Code license खरीदने की वजह से किसी को नौकरी से नहीं निकाला गया है
    • मुझे नहीं लगता कि यह इससे ज़्यादा आम होना चाहिए
      कई users के लिए GPU को pool करके उपलब्ध कराना, security controls बनाए रखते हुए docs और data lake से जोड़ना — यह भी आसान काम नहीं है
      आखिरकार आपको इसे manage करने वाली team पर पैसा खर्च करना ही पड़ेगा
    • किसी personal machine पर अकेले एक बार कुछ आज़माना, और लगातार बदलती hardware व software requirements के बीच 3000 employees को models उपलब्ध कराना — यह पूरी तरह अलग हिसाब है
      इसके लिए datacenter का dedicated hardware और उसे चलाने वाले विशेषज्ञ चाहिए
      कंपनी को अपने मूल काम के अलावा procurement, assets, cost और ऐसी 1000 दूसरी चीज़ें manage करने का तरीका भी निकालना पड़ता है
      और यह सब पहले से किसने सुलझा रखा है? AWS/Azure/OpenAI आदि ने
    • यही वही कारण है कि कंपनियाँ सामान्य hosting और storage जरूरतों के लिए खुद datacenter नहीं बनातीं, बल्कि AWS, Azure आदि का उपयोग करती हैं
      hardware maintenance और service operations के विशेषज्ञों को रखने में पैसा लगता है
      LLM models जैसी आम चीज़ के लिए, अगर कोई कंपनी AWS को bytes भेजने को लेकर असाधारण रूप से संवेदनशील नहीं है, तो अपने hardware पर model उपलब्ध कराने का कोई खास कारण नहीं है
  • $1500 monthly cap के इस नंबर से ज़्यादा दिलचस्प बात यह है कि वे किसी cap तक पहुँचे
    जिन ज़्यादातर engineering teams से मैंने बात की है, उन्हें यह तक नहीं पता कि developer per AI spending कितनी है, क्योंकि वह consolidated cloud bill में दब जाती है
    एक hard cap दो उपयोगी बातचीत को मजबूर करता है: कौन-सा workflow API calls को सही ठहराता है और कहाँ local inference काफ़ी है, और क्या output को वास्तव में productivity metrics के मुकाबले मापा जा रहा है
    ऐसे feedback loop के बिना यह बस इस बात की दौड़ बन जाती है कि tokens सबसे तेज़ कौन जला सकता है

  • “प्रति tool $1500 monthly cap, overspending पर एक उचित policy response लगता है” और “मेरा token usage Anthropic और OpenAI, दोनों पर लगभग $1000 प्रति माह है, लेकिन individual subscribers के लिए generous subsidized plans की वजह से मैं अभी provider per सिर्फ $100 चुका रहा हूँ” — यह पूरा प्रवाह किसी multi-level marketing business जैसा लगता है
    जैसे ‘diamond’ लोग seminars में MLM का प्रचार करके पैसे कमाते हैं, और नीचे के स्तर पर उम्मीद लगाए लोगों से कहते हैं, “अभी AI subscription खरीदना ही ज़िंदगी का विजेता बनने का एकमात्र मौका है”
    शायद MLM vs LLM जैसी कोई चीज़ भी है जो FOMO पैदा करती है

    • Simon Willison, LLM आने के बाद से लगातार ऐसे ही लगते हैं. ऐसा बहुत खुलकर दिखता है कि वे पैसे लेकर प्रचार करने वाले व्यक्ति हैं