1 पॉइंट द्वारा GN⁺ 2026-03-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Forbes द्वारा उद्धृत Claude Code Max प्लान की 5 हज़ार डॉलर की गणना वास्तविक compute cost नहीं, बल्कि API retail price पर आधारित है
  • OpenRouter के Qwen 3.5 397B और Kimi K2.5 मॉडल की कीमतों की तुलना करने पर, लगभग Anthropic API शुल्क के 10वें हिस्से पर समान आकार के मॉडल चलाए जा रहे हैं
  • इस आधार पर गणना करें तो, Anthropic की वास्तविक अनुमानित लागत लगभग 500 डॉलर है, यानी कुछ heavy users पर भी मासिक नुकसान केवल लगभग 300 डॉलर है
  • अधिकांश उपयोगकर्ता token limit तक नहीं पहुंचते, और औसत उपयोग के आधार पर यह break-even या profit structure है
  • AI inference cost के अत्यधिक होने की धारणा एक गलतफहमी है, और इसका उपयोग बड़ी AI कंपनियों के ऊंचे API margin को सही ठहराने में किया जा रहा है

Forbes के 5 हज़ार डॉलर वाले दावे की जांच

  • Forbes ने Cursor पर एक लेख में उद्धृत किया कि Anthropic का 200 डॉलर वाला प्लान 5 हज़ार डॉलर के बराबर compute usage की अनुमति देता है
    • उस उद्धरण को “कंपनी के compute usage pattern का analysis देखने वाले व्यक्ति” के बयान के रूप में पेश किया गया था
  • यह संख्या API retail price पर आधारित गणना है, वास्तविक compute cost नहीं
  • Anthropic के Opus 4.6 API की कीमत input के लिए प्रति 10 लाख token 5 डॉलर और output के लिए प्रति 10 लाख token 25 डॉलर तय है
    • इस दर से गणना करने पर, heavy users महीने में 5 हज़ार डॉलर के बराबर API usage तक पहुंच सकते हैं

वास्तविक compute cost का अनुमान

  • OpenRouter पर समान आकार के Qwen 3.5 397B-A17B मॉडल की कीमत लगभग input के लिए प्रति 10 लाख token 0.39 डॉलर और output के लिए 2.34 डॉलर है
    • Kimi K2.5 मॉडल input 0.45 डॉलर और output 2.25 डॉलर पर इससे भी सस्ता है
  • यह Anthropic API pricing की तुलना में लगभग 10 गुना सस्ता है
  • cached token की लागत में भी लगभग ऐसा ही अंतर है
    • उदाहरण: DeepInfra पर Kimi K2.5 का cache read cost 0.07 डॉलर/MTok है, जबकि Anthropic पर 0.50 डॉलर/MTok
  • इसलिए वास्तविक compute cost का अनुमान API pricing के लगभग 10% के स्तर पर लगाया जा सकता है

Claude Code Max उपयोगकर्ताओं की वास्तविक लागत

  • API pricing के हिसाब से 5 हज़ार डॉलर के बराबर token इस्तेमाल करने वाले उपयोगकर्ता की वास्तविक लागत लगभग 500 डॉलर है
    • इस स्थिति में Anthropic को महीने का लगभग 300 डॉलर नुकसान होता है
  • लेकिन Anthropic का कहना है कि 5% से कम उपयोगकर्ता ही token limit तक पहुंचते हैं
    • सामान्य उपयोगकर्ता औसतन 50% से कम token usage करते हैं
  • Anthropic के /cost डेटा के अनुसार, औसत उपयोगकर्ता का दैनिक API usage लगभग 6 डॉलर है, और 90% उपयोगकर्ता 12 डॉलर से नीचे हैं
    • वास्तविक लागत के आधार पर यह लगभग 18 डॉलर मासिक बैठता है, इसलिए 20~200 डॉलर subscription fee के मुकाबले लाभप्रदता संभव है

Cursor के साथ लागत का अंतर

  • 5 हज़ार डॉलर का आंकड़ा Cursor के internal analysis से आया है
    • Cursor को Opus 4.6 के लिए Anthropic की retail API pricing चुकानी पड़ती है
  • इसलिए Cursor के लिए power user प्रति माह 1 व्यक्ति पर 5 हज़ार डॉलर तक की लागत संभव है
    • वहीं Anthropic की वास्तविक लागत लगभग 500 डॉलर के स्तर की है
  • Cursor को इस वजह से कठिनाई हो रही है कि डेवलपर Anthropic मॉडल को पसंद करते हैं

Anthropic की revenue structure और गलतफहमी

  • Anthropic अभी भी training cost, payroll, और बड़े पैमाने के compute investment की वजह से कुल मिलाकर घाटे की स्थिति में हो सकता है
  • लेकिन token-स्तरीय inference cost के स्तर पर इसके लाभप्रद होने की संभावना अधिक है
  • “AI inference घाटे का व्यवसाय है” जैसी धारणा API pricing पर अत्यधिक margin को सही ठहराती है और प्रतिस्पर्धा को कमजोर करती है
  • वास्तविक inference economics को समझने के लिए OpenRouter की public model pricing देखना अधिक व्यावहारिक है
    • यह बड़ी AI कंपनियों की API pricing की तुलना में वास्तविक लागत के केवल एक हिस्से को दर्शाती है

1 टिप्पणियां

 
GN⁺ 2026-03-11
Hacker News की राय
  • Qwen 3.5 397B-A17B की Anthropic मॉडल्स से तुलना करना बेतुकी तुलना है
    कहा जाता है कि Qwen या DeepSeek जैसे चीनी मॉडल Anthropic की तुलना में 10 गुना से भी ज़्यादा efficient हैं
    यही वजह है कि OpenRouter की कीमत और आधिकारिक कीमतों में बहुत बड़ा अंतर नहीं दिखता। ऊपर से, OpenRouter providers कौन-सी quantization तकनीकें इस्तेमाल कर रहे हैं, यह भी साफ़ नहीं है। असल में वे 100 गुना efficiency दे रहे हों, यह भी मुमकिन है
    बेशक, हर user अपने प्लान को पूरी सीमा तक इस्तेमाल नहीं करता, इसलिए प्रति user 5,000 डॉलर का नुकसान नहीं हो रहा

    • यह circular logic है। चीनी मॉडल 10 गुना efficient हैं, ऐसा मानने की वजह सिर्फ़ यह है कि वे 10 गुना सस्ते हैं
      Amazon Bedrock के Opus 4.5 और चीनी मॉडल्स के t/s आँकड़े देखें तो वे काफ़ी समान स्तर पर हैं, इसलिए असली active parameter count भी शायद मिलता-जुलता है
      OpenRouter में BF16 या Q8 providers को सीधे चुना भी जा सकता है
    • सहमत हूँ, लेकिन Opus 4.6 के 10 गुना बड़े मॉडल होने की संभावना ज़्यादा है। GPT-4 पहले से 1.6T मॉडल है और Llama 4 उससे भी बड़ा है
      चीनी कंपनियों के पास GPU कम हैं, लेकिन उन्होंने inference optimization में काफ़ी innovation की है। DeepSeek के CEO Liang भी इससे जुड़े papers के authors में शामिल हैं
    • Qwen जैसे open source मॉडल्स की Anthropic से तुलना करना बेकार है
      Anthropic ने model architecture या parameter count कभी सार्वजनिक नहीं किया
      open source मॉडल्स ज़्यादातर दूसरे मॉडल्स को distill करते हैं या compute cost घटाने के लिए MoE इस्तेमाल करते हैं
      Qwen को benchmark बनाकर लिखी गई blog post पर भरोसा करना मुश्किल है
    • Opus ने शायद TPU का उपयोग करके कम लागत हासिल की हो
    • OpenRouter के provider section में quantization information दिखाई जाती है
  • मूल लेख के मुताबिक, Cursor ने पिछले साल अनुमान लगाया था कि 200 डॉलर प्रति माह वाला Claude Code subscription अधिकतम 2,000 डॉलर तक का compute इस्तेमाल करता है
    अब कहा जा रहा है कि यह subsidy और बढ़ गई है, और वही प्लान लगभग 5,000 डॉलर का compute consume कर सकता है

    • इस पर प्रतिक्रिया आई: “यह तो सब कुछ बदल देने वाली जानकारी है”
  • बहुत-से लोग मानते हैं कि OpenAI और Anthropic tokens घाटे में बेचते हैं, लेकिन इसके ठोस सबूत बहुत कम हैं
    Forbes की एक ग़लत रिपोर्ट की वजह से यह meme फैल गया। उस लेख में API cost और compute cost के फ़र्क तक को ठीक से नहीं समझा गया था

    • लेकिन यह भी साफ़-साफ़ कहना मुश्किल है कि loss-selling का कोई सबूत नहीं है
      Claude Code के बाहर Anthropic का उपयोग सीमित करना, API spend limit को 5,000 डॉलर पर रखना जैसी चीज़ें देखें तो profitability कम होने की संभावना भी है
    • कुछ लोग यह भी कहते हैं, “जो कंपनी सिर्फ़ tokens बेचती है, वह घाटे से कैसे बच सकती है?”
      research, training, infrastructure और manpower की लागत भी token generation cost में शामिल होनी चाहिए
      open-weight मॉडल्स की कम कीमत market share लेने के लिए dumping का नतीजा है, असली लागत इससे ज़्यादा है
      आख़िरकार यह ढाँचा लंबे समय तक टिक नहीं पाएगा
    • Anthropic token per unit पर घाटा कर रहा है या नहीं, उससे ज़्यादा अहम यह है कि training cost कितनी है
      अगर मॉडल्स की लगातार training न हो, तो tokens की value घट जाती है
    • संदर्भ के लिए संबंधित दस्तावेज़ यहाँ हैं
  • अगर हमारी टीम Claude Code को API के ज़रिए इस्तेमाल करे, तो महीने का 2 लाख डॉलर खर्च आएगा, लेकिन वास्तव में हम Max subscription के ज़रिए सिर्फ़ 1,400 डॉलर प्रति माह देते हैं
    यह प्रति user 50,000 डॉलर के स्तर जैसा दिखता है, लेकिन JSON token count देखने पर लगता है कि ज़्यादातर cached requests हैं, इसलिए असली लागत काफ़ी कम होगी

    • यह जानना दिलचस्प है कि काम को इतनी efficiency से कैसे बाँटा जा रहा है। मैं भी Claude बहुत इस्तेमाल करता हूँ, लेकिन limits जल्दी आ जाती हैं
    • Gemini CLI session के हिसाब से cache savings rate दिखाता है, जो आमतौर पर 90% के आसपास होती है
    • मैं भी कई Claude agents चलाता हूँ, और input tokens का 85% cache reads होता है
      असली लागत शायद 25,000~30,000 डॉलर के स्तर पर होगी। Forbes का 5,000 डॉलर वाला अनुमान बढ़ा-चढ़ाकर बताया गया लगता है
    • npx ccusage से local logs देखकर API-आधारित cost निकाली जा सकती है
    • लेकिन यह सवाल है कि Max plan को company use के लिए इस्तेमाल करना कहीं terms of service का उल्लंघन तो नहीं
  • अगर Anthropic का compute पूरी तरह saturated हो, तो Claude Code के power users प्रति user 5,000 डॉलर की opportunity cost पैदा कर सकते हैं
    लेकिन इस तरह की तुलना Rolex और किसी बिना-नाम वाली घड़ी के gear count की तुलना जितनी ही बेमेल है

    • opportunity cost, actual cost नहीं होती। असली सवाल यह है कि क्या Anthropic इतना saturated है कि वह subscriptions बेच ही नहीं पा रहा
    • GPU farm जितना ज़्यादा fully utilized होता है, batching effect की वजह से unit cost उतनी कम भी हो सकती है
    • “opportunity cost” शब्द entertainment industry में भी बहुत इस्तेमाल होता है, लेकिन व्यवहार में consumption घट जाना ज़्यादा आम है
      Anthropic के साथ भी ऐसा ही हो सकता है; users अनिश्चित quality पर सवाल उठाएँ या API-based billing पर शिफ्ट हो जाएँ
    • एक मज़ाकिया प्रतिक्रिया भी आई: “उम्मीद है 100 डॉलर subscription पर मेरा Opus भरपूर चलना जारी रहे”
  • inference cost और profit margin में open-weight मॉडल्स और बड़े cloud providers के बीच बड़ा फ़र्क है
    यह कुछ-कुछ pharma industry की R&D cost और generic production cost के अंतर जैसा है
    OpenAI का inference margin लगभग 70% और Anthropic का 40~90% के बीच माना जा रहा है
    संबंधित लेख: Phemex, SaaStr, The Information, Investing.com

    • एक राय यह भी है कि “profit” शब्द बहुत आसानी से इस्तेमाल नहीं करना चाहिए
      accounting basis पर हो सकता है कि per-model revenue training cost को पहले ही offset कर चुका हो
      लेकिन cashflow basis पर अभी भी यह cashflow positive नहीं है
      अगर यह फ़र्क समझ में न आए, तो पूरी AI industry को कम आँकने का ख़तरा है
  • Opus 4.6 का model size कितना है, इस पर भरोसे के साथ कुछ कहना मुश्किल है
    अनुमान है कि यह Qwen397B से काफ़ी बड़ा होगा

    • Musk ने कहा है कि Grok के parameters खरबों में हैं, तो Opus भी उस स्तर का हो सकता है
      Anthropic शायद API से पैसा कमा रहा हो, लेकिन 90% margin शायद नहीं होगा
    • OpenRouter में DeepSeek v3.2(685B/37B active) की कीमत $0.26/0.40 और Kimi K2.5(1T/32B active) की $0.45/2.25 है
    • अगर किसी expert से पूछें, तो वह Opus को 1~2 trillion parameters का मान सकता है
  • cache लगभग मुफ़्त जैसा है, लेकिन वास्तव में पूरी तरह मुफ़्त नहीं है
    cache token cost निकाल दें, तो 200 डॉलर subscription का असली compute usage लगभग 800 डॉलर तक गिर जाता है
    ज़्यादातर compute शायद idle state में रहता है

    • लेकिन cache RAM घेरकर रखता है, इसलिए वह पूरी तरह मुफ़्त नहीं है
      अगर cache hit न हो, तो उतनी ही opportunity cost पैदा होती है
    • cache की वजह से inference को ज़्यादा users को premium price पर बेचना संभव होता है, इसलिए यह असल में profit maximization का साधन है
    • अगर compute idle न हो, तो उस resource को model training या research experiments में लगाया जा सकता है
  • Cursor को Anthropic की retail API pricing पर Opus 4.6 इस्तेमाल करना पड़ता है, इसलिए प्रति power user प्रति माह 5,000 डॉलर खर्च हो सकते हैं
    वहीं Anthropic की असली लागत शायद 500 डॉलर के आसपास होगी
    हाल की Swix podcast में Cursor की cloud agent strategy के बारे में सुना; entry barrier घट रही है

  • Claude subscription, spot instance जैसी अवधारणा के ज़्यादा क़रीब है
    API एक on-demand service है, और प्राथमिकता API को मिलती है
    बचा हुआ compute subscription users को दिया जाता है, और capacity कम हो तो quantized low-cost models की तरफ़ route किया जाता है
    ऐसे subscriptions idle resources का उपयोग करते हैं, और predictable workflow के ज़रिए model training quality बेहतर करने में भी मदद करते हैं
    मैंने Qwen Code, Codex और Claude तीनों इस्तेमाल किए हैं; Codex, Qwen से 2 गुना बेहतर लगा, और Claude, Codex से 2 गुना बेहतर
    इसलिए उम्मीद है कि Claude Opus, Qwen Code से 4~5 गुना महँगा होगा

    • “Claude, Codex से 2 गुना बेहतर है” यह बात अभी सच नहीं है
    • “capacity कम होने पर low-cost model की तरफ़ routing होती है” इस हिस्से की आधिकारिक घोषणा कभी नहीं हुई