4 पॉइंट द्वारा GN⁺ 2025-08-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • उद्योग में आम तौर पर किए जाने वाले दावों के विपरीत, AI inference की लागत सोच से कहीं कम है और उलटे यह बहुत अधिक लाभप्रदता सुनिश्चित कर सकती है
  • विश्लेषण के अनुसार input token की लागत लगभग नगण्य स्तर (प्रति मिलियन token लगभग $0.005) पर है, जबकि output token की लागत प्रति मिलियन token $3 से अधिक है, यानी लगभग 1000 गुना का अंतर
  • उपभोक्ता subscription plan (जैसे ChatGPT Pro $20/माह) वास्तविक inference लागत की तुलना में 5~6 गुना, और developer plan (Claude Code) 10~20 गुना तक अधिक कमाई देते हैं, इसलिए इनकी लाभप्रदता बहुत ऊँची है
  • API pricing भी वास्तविक लागत की तुलना में 80~95% से अधिक margin छोड़ती है, जिससे software जैसी revenue structure बनती है
  • अंततः inference कोई ‘पैसा निगलने वाला राक्षस’ नहीं, बल्कि input के मुकाबले output की असंतुलित लागत संरचना का सही उपयोग किया जाए तो बेहद लाभप्रद business है

परिचय

  • AI, खासकर inference, पर बहुत भारी लागत आने का दावा किया जाता है, लेकिन इस पर संदेहपूर्ण दृष्टि से आर्थिक विश्लेषण की ज़रूरत है
    • लेखक के पास बड़े frontier model चलाने का प्रत्यक्ष अनुभव नहीं है, लेकिन cloud services के high-throughput और hyperscaler की तुलना में bare metal की लागत संरचना की समझ के आधार पर यह विश्लेषण किया गया है
  • यह विश्लेषण napkin math के स्तर का है और केवल शुद्ध computing cost पर केंद्रित है
    • एक H100 GPU की लागत $2 प्रति घंटा मानी गई है; वास्तविक बड़े AI vendor इसे इससे भी कम कीमत पर हासिल कर सकते हैं

मान्यताएँ

  • विश्लेषण केवल शुद्ध computing cost पर केंद्रित है, और model improvement के बिना मौजूदा model की उपयोगिता के आधार पर इसकी sustainability को परखता है
    • DeepSeek R1 architecture (कुल 671B parameter, 37B active) का उपयोग किया गया है, और Claude Sonnet 4 तथा GPT-5 जैसी performance मानी गई है

H100 के साथ production environment

  • Production setup: 72 H100 GPU का cluster, जिसकी लागत $144 प्रति घंटा
    • batch size 32, 8 GPU पर tensor parallelism के साथ 9 model instance एक साथ चलाए जाते हैं
  • Prefill phase (input processing): H100 की 3.35TB/s HBM bandwidth के आधार पर प्रति सेकंड 45 forward pass
    • प्रति batch 32 sequence (औसतन 1,000 token) के साथ, प्रति सेकंड 14.4 लाख input token, यानी प्रति घंटा 4.68 अरब input token प्रोसेस होते हैं
    • MoE model में expert routing के कारण throughput 30~50% घट सकता है, लेकिन efficient parallel processing से इसका प्रभाव न्यूनतम रहता है
  • Decode phase (output generation): token क्रमिक रूप से बनते हैं, इसलिए प्रति सेकंड 1,440 output token, यानी प्रति घंटा 4.67 करोड़ output token
  • प्रति token शुद्ध लागत की गणना
    • input token: $144 ÷ 4.68 अरब = प्रति मिलियन token लगभग $0.003
    • output token: $144 ÷ 4.67 करोड़ = प्रति मिलियन token लगभग $3.08
      • असमरूपता: input processing की तुलना में output generation की लागत लगभग 1000 गुना

computing bottleneck

  • सामान्यतः memory bandwidth bottleneck होती है, लेकिन 128k+ लंबे context sequence में attention computation bottleneck बन जाता है और लागत 2~10 गुना बढ़ सकती है
    • Claude Code की 200k token limit इसे सस्ते memory-centric ढाँचे में बनाए रखती है और महंगे compute-centric scenario से बचाती है
    • लंबे context window के लिए अतिरिक्त शुल्क लेना इसी आर्थिक बदलाव को दर्शाता है

वास्तविक user economics

  • Consumer plan ($20/माह ChatGPT Pro): प्रतिदिन 1 लाख token (70% input, 30% output), वास्तविक लागत लगभग $3/माह
    • OpenAI का margin 5~6 गुना
  • Developer usage (Claude Code Max 5, $100/माह): प्रतिदिन 20 लाख input, 30 हजार output token, वास्तविक लागत लगभग $4.92/माह, margin 20.3 गुना
    • Max 10 ($200/माह): प्रतिदिन 1 करोड़ input, 1 लाख output token, वास्तविक लागत लगभग $16.89/माह, margin 11.8 गुना
    • coding agent का usage pattern input-heavy (सस्ता) होने से economics अधिकतम होती है
  • API revenue margin: मौजूदा pricing ($3/15 per मिलियन token) की तुलना में वास्तविक लागत ($0.01/3), 80~95% margin

निष्कर्ष

  • यह विश्लेषण कई मान्यताओं पर आधारित है, इसलिए त्रुटि की संभावना है, लेकिन 3 गुना अंतर मान लेने पर भी लाभप्रदता ऊँची रहती है
    • input processing प्रति मिलियन token $0.005 पर सस्ती है, जबकि output generation $3+ पर, यानी लगभग हजार गुना अंतर
  • input और output token की असममित लागत संरचना ही मुख्य बिंदु है, और जो services इसका सही उपयोग करती हैं वे उच्च लाभप्रदता हासिल कर सकती हैं
    • input-heavy workload (coding assistant, document analysis, research आदि) → लागत संरचना लगभग मुफ्त जैसी, अत्यधिक लाभप्रद
    • output-heavy workload (जैसे video generation) → input कम, output लाखों token, इसलिए लागत संरचना प्रतिकूल और ऊँची pricing लगभग अनिवार्य
  • "AI inference इतना महंगा है कि टिकाऊ नहीं" — यह बात वास्तविक लागत संरचना से मेल नहीं खाती। यह मौजूदा बड़े खिलाड़ियों की प्रतिस्पर्धा को हतोत्साहित करने की रणनीति भी हो सकती है। वास्तविक margin structure पहले से ही बहुत मजबूत है
  • जैसे पहले cloud computing की लागत को बढ़ा-चढ़ाकर दिखाकर big tech के अतिरिक्त मुनाफे को जायज़ ठहराया गया, वैसे ही inference cost पर चर्चा में भी अत्यधिक ‘cost fear marketing’ काम कर सकती है
    • इसलिए लागत संरचना को तथ्यों के आधार पर समझने की ज़रूरत है

1 टिप्पणियां

 
GN⁺ 2025-08-29
Hacker News राय
  • इस लेख की गणितीय गणना कई मायनों में गलत है

    • खासकर prefill चरण के bandwidth-bound होने की धारणा गलत है

    • लेखक द्वारा निकाला गया MFU खोलकर देखें तो 13 PFLOPS/s आता है, जो वास्तविक hardware की अधिकतम क्षमता का 7 गुना है, इसलिए यह असंभव आँकड़ा है

    • 32 concurrent requests, 8 GPU की सीमा, और केवल attention computation ही bottleneck है जैसी धारणाएँ भी सब गलत premises हैं

    • अफसोस है कि HN में इस लेख की आलोचना करने वाले लोग मूलभूत त्रुटियों की बजाय केवल छोटी-मोटी बातों की ओर इशारा कर रहे हैं

    • अगर यह लेख सही हो, तो OpenAI या Anthropic के inference में घाटा उठाने का दावा भी कमजोर आधार वाला है

    • output token cost वाला हिस्सा भी काफी गलत है

      • वास्तव में सिर्फ शक्तिशाली GPU cluster होने पर बड़े मॉडल को सस्ते में decode किया जा सकता है
      • उदाहरण के तौर पर 4 महीने पहले के हिसाब से 10 लाख output tokens पर लगभग 0.2 डॉलर लागत थी, और उसके बाद B200 GPU तथा code optimization से यह और सस्ता हुआ है
    • यह बताने के लिए धन्यवाद कि गणित गलत है, लेकिन अगर ऐसा है तो सही आँकड़े भी साथ में दिए जाएँ तो expectations समायोजित करने में मदद मिलेगी

  • मैंने कई बार modeling की है, और GPU depreciation तथा resource utilization optimization के आधार पर मेरा मानना है कि inference में 50% से अधिक margin संभव है

    • लेकिन नतीजा इस बात पर काफी बदलता है कि क्या मॉडल training cost को शामिल किया जाता है

    • training cost को assetize न करें तो margin अच्छा दिखता है, लेकिन depreciation के साथ शामिल करें तो profitability तेजी से खराब होती है

    • यह सवाल उठता है कि training को बाहर क्यों रखा जाए

      • मॉडल को कई साल तक नहीं चलाया जाता; प्रतिस्पर्धी बने रहने के लिए हर कुछ महीनों में फिर से train करना पड़ता है
    • बड़े AI lab के लिए high margin संभव हो सकता है, लेकिन सामान्य कंपनियों के लिए स्थिति अलग है

      • उदाहरण के लिए DeepSeek टीम की public material देखें तो 8x H200 SXM पर vLLM के साथ लगभग 12K tok/s मिलता है
      • लेकिन 100K~200K tok/s संभालने के लिए बहुत बड़ी संख्या में GPU चाहिए होंगे, और उनमें से अधिकतर idle रहेंगे
      • इसलिए 100% utilization, मुफ्त input processing, और network bottleneck न होने जैसी धारणाएँ यथार्थवादी नहीं हैं
    • GPU को 5 साल में depreciate मान लें, तब भी market share में गिरावट की वजह से utilization कम हो जाए तो यह घातक हो सकता है

    • IFRS/GAAP मानकों के अनुसार भी training cost ऐसी लागत है जिसे अंततः revenue से सीधे जोड़ा जाता है, इसलिए वह cost of goods sold में शामिल होने से बच नहीं सकती

  • Sam Altman ने कहा था, "हम inference में profit कमा रहे हैं, training cost हटा दें तो यह बहुत profitable है"

    • Amodei ने भी इसी तरह समझाया कि अगर एक मॉडल को एक कंपनी मानें, तो 100 million डॉलर की training cost और 200 million डॉलर के revenue पर unit model लाभ में है

    • लेकिन उसी समय अगली पीढ़ी के और महंगे मॉडल train किए जा रहे होते हैं, इसलिए पूरी कंपनी घाटे की संरचना में चली जाती है

    • लेकिन "training cost हटाने पर लाभ" जैसी बात दरअसल लगभग हर कंपनी पर लागू होने वाली घिसी-पिटी अभिव्यक्ति है, इसलिए इसका बहुत अर्थ नहीं है

    • वास्तव में OpenAI startups में निवेश करता है और credits देता है, जिससे पैसे का circular flow बनता है, इसलिए वास्तविक profitability समझना कठिन है

    • NYT podcast के अनुसार Sam ने कहा था, "सिर्फ inference देखें तो हम लाभ में हैं," लेकिन बगल में बैठे COO ने अस्पष्ट प्रतिक्रिया दी थी

      • यानी वास्तव में अभी केवल inference के आधार पर भी पूरी तरह लाभ में होना जरूरी नहीं है
  • अगर लेख के दावे के मुताबिक inference इतना सस्ता है, तो फिर अत्यंत कम-कीमत वाले API providers इतने अधिक क्यों नहीं हैं, यह सवाल है

    • व्यवहार में अधिकांश low-cost providers केवल छोटे मॉडल चलाते हैं

    • तो फिर DeepSeek-R1 जैसे बड़े मॉडल सस्ते में क्यों नहीं चलाए जा सकते, यह जिज्ञासा है

    • वास्तव में पहले से कई API providers हैं, और कुछ जगह DeepSeek-R1 मुफ्त में भी दिया जाता है

    • DeepInfra जैसी सेवाएँ भी हैं, और वास्तविक कीमतें लेख के अनुमान से भी कम हैं

    • लेकिन model training, infrastructure setup, staffing जैसे भारी fixed costs होते हैं, इसलिए केवल inference unit cost से profitability नहीं समझाई जा सकती

    • सीधे 600B मॉडल चलाने के लिए GPU पर दसियों हजार डॉलर चाहिए, और अधिकतर समय वे idle रहते हैं, इसलिए यह अक्षम है

      • इसी वजह से model providers का GPU इकट्ठा करके shared infrastructure के रूप में देना तर्कसंगत है
  • GPU architecture का अनुभव रखने वाले व्यक्ति के नज़रिए से, लंबे context में attention computation सैद्धांतिक रूप से O(n²) तक बढ़ता है, लेकिन

    • वास्तविक bottleneck memory transfer speed है
    • उदाहरण के लिए HBM 2+TB/s होने पर भी per-core आवश्यक bandwidth पूरा करना कठिन है, और contention को जोड़ें तो bottleneck हजारों गुना अधिक गंभीर हो जाता है
  • इस लेख ने DeepSeek R1 को आधार बनाकर गणना की है, लेकिन DeepSeek असामान्य रूप से efficient है, इसलिए OpenAI/Anthropic की लागत का अनुमान लगाने के लिए यह उपयुक्त नहीं है

    • DeepSeek की efficiency का कारण MoE और MLA attention है

      • लेकिन OpenAI या Google भी संभवतः ऐसी optimizations बहुत पहले से लागू कर चुके होंगे
      • GPT OSS तो fp4 तक इस्तेमाल करता है, जबकि DeepSeek अभी नहीं
    • DeepSeek ने बाजार को inference efficiency की वजह से नहीं, बल्कि 5 million डॉलर training cost के दावे की वजह से हिलाया था

    • वास्तव में यह मानना कठिन है कि GPT-5 या Claude 4, DeepSeek से कम efficient होंगे

    • Amodei ने भी कहा था कि DeepSeek सिर्फ अपेक्षित cost-reduction curve का ही एक हिस्सा है

      • यानी यह किसी क्रांतिकारी breakthrough से ज्यादा इस बात के लिए खास था कि इसे पहले किसी चीनी कंपनी ने दिखाया
  • लेख में दिए गए daily token आँकड़े बहुत कम हैं

    • मैं औसतन प्रतिदिन 30 करोड़~80 करोड़ tokens इस्तेमाल करता हूँ, और मेरे सहकर्मी भी लगभग 15 करोड़~60 करोड़ tokens तक जाते हैं
    • साथ ही prompt caching को भी नहीं गिना गया, जबकि यह inference मात्रा को 85~95% तक घटा देता है
    • सही गणना के लिए यह भी बताना होगा कि मॉडल और KV cache पर कौन-सी quantization scheme इस्तेमाल की गई है
  • ChatGPT Pro की कीमत का भी गलत उल्लेख किया गया है

    • वास्तविक कीमत 200 डॉलर प्रति माह है, और Sam Altman ने खुद कहा था, "हम Pro subscription पर घाटा उठा रहे हैं"

    • क्योंकि लोग अनुमान से कहीं अधिक उपयोग करते हैं

    • लेकिन हाल में उन्होंने यह भी कहा कि "हम inference में लाभ में हैं"

      • हालांकि यह private company है, इसलिए कौन-सी बात सच्चाई के अधिक करीब है, यह जानना कठिन है
    • व्यक्तिगत रूप से मैं Sam के बयानों पर विश्वास नहीं करता

      • यह मुझे "हमारा product बहुत मूल्यवान है" जैसी marketing line अधिक लगती है
    • वास्तविकता में संभव है कि शीर्ष 10% users अधिकांश उपयोग खपत करते हों, power-law distribution की तरह

      • इसलिए Pro subscription नुकसानदायक संरचना हो सकती है
  • हाल की रिपोर्टों के अनुसार Anthropic का 60% margin है, और OpenAI का free users सहित 50% margin के आसपास है

    • speculative decoding, caching आदि से लागत और घटती है

    • लेख में माना गया 37 billion parameters भी वास्तविक मॉडल आकार से मेल नहीं खाता

    • लेकिन केवल margin से पूरी तस्वीर नहीं समझी जा सकती

      • संभव है कि Azure या AWS बड़े पैमाने की discounts दे रहे हों
  • Sam Altman ने कई interviews में बार-बार कहा है, "training cost हटा दें तो हम लाभ में हैं"

    • कुछ लोग इसे आधार बनाकर मानते हैं कि "OpenAI हर request पर घाटा उठाता है" वाला दावा गलत है
    • लेकिन अगर training मुफ्त हो, तो यह कोई भी कर सकता है; इसलिए यह अपने आप में अर्थहीन धारणा है
    • Dario Amodei ने भी समझाया कि मॉडल-स्तर पर देखें तो अंततः लाभ होता है
    • लेकिन Sam के बयान investors को मनाने के लिए भी हो सकते हैं, और वास्तविक profitability अब भी अस्पष्ट है