• उद्योग में आम तौर पर किए जाने वाले दावों के विपरीत, AI inference की लागत सोच से कहीं कम है और उलटे यह बहुत अधिक लाभप्रदता सुनिश्चित कर सकती है
  • विश्लेषण के अनुसार input token की लागत लगभग नगण्य स्तर (प्रति मिलियन token लगभग $0.005) पर है, जबकि output token की लागत प्रति मिलियन token $3 से अधिक है, यानी लगभग 1000 गुना का अंतर
  • उपभोक्ता subscription plan (जैसे ChatGPT Pro $20/माह) वास्तविक inference लागत की तुलना में 5~6 गुना, और developer plan (Claude Code) 10~20 गुना तक अधिक कमाई देते हैं, इसलिए इनकी लाभप्रदता बहुत ऊँची है
  • API pricing भी वास्तविक लागत की तुलना में 80~95% से अधिक margin छोड़ती है, जिससे software जैसी revenue structure बनती है
  • अंततः inference कोई ‘पैसा निगलने वाला राक्षस’ नहीं, बल्कि input के मुकाबले output की असंतुलित लागत संरचना का सही उपयोग किया जाए तो बेहद लाभप्रद business है

परिचय

  • AI, खासकर inference, पर बहुत भारी लागत आने का दावा किया जाता है, लेकिन इस पर संदेहपूर्ण दृष्टि से आर्थिक विश्लेषण की ज़रूरत है
    • लेखक के पास बड़े frontier model चलाने का प्रत्यक्ष अनुभव नहीं है, लेकिन cloud services के high-throughput और hyperscaler की तुलना में bare metal की लागत संरचना की समझ के आधार पर यह विश्लेषण किया गया है
  • यह विश्लेषण napkin math के स्तर का है और केवल शुद्ध computing cost पर केंद्रित है
    • एक H100 GPU की लागत $2 प्रति घंटा मानी गई है; वास्तविक बड़े AI vendor इसे इससे भी कम कीमत पर हासिल कर सकते हैं

मान्यताएँ

  • विश्लेषण केवल शुद्ध computing cost पर केंद्रित है, और model improvement के बिना मौजूदा model की उपयोगिता के आधार पर इसकी sustainability को परखता है
    • DeepSeek R1 architecture (कुल 671B parameter, 37B active) का उपयोग किया गया है, और Claude Sonnet 4 तथा GPT-5 जैसी performance मानी गई है

H100 के साथ production environment

  • Production setup: 72 H100 GPU का cluster, जिसकी लागत $144 प्रति घंटा
    • batch size 32, 8 GPU पर tensor parallelism के साथ 9 model instance एक साथ चलाए जाते हैं
  • Prefill phase (input processing): H100 की 3.35TB/s HBM bandwidth के आधार पर प्रति सेकंड 45 forward pass
    • प्रति batch 32 sequence (औसतन 1,000 token) के साथ, प्रति सेकंड 14.4 लाख input token, यानी प्रति घंटा 4.68 अरब input token प्रोसेस होते हैं
    • MoE model में expert routing के कारण throughput 30~50% घट सकता है, लेकिन efficient parallel processing से इसका प्रभाव न्यूनतम रहता है
  • Decode phase (output generation): token क्रमिक रूप से बनते हैं, इसलिए प्रति सेकंड 1,440 output token, यानी प्रति घंटा 4.67 करोड़ output token
  • प्रति token शुद्ध लागत की गणना
    • input token: $144 ÷ 4.68 अरब = प्रति मिलियन token लगभग $0.003
    • output token: $144 ÷ 4.67 करोड़ = प्रति मिलियन token लगभग $3.08
      • असमरूपता: input processing की तुलना में output generation की लागत लगभग 1000 गुना

computing bottleneck

  • सामान्यतः memory bandwidth bottleneck होती है, लेकिन 128k+ लंबे context sequence में attention computation bottleneck बन जाता है और लागत 2~10 गुना बढ़ सकती है
    • Claude Code की 200k token limit इसे सस्ते memory-centric ढाँचे में बनाए रखती है और महंगे compute-centric scenario से बचाती है
    • लंबे context window के लिए अतिरिक्त शुल्क लेना इसी आर्थिक बदलाव को दर्शाता है

वास्तविक user economics

  • Consumer plan ($20/माह ChatGPT Pro): प्रतिदिन 1 लाख token (70% input, 30% output), वास्तविक लागत लगभग $3/माह
    • OpenAI का margin 5~6 गुना
  • Developer usage (Claude Code Max 5, $100/माह): प्रतिदिन 20 लाख input, 30 हजार output token, वास्तविक लागत लगभग $4.92/माह, margin 20.3 गुना
    • Max 10 ($200/माह): प्रतिदिन 1 करोड़ input, 1 लाख output token, वास्तविक लागत लगभग $16.89/माह, margin 11.8 गुना
    • coding agent का usage pattern input-heavy (सस्ता) होने से economics अधिकतम होती है
  • API revenue margin: मौजूदा pricing ($3/15 per मिलियन token) की तुलना में वास्तविक लागत ($0.01/3), 80~95% margin

निष्कर्ष

  • यह विश्लेषण कई मान्यताओं पर आधारित है, इसलिए त्रुटि की संभावना है, लेकिन 3 गुना अंतर मान लेने पर भी लाभप्रदता ऊँची रहती है
    • input processing प्रति मिलियन token $0.005 पर सस्ती है, जबकि output generation $3+ पर, यानी लगभग हजार गुना अंतर
  • input और output token की असममित लागत संरचना ही मुख्य बिंदु है, और जो services इसका सही उपयोग करती हैं वे उच्च लाभप्रदता हासिल कर सकती हैं
    • input-heavy workload (coding assistant, document analysis, research आदि) → लागत संरचना लगभग मुफ्त जैसी, अत्यधिक लाभप्रद
    • output-heavy workload (जैसे video generation) → input कम, output लाखों token, इसलिए लागत संरचना प्रतिकूल और ऊँची pricing लगभग अनिवार्य
  • "AI inference इतना महंगा है कि टिकाऊ नहीं" — यह बात वास्तविक लागत संरचना से मेल नहीं खाती। यह मौजूदा बड़े खिलाड़ियों की प्रतिस्पर्धा को हतोत्साहित करने की रणनीति भी हो सकती है। वास्तविक margin structure पहले से ही बहुत मजबूत है
  • जैसे पहले cloud computing की लागत को बढ़ा-चढ़ाकर दिखाकर big tech के अतिरिक्त मुनाफे को जायज़ ठहराया गया, वैसे ही inference cost पर चर्चा में भी अत्यधिक ‘cost fear marketing’ काम कर सकती है
    • इसलिए लागत संरचना को तथ्यों के आधार पर समझने की ज़रूरत है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.