LLM वाकई सस्ते हैं

(snellman.net)

26 पॉइंट द्वारा GN⁺ 2025-06-10 | 4 टिप्पणियां | WhatsApp पर शेयर करें

ज़्यादातर लोग LLM (Large Language Model) के उपयोग की लागत को बढ़ा-चढ़ाकर आंकते हैं, लेकिन वास्तव में यह तेज़ी से सस्ती हुई है और अब वेब सर्च से भी सस्ती स्तर तक पहुंच चुकी है
- शुरुआती generative AI उछाल के समय inference लागत ऊंची थी, लेकिन पिछले 2 वर्षों में लागत लगभग 1000 गुना घट गई है
LLM API की वास्तविक यूनिट कीमत की वेब सर्च API से सीधे तुलना करने पर, लो-कॉस्ट LLM मॉडल सबसे सस्ते सर्च API से भी 10 गुना से अधिक सस्ते हैं, और मिड-रेंज मॉडल भी काफ़ी प्रतिस्पर्धी प्राइसिंग रखते हैं
इस बात के बहुत कम प्रमाण हैं कि मॉडल ऑपरेटर API कीमतों को अव्यावहारिक रूप से सब्सिडाइज़ कर रहे हैं, और कुछ मामलों में GPU लागत के आधार पर 80% तक का ऊंचा margin भी देखा गया है
OpenAI जैसी प्रमुख AI कंपनियों के घाटे का कारण लागत नहीं, बल्कि कम monetization नीति है, और प्रति उपयोगकर्ता प्रति माह सिर्फ़ $1 लेने पर भी मुनाफ़े में आया जा सकता है
आगे चलकर लागत का मुख्य बोझ LLM पर नहीं, बल्कि बाहरी backend सेवाओं (जैसे विभिन्न data providers) पर शिफ्ट होने की संभावना है। LLM चलाना लगातार सस्ता होता जा रहा है, और business model भी पर्याप्त रूप से टिकाऊ हो सकता है

LLM की लागत को लेकर भ्रम और वास्तविकता

बहुत से लोग ChatGPT जैसे LLM को चलाने की लागत बहुत महंगी है यह गलतफ़हमी रखते हैं
इसी वजह से बार-बार यह गलत विश्लेषण दोहराया जाता है कि AI कंपनियों का business model अस्पष्ट है या consumer AI सेवाओं का monetization मुश्किल होगा
यह मानना कि LLM अभी भी महंगे हैं, धारणा की गलती है
- AI boom के शुरुआती दौर में inference लागत बहुत अधिक थी, लेकिन पिछले 2 वर्षों में यह लगभग 1000 गुना घट गई है
- कई चर्चाएं अब भी पुराने लागत ढांचे के आधार पर गलत अनुमान लगा रही हैं
आम तौर पर इस्तेमाल होने वाला "प्रति 10 लाख token मूल्य मॉडल" सहज रूप से समझना आसान नहीं है

वेब सर्च API और LLM API की कीमत की तुलना

प्रमुख वेब सर्च API शुल्क
- Google Search: $35/1000 बार
- Bing Search: $15/1000 बार
- Brave Search: $5~9/1000 बार, और अजीब बात यह है कि यूनिट कीमत बढ़ने पर कुल कीमत भी बढ़ती है
- कुल मिलाकर वेब सर्च API सस्ते नहीं हैं, और बेहतर गुणवत्ता वाली सेवाएं और महंगी हैं
LLM API (1k token आधार) शुल्क
- Gemma 3 27B: $0.20
- Gemini 2.0 Flash: $0.40
- GPT-4.1 nano: $0.40
- Deepseek V3: $1.10
- GPT-4.1: $8.00 आदि
- सर्च से तुलनीय तरीके से LLM की यूनिट लागत निकालने के लिए: प्रति query निकलने वाले token की संख्या + प्रति token कीमत
- 500~1000 token प्रति औसत query खपत है, इसलिए सीधी तुलना संभव है
लो-कॉस्ट LLM मॉडल सबसे सस्ते सर्च API की तुलना में 10~25 गुना सस्ते हैं
- मध्यम गुणवत्ता वाले LLM भी इसी दायरे के सर्च की तुलना में बहुत कम लागत वाले हैं
- batch unit, off-peak समय छूट जैसी अतिरिक्त discount शर्तें जोड़ने पर यह और सस्ते हो जाते हैं

लागत सस्ती होने के असली कारण

मॉडल प्रदाताओं द्वारा API यूनिट कीमत सब्सिडी दिए जाने का संदेह मज़बूत आधार नहीं रखता
- API market share बढ़ाने की प्रोत्साहन शक्ति भी कम है, और कई अन्य कंपनियों की API कीमतें भी प्रतिस्पर्धी रूप से तय हैं
- Deepseek के मापे गए डेटा के अनुसार GPU आधार पर margin 80% तक पहुंचता है
Training लागत और Inference लागत
- बड़े पैमाने की inference traffic के कारण training लागत प्रभावी रूप से amortize हो रही है
- उलटे, third-party backend सेवाओं के उपयोग से पैदा होने वाली लागत अधिक बड़ा मुद्दा बन सकती है

“LLM API घाटे का सौदा होगा” दावे का खंडन

OpenAI जैसे बड़े प्रदाताओं का घाटा कम monetization रणनीति का नतीजा है
- सिर्फ़ $1 प्रति माह स्तर की monetization से भी लाभ में आया जा सकता है
- मुफ्त उपयोगकर्ता traffic का उपयोग data collection के लिए करने जैसे उद्देश्य भी मौजूद हैं
आगे का असली लागत मुद्दा LLM नहीं, बल्कि बाहरी backend होगा
- उदाहरण: अगर AI agent टिकट बुकिंग जैसे बाहरी API कॉल करे, तो वास्तविक लागत बोझ third party पर अधिक पड़ सकता है
- सेवा प्रदाता crawling block, mobile-only परिवर्तन, login सख़्ती जैसे तरीकों से प्रतिक्रिया दे सकते हैं

यह क्यों महत्वपूर्ण है

भविष्य को लेकर कई अनुमान इस गलत धारणा पर आधारित हैं कि LLM महंगे हैं
वास्तविकता यह है कि लागत में गिरावट और मांग में वृद्धि साथ-साथ हो रही है, और आगे कीमतें और गिरने के साथ market activation की उम्मीद है
Frontier AI कंपनियां monetization से अधिक market capture पर ध्यान दे रही हैं, और वास्तव में LLM सेवा की यूनिट कीमतें विशेष रूप से कम हैं
असली लागत समस्या खुद LLM नहीं, बल्कि पीछे मौजूद बाहरी इंटीग्रेटेड सेवाएं (जैसे ticketing sites) हैं
जब ये बाहरी सेवाएं पर्याप्त कमाई नहीं कर पातीं, तो आगे AI और backend सेवाओं के बीच नए revenue model या तकनीकी टकराव की संभावना बन सकती है

निष्कर्ष और आगे की दिशा

LLM की inference लागत अब AI business की मूलभूत बाधा नहीं रही है
- कम execution लागत और monetization के विभिन्न विकल्पों (जैसे ads, subscription आदि) के साथ पर्याप्त व्यावसायिक संभावनाएं मौजूद हैं
- आगे प्रमुख चुनौती LLM नहीं, बल्कि AI द्वारा उपयोग किए जाने वाले बाहरी data providers की लागत और infrastructure समस्याएं होंगी
बाज़ार और तकनीकी बदलावों के अनुरूप लागत की यथार्थवादी समझ और business strategy में बदलाव ज़रूरी है

4 टिप्पणियां

click 2025-06-12

जब on-prem पर graphics card खरीदकर इस्तेमाल करने या cloud में GPU किराए पर लेने वाले scenario के साथ simulation किया था, तब लगा था कि यह बहुत महंगा है
लेकिन लगता है कि scale की economy हासिल हो जाए तो यह काफ़ी हद तक किया जा सकता है।

ethanhur 2025-06-11

मुझे संदेह था कि क्या LLM से monetization किया जा सकता है, लेकिन यह सकारात्मक है, यह देखकर हैरानी हुई।

mhj5730 2025-06-11

सोच से भी ज़्यादा चौंकाने वाला सर्वे नतीजा है... जिन मॉडलों में दर्जनों ट्रिलियन वॉन का निवेश हुआ, उनके उपयोग की लागत इतनी कम है, और उस लागत पर भी पर्याप्त monetization संभव है...

GN⁺ 2025-06-10

Hacker News की राय

लाभ कमाने वाले search API और घाटा सहकर market share हासिल करने की कोशिश करने वाले cloud-आधारित LLM API की तुलना करना सही नहीं है, ऐसा माना गया
मौजूदा डेटा यह दिखाता है कि कंपनियाँ AI में बढ़त लेने के लिए भारी-भरकम capex कर रही हैं, लेकिन अभी profitability तक नहीं पहुँची हैं
दोनों प्रोडक्ट maturity के बिल्कुल अलग चरणों में हैं, और usage घटती हुई 10 साल पुरानी service में लगातार घाटा झेलने को सही ठहराना संभव नहीं है — यह अनदेखा न किया जा सकने वाला यथार्थ है
साथ ही, search query को CPU और high cache hit rate के साथ संभाला जा सकता है, लेकिन LLM inference को ज़्यादातर GPU चाहिए होता है और हर token output बड़ा होता है, इसलिए users के बीच cache share करना मुश्किल होता है
- यह कहा जाता है कि inference service के unprofitable होने का कोई सबूत नहीं है, लेकिन AWS जैसे hosting provider पर inference की लागत सीधे चुकाकर देखने से बात समझ आ जाती है
  AWS अनंत समय तक external model चलाने वाली service को subsidize नहीं करेगा, और ज़्यादा अहम बात यह है कि equipment investment capex है, जबकि inference चलाने की लागत opex (operating expense) है
- आजकल open source models को host करने वाले API providers, API fee और वास्तविक inference hardware cost के बीच काफ़ी अच्छा margin छोड़ रहे हैं
  बेशक यही पूरी कहानी नहीं है, लेकिन अगर अपनी inference optimization भी जोड़ें तो margin और बढ़ सकता है
  OpenAI या Anthropic जैसे closed model providers के बारे में भी, public model specs के आधार पर अनुमान लगाएँ तो Anthropic API fee और hardware cost के बीच बहुत अच्छा margin कमा रहा है, ऐसा माना गया
  जिसने production में इन models को चलाया है, वह इसे सीधे verify कर सकता है
- ऐसे संकेत हैं कि Perplexity ने बेहतर profit margin दिखाने के लिए COGS को accounting के ज़रिए R&D में शिफ्ट किया
  लिंक
- DeepSeek की API service के विश्लेषण के अनुसार, वे 500% profit margin दर्ज कर रहे हैं और वही model देने वाली अमेरिकी कंपनियों से काफ़ी कम कीमत पर सेवा दे रहे हैं
  OpenAI या Anthropic भी इससे कहीं ज़्यादा margin कमा रहे हों, इसकी पूरी संभावना मानी गई
  GPU आम तौर पर CPU से cost और energy efficiency दोनों में बेहतर होते हैं, और Anthropic 24k token system prompt में KV-cache caching का उपयोग करता है
- यह धारणा कि LLM API घाटा सहकर market capture करने की strategy है, स्वीकार नहीं की गई
  अभी openrouter जैसी services मौजूद हैं जहाँ model या provider को आसानी से बदला जा सकता है, इसलिए lock-in effect नहीं है और market share लेने की strategy आर्थिक रूप से बहुत मायने नहीं रखती
  ChatGPT web जैसी UI-based product की बात अलग है, लेकिन API को घाटे में बेचना मूर्खता माना गया
  यहाँ तक कि VC भी API को घाटे में बेचने की बात स्वीकार नहीं करेंगे, ऐसा सोचा गया
search engine और LLM की तुलना इस धारणा पर करना कि दोनों सिर्फ़ simple factual lookup (जैसे "अमेरिका की राजधानी क्या है?") के लिए इस्तेमाल होते हैं, दोनों services के मुख्य use case से बहुत दूर की बात है
search engine का उपयोग हो तो फोकस web index तक पहुँच पर होगा; सिर्फ़ answer देना UI/product की capability है, API का उद्देश्य नहीं
LLM का उपयोग करते समय बड़े पैमाने पर data analysis, image recognition, complex reasoning, programming जैसे अपेक्षाकृत जटिल use cases आते हैं, और इन मामलों में token usage simple search answer की तुलना में कहीं अधिक होता है
लेखक की बात ऐसा ग़लत comparison लगती है जैसे कहना कि "Honda Civic सस्ती है क्योंकि उसका दाम apples के प्रति lb दाम के क़रीब है"
- लगता है कि पारंपरिक search engine model धीरे-धीरे कम उपयोगी होता जा रहा है
  experts search engine का उपयोग कम कर रहे हैं, और आम users भी search engine को web index navigation के बजाय किसी इंसान से पूछने जैसी conversational service की तरह इस्तेमाल कर रहे हैं
  "अमेरिका की राजधानी क्या है?" जैसे queries, जिनमें बेकार context भी शामिल होता है, search engine की बजाय LLM के लिए ज़्यादा उपयुक्त हैं
  SEO spam sites बहुत बढ़ गई हैं, जिससे search quality गिर रही है
  LLM natural questions को बेहतर संभालते हैं और बेकार लंबी व्याख्या, spam, ads के बिना सिर्फ़ ज़रूरी जवाब चुनकर देते हैं, इसलिए आगे चलकर वे और उपयोगी होंगे, ऐसा माना गया
- लेखक की यह बात कि "search और LLM की तुलना सिर्फ़ simple factual query तक सीमित रहती है", इससे सहमति नहीं है, लेकिन असली analysis का केंद्र 'search engine बनाम LLM' नहीं बल्कि unit price/cost (token/query) का अंतर देखकर margin निकालना है
  API subsidy पर चल रही है या नहीं, यह समझने के लिए search engine से तुलना अनिवार्य नहीं मानी गई
- यह सही माना गया कि LLM बड़े data analysis और complex use cases में इस्तेमाल होते हैं, लेकिन यह भी स्वीकार किया गया कि यह power users का use case है
- यह बात सही लगी कि search engine web index खोजने के लिए होते हैं
  लेकिन LLM भी मनचाही जानकारी को ज़्यादा सटीक, बिना दोहराव और तेज़ी से ढूँढ सकते हैं, इसलिए यह नहीं कहा जा सकता कि पुराना search हर हाल में बेहतर है
  अगर LLM सीधे जवाब दे और साथ में links भी दे ताकि result verify करना आसान हो, तो user satisfaction उल्टा ज़्यादा हो सकती है
  Google के search result लगातार कम उपयोगी लगने की वजह भी यही मानी गई कि index-based result की उपयोगिता घट रही है
- यह भी एक आधार के रूप में सामने रखा गया कि OpenAI को 2024 में बहुत बड़ा घाटा नहीं हुआ, और monthly visits/usage को देखते हुए inference cost वास्तव में इतनी अधिक नहीं हो सकती
  ChatGPT हर महीने दुनिया की सबसे ज़्यादा visit की जाने वाली sites में से एक है, और अधिकतर traffic free users का है, इसलिए वास्तविक लागत सोच से कम हो सकती है
LLM से जुड़ी cost estimation की बुनियाद स्पष्ट नहीं है, इस पर सवाल उठाया गया
उदाहरण के लिए, airline baggage size जैसे ताज़ा facts के लिए LLM को web search capability के साथ source verify करने देना ज़्यादा भरोसेमंद होगा
ऐसे में token consumption तेज़ी से बढ़ सकता है और cost estimate ग़लत पड़ सकता है
कई rounds की बातचीत में context जमा होता जाता है, जिससे कुल token usage अचानक बहुत बढ़ जाता है
यह स्वीकार किया गया कि बिना real usage data के सिर्फ़ estimation से cost निकालना मुश्किल है
- मैं LLM से latest updates पूछता हूँ, और LLM कई webpages को सीधे पढ़कर उनका summary देता है
  अगर current affairs जैसा सवाल हो तो वह web search करता है और reference links भी देता है, इसलिए इस तरह इसका उपयोग संभव है, ऐसा माना गया
- "अमेरिकी airline की DFW-CDG route पर cabin baggage size कितना है" पूछने पर, web search का उपयोग करके सटीक जवाब मिला और official website व FAA links भी बताए गए
  यह तरीका उपयोग के लिहाज़ से काफ़ी efficient माना गया
chip supply की कठिन वास्तविकता और महँगी power तथा equipment cost को देखते हुए, यह नहीं लगता कि बड़े खिलाड़ी अभी API-based LLM services को profitability सुधारे बिना चलाकर मुनाफ़ा कमा सकते हैं
जब तक hardware price और power problem हल नहीं होती, तब तक बड़े profit कमाना मुश्किल रहेगा
उदाहरण के तौर पर यह कहा गया कि YouTube को 20 साल चलाने के बाद भी Alphabet उसकी ठोस profitability public नहीं करता
- Alphabet (Google) की बड़ी profitability search market में उसकी दबदबे वाली हिस्सेदारी और ad revenue की वजह से है
  AI कंपनियाँ भी भविष्य में market share को revenue में बदल सकेंगी, इस पर दांव लगा रही हैं
  अगर stickiness बन गई, तो market share से revenue conversion की संभावना काफ़ी अधिक मानी गई
- यह भी कहा गया कि stock price का बढ़ना अपने-आप में किसी मायने में कंपनी profitability का एक पैमाना हो सकता है
  Amazon ने 10 साल से ज़्यादा समय तक मिलती-जुलती strategy अपनाई थी, इसका भी उल्लेख हुआ
OpenAI के 2024 में 500 million dollar घाटे और 500 million MAU के आँकड़े से यह कहना कि '500M free users को औसतन सालाना $10 ARPU में बदल दें तो BEP हासिल हो जाएगा' व्यवहार में बहुत कठिन है
free users से $1 भी charge किया जाए तो ज़्यादातर छोड़कर चले जाएँगे
"बस" जैसे शब्द वास्तविकता को बहुत सरल बना देते हैं, ऐसा माना गया
- दरअसल बात $1/माह subscription में बदलने की नहीं, बल्कि यह है कि आजकल LLM चलाना बहुत सस्ता हो गया है, इसलिए ad-based model से भी पर्याप्त revenue कमाया जा सकता है
  समान user scale वाली ad-based services से तुलना करें तो मौजूदा LLM unit economics कहीं बेहतर हैं; subscription ही एकमात्र जवाब नहीं है
- 500 million users को paid में बदलना उल्टा usage pattern और cost structure को पूरी तरह बदलकर खर्च बहुत बढ़ा सकता है
  इसकी जगह यह सरल मान लिया जाए कि सिर्फ़ 1% users paid बनें, तब भी $1 billion/year निकल सकता है
- मेरा मानना है कि ये services घाटे में इसलिए चल रही हैं क्योंकि user data की value subscription fee से कहीं अधिक है
- वास्तव में सबको paid user बनना ज़रूरी नहीं; अगर कुछ paid users बाकी users को subsidize कर दें तो model आराम से चल सकता है
समय के साथ market share concentration और regulation के बाद investors को जिस price increase का वादा किया गया है, उसके सच होने की संभावना है
- या फिर ads से पैसा कमाने की संभावना भी बहुत अधिक है
  किसी भी सवाल के जवाब के बीच Coca-Cola का ad आ सकता है
  AI coding project में automatic ads लग सकते हैं
  AI द्वारा भेजे जाने वाले हर 10वें email में insurance product का ad डाला जा सकता है
  monetization के अवसर लगभग अनंत हैं
अंदरूनी तौर पर LLM operating cost को power usage के आधार पर आँका गया तो यह internal users की bursty requests के बावजूद भी 1 million tokens पर सिर्फ़ लगभग $10 के स्तर पर निकला
server load ज़्यादा नहीं था, इसलिए बड़े scale पर चलाने से cost और नीचे जा सकती है
- पूछा गया कि क्या यह calculation सिर्फ़ power usage पर आधारित है
यह सवाल उठाया गया कि LLM के 1 token response और search engine के 1 result को क्या सच में बराबरी से compare किया जा सकता है
लेखक 1,000 LLM calls (लगभग 1 million tokens) की तुलना 1,000 search queries से करता है
लेकिन शक जताया गया कि इसमें शायद 1,000 गुना तक की त्रुटि हो सकती है
(बाद में सुधार: लेखक का तरीका दोबारा देखकर पुष्टि की गई कि तुलना वास्तव में 1,000 API uses के आधार पर ही थी, इसलिए शुरुआती समझ ग़लत थी)
- यह सुधार किया गया कि लेखक ने सचमुच 1,000 LLM calls (कुल 1 million tokens) और 1,000 search requests के unit cost की तुलना की थी
- अगर Gemini 2.0 Flash की कीमत 1 million tokens पर $0.4 है और Bing Search API की कीमत 1,000 queries पर $15 है, तो हिसाब से LLM वाला विकल्प 37 गुना सस्ता पड़ता है
अगर आगे efficiency improvement और 100x cost reduction आने वाली है, तो फिर अभी इतने data centers क्यों बनाए जा रहे हैं, इस पर सवाल है
machine upgrade cycle आने के बाद मौजूदा data center भी काफ़ी नहीं होंगे क्या, यह सोचा गया
और यह संभावना भी जताई गई कि मौजूदा investment frenzy वास्तव में bubble हो सकती है
संबंधित performance comparison article साझा किया गया
लिंक
सिर्फ़ मौजूदा price देखकर भी यह महँगा लगता है
और इतनी तीखी market share competition में सिर्फ़ numbers देखकर निष्कर्ष निकालना उचित नहीं माना गया