- लोकल inference की लागत पर बिजली बिल से ज़्यादा डिवाइस की कीमत का असर पड़ता है, और M5 Max MacBook Pro 64GB मॉडल की कीमत $4,299 मानी गई है
- लोड के दौरान Apple Silicon लैपटॉप 50~100W बिजली खपत करते हैं, और kWh पर $0.20 के हिसाब से बिजली की लागत लगभग $0.48 प्रतिदिन ही बनती है
- Gemma4:31b को M5 Max पर 10~40 tokens प्रति सेकंड की रफ़्तार से देखा गया, जिससे प्रति million tokens लागत लगभग $0.40~$4.79 तक जाती है
- OpenRouter पर Gemma4 31b की कीमत लगभग $0.38~$0.50 प्रति million tokens है, इसलिए सिर्फ़ बहुत आशावादी परिस्थितियों में ही यह MacBook Pro Max के बराबर पहुँचती है
- लोकल inference आम तौर पर OpenRouter से महँगा और धीमा है, और accounting के नज़रिए से Pro Max की लागत को लगभग 3 गुना प्रति million tokens मानना उचित है
लोकल inference लागत की गणना
- बिजली दर Northern Virginia के हालिया बिल के आधार पर kWh पर $0.18 है, लेकिन गणना में इसे बढ़ाकर kWh पर $0.20 माना गया है
- EIA की 2025 अमेरिकी residential औसत बिजली दर kWh पर $0.1730 है
- यदि Apple Silicon लैपटॉप लोड के दौरान 50~100W खपत करता है, तो बिजली लागत $0.009~$0.018 प्रति घंटा आती है, यानी मोटे तौर पर $0.02 प्रति घंटा मान सकते हैं
- 100% inference लगातार चलाने पर भी बिजली लागत लगभग $0.48 प्रति दिन रहती है
- 14-inch M5 Max MacBook Pro 64GB मॉडल की Apple वेबसाइट पर कीमत $4,299 है, और 64GB को Gemma 4 31b जैसे मॉडल चलाने के लिए पर्याप्त स्तर माना गया है
- हार्डवेयर जीवनकाल को 3 साल, 5 साल और 10 साल में बाँटें तो वार्षिक लागत क्रमशः $1,433, $860 और $430 बनती है
- प्रति घंटा हार्डवेयर लागत 3 साल पर $0.16358, 5 साल पर $0.09815, और 10 साल पर $0.04908 निकलती है
- सामान्य उपयोग में 5 साल का जीवनकाल एक उचित अनुमान है; 7 या 10 साल भी संभव हैं, लेकिन अधिकतम inference लोड पर 3 साल भी एक उचित अनुमान हो सकता है
प्रति token लागत और OpenRouter से तुलना
- लोकल मॉडल लागत का मुख्य चर प्रति घंटे उत्पन्न किए जा सकने वाले tokens की संख्या है, और M5 Max टेस्ट में Gemma4:31b जैसे मॉडल 10~40 tokens प्रति सेकंड की रेंज में थे
- 10 tokens प्रति सेकंड पर यह 36,000 tokens प्रति घंटा होता है, और 3~10 साल के जीवनकाल व kWh पर $0.18 के आधार पर प्रति million tokens लागत $1.61~$4.79 बनती है
- 40 tokens प्रति सेकंड पर यह 144,000 tokens प्रति घंटा होता है, और प्रति million tokens लागत घटकर $0.40~$1.20 तक आ जाती है
- Apple Silicon पर कुल लागत को बिजली से ज़्यादा हार्डवेयर लागत तय करती है
- OpenRouter पर Gemma4 31b की कीमत लगभग $0.38~$0.50 प्रति million tokens है
- 50W, 40 tokens प्रति सेकंड, और 10 साल उपयोग जैसी आशावादी परिस्थितियों में MacBook Pro Max की लागत OpenRouter के क़रीब पहुँचती है
- 100W, 10 tokens प्रति सेकंड, और 3 साल उपयोग जैसी निराशावादी परिस्थितियों में MacBook Pro Max, OpenRouter से 10 गुना महँगा पड़ता है
- accounting दृष्टिकोण से Pro Max पर लोकल inference लागत को OpenRouter की तुलना में लगभग 3 गुना प्रति million tokens मानना उचित है
- ज़्यादातर मामलों में लागत से भी बड़ा कारक inference speed है, और लोकल inference क्लाउड inference से धीमा है
- OpenRouter के कुछ Gemma 4 providers 60~70 tokens प्रति सेकंड तक पहुँचते हैं, जो Pro Max पर देखे गए 10~20 tokens प्रति सेकंड से 3~7 गुना तेज़ है
- काम के लिए लैपटॉप इस्तेमाल करने वाले कर्मचारी की salary लागत, लोकल पर जनरेट किए जा सकने वाले tokens की लागत से लगभग 1000 गुना अधिक होती है, इसलिए इस संदर्भ में Anthropic पर पैसा खर्च करना अधिक तर्कसंगत है
- फिर भी यह तथ्य चौंकाने वाला है कि consumer devices पर Anthropic Sonnet के क़रीब प्रदर्शन वाला मॉडल चलाया जा सकता है
1 टिप्पणियां
Hacker News की राय
यह विश्लेषण खास अच्छा नहीं है, क्योंकि इसमें हर वैल्यू को लगातार ऊपर की ओर राउंड करके गिना गया है। बिजली की लागत को 10% बढ़ाकर माना गया है, और power usage range में निचले मान के 2x वाले ऊपरी मान को चुना गया, फिर उस पर बढ़ी हुई बिजली लागत लगा दी गई।
और फिर यह मान लिया गया है कि नया खरीदा गया Mac inference के लिए 24 घंटे maximum load पर चलेगा। ऐसा क्यों करना चाहिए? Apple Silicon तेज़ है, लेकिन जैसा लेखक खुद कहता है, लगभग 10~40 tokens/sec पर यह बुरा नहीं है, पर इसका मूल उपयोग यही नहीं है।
डेटा सेंटर घरों वाली बिजली दरें नहीं देते, ज़्यादा power-efficient chips इस्तेमाल करते हैं, और ऐसे chips इस्तेमाल करते हैं जो Mac के लिए डिज़ाइन नहीं किए गए। Apple Silicon अगर 24/7/365 tokens नहीं उगल रहा है, और आप सिर्फ़ इसी मकसद से नया hardware नहीं खरीद रहे, तो यह काफ़ी ठीक है। आप हफ़्ते में कुछ बार ज़रूरी कामों के लिए Mac Studio इस्तेमाल कर सकते हैं और tailnet के पार ollama को लगभग “मुफ़्त जैसा” चला सकते हैं। Mac Studio को liquid-cooled H100 cluster की तरह चलाने की कोशिश न करें, तो economics समझ में आती है, और multi-tenant hardware व सस्ती बिजली के साथ प्रति watt ज़्यादा tokens देने वाला विकल्प लगभग हमेशा जीतेगा, यह तो स्वाभाविक है
अगर मैं गलत नहीं समझ रहा, तो यह गणना token generation cost में पूरे laptop की कीमत जोड़ रही है। लगता है यह बात छूट गई कि पैसे देकर आपको सिर्फ़ LLM output नहीं, laptop भी मिला।
अगर आप इस मशीन को किसी अँधेरे कोने में रखकर सिर्फ़ tokens उगलने वाला server बनाना चाहते हैं, तो laptop इस काम के लिए सच में बहुत खराब तकनीकी विकल्प है। लेकिन अगर आप laptop को laptop की तरह इस्तेमाल करना चाहते हैं, तो laptop का होना, न होने से बड़ा फ़ायदा है।
इसके अलावा आपको privacy, censorship से आज़ादी, और इस्तेमाल किए जा रहे मॉडल पर control भी मिलता है। आप यह जोखिम टाल सकते हैं कि किसी खास मॉडल की आदतों पर workflow बनाने के 3 महीने बाद वह मॉडल अचानक गायब हो जाए
ऐसे लोगों में हैरान कर देने लायक संख्या में लोग Mac Studio पर $10,000 से ज़्यादा खर्च कर चुके हैं, फिर भी compute bottleneck बना रहता है और Gemma 4 से ज़्यादा efficient विकल्प भी बहुत कम हैं
frontier AI कंपनियाँ नुकसान में बेच रही हैं।
u/bastawhiz की बात[0] अलग भी रख दें, तो भी Claude, OpenAI, Gemini आदि सचमुच सैकड़ों अरब डॉलर जला रहे हैं और इस उम्मीद में $1 की चीज़ कुछ cents में बेच रहे हैं कि आख़िर में वही बचे रहेंगे।
अगर मैं संतरे उगाने में $10 लगाऊँ और $1 में बेचूँ, तो स्वाभाविक है कि खुद उगाना ज़्यादा महँगा लगेगा। ये models समय के साथ महँगे ही होंगे, और वे बस बड़े नुकसान पर बेचना बंद करने से पहले market capture करना चाहते हैं।
[0]: https://news.ycombinator.com/item?id=48168433
और scale बढ़ने पर inference बहुत ज़्यादा efficient हो जाता है, इसके तकनीकी कारण भी हैं
LLAMA 3.1 405B की कीमत 2024 में $6/$12 प्रति मिलियन tokens थी, लेकिन 2026 में वही मॉडल $3/$3 है। किसी समय का सबसे intelligent model पहले से बहुत बड़ा होता है, इसलिए GPT5.5 के token costs 5.4 से ज़्यादा हैं। लेकिन 2 साल बाद GPT5.5 आकार के model को serve करना आज के GPT5.5 से सस्ता होने की संभावना है। Distillation techniques उसी benchmark score के लिए required parameters की संख्या घटाने में असरदार हैं, इसलिए 2 साल बाद उसी स्तर की intelligence भी और सस्ती मिल सकती है
अगर आपको अच्छा dense model चाहिए, तो qwen3.6 27B इस्तेमाल करना बेहतर है। यह तेज़ भी है, और अगर आपको मेरे यह कहने पर भरोसा नहीं कि यह ज़्यादा smart है, तो Gemma की तुलना में बड़ा, धीमा और memory-efficient कम होने के बावजूद OpenRouter pricing खुद यह बता देती है।
अगर आपको और तेज़ model चाहिए, तो qwen3.6 35B ले लीजिए। अगर Gemma model आपके काम पर ज़्यादा फिट बैठता है, तो gemma 4 26B भी चल सकता है। लोग, जिनमें मैं भी शामिल हूँ, इन दोनों में ख़ासकर 27B की बात बार-बार यूँ ही नहीं करते। यह इतना छोटा है कि ठीक-ठाक speed पर चल जाता है, और अब llama.cpp के officially supported built-in MTP की वजह से और भी, जबकि बहुत से workloads और मेरे आज़माए हर benchmark में यह उन models के बराबर या उनसे आगे निकल जाता है जिनसे इसे मूलतः हारना चाहिए था।
कुछ दिन पहले मैं इंटरनेट बंद होने की हालत में उठा, pi पर 27B चलाया, router password दिया और उससे पूछा कि समस्या क्या है। मैं कॉफ़ी लेने गया और वापस आकर देखा तो आगे क्या करना है, यह सुझावों सहित पूरी report तैयार थी। मुझे OpenRouter पसंद है और मैं उसे कई कामों में इस्तेमाल करता हूँ, लेकिन वह सस्ता नहीं पड़ता।
बेशक, यह सब उन सभी models को इस्तेमाल करने के मेरे निजी अनुभव पर आधारित कुछ subjective बात भी है। 31B Gemma कुछ मामलों में आगे हो सकता है, लेकिन मुझे ऐसा नहीं मिला, और मैंने जिन 4 models का ज़िक्र किया, उन्हें release होने के कुछ घंटों बाद से लगातार अलग-अलग कामों पर चलाता रहा हूँ। यहाँ तक कि मेरे hermes setup में gemma 4 26B से qwen3.5 9B पर जाने से result बेहतर हुए, और वह 3.6 series जैसी बहुत सुधरी हुई भी नहीं थी। ऐसे analysis में वर्तमान consumer hardware के हिसाब से state of the art माने जाने वाले model का इस्तेमाल न करना थोड़ा outdated या cherry-picking जैसा लगता है
इसी तरह DeepSeek V4 Flash भी local model के रूप में काफ़ी accessible है, और DwarfStar 4 इस्तेमाल करें तो 96GB MacBook पर इसे आराम से चलाया जा सकता है।
inference cost देना अपने आप में समस्या नहीं है, लेकिन local models कुछ वाकई चौंकाने वाली संभावनाएँ खोलते हैं, जैसे पूरी तरह offline usage, personally identifiable information या legally privileged data को process करना, और ऐसे काम जहाँ billing overrun की बिल्कुल चिंता न करनी पड़े।
एक और बात यह है कि आप ऐसा service बना सकते हैं जिसे लेकर आपको यक़ीन हो कि वह service outage या shutdown की चिंता के बिना 100% चलता रहेगा। frontier models में अभी यह समस्या है। मेरा local Qwen setup पूरी तरह predictable है, और जब तक उसे चलाने लायक hardware मिलता रहेगा, वह चलता रहेगा।
समझदारी की strategy दोनों का इस्तेमाल करना है। local inference tools रखें, और साथ में low-cost व high-cost cloud models भी। GPT-5.5 और Opus-4.7 को कठिन reasoning tasks जैसे कामों के लिए इस्तेमाल करें, दूसरे को Claude subscription के ज़रिए workaround करके सस्ता बनाएँ, थोड़े कम कठिन कामों के लिए DeepSeek V4 Pro, ज़्यादातर code generation के लिए V4 Flash, और जहाँ local model चाहिए वहाँ local model
वे providers शायद Alibaba की 27B Dense first-party pricing का अनुसरण कर रहे हैं, और व्यक्तिगत रूप से मुझे यह थोड़ा महँगा लगता है। हो सकता है इसकी वजह यह हो कि frontier models या Gemma की तुलना में Qwen models की inference efficiency कम है, और लंबी sequence length देना महँगा पड़ता है
27B के साथ debugging वाला उदाहरण अच्छा है। मैंने 4x memory वाले Mac खरीदने के बाद वैसी ही सफलता देखी, और Qwen 35B A3B ने अचानक बहुत अच्छा प्रदर्शन किया। laptop पर 9B को अच्छा कहना मुश्किल था
यहाँ बहुत से comments मूल पोस्ट के analysis की दिक्कतों पर हैं, लेकिन बड़े निष्कर्ष के बारे में कई लोगों का मानना है कि यह लगभग “difference without distinction” जैसा है। privacy को छोड़ दें, तो शुद्ध cost और performance के हिसाब से individual developers के लिए self-hosting की बजाय hosted services इस्तेमाल करना बेहतर है।
काम में token cost employer देता है, और काम के बाहर ज़्यादातर developers को अपने पसंदीदा provider की $20/$100/$200 monthly subscription काफ़ी लगती है। सिर्फ़ cost-performance के नज़रिये से local models चलाना बहुत कम developers के लिए सही बैठता है।
और ज़्यादा अहम बात यह है कि वास्तव में local model setup करना cost saving या productivity boost से ज़्यादा hobby, learning, या privacy control का मामला लगता है
personal computer ने पहले वाला terminal era ख़त्म किया था, उन कंपनियों में ज़्यादातर गायब हो गईं, और IBM व कुछ बचे हुए नाम रह गए, लेकिन वे भी अपने पुराने रूप की सिर्फ़ परछाइयाँ हैं
लेखक ने सिर्फ़ output token cost की तुलना की, लेकिन सामान्य agentic workloads में input tokens लागत का बड़ा हिस्सा होते हैं। local inference में मूल रूप से input tokens मुफ़्त होते हैं।
बस implicit costs आते हैं, जैसे लंबा time-to-first-token, ज़्यादा power usage, और output token speed कम होना
मैंने अपनी OpenRouter activity में कुछ random agent sessions देखे, तो input cost output cost की 10x थी। OpenRouter का prompt caching जटिल है और भरोसेमंद नहीं लगता, लेकिन local hardware पर llama-cpp में यह ज़्यादातर लगभग मुफ़्त है
अगर समझदारी से करें, तो ऐसा नहीं है। MacBook M5 Max 128GB एक $6,000 premium laptop है, लेकिन यह बहुत सारे काम कर सकता है और पूरे दिन इस्तेमाल होने वाली शानदार main machine बन सकता है।
इसके ऊपर आप DeepSeek V4 Flash चलाकर censorship या restrictions के बिना, इंटरनेट कनेक्शन के बिना भी, बहुत sensitive personal data के साथ, non-trivial काम local में कर सकते हैं। यह अच्छा सौदा है। अगर आप OpenAI और उन कंपनियों को छोड़ने के लिए $25,000 वाला dual Mac Studio 512GB खरीदते हैं, तो performance और cost दोनों में निराश होंगे
ब्लॉग का लेखक होने के नाते, मैं यह पोस्ट MacBook M5 Max 128GB पर लिख रहा हूँ
मैं यह सब 100% समय नहीं करता। रात भर machine learning training चलाता हूँ और सुबह results देखता हूँ, काम के दौरान इसे server की तरह चलाकर local models चलाता हूँ, और निजी समय में video editing व 3D modeling करता हूँ। यह अविश्वसनीय रूप से versatile machine है, और यह सब data को device के अंदर रखते हुए और workflow पर पूरा control बनाए रखते हुए होता है
एक और खुला राज़ यह है कि कुछ कंपनियाँ Gemini 3.1 या GLM 4.6 जैसे काफ़ी अच्छे models के साथ दसियों हज़ार tokens मुफ़्त दे रही हैं
मूल पोस्ट जगह-जगह Gemma से तुलना करती है, लेकिन निष्कर्ष यह निकालती है कि Anthropic को पैसे देना बेहतर है। Anthropic output tokens के लिए $15 प्रति मिलियन लेता है, जो OpenRouter के हिसाब से भी 30~35x महँगा है।
यह वैसा है जैसे घर की electric bicycle और electric bicycle rental की तुलना करके फिर यह निष्कर्ष निकालना कि लगभग उतनी ही speed मिलने के कारण Toyota किराये पर लेनी चाहिए। इतनी खराब पोस्ट को इतना ध्यान मिलता देख थकान होती है
लेख आख़िरी हिस्से में बड़ी गलती करता है और इसी वजह से गंभीर रूप से गलत है। सिर्फ़ generated tokens देखकर यह नहीं कहा जा सकता कि वही cost है। agentic coding में turns ज़्यादा होते हैं, इसलिए सिर्फ़ output tokens नहीं बल्कि हर बार भेजे जाने वाले सभी input tokens की भी लागत लगती है। cache होने पर 10x सस्ता मान लें, तब भी यही सच है। इसलिए यह गणना API cost को बिल्कुल सही नहीं दिखाती।
दूसरी बात, अगर आप agent teams इस्तेमाल करें, तो local token generation को काफ़ी बढ़ाया जा सकता है। single conversation memory bandwidth से बंधी रहती है और compute resources का पूरा उपयोग नहीं कर पाती। अगर कई agents के tokens को batch किया जा सके, तो token generation आसानी से 5x तक बढ़ सकती है
cloud AI से काम चल ही नहीं सकता। मेरे लिए speed या state-of-the-art models से ज़्यादा अहम privacy और पूरा control है
मेरे लिए यह rooftop solar जैसी ही श्रेणी में आता है। अगर आप infrastructure control और dependencies घटाने से मिलने वाली मानसिक शांति को महत्व देते हैं, तो कड़ी आर्थिक तर्कसंगतता का पूरी तरह फिट होना ज़रूरी नहीं है