Price Per Token (प्रति टोकन कीमत) – LLM API प्राइसिंग डेटा

(pricepertoken.com)

16 पॉइंट द्वारा GN⁺ 2025-07-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

विभिन्न LLM प्रदाताओं (जैसे OpenAI, Anthropic, Google) की कीमतों की एक समान मानक (प्रति टोकन कीमत) पर स्पष्ट तुलना की जा सकती है
- प्रदाता, मॉडल, Input ($/M), Output ($/M) फ़ॉर्मेट में टेबल और ग्राफ़ का समर्थन
अंतिम डेटा अपडेट का समय: 26 जुलाई 2025
किसी विशेष मॉडल को चुनने से पहले, लागत बनाम प्रदर्शन विश्लेषण के लिए संदर्भ के रूप में उपयोगी आधारभूत डेटा प्रदान करता है
न्यूज़लेटर सब्सक्रिप्शन के माध्यम से नियमित रूप से नवीनतम जानकारी प्राप्त की जा सकती है

1 टिप्पणियां

GN⁺ 2025-07-26

Hacker News राय

(OpenRouter में काम करता हूँ) हमने इस समस्या को हल करने के लिए उन vendors के साथ काम किया जो pricing और model information को API के ज़रिए उपलब्ध कराते हैं, जिससे marketplace की जानकारी हमेशा up-to-date रखी जा सकती है। एक साल पहले तक Slack चैनल में बातचीत करके यह जानकारी साझा करने के दिन याद आते हैं। हाल के समय में prompt length, caching आदि जैसे कई factors की वजह से token pricing structure बहुत जटिल हो गया है। असल में अहम बिंदु model-level नहीं बल्कि endpoint-level price per token है। उदाहरण के लिए fast/slow version, thinking/non-thinking आदि में, एक ही model होने पर भी endpoint के हिसाब से कीमत अलग होती है। यह सब संभालने के लिए हमने बहुत मेहनत की है, और मौजूदा नतीजा OpenRouter पर public है (हालाँकि मानता हूँ कि यह अभी भी ऐसा format नहीं है जो खास तौर पर pricing-first और आसानी से पढ़ने लायक हो)
- मैंने अभी इसे और संक्षिप्त और आसानी से देखने लायक बनाने की कोशिश की है, इस प्रयास के लिए सच में धन्यवाद। llm-pricing project साझा कर रहा हूँ
सोच रहा हूँ कि कहीं data गलत तो नहीं है। Google Gemini 2.5 Flash-Lite का input token price $0.10 है, लेकिन यहाँ यह $0.40 दिख रहा है। official pricing table देखें
- data गलत नहीं है, शायद आपने मेरी table को गलत पढ़ा। (संपादन: लगता है मैंने ही गलत जवाब दिया, उस तरह जवाब देना ठीक नहीं था)
यह जानकारी शानदार है, लेकिन वास्तविक UX के नज़रिए से अभी और बहुत कुछ सोचना होगा
- एक ही model की कीमत vendor के हिसाब से अलग होती है
- हर vendor speed, cost आदि अलग मानकों के लिए optimize करता है
- एक ही model के अलग quantized versions मौजूद होते हैं
- Grok API जैसी सेवाएँ batch pricing भी देती हैं
- “thinking/non-thinking”, multimodal support जैसे फ़िल्टर करने लायक और भी बहुत से conditions हैं
- benchmark scores भी एक variable हैं
  artificialanalysis.ai जैसी साइट blended cost (input/output संयुक्त शुल्क) देकर कुछ मदद करती है, लेकिन वास्तव में use case के हिसाब से Input/Output pricing model भी बदलता रहता है। मैं उस दिन का इंतज़ार कर रहा हूँ जब कोई सच में बेहतरीन comparison UI वाली साइट बनाएगा। उम्मीद है कोई न कोई इसे ज़रूर बनाएगा
- (OpenRouter में काम करता हूँ) वेबसाइट पर यह बहुत साफ़ दिखाई नहीं देता, लेकिन वहाँ एक बहुत simple model comparison tool है। उदाहरण: OpenRouter model comparison page देखें
- क्या table में “provider” नाम का एक column जोड़ना, यानी API call वास्तव में कहाँ जाती है, इस समस्या को हल कर सकता है?
- fair comparison बनाना बहुत मुश्किल लगता है। सबसे अच्छा यही होगा कि हर condition के trade-offs को साफ़ दिखाया जाए ताकि user खुद फैसला कर सके। token exchange जैसी कोई चीज़, जहाँ user अपनी requirements पोस्ट करें और कंपनियाँ उसके हिसाब से competitive service दें, एक दिलचस्प idea है। ऐसा marketplace भी सोचा जा सकता है जहाँ कोई भी अपनी computing power share करे, लेकिन वास्तविक क्षमता के बारे में झूठ बोलने या data leak होने की समस्या के लिए अलग समाधान चाहिए होगा
- कृपया benchmark rankings को इतना महत्व देना बंद करें। इस तरह की तुलना के प्रति जो अत्यधिक आसक्ति वाला माहौल बना है, वह दुखद है
पहले नए models के pricing ढूँढने के लिए अनगिनत promo pages पर भटकना पड़ता था, जो बहुत frustrating था। अब OpenRouter पर इसे एक नज़र में देख पाना सुविधाजनक है
मूल समस्या यह है कि tokens vendor/model के हिसाब से अलग होते हैं। tokenizer model से आगे बढ़कर, एक ही vendor के भीतर भी बहुत बड़ा अंतर होता है
- उदाहरण के लिए image input में, gpt-4o-mini, gpt-4 की तुलना में 10 गुना अधिक tokens खर्च करता है
- gemini 2.5 pro का output आम तौर पर token basis पर बिल होता है, लेकिन structured output इस्तेमाल करने पर हर character को token माना जाता है
- price per token की जानकारी महत्वपूर्ण है, लेकिन असल ज़रूरत यह जानने की है कि वही query/response अलग-अलग models पर वास्तव में कितना खर्च कराती है, क्योंकि सभी tokens एक जैसे नहीं होते
- मेरा plan है कि हर दिन वही experiment चलाऊँ और उसकी cost को table में एक column के रूप में जोड़ूँ। उदाहरण के लिए, "इस article को 200 शब्दों में summarize करो" prompt को सभी models पर समान रूप से चलाकर मापा जा सकता है
- gemini 2.5 pro में structured output इस्तेमाल करने पर character=token मॉडल वाली बात के बारे में और विस्तार से सुनना चाहूँगा, मुझे अंतर ठीक से समझ नहीं आ रहा
अभी साइट down है, लेकिन मैं Simon Willison के LLM price calculator की भी recommendation देना चाहूँगा (llm-prices.com)
अगर hardware के लिए लगभग $2500 का budget हो, तो कौन-से models locally चलाए जा सकते हैं? अगर यह कम है, तो लगभग कितना budget चाहिए होगा? और अगर local पर खुद चलाने के tutorials हों तो बताइए
- अगर local LLM इस्तेमाल करने में रुचि है, तो ollama.com एक शुरुआती जगह है। nodes को RAM capacity (GB) में बदला जा सकता है। उदाहरण के लिए Deepseek-r1:7b model को लगभग 7GB चाहिए। context window जितनी बड़ी होगी, memory उतनी ज़्यादा चाहिए होगी। अगर $2500 budget में AI machine बनानी है, तो LPDDR5 जैसी ज़्यादा unified memory वाली configuration की सिफारिश करूँगा। संदर्भ लिंक: Framework AIMax300
- मैंने 18 महीने पहले $1900 में Mac Mini M2Pro 32GB खरीदा था, और यह quantized 40B local models तक काफ़ी अच्छी तरह चलाता है। जब local models की performance कम पड़ती है, तब मैं Gemini 2.5 flash/pro और gemini-cli का combination भी इस्तेमाल करता हूँ। commercial API और local models दोनों में अच्छे options बहुत हैं, इसलिए एक-एक चुनकर जल्दी build करने पर फोकस करना सबसे अच्छा है
- लगभग $600 के आसपास दो used 3090 graphics cards खरीदना सबसे बढ़िया है। 3090 अब भी शानदार value देता है
- Kimi और deepseek ही ऐसे कुछ models हैं जिनकी performance major cloud providers के मुकाबले भी बहुत पीछे नहीं है
- ollama ecosystem के models में, सिर्फ़ ठीक-ठाक CPU हो तो भी कुछ models बिना दिक्कत चल सकते हैं
vendor-wise pricing जानने के लिए अलग-अलग वेबसाइटों पर जाना ही एकमात्र तरीका था, और OpenRouter एक अच्छा alternative है। वहाँ open models भी साथ में listed हैं, और किसी हद तक यह समझा जा सकता है कि model की वास्तविक कीमत/scale क्या है, और इस समय उसे लगभग कितनी subsidy मिल रही है
- OpenRouter API में model और pricing information देखने के लिए एक endpoint है (OpenRouter model API docs)। कमी यह है कि यह हर model के लिए सिर्फ़ एक vendor की जानकारी देता है। commercial models में यह ज़्यादा समस्या नहीं है, लेकिन open source models में vendor के हिसाब से कीमत 5~10 गुना तक बदल सकती है, इसलिए इसे सिर्फ़ reference की तरह इस्तेमाल करना चाहिए
काश pricing data और सामान्य benchmark information को मिलाकर ऐसा resource होता जो दिखाता कि “value for money (benchmark score/token cost)” के हिसाब से सबसे अच्छा model कौन-सा है
हर vendor की pricing policy सिर्फ़ simple input/output billing नहीं है, बल्कि उससे कहीं ज़्यादा जटिल है
- DeepSeek की off-peak time pricing
- OpenAI/Anthropic की batch pricing
- Google/Grok की context window के हिसाब से pricing
- Qwen की thinking/non-thinking tokens के लिए अलग billing
- Qwen coder की input token tier pricing
  संदर्भ के लिए संबंधित पोस्ट: X.com paradite_

Price Per Token (प्रति टोकन कीमत) – LLM API प्राइसिंग डेटा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय