Open model पर स्विच करने की कीमत बहुत बड़ी नहीं है

(marble.onl)

1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

तकनीकी कामकाज में open LLM अब भी performance, compatibility और trust की लागत के साथ आते हैं, लेकिन हाल के समय में यह अंतर घटा है, इसलिए Claude या GPT जैसे proprietary models पर निर्भरता कम करने की गुंजाइश बढ़ी है
पहले Linux पेशेवर काम में जोखिमभरा माना जाता था क्योंकि MS Office compatibility, special file formats और अपरिपक्व open source ecosystem जैसी समस्याएँ थीं, लेकिन web apps के प्रसार और ecosystem के mature होने से यह sacrifice काफी कम हो गया है
21 जून 2026 तक Artificial Analysis intelligence leaderboard में ऊपर Claude और GPT जैसे proprietary API models हैं, और Claude code व प्रमुख APIs ease of use और संगठन के भीतर trust के मामले में अब भी आगे हैं
open models को provider या OpenRouter जैसे third party के जरिए इस्तेमाल किया जा सकता है, लेकिन privacy और data sharing की चिंता रहती है; वहीं उन्हें सीधे चलाने पर privacy बेहतर होती है, पर cost, complexity और speed का बोझ बढ़ता है
Claude में ID verification आने से top-tier model का इस्तेमाल बंद करने की कीमत पर फिर से सोचने की नौबत आई है, लेकिन open models अब leaders से सिर्फ कुछ महीनों के अंतर तक पहुँच चुके हैं, इसलिए short-term productivity loss शायद निर्णायक बाधा न हो

Linux migration cost के नज़रिये से open LLM की मौजूदा स्थिति

पहले Linux का इस्तेमाल तकनीकी काम में भी पेशेवर जोखिम पैदा कर सकता था
- Word documents या PowerPoint को सही तरह render न कर पाने की समस्या हो सकती थी
- Open Office के export result पर भरोसा करना पड़ सकता था
- special file formats को आसानी से न खोल पाने से collaboration मुश्किल हो सकता था
- mainstream software features की बराबरी करने की कोशिश करने वाले open source projects में कई खुरदुरे हिस्से थे
अब productivity software अक्सर web app के रूप में मिलता है, और Linux व open source software दोनों mature हो चुके हैं, जिससे अंतर कम हुआ है
- CAD जैसे कुछ खास क्षेत्रों के software के लिए अब भी Windows की जरूरत हो सकती है
- फिर भी Linux और open source अब पहले की तरह सामान्य कामकाज में बड़े sacrifice की मांग नहीं करते

open models इस्तेमाल करने वालों को जो कीमत चुकानी पड़ती है

open LLM users के लिए अब भी साफ़ penalty मौजूद है
- 21 जून 2026 तक Artificial Analysis intelligence leaderboard में Claude और GPT शीर्ष पर हैं
- सिर्फ performance ही नहीं, compatibility और ease of use में भी Claude code और प्रमुख APIs मजबूत हैं
- OpenAI और Anthropic को LLM queries भेजना अब ऐसे trust स्तर तक पहुँच चुका है जिसे बहुत से लोग स्वीकार करते हैं
open models को API के रूप में इस्तेमाल करने के रास्ते में trust की समस्या जुड़ी रहती है
- model provider खुद serving कर सकता है या OpenRouter जैसी third party serving कर सकती है
- client data या confidential data वाली API calls भेजने में privacy और data sharing के लिहाज़ से अधिक असहजता होती है
- Deepseek या OpenRouter जैसी सेवाओं को requests भेजने पर, वास्तविक जोखिम अलग हो तब भी, ज्यादा चिंता पैदा हो सकती है
सीधे चलाने से privacy की समस्या कम होती है, लेकिन cost, complexity और speed का बोझ आता है
- इन्हें local या cloud में चलाया जा सकता है
- सीधे चलाने पर आम तौर पर कम से कम इनमें से दो समस्याएँ साथ आती हैं: महँगा होना, जटिल होना, या तुलनात्मक रूप से धीमा होना

Claude ID verification से बना migration trigger

Claude में identity verification लागू होने से migration का फैसला तेज़ हुआ
- हाल के models में नए safeguards और Mythos से जुड़ी स्थिति को भी user experience खराब होने के संकेत के रूप में देखा जा रहा है
- ID verification स्वीकार न करने पर top-tier models का इस्तेमाल बंद हो जाना, पेशेवर नुकसान के लिहाज़ से मुख्य समस्या बना रहता है
open models की ओर migration को 2008 के Linux और Windows के अंतर से कहीं अधिक नज़दीकी स्थिति माना जा रहा है
- local या cloud में कई open models चलाने का माहौल पहले से मौजूद है
- open models के लिए coding harness भी उपलब्ध हैं
- open models अब leading models के बहुत करीब आ चुके हैं और आम तौर पर सिर्फ कुछ महीनों से पीछे हैं
- short term में productivity घट सकती है, लेकिन research के समय Matlab से GNU Octave पर जाने की तरह इसे निर्णायक बाधा नहीं माना जा रहा

1 टिप्पणियां

GN⁺ 4 시간 전

Hacker News की राय

यही वजह है कि eurouter.ai पर मैं हर request के लिए नीचे दिए गए routing rules इस्तेमाल करता हूँ
```
{  
"model": "glm-5.2",  
"models": [  
"deepseek-v4-pro",  
"deepseek-v4-flash"  
],  
"provider": {  
"allow_fallbacks": true,  
"data_collection": "deny",  
"data_residency": "EU",  
"max_retention_days": 0,  
"eu_owned": true  
}  
}  
```
महँगा है, लेकिन कम से कम कानूनी तौर पर data privacy की गारंटी मिलती है। Anthropic, OpenAI और OpenRouter की तुलना में इस पर ज़्यादा भरोसा है
निजी तौर पर मुझे अमेरिकी AI tools का इस्तेमाल करना नैतिक रूप से स्वीकार्य नहीं लगता, और उन्हें पैसे देकर उनके शामिल अपराधों का समर्थन नहीं करना चाहता[1]
[1]: https://news.ycombinator.com/item?id=48512339
Anthropic की red lines में जो बात अटकती है, वह “of Americans” वाला वाक्यांश है। तो क्या बाकी सभ्य दुनिया के साथ कुछ भी किया जा सकता है? क्या अमेरिका के बाहर के सहयोगी देशों को machine learning में manipulated tests या data leaks के ज़रिए अस्थिर बनाना ठीक है?
इससे भी अजीब बात यह है कि उनका दावा है कि model https://www.anthropic.com/constitution का पालन करता है और यह सब उसमें अंतर्निहित है। लेकिन Claude Code और cowork के system prompts इन्हीं बिंदुओं को फिर से दोहराते हैं। अगर यह सच में built-in है, तो इसकी ज़रूरत नहीं होनी चाहिए
API version वाले Claude में पर्याप्त prompt engineering की जाए तो उसे हिटलर समर्थक की तरह व्यवहार करने पर मजबूर किया जा सकता है, और यह उनके दावों के सीधे विरुद्ध है। खास तौर पर Opus 4.7 ने एक खास अल्पसंख्यक समूह को निशाना बनाने वाला propaganda भी खुशी-खुशी बना दिया, लेकिन 4.8 में अभी तक वैसी सफलता नहीं मिली। इन दिनों मेरी दिलचस्पी model की cyber capabilities के दुरुपयोग में ज़्यादा है, इसलिए उस दिशा में बहुत गहराई तक नहीं गया
शुरू से निष्कर्ष यही था कि Anthropic की रणनीति सिर्फ image management है, और कंपनी के समर्थन में जो प्रतिक्रिया आई है, उसे देखकर लगता है कि यह काफी सफल रही
मैंने eurouter.ai देखा, और यह प्रस्ताव खुद में काफ़ी खराब लगा
free account पर 15% markup की pricing भी बेमानी है, और अगर आप 40€ प्रति माह नहीं देते तो 1000 requests प्रति माह की सीमा है। लेकिन बदले में यह ठीक-ठीक क्या value देता है, यह समझ नहीं आता
DeepSeek-V4-Pro के लिए सिर्फ TensorX नाम का एक provider है, और cache read cost, DeepSeek की तुलना में 100 गुना से भी ज़्यादा महँगी है ($0.44 vs $0.003625)। खासकर eurouter.ai पर मुझे cache token cost की जानकारी नहीं मिली, इसलिए TensorX की वेबसाइट तक देखनी पड़ी
“अपराध” कहना भी कम है
“AI-assisted targeting in the Gaza Strip” - https://en.wikipedia.org/wiki/AI-assisted_targeting_in_the_G...
“Palantir allegedly enables Israel's AI targeting in Gaza, raising concerns over war crimes” - https://www.business-humanrights.org/de/neuste-meldungen/pal...
“What The Wounds Are Telling Us” - https://www.volkskrant.nl/kijkverder/v/2025/gunshot-palestin...
OpenRouter के दूसरे alternatives को लेकर जिज्ञासा हुई, तो थोड़ा खोजा
EURouter(एम्स्टर्डम): https://www.eurouter.ai/pricing
Eden AI(फ्रांस): https://www.edenai.co/pricing
nexos.ai(लिथुआनिया): https://nexos.ai/pricing/
Requesty(जर्मनी): https://www.requesty.ai/pricing
Cortecs(ऑस्ट्रिया): https://cortecs.ai/pricing
Nordference(एस्टोनिया): https://nordference.ai/pricing
सच में ये कुकुरमुत्तों की तरह उगते दिख रहे हैं। मैंने खुद इनमें से किसी का इस्तेमाल नहीं किया है, इसलिए किसी की सिफारिश नहीं कर रहा, लेकिन ज़रूरतमंद लोगों के लिए options मौजूद लगते हैं
अगर data security ही असली चिंता है, तो आखिरकार समझौता करके self-hosting करने के अलावा कोई हल नज़र नहीं आता
यह दिलचस्प है कि लोग open-weight models को सिर्फ इसलिए खारिज कर देते हैं कि वे proprietary models से "कुछ महीने पीछे" हैं।
मुझे पता है कि LLM की प्रगति की रफ्तार बेहद तेज़ है, लेकिन अगर कुछ महीने पहले के Opus और GPT वास्तव में आज के open-weight models के स्तर पर थे, तो switch न करने की कोई वजह नहीं है। खासकर उन लोगों के लिए जो उन models को कुछ महीने पहले से इस्तेमाल कर रहे थे।
codebase तो बदला नहीं है, इसलिए open-weight models इस्तेमाल किए जा सकते हैं। goalpost नहीं खिसकाना चाहिए।
- नए proprietary models का हर बार "क्रांतिकारी" और "ऐसा X task हल किया जो दूसरे models नहीं कर सके" कहकर प्रचार होता है, लेकिन एक महीने बाद उन्हें पिछली पीढ़ी का कमजोर model कहा जाने लगता है।
  इसलिए Kimi-2.7, GLM-5.2, Deepseek-v4 इस्तेमाल करने में मुझे कोई दिक्कत नहीं दिखती। हम पहले ही काफी हद तक ceiling के पास पहुँच चुके हैं, और अब ज़्यादातर सुधार inference या tool calling को थोड़ा बेहतर बनाने वाले harness improvements और थोड़ी बेहतर reinforcement learning से आते दिखते हैं।
- मैंने open models के साथ बहुत प्रयोग किए हैं, लेकिन "बस कुछ महीने पीछे" वाली बात से अब थक चुका हूँ।
  अभी भी मुझे यक़ीन नहीं है कि सबसे अच्छे open-weight models भी कुछ महीने पहले के Opus के बराबर हैं। मुझे पता है benchmarks क्या कहते हैं और मेरी उम्मीदें भी ऊँची थीं, लेकिन वास्तविक उपयोग का अनुभव benchmarks से मेल नहीं खाता।
  मैं ऐसे बहुत से tasks करता हूँ जिनमें Opus 4.8 भी जूझता है। जब state-of-the-art LLM भी अभी पूरी तरह वहाँ तक नहीं पहुँचे हैं, तो उससे पीछे models पर जाने की प्रेरणा नहीं बनती।
- मैं अभी यह पोस्ट HN पर सिर्फ Anthropic API outage की वजह से पढ़ रहा हूँ, इसलिए यह भी self-hosting के पक्ष में एक वोट है।
- "कुछ महीने पीछे" कहने से थोड़ा ज़्यादा सटीक यह होगा कि अहम सीमा शायद 2025 11 24 Claude Opus 4.5 से पहले और बाद की है। वही model था जिसने Christmas पर OpenClaw का क्रेज़ बनाया था।
- हमारी कंपनी में Deepseek V4 flash provider इस्तेमाल होता है, और वह वास्तव में काम आने वाले workflows के 95% को दसवें हिस्से की लागत पर संभाल लेता है। कभी-कभी हम ज़्यादा ताकतवर model निकालते हैं, लेकिन वह भी एक बार और सोचने के बाद।
  moat इतना समतल है कि बस food +1, production +1 जितना फायदा देता है। road हो तो gold +1।
इन models की सच में हैरतअंगेज़ बात यह है कि उन्होंने मूलतः internet को ऐसे रूप में distilled कर दिया है जो local machine में समा सके, और जिस पर natural language में query की जा सके।
technology और hardware उस knowledge base की बढ़त की रफ्तार से भी तेज़ी से बेहतर हो रहे हैं जिसे distill किया जाना है, इसलिए उपयोगी local models का संभव होना अब लगभग अपरिहार्य लगता है।
इस पोस्ट का रवैया मुझे काफ़ी चौंकाने वाला लगता है। एक तरफ यह Linux और दूसरे free/open source software को अपनाने की कहानी से शुरू होती है, जबकि FOSS का मूल मतलब यह है कि users उस software को समझ और बदल सकें जिसे वे चला रहे हैं।
लेकिन बाकी हिस्सा ऐसे LLM tools के इस्तेमाल की बात करता है जिन्हें लेखक न तो बदल सकता है और न समझ सकता है। विशाल floating-point matrices को बहुत से बहुत compiled code के बराबर कहा जा सकता है, और कई बार proprietary software को decompile करके समझना इससे आसान होता है।
ऊपर से, ज़्यादातर मामलों में "open" model चलाने की कोशिश करें तो ऐसा hardware चाहिए होता है जिसे संभालना मुश्किल है। जो जगह software freedom की इतनी तारीफ़ करती थी, वह यहाँ तक कैसे पहुँच गई, समझ नहीं आता।
शीर्षक तो बहुत निर्णायक है, लेकिन लेख के भीतर लिखा है कि "उम्मीद है कि कम से कम हो"।
मैं कई subscriptions इस्तेमाल करता हूँ, OpenRouter के ज़रिए अलग-अलग LLM providers को token स्तर पर आज़माता हूँ, और open-weight models को local पर भी चलाता हूँ।
अभी भी इससे सहमत होना मुश्किल है। Anthropic और OpenAI के models सच में बाकी से बहुत बेहतर हैं। open-weight models कुल मिलाकर benchmark optimization के लिए कुछ ज़्यादा ही tune किए हुए लगते हैं, और वास्तविक अनुभव benchmarks के संकेतों से बहुत अलग होता है।
जब मैं ऐसा अनुभव बताता हूँ तो अक्सर downvotes मिलते हैं, क्योंकि यह वह सच्चाई नहीं है जो लोग अभी सुनना चाहते हैं, लेकिन जटिल tasks में यही सच है।
मुझे लगता है कि skilled user के हाथ में काफ़ी आसान काम open-weight models से ठीक से हो सकते हैं। अगर थोड़ा supervision देकर किसी junior को दिया जा सकने वाला काम है, तो कोई भी model उसे कर सकता है।
लेकिन मेरे कई कामों में Opus 4.8 Max तक को लगातार ध्यान से देखना, दिशा देना और review करना पड़ता है। Fable में भी यही था, बस थोड़ी कम मात्रा में।
जब बड़े open-weight models इस्तेमाल करते हैं, तो local पर सहने लायक quantization स्तर में ठीक-ठाक speed नहीं मिलती, इसलिए hosted option लेना पड़ता है। और बड़े कामों में आखिरकार उन outputs का इंतज़ार करते हुए token जलते रहने का अहसास ज़्यादा होता है जिन्हें शायद फेंकना ही पड़े। काश वह स्तर आ गया होता, लेकिन अभी नहीं आया है।
- कोई उदाहरण है?
Claude 4.6 पर पहुँचने के बाद ही coding के लिए सच में उपयोगी लगना शुरू हुआ। उसके बाद भी कुछ अच्छे अतिरिक्त features आए, लेकिन अगर 4.6 Sonnet और Opus open-weight होते, तो शायद मुझे और कुछ नहीं चाहिए होता।
Fable को थोड़ा इस्तेमाल करने के बाद यह सोच और मज़बूत हुई है।
मैं local inference के साथ ज़्यादा सहज होना चाहता था, लेकिन hardware नहीं है, इसलिए मैंने ऐसी चीज़ के बारे में सोचना शुरू किया जैसे कोई local cooperative, जिसका ज़िक्र मैंने ज़्यादा नहीं देखा।
आर्थिक नज़रिए से देखें तो कई लोगों का मिलकर अच्छा hardware और open models चलाना समझदारी लग सकता है, लेकिन इस बारे में मैंने कोई चर्चा नहीं देखी। लगा शायद मैं कुछ मिस कर रहा हूँ।
अगर कोई ऐसी service बने जो इस तरह शामिल होना चाहने वालों को एक-दूसरे से जोड़ दे, तो वह काफ़ी बढ़िया होगी।
- ऐसी चीज़ें कम दिखने की वजह यह है कि लोग हिसाब लगाते हैं, समझ जाते हैं कि यह अच्छा सौदा नहीं है, और छोड़ देते हैं।
  अभी /r/localllama के शीर्ष पर भी इसी हिसाब-किताब पर एक पोस्ट है: https://www.reddit.com/r/LocalLLaMA/comments/1ubrcwj/tokenom...
  संक्षेप में, GLM 5.2 चलाने के लिए कम से कम लगभग 20,000 डॉलर लगेंगे, और cloud-hosted version की तुलना में यह तकलीफ़देह रूप से धीमा होगा। यहाँ तक कि अगर मान लें कि server 24 घंटे token compute करता रहे, तब भी break-even आने में कई साल लगेंगे।
  इसे local पर चलाने की अकेली वजह तब है जब पूरी data privacy सबसे बड़ी प्राथमिकता हो। उसके लिए आप भारी premium दे रहे होते हैं।
- बहुत सी जगहें open models बहुत सस्ते rate पर देती हैं। आम तौर पर मैं OpenRouter देखने की सलाह दूँगा, जो कई providers के अलग-अलग metrics track करता है।
- https://news.ycombinator.com/item?id=48524387
- cloud में hosted open models???
हाँ, लेकिन OpenAI की कीमत भी लगभग वही है। जब OpenAI $20/महीना है, तो z.ai को $18/महीना देने की वजह क्या है?
- मुझे जो एक बड़ा फ़ायदा दिखता है, वह यह है कि लोग मॉडल से लगाव बना लेते हैं। मैं भी उनमें शामिल हूँ। open model में अगर आपको अपने लिए बिल्कुल सही मॉडल मिल जाए और अगला version उतना अच्छा न निकले, तो आप पुराने version को हमेशा के लिए चला सकते हैं। चाहे खुद चलाएँ या कोई और आपके लिए चलाए
- एक वजह request limit हो सकती है। OpenAI का ChatGPT Plus w/Codex ($20/महीना) worst case में 5 घंटे की request limit के तहत GPT-5.5 के लिए 15, GPT-5.4 के लिए 20, और GPT-5.4-Mini के लिए 60 requests देता है
  वहीं Z.ai Lite ($18/महीना) GLM 5.2 के लिए worst case में लगभग 80 requests देता है। यह off-peak के हिसाब से है, और peak समय New York time के अनुसार सुबह 2–6 बजे है। इसलिए Z.ai कम कीमत पर ज़्यादा limit दे सकता है
  (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
- https://news.ycombinator.com/item?id=48618455
- OpenCode Go $10/महीना है, और उसकी limit भी इन सबसे या Codex से कहीं ज़्यादा उदार है
- अब शायद pricing page पर यह साफ़ तौर पर नहीं लिखा है, लेकिन z.ai coding plan पहले दावा करता था कि उसी price range के Claude plan की तुलना में उसका उपयोग 3 गुना है। यह कितना सही था, पता नहीं, लेकिन सिर्फ API pricing देखकर भी GLM काफ़ी सस्ता दिखता है
एक समय था जब Linux साफ़ तौर पर सक्षम था, लेकिन उसे इस्तेमाल में आसान बनाने के लिए hacking और अतिरिक्त मेहनत चाहिए होती थी, इसलिए Linux चलाना एक तरह के बाग़ीपन जैसा आसान फैसला था
लेकिन मेरे अनुभव में open model अभी क्षमता या operational requirements के मामले में उस स्तर तक नहीं पहुँचे हैं। GLM5.2 सक्षम लगता है, लेकिन उसे उस स्तर पर चलाने के लिए शायद बहुत बड़ा GPU cluster चाहिए होगा
अगर आप hosted API के ज़रिए open model तक पहुँच रहे हैं, तो वह hosted API के ज़रिए closed model इस्तेमाल करने से अलग नहीं रह जाता। 15 साल पहले Linux इस्तेमाल करने के समय की तुलना में incentive कमज़ोर पड़ जाता है
कोई ग़लतफ़हमी न हो। मैं local model चलाना और उससे संतुष्ट होना चाहता हूँ, लेकिन अभी वह समय नहीं है
- “अगर आप hosted API के ज़रिए open model तक पहुँच रहे हैं, तो वह hosted API के ज़रिए closed model इस्तेमाल करने जैसा ही है” — यह सही नहीं है
  असली बात यह है कि उस पर किसी एक entity का नियंत्रण नहीं होता, इसलिए आपको enshittification का शिकार नहीं बनाया जा सकता। ऐसा पहले हो चुका है, अभी भी हो रहा है, और आगे भी होगा
  अगर weights खुले हों, तो आपको आसानी से खींचा, lock-in किया, या access से वंचित नहीं किया जा सकता। कोई कंपनी ऐसा करने की कोशिश भी करे, तो server farm वाला कोई दूसरा provider आपको ग्राहक के रूप में ले सकता है, और आपके workflow में बदलने की चीज़ सिर्फ API URL और key होगी
  आप उसी मॉडल से बात करते रहेंगे, जिसकी personality और knowledge वही होगी
मैं लेख की बड़ी दिशा से कुछ हद तक सहमत हूँ, लेकिन दो बातें हैं
पहली, मेरे tests में open model अभी software development, engineering, और उनसे जुड़े कामों में कम से कम Claude Opus की टक्कर के स्तर तक नहीं पहुँचे थे
दूसरी, जब तक यह संभव है, इसका आनंद ले लेना चाहिए। अगर इस साल के अंत तक security के बहाने इन open models को “ग़ैरक़ानूनी” घोषित नहीं किया गया, तो मुझे सचमुच हैरानी होगी। मैंने इसे बहाना इसलिए कहा, क्योंकि असली प्रेरक शक्ति regulatory capture और industrial protectionism होने की संभावना ज़्यादा है
- अगर अमेरिका में models पर पाबंदी लगती है, तो इससे सिर्फ चीन जैसे प्रतिस्पर्धी देश मज़बूत होंगे

Open model पर स्विच करने की कीमत बहुत बड़ी नहीं है

Linux migration cost के नज़रिये से open LLM की मौजूदा स्थिति

open models इस्तेमाल करने वालों को जो कीमत चुकानी पड़ती है

Claude ID verification से बना migration trigger

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय