ओपन वेट्स चुपचाप बंद होते जा रहे हैं, और यह समस्या है

(martinalderson.com)

1 पॉइंट द्वारा GN⁺ 1 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Open weights मॉडल किसी को भी अपने हार्डवेयर पर सीधे LLM चलाने देते हैं, जिससे संवेदनशील डेटा की सुरक्षा, fine-tuning और quantization में लचीलापन, और frontier मॉडल्स की तुलना में कम inference लागत मिलती है
MiniMax, Z.ai, DeepSeek, Qwen जैसे चीनी रिसर्च लैब्स के मॉडल अग्रणी open weights मॉडल माने जाते हैं, जबकि Google का Gemma और OpenAI का gpt-oss आम तौर पर उनसे पीछे माने जाते हैं
Open weights मॉडल OpenAI, Anthropic, Google जैसी frontier लैब्स पर कीमत घटाने का दबाव डालते हैं, क्योंकि सस्ते विकल्प पर स्विच करने की संभावना अल्पाधिकारवादी pricing व्यवहार को सीमित करती है
हाल में Meta ने अपने नए “Muse Spark” में मॉडल जारी करना बंद कर दिया, Alibaba ने API-first या API-only रिलीज़ बढ़ाई हैं, और Kimi K2.6 तथा Mistral भी अधिक कड़े license terms लागू करने की दिशा में बढ़ते दिख रहे हैं
अगर प्रतिस्पर्धी open weights ecosystem कमजोर पड़ता है, तो कुछ frontier लैब्स और कुछ चीनी रिसर्च लैब्स AI उपयोगकर्ताओं के consumer surplus का बड़ा हिस्सा अपने पास खींच सकती हैं; distillation भी कोई बुनियादी समाधान नहीं है, क्योंकि उसके लिए भी शक्तिशाली base model तक पहुंच चाहिए

Open weights मॉडल की भूमिका

LLM बाज़ार में closed model और open weights मॉडल साथ-साथ मौजूद रहे हैं
- Closed model में, नाम के विपरीत, OpenAI के लगभग सभी मॉडल शामिल हैं
- Open weights मॉडल दूसरे लैब्स जारी करते रहे हैं, और Llama series इसका प्रमुख उदाहरण रही है
- हाल के समय में MiniMax, Z.ai, DeepSeek, Qwen (Alibaba) जैसे चीनी रिसर्च लैब्स के मॉडल अग्रणी open weights मॉडल माने जाते हैं
- Google की Gemma series और OpenAI के gpt-oss मॉडल आम तौर पर चीनी मॉडल्स से पीछे माने जाते हैं
Open weights मॉडल किसी को भी इन्हें अपने हार्डवेयर पर सीधे चलाने की सुविधा देते हैं
- आम तौर पर ऐसे मॉडल चलाने के लिए बहुत शक्तिशाली हार्डवेयर की ज़रूरत होती थी
- छोटे मॉडल बहुत अधिक उपयोगी होते जाने के कारण यह स्थिति तेज़ी से बदल रही है
लोकल रनिंग के API के जरिए OpenAI, Anthropic, Google जैसे providers को request भेजने की तुलना में तीन फायदे हैं
- अगर संवेदनशील डेटा को frontier लैब्स के data center में भेजना मुश्किल या असंभव हो, तो on-premise रनिंग से डेटा को नेटवर्क के बाहर जाने से रोका जा सकता है
- मॉडल को fine-tuning के साथ इस्तेमाल किया जा सकता है, या खास हार्डवेयर शर्तों के मुताबिक quantize (लगभग compression) किया जा सकता है, जिससे लचीलापन बढ़ता है
- अपने हार्डवेयर का उपयोग करने पर सिर्फ hardware capex, बिजली और संचालन लागत देखनी होती है; hosting provider इस्तेमाल करने पर भी प्रति token लागत आम तौर पर frontier मॉडल्स की 10% से कम होती है

कीमत का दबाव और बाज़ार अनुशासन

Open weights मॉडल frontier लैब्स पर काफ़ी कीमत घटाने का दबाव डालते हैं
- यह loosely contestable markets theory जैसा है, जिसमें कहा जाता है कि monopoly या oligopoly बाज़ार में भी अगर सस्ता और भरोसेमंद विकल्प हो, तो incumbent प्रतिस्पर्धात्मक व्यवहार करते हैं
- यह theory सख्ती से देखें तो लगभग शून्य sunk cost मानती है, जबकि frontier मॉडल training उसका उलटा मामला है
- फिर भी मुख्य mechanism वही रहता है: उपभोक्ता के पास स्विच करने का संभावित विकल्प होना कीमतों पर अनुशासन लगाता है
Frontier मॉडल बेहतर गुणवत्ता और contractual लाभों के कारण अधिक कीमत वसूल सकते हैं
- उपयोगकर्ता बेहतर मॉडल के लिए कहीं अधिक भुगतान करने को तैयार हो सकते हैं
- लगभग 1 ट्रिलियन डॉलर की कंपनी के साथ inference contract का मूल्य, सस्ते inference provider के लिए OpenRouter इस्तेमाल करने से अलग होता है
- OpenAI आदि SLA और confidentiality जैसी चीज़ों पर कानूनी रूप से बाध्यकारी आश्वासन देते हैं
लेकिन open weights मॉडल अल्पाधिकारवादी pricing व्यवहार को मुश्किल बनाने के लिए पर्याप्त दबाव पैदा करते हैं
- अगर frontier लैब्स रातोंरात कीमत 5 गुना बढ़ा दें, तो खासकर कम demanding use case में कई उपयोगकर्ता open weights मॉडल्स पर स्विच कर सकते हैं
- Pricing व्यवहार के लिहाज़ से open weights मॉडल generic दवाओं जैसी भूमिका निभाते हैं
- Generic मौजूद हों तो बड़ी pharma कंपनियां अपनी कीमत generic के काफी नज़दीक लाती हैं, और कीमत बनाए रखने के लिए generic से एक कदम आगे की नई therapies पर ध्यान देती हैं
अगर open weights मॉडल न हों, तो frontier लैब्स की pricing power आज की तुलना में बहुत अधिक हो सकती है

लाइसेंस और रिलीज़ तरीके में बदलाव

Open weights मॉडल की उपलब्धता कोई स्वाभाविक या तयशुदा बात नहीं है
- मॉडल training में भारी लागत लगती है, और इन्हें बनाने वाली कंपनियां commercial companies हैं
- भले उन्हें चीनी राज्य का पर्याप्त समर्थन मिलता हो, वे कोई charity नहीं हैं
हाल में open weights मॉडल्स के license terms स्पष्ट रूप से कड़े होते दिख रहे हैं
- Meta ने अपने नवीनतम “Muse Spark” मॉडल में open weights पूरी तरह बंद कर दिए और मॉडल बिल्कुल जारी नहीं किया
- Alibaba बढ़ते हुए तौर पर मॉडल पहले API के जरिए जारी कर रहा है, या कुछ variants में सिर्फ API के जरिए ही जारी कर रहा है
- Kimi के K2.6 license में 10 करोड़ से अधिक monthly active users या 2 करोड़ डॉलर से अधिक monthly revenue वाले products के लिए UI में “Kimi K2.6” को स्पष्ट रूप से दिखाने वाली attribution clause जोड़ी गई है
- फ्रांस की Mistral भी commercial use पर तरह-तरह की license शर्तें लगा रही है
अपवाद भी हैं
- DeepSeek उलटे अधिक उदार दिशा में गया है
- लेकिन कुल मिलाकर रुझान कम उदार licenses का है, और Meta तथा Alibaba कुछ या सभी मॉडल रिलीज़ बंद करने की दिशा में बढ़ रहे हैं

open weights में कमी से बन सकने वाली बाज़ार संरचना

एक साल बाद स्थिति ऐसी हो सकती है कि जो शीर्ष-स्तरीय मॉडल पहले open weights के रूप में जारी होते, वे अधिकतर या पूरी तरह जारी ही न किए जाएं
- अभी के लिए यह एक hypothetical स्थिति है
- मॉडल्स के बीच कीमत तुलना बनी रह सकती है
- लेकिन अगर training लागत और जटिलता बढ़ती रही, तो शायद कुछ ही खिलाड़ी बचें
संभावित बाज़ार संरचना पश्चिम की तीन frontier लैब्स और कुछ चीनी रिसर्च लैब्स तक सिमट सकती है
- यह भी संभव है कि चीनी रिसर्च लैब्स राज्य-नेतृत्व वाले ‘merger’ के जरिए एक या दो चीनी ‘superlab’ में समाहित हो जाएं
- रणनीतिक उद्योगों में ऐसी consolidation के कई उदाहरण हैं
- चीन ने रेलवे (CRRC), परमाणु ऊर्जा, airlines और telecom में ऐसा किया है
- पश्चिम भी अपवाद नहीं है; शीत युद्ध के बाद defense prime contractors के consolidation के उदाहरण मौजूद हैं
ऐसा बदलाव AI से पैदा होने वाले consumer surplus को कुछ कंपनियों द्वारा अपने पक्ष में खींच लेने की स्थिति बना सकता है
- AI उपयोगकर्ताओं को token लागत से कहीं अधिक मूल्य मिल रहा है
- मूल्य इतना अधिक हो सकता है कि वे मौजूदा कीमत से 10 गुना अधिक भी बिना झिझक चुकाएं
- उच्च-मूल्य वाले विशेषज्ञ कार्य या agentic काम में वास्तविक भुगतान और willingness to pay के बीच अंतर और बड़ा हो जाता है
- Open weights जैसी price floor के बिना oligopoly इस अंतर को मुनाफे में बदलने की स्थिति में आ जाती है
आर्थिक सिद्धांत के अनुसार, ऐसी दुनिया में शक्ति और आर्थिक संपदा ऐतिहासिक स्तर पर कुछ कंपनियों में केंद्रित हो सकती है
- लैब्स consumer surplus को सीधे margin के रूप में निकालना शुरू कर सकती हैं
- कुछ कंपनियों के oligopoly और नए मॉडल्स के लिए आवश्यक विशाल capex जैसे entry barrier के कारण price competition सीमित रहने की संभावना है

विरोधी संभावनाएं और बाकी जोखिम

यह भी संभव है कि निराशावादी दृष्टि बढ़ा-चढ़ाकर देखी गई हो
- अगर हार्डवेयर तेज़ी से सुधरता है, तो समय के साथ “काफी अच्छे” मॉडल train करना उलटे आसान हो सकता है
- AI hardware निर्माता बहुत कम हैं, लेकिन AI hardware बाज़ार में कड़ी प्रतिस्पर्धा दिख रही है
Distillation को एक रास्ता माना जाता है, लेकिन यह बुनियादी समाधान नहीं है
- Distillation में frontier मॉडल के outputs से छोटे मॉडल को train किया जाता है
- लेकिन शुरुआत में ही शक्तिशाली base model तक पहुंच होनी चाहिए
- और जोखिम में वही चीज़ है: शक्तिशाली base model तक पहुंच
प्रतिस्पर्धी open weights ecosystem, पूरे AI economy के नीचे चुपचाप मौजूद एक load-bearing assumption रहा है
- इस आधार का कमजोर होना ध्यान देने लायक है
- व्यापक अर्थव्यवस्था पर इसके असर बहुत बड़े हो सकते हैं

शब्दावली और पूरक व्याख्या

Open weights मॉडल वह श्रेणी है जिसमें सिर्फ अंतिम मॉडल जारी किया जाता है
- तकनीकी रूप से इन्हें closed, open weights, और fully open या reproducible model जैसी तीन श्रेणियों में बांटा जा सकता है
- Fully open या reproducible model में training data और संबंधित training procedure documentation भी शामिल होता है
- यह श्रेणी software की दुनिया के open source के सबसे करीब है
OpenRouter “API का API” जैसा काम करता है
- यह किसी खास मॉडल के लिए request को सबसे सस्ते या सबसे अधिक उपलब्ध inference provider की ओर route करता है
- अगर एक provider में समस्या हो, तो यह तुरंत दूसरे provider पर स्विच कर reliability को काफ़ी बढ़ा सकता है
- अगर कोई और सस्ता provider हो, तो यह उसकी ओर स्विच कर देता है

1 टिप्पणियां

GN⁺ 1 시간 전

Lobste.rs की राय

यह लेख Kimi के बारे में सटीक नहीं है। कुछ कंपनियां भारी पाबंदियां लगाकर उसे “modified MIT” कहती हैं, लेकिन Kimi K2.6 just has an advertising clause ही है। यह न होता तो बेहतर होता, लेकिन इसे बहुत बड़ा मुद्दा बनाना शायद सही नहीं है
लेख में दावा किया गया था कि Kimi ने 10 करोड़ से अधिक मासिक सक्रिय उपयोगकर्ताओं या 2 करोड़ डॉलर से अधिक मासिक राजस्व वाले प्रोडक्ट्स में open weights मॉडल के इस्तेमाल पर रोक लगाई है, लेकिन असल K2.6 लाइसेंस में शर्त सिर्फ यह है कि ऐसे प्रोडक्ट्स/सेवाओं के UI में “Kimi K2.6” को साफ़ तौर पर दिखाया जाए
यह सही है कि कुछ कंपनियां open weights रिलीज़ कम कर रही हैं, लेकिन Xiaomi, DeepSeek, Moonshot और Zai जैसी कंपनियां अब भी प्रतिस्पर्धी बड़े open weights मॉडल जारी कर रही हैं। छोटे मॉडलों की तरफ़ Gemma 4 का standard open license Apache पर जाना भी सकारात्मक है
यह चिंता उठाना उचित है, लेकिन अभी स्थिति ज़्यादा ऐसी लगती है कि open weights से पीछे हटने वाली कंपनियों की जगह नई एंट्री करने वाली या अधिक पारंपरिक लाइसेंस पर जाने वाली कंपनियां ले रही हैं
- लेखक के तौर पर यह उचित टिप्पणी है, इसलिए मैंने लेख अपडेट किया। लगता है मैं Cursor Kimi वाली बात से भ्रमित हो गया था, और आपकी बात सही है
  आगे क्या होगा, यह दिलचस्प है। लेख पहले ही लंबा था इसलिए शामिल नहीं किया, लेकिन मेरा मानना है कि इन कंपनियों को वास्तविक ध्यान पाने के लिए open weights मॉडल की ज़रूरत थी। Grok जैसे उदाहरण को देखें, जहां compute resources और आक्रामक pricing होने के बावजूद adoption कम है, तो कम से कम वैश्विक पहचान बनाना बहुत कठिन होता
  हालांकि चीनी मॉडलों के पास inference compute भी xAI जितना नहीं है। अब जब मॉडल की quality बेहतर हो रही है, तो उन्हें बंद कर देने का प्रोत्साहन बढ़ा है, लेकिन यह भी हो सकता है कि दुनिया ऐसी ही बनी रहे जहां हमेशा नए entrant आते रहें
मैं खुद से पूछता हूं कि open weights large language models जारी करने के लिए बाज़ार का प्रोत्साहन आखिर क्या है
Nvidia on Hugging Face कुछ मॉडल जारी कर रहा है, और लगता है वे इस पर दांव लगा रहे हैं कि अगर लोग subscription service इस्तेमाल करने के बजाय local large language models चलाएं, तो वे ज़्यादा GPU बेच सकेंगे
अगर open weights मॉडल जारी करना कम हो जाता है, तो बड़े inference providers शायद Linux Foundation जैसी कोई open weights foundation बना सकते हैं, जो training data जुटाने, training और fine-tuning का समन्वय करे। अगर इन कंपनियों के पास देने के लिए प्रतिस्पर्धी मॉडल ही न हों, तो उनका बिज़नेस चलाना भी मुश्किल होगा
- मैंने कहीं यह सिद्धांत पढ़ा था कि जब Moore's law खत्म हो जाएगी, तो ज़्यादा खुले और repairable electronics बढ़ेंगे। तर्क यह है कि cutting edge पर बने रहने के लिए कंपनियों के पास secret source छिपाने का प्रोत्साहन होता है, लेकिन अगर वह सीमा आगे बढ़नी बंद हो जाए, तो वे functionality पर प्रतिस्पर्धा करना बंद कर देंगी और बाज़ार के सभी प्रोडक्ट लगभग एक जैसे अच्छे हो जाएंगे, जिससे वह प्रोत्साहन खत्म हो जाएगा
  मुझे नहीं पता कि आज के inference providers open weights foundation की दिशा में जाएंगे या नहीं। लेकिन अगर large language models कुछ सालों में किसी दीवार से टकरा जाते हैं, तो ग्राहकों की तरफ़ से निश्चित रूप से प्रोत्साहन पैदा हो सकता है। कुछ ऐसा: “जिस काम को हम खुद कर सकते हैं, उसके लिए हम हर महीने OpenAnthropic को 5 अरब डॉलर क्यों दे रहे हैं?”
यहां कुछ टिप्पणियां इस लेख के कुछ हिस्सों का खंडन कर रही हैं, लेकिन मैं कुछ और जोड़ना चाहता हूं
यह साफ़ है कि Alibaba ने Qwen के लिए कुछ कम open-first रुख अपनाया है, जो अफ़सोस की बात है, लेकिन वास्तविक अंतर इतना बड़ा नहीं है। Max सीरीज़ मॉडल और कई specialized मॉडल शुरू से ही API-only थे, और अभी API-only प्रमुख मॉडल लगभग 400B parameters वाला “Plus” है। अपने आकार के हिसाब से यह ऐतिहासिक रूप से कोई असाधारण मॉडल भी नहीं था
जिन छोटे मॉडलों को लोग मुख्य रूप से Qwen के नाम से जानते हैं, वे अब भी जारी किए जा रहे हैं। रिलीज़ शेड्यूल थोड़ा बिखरा हुआ लगता है, लेकिन Qwen की रिलीज़ पहले भी काफ़ी अव्यवस्थित रही है
जिस Qwen 3.6 Plus को बंद मॉडल कहा गया है, वह एक exclusive partnership के ज़रिए available on Fireworks के रूप में उपलब्ध है। यह पता नहीं कि क्या वे local owned servers चाहने वाले संगठनों को भी इस्तेमाल की सुविधा देना चाहते हैं, लेकिन आगे यह मॉडल बढ़ता है या नहीं, देखना दिलचस्प होगा
Meta का “Muse Spark” LLaMa से अलग टीम का, लगभग पूरी तरह अलग मॉडल परिवार है, इसलिए इसे open weights “बंद कर दिया” कहना सही नहीं लगता; इसे अलग प्रोडक्ट मानना बेहतर है
Kimi K2.6 की attribution clause नई “जोड़ी” नहीं गई थी; the clause has been there since the original K2। DeepSeek भी R1 और V3 0324 से सामान्य MIT license का उपयोग कर रहा है
हाल में भी MiMo v2.5 सीरीज़, GLM 5.1 और Gemma 4 जैसे कई चर्चित वास्तविक open weights रिलीज़ हुए हैं। हालांकि GLM की मुख्य धारा open weights है, लेकिन “Code” सीरीज़ जैसे कई fine-tuned वर्ज़न proprietary हैं, और Step 3.5 Flash का 2603 अपडेट भी proprietary लगता है। फिर भी उन्होंने release their SFT training data किया है, इसलिए उन पर बहुत सख़्त होना मुश्किल है
कभी-कभी रिलीज़ में देरी भी होती है, और MiMo v2.5/Pro तथा GLM 5.1 के साथ ऐसा हुआ। लेकिन इसकी वजह से कभी-कभी लॉन्च के तुरंत बाद SGLang/vLLM support तैयार रहने का फ़ायदा भी मिलता है। MiniMax M2.7 वास्तव में much more restrictive license पर गया है, और शायद इसी को Kimi के साथ भ्रमित किया गया
“पहले API से कुछ कमाई कर लें और बाद में जारी करें” वाला तरीका, मॉडल डेवलपमेंट की भारी लागत को देखते हुए, अब भी काफ़ी उदार कहा जा सकता है, और कम से कम फिलहाल इंडस्ट्री इस संतुलन से संतुष्ट दिखती है
GLM 5.1 पिछले महीने MIT license के तहत जारी किया गया एक बहुत प्रतिस्पर्धी open weights मॉडल है। कई कंपनियां पहले ही इसे सेवा के रूप में दे रही हैं। इसे Z.ai ने बनाया है, और दूसरी चीनी कंपनियों की तरह यह बाद में पाबंदियां जोड़ सकता है, लेकिन अभी इस पर कोई पाबंदी नहीं है
- जिन्हें जानना है, उनके लिए: 1.51TB: https://huggingface.co/zai-org/GLM-5.1/tree/main
- मैं इसे एक यूरोपीय provider के ज़रिए OpenCode के साथ इस्तेमाल कर रहा हूं, और यह वाकई Claude से मुकाबला कर सकता है। उम्मीद है कि निकट भविष्य में हम बड़ी कंपनियों पर निर्भरता से पूरी तरह बाहर निकल सकेंगे
  कुछ लोग मानते हैं कि सभी चीनी मॉडल किसी न किसी हद तक बड़े मॉडलों, यानी GPT या Anthropic जैसे मॉडलों से “distill” किए गए हैं। यह सच है या नहीं, मुझे नहीं पता, और न ही मैं इसकी बहुत परवाह करता हूं। किसी भी हाल में मेरा मानना है कि ऐसे मॉडल public domain में होने चाहिए, और मुझे खुशी है कि चीज़ें तेज़ी से उसी दिशा में जाती दिख रही हैं
मुझे लगने लगा है कि हाल में AI model licensing business लोकप्रिय हो सकता है। इसमें आप एक तय रकम देकर मॉडल उपयोग का अधिकार लेते हैं और फिर उसे अपने हार्डवेयर पर सीधे चलाते हैं। यह कुछ हद तक Photoshop pricing जैसा है
इससे संवेदनशील जानकारी के लीक होने की समस्या से बचा जा सकता है और मॉडल बनाने वाले को भी पैसा मिल सकता है। इसका एक फ़ायदा यह भी है कि token-based billing की तरह संभावित रूप से बहुत महंगी pricing के बजाय यह flat fee मॉडल हो सकता है। बेशक, हार्डवेयर की लागत अलग होगी
- भविष्य में शायद open weights मॉडल जारी किए जाएं, लेकिन ऐसे लाइसेंस के साथ जो उन्हें silicon में bake करने से रोके। फिर ऐसे chips बेचे जाएं: https://taalas.com/products/
Kimi K2.5 अब तक मेरे लिए सबसे अच्छा फिट रहा है, और मुझे ज़रूरी नहीं लगता कि मैं अपग्रेड करूं

ओपन वेट्स चुपचाप बंद होते जा रहे हैं, और यह समस्या है

Open weights मॉडल की भूमिका

कीमत का दबाव और बाज़ार अनुशासन

लाइसेंस और रिलीज़ तरीके में बदलाव

open weights में कमी से बन सकने वाली बाज़ार संरचना

विरोधी संभावनाएं और बाकी जोखिम

शब्दावली और पूरक व्याख्या

संबंधित पढ़ाई

1 टिप्पणियां

Lobste.rs की राय