ओपन सोर्स AI को हर हाल में जीतना चाहिए
(opensourceaimustwin.com)- AI काम, शिक्षा, विज्ञान, software, सृजन, public services, और राष्ट्रीय क्षमता के लिए सभ्यतागत अवसंरचना है, और इसकी पहुंच कुछ कंपनियों की शर्तों और कीमतों पर निर्भर नहीं होनी चाहिए
- बिना अनुमति intelligent systems का research, निर्माण, repair, वितरण, audit, adjustment, training, preservation, और execution करने की क्षमता सीधे ऑपरेशनल स्वतंत्रता से जुड़ी है
- open source AI को यह उपयोग-योग्यता बनाए रखनी चाहिए, भले ही आज की प्रमुख labs, विदेशी labs, hardware vendors, cloud platforms, और open-weight model providers दिशा बदल दें या गायब हो जाएं
- अगर कुछ बंद frontier labs और platform कंपनियां models को नियंत्रित करती हैं, तो intelligent infrastructure के cognition subscription economy में बदलने का जोखिम है
- अमेरिका को intelligent infrastructure को चलाने, inspect करने, modify करने, benchmark करने, train करने, और preserve करने की स्वतंत्रता में पीछे नहीं रहना चाहिए, और व्यावहारिक रुख अमेरिकी क्षमता और global open standards के संयोजन पर आधारित होना चाहिए
ओपन सोर्स AI को हर हाल में जीतना चाहिए
- अगर intelligence केवल कुछ बंद संस्थानों से उधार लेकर इस्तेमाल की जाने वाली चीज़ बन जाए, तो आम लोग केवल software freedom ही नहीं बल्कि ऑपरेशनल स्वतंत्रता भी खो देंगे
- intelligent systems का बिना अनुमति research, निर्माण, repair, वितरण, audit, adjustment, training, preservation, और execution किया जा सकना चाहिए, और यह क्षमता अस्तित्वगत रूप से महत्वपूर्ण है
- AI को काम, शिक्षा, विज्ञान, software, सृजन, public services, और राष्ट्रीय क्षमता को सहारा देने वाली सभ्यतागत अवसंरचना माना जाता है
- AI तक पहुंच closed APIs, remote platforms, बदलती terms, अपारदर्शी adjustments, model availability, और कुछ कंपनियों द्वारा तय की गई कीमतों पर निर्भर नहीं होनी चाहिए
ओपन सोर्स AI को बनाए रखने के लिए आवश्यक शर्तें
- open source AI उपयोग-योग्य, समझने योग्य, और पुनरुत्पाद्य होना चाहिए
- open source AI local deployment में सक्षम हो, आर्थिक रूप से टिकाऊ हो, और community governance संभाल सके
- आज की प्रमुख labs, विदेशी labs, hardware vendors, cloud platforms, और open-weight model providers दिशा बदल दें या गायब हो जाएं, तब भी open source AI चलता रहना चाहिए
- अगर कुछ बंद frontier labs और platform कंपनियां models को नियंत्रित करती हैं, तो intelligent infrastructure के cognition subscription economy में बदलने का जोखिम है
- अमेरिका को intelligent infrastructure को चलाने, inspect करने, modify करने, benchmark करने, train करने, और preserve करने की स्वतंत्रता में पीछे नहीं रहना चाहिए
- व्यावहारिक रुख ऐसा होना चाहिए जो अमेरिकी क्षमता और global open standards, दोनों को साथ रखे
2 टिप्पणियां
Lobste.rs की राय
ओपन सोर्स “AI” जैसी कोई चीज़ मौजूद नहीं है। लोकल पर चल सकने वाले LLM बस अपारदर्शी ढेले हैं, जिन्हें ऐसी दिग्गज कंपनियाँ मेहरबानी से उपलब्ध कराती हैं जो हर version की training पर लाखों डॉलर खर्च करती हैं और input data पर पूरा नियंत्रण रखती हैं
स्वतंत्र रूप से धनी न होने वाला कोई व्यक्ति यह पूरी तरह जाँच नहीं कर सकता कि मॉडल कैसे बनाया गया, मूल training dataset में बदलाव नहीं कर सकता, और न ही जब चाहे उसे शुरुआत से फिर बना सकता है
अपने पर्सनल कंप्यूटर पर पहले से compiled मुफ़्त LLM चलाना दरअसल केंद्रीकृत infrastructure पर पाली गई निर्भरता है, और मौजूदा हक़ीक़त में यह ऐसी तकनीक का समर्थन करने के अधिक क़रीब है जिस पर व्यक्ति संरचनात्मक रूप से नियंत्रण नहीं रख सकता। इससे बेहतर तो कोई यह घोषणापत्र लिखे कि low-temperature nuclear fusion को जीतना चाहिए
बेशक, सिर्फ तकनीकी क्षमता के हिसाब से देखें तो ऐसे मॉडल ज़्यादातर frontier models के स्तर के नहीं हैं, और कई बार उनका लक्ष्य भी वही नहीं होता। उदाहरण के लिए, EU ने translation जैसे उद्देश्यों के लिए ऐसे मॉडल के विकास को fund किया जो EU की भाषाओं का बेहतर प्रतिनिधित्व करे
और मैं यह भी नहीं मानता कि open source model को परिभाषा के अनुसार ज़रूर लोकल पर चलने योग्य होना चाहिए। अगर मॉडल सचमुच खुला है, तो उसके पीछे की कंपनी बंद हो जाने पर भी उसके आगे के विकास की बुनियाद कंपनी के अंदर बंद नहीं रह जाती, इसलिए जोखिम काफ़ी कम हो जाता है। Open source software का मतलब हमेशा यह नहीं होता कि “इसे मैं अपनी local machine पर सस्ते में चला सकता हूँ”
हाल के अपेक्षाकृत खुले LLM में NVIDIA-Nemotron-3-Nano-30B-A3B (open source code, training dataset का अधिकांश हिस्सा उपलब्ध) और Olmo-3.1-32B-Think (open source code, सारा training data Hugging Face पर सार्वजनिक) शामिल हैं
सिद्धांततः कोई भी ऐसे मॉडल को दोबारा बना सकता है, यह तय कर सकता है कि training में कौन-सा data इस्तेमाल होगा, या training recipe बदल सकता है। लेकिन यह बात सही है कि जो व्यक्ति धनी नहीं है, उसके लिए pretraining अब भी पहुँच से बाहर है
OLMo को OSI की verification process से गुज़रा हुआ मॉडल बताया गया है, और Pythia को भी OSI ने open source AI system की आवश्यकताओं को पूरा करने वाला माना है। Lucie-7B, OSI AI definition का पालन करने वाले शुरुआती multilingual LLM में से एक है, और इसके निर्माताओं का कहना है कि training dataset, data preparation code, और model weights सभी open license के तहत उपलब्ध हैं
यह भी सही है कि शुरुआत से training करने में बहुत पैसा लगता है। लेकिन अगर ऐसा है, तो क्या Linux kernel का इस्तेमाल करना भी “पाली गई निर्भरता” कहलाएगा? क्योंकि वही शर्तें वहाँ भी लागू होती हैं
“AI काम, शिक्षा, विज्ञान, software, सृजन, public service और राष्ट्रीय क्षमता के लिए सभ्यतागत infrastructure है” — ऐसा नहीं है। इसे नियंत्रित करने वाले लोग बस इसे ऐसा बनाना चाहते हैं और पूरी ताकत से धकेल रहे हैं, लेकिन असलियत में यह ऐसा नहीं है
बस अपने विचार resource-hungry, copyright उल्लंघन करने वाली और hallucinate करने वाली मशीन को outsource मत करो 😘
बेशक, इस शक्ति को मुट्ठीभर बड़ी कंपनियों के हाथों में केंद्रित न होने देना AI की मौजूदा बड़ी समस्याओं में से एक को हल करता है, लेकिन बाकी समस्याओं को ज़रा भी हल नहीं करता
असल में उपयोगी सबसे छोटा लोकल coding agent Qwen3.6 27B है, और power-limited NVIDIA कार्ड पर यह लगभग 280~300W पर आराम से चल जाता है। एक दिन coding में जितनी बिजली लगेगी, वह desktop gaming machine पर Subnautica 2 को कुछ घंटे चलाने से भी कम होगी। इसकी एक वजह यह भी है कि छोटे मॉडल को बहुत ज़्यादा सोच outsource नहीं की जा सकती, इसलिए AI ज़्यादा देर idle रहता है और इंसान ज़्यादा सोचता है
Training cost ज़्यादा बड़ी है, लेकिन अगर बात साल में 27B आकार के कुछ ही मॉडल train करने की हो, तो पूरी औद्योगिक सभ्यता के पैमाने पर यह गिनती में भी मुश्किल से आएगा। मैंने पहले कभी हिसाब लगाया था कि Iceland में geothermal-powered aluminium smelter एक और जोड़ने जितनी बात हो, तो 27B-स्तर के कुछ मॉडल आराम से train किए जा सकते हैं। यह मुफ़्त नहीं है, लेकिन rounding error के क़रीब है
Inference की बिजली खपत तीन incandescent bulbs से कम है, और वह भी सिर्फ तब जब मॉडल वास्तव में generate कर रहा हो। Training की बिजली खपत एक बड़े industrial facility के स्तर की है, लेकिन यह लगभग पूरी तरह renewable energy से भी हो सकती है। Iceland इस मामले में अच्छा है
“Copyright infringement” वाली बात मौजूदा अमेरिकी case law के हिसाब से सही नहीं लगती, और copyright अधिकारों को और मज़बूत करने की माँग पर सावधानी से सोचना चाहिए। मैं 90 के दशक से copyright expansion का विरोध करता आया हूँ, इसलिए भले ही LLM training का तरीका मुझे पसंद न हो, यह मुद्दा अब copyright law के दायरे से निकलकर politics और legislation के दायरे में जाता दिखता है। हालाँकि Anthropic द्वारा किताबों की सीधी illegal copying एक अपवाद है
लेकिन विचार outsource करने की समस्या तेज़ी से बदतर होती जा रही है। बहुत से लोग खुद को machine god की meat puppets बनाना चाहते हैं, और यह डरावना है
यह कुछ वैसा है जैसे यह कहना कि हत्या इसलिए बुरी है क्योंकि वह illegal है। हत्या बुरी है, लेकिन उसके बुरे होने की वजह उसकी illegality नहीं है। क़ानून बदल सकता है। अगर AI को copyright की वजह से बुरा कहकर माहौल बनाया जाए और फिर संसद उसे legal कर दे, तो क्या सब लोग अचानक AI को ठीक मान लेंगे? असली चिंता के केंद्र के क़रीब और भी कारण थे, और उन्हीं पर एकजुट होना शायद ज़्यादा उपयोगी होता
Alexandra Elbakyan भी एक copyright infringer हैं। लेकिन वह एक वयस्क इंसान हैं, और हर विश्वविद्यालय में उनकी मूर्ति होनी चाहिए
सचमुच खुले और न्यायपूर्ण machine learning और large language model का भविष्य पूरी supply chain को ध्यान में रखे बिना संभव नहीं है। https://time.com/6247678/openai-chatgpt-kenya-workers/ पढ़ने की सलाह है
जल्द ही हम data peak पर पहुँचेंगे, और उसके बाद की प्रगति अधिकतर इस दिशा में आती दिखती है कि नवीनतम LLM को agentic तरीक़े से बाँधकर इस्तेमाल किया जाए
आख़िरी बार खुले तौर पर जारी किए गए open source models आने वाले कई सालों तक लगातार बदलते open source agent-type या किसी और upper structure की बुनियाद के रूप में इस्तेमाल हो सकते हैं
अधिक सटीक रूप से कहें, तो जनता को पिछले 20 वर्षों में, ख़ासकर हाल के समय में, tech giants को मिली विशाल public funding को पहचानना चाहिए और tax से बने infrastructure पर अपना अधिकार माँगना चाहिए
ये कंपनियाँ भारी public funding के बिना पैदा भी नहीं हो सकती थीं और न ही टिक सकती थीं। ऊपर से training data का बड़ा हिस्सा सीधे public commons से लिया गया है
ये मॉडल निजी प्रयास का परिणाम नहीं, बल्कि विशाल सामूहिक प्रयास का अंतिम नतीजा हैं, और इन्हें कानूनी रूप से public commons के रूप में मान्यता मिलनी चाहिए
यह महत्वपूर्ण है या नहीं, bubble है या नहीं, hallucinate करने वाले token predictor हैं या नहीं — फिर भी यह बहुत ज़रूरी है कि सभी देशों के पास ऐसा कानूनी ढाँचा हो जो “Frontier lab” को नवीनतम मॉडल छोड़कर बाकी मॉडलों को open source के रूप में जारी करने के लिए बाध्य करे
सार्वजनिक किए जाने वाले दायरे में weights, training data, methodology आदि शामिल होने चाहिए, या फिर हर मॉडल को 10~15 साल बाद open source बनाना अनिवार्य होना चाहिए। मानव ज्ञान की प्रगति और “जिनके पास है” और “जिनके पास नहीं है” के बीच विभाजन को रोकने के लिए, हर मॉडल को एक निश्चित समय के बाद सार्वजनिक होना चाहिए
आप सोच सकते हैं कि AGI क़रीब नहीं है, लेकिन इन frontier labs की मंशा AGI तक सबसे पहले पहुँचना और फिर उसे paywall के पीछे अकेले अपने पास रखना है। संभावना बड़ी हो या छोटी, मानवता के समग्र हित में ऐसा होने से रोका जाना चाहिए
Hacker News की राय
कुछ समय से हम ऐसे machines के साथ distributed model training system बनाने पर विचार कर रहे हैं जिनमें लोग volunteer की तरह योगदान दें, लेकिन व्यावहारिक रूप से इसकी कठिनाई खगोलीय स्तर की है
communication speed संभाली नहीं जाती, और भरोसेमंद न होने वाले nodes से आने वाला data contamination भी एक समस्या है
बाद वाली समस्या शायद self-healing checkpoint rollback system से लगभग हल की जा सकती है, जिसमें contaminated data के बाद के सारे results फेंकने की ज़रूरत न पड़े, लेकिन यह ऐसा छोटा project नहीं है जिसे कोई एक व्यक्ति सिर्फ़ idea के दम पर कर ले
अगर अब frontier labs पूरी की पूरी आगे की प्रगति करने से रोकी जाएँ, तो इस दिशा में रुचि पैदा हो सकती है
पृथ्वी पर मौजूद सभी GPU का कुल योग उनकी क्षमता पर भारी पड़ेगा, लेकिन इसे कुशलतापूर्वक distributed तरीके से इस्तेमाल करने का तरीका चाहिए
भले हम Fable को उनकी तरह तेज़ी से train न कर सकें, लेकिन कभी पहुँच पाना, हमेशा के लिए न पहुँच पाने से बेहतर है
AI-specific hardware सिर्फ़ consumer GPU से बहुत तेज़ ही नहीं, बल्कि power efficiency में भी बहुत बेहतर है और connectivity में भी, और ये तीनों पहलू अलग-अलग इस idea को तोड़ देते हैं
power efficiency का फ़र्क इतना बड़ा है कि पृथ्वी के सभी public GPU या मिलते-जुलते devices को जोड़ भी लें, तो बिजली का बिल बहुत ज़्यादा होगा, और उसी पैसे में अपना data center बनाना कुल लागत के हिसाब से शायद सस्ता पड़े
बिजली मुफ़्त भी हो, तब भी दुनिया भर में फैले GPU को internet latency के साथ जोड़ने पर यह हज़ारों से लाखों गुना धीमा हो जाएगा, और यह संभव भी होगा या नहीं, यह भी साफ़ नहीं
कुल मिलाकर इस दशक के भीतर fable-oss मिलना मुश्किल है, और शायद इस सदी में भी नहीं
बेहतर यह होगा कि सरकारें गठबंधन के रूप में ही सही, सीधे data center खरीदें, उनका स्वामित्व रखें, और उन्हें सार्वजनिक हित में चलाएँ; और वास्तव में ऐसा होना भी चाहिए
वे ज़्यादा यह कल्पना करते हैं कि हज़ारों छोटे data centers या individual users internet के ज़रिए spare compute जोड़कर किसी एक इकाई से बड़े training run को coordinate कर रहे हैं
Pluralis Research, Prime Intellect, Nous Research जैसी कंपनियाँ इसी vision का पीछा कर रही हैं और वे पहले ही कुछ पैमाने वाले distributed training में सफल भी हुई हैं, लेकिन वास्तविक internet-based distributed training अब भी centralized training से बहुत पीछे है
सबसे बड़े models, जैसे Pluralis का 8B Protocol Model, Prime Intellect का INTELLECT-1, और Nous का Consilience 40B भी, xAI के Grok 4 जैसे मौजूदा frontier model की तुलना में 1,000 गुना कम compute पर train किए गए थे
https://epoch.ai/gradient-updates/how-far-can-decentralized-...
आपने यह गलत समझा है कि कितना silicon उन्हीं कंपनियों के पास गया है, और वह silicon consumer hardware की तुलना में कितना अधिक शक्तिशाली है
BLOOM model भी collaborative तरीके से बना एक नतीजा था: https://huggingface.co/docs/transformers/en/model_doc/bloom
Nous दावा करता है कि वह यह पहले ही कर चुका है: https://github.com/NousResearch/DisTrO
पहले भी gradient compression papers में बड़े compression ratios रिपोर्ट किए गए हैं
इसके साथ distributed LLM inference की भी ज़रूरत है
अब हम उस बिंदु पर पहुँच चुके हैं जहाँ किसी एक व्यक्ति के लिए latest model चलाने लायक setup बनाना बहुत महँगा हो गया है
इसलिए हमें ऐसा framework बनाना और अपनाना चाहिए जिसमें लोग अपने resources साझा करके latest models को distributed तरीके से चला सकें
तब सरकारों के लिए censorship करना भी कठिन हो जाएगा
किसी एक actor को इसे weaponize करने से रोकने का एकमात्र तरीका है कि सबको access दिया जाए
यह Mac, Windows, Linux, Android, iOS, यहाँ तक कि HarmonyOS पर भी fully distributed inference चलाता है
open source/open weights models लगातार बेहतर होंगे, और अंततः smartphone या glasses hardware पर भी mythos-class कुछ चलने लगेगा
लेकिन अभी supply और demand को match करना बेहद झंझटभरा है
उदाहरण के लिए 16GB RAM वाले MacBook जैसा physical hardware होने का मतलब यह नहीं कि वास्तव में पूरे 16GB का इस्तेमाल हो सके, और model व settings (kvcache, context limit, temperature आदि) को demand के हिसाब से match करने की समस्या भी है
हमें लोगों द्वारा, लोगों के लिए AI inference चाहिए, इसलिए मदद का स्वागत है
Petals नाम के एक project ने 180B model पर अधिकतम 4 tok/s का दावा किया था, लेकिन repository में 2 साल से update नहीं है
https://petals.dev/
policy space में ऐसे मॉडल भी आते हैं जहाँ सरकार access और monopoly दोनों को regulate करती है
मैं इस तकनीक के monopoly के ख़िलाफ़ हूँ, लेकिन सबको jailbroken AGI/ASI दे देने का जोखिम भी स्पष्ट होना चाहिए
एक toy example के तौर पर आप universal basic AI की कल्पना कर सकते हैं, जहाँ सरकार कई labs (n_quorum) को subcontract दे और सबको token budget उपलब्ध कराए
लेकिन API संचालन के साथ safety controls भी होने चाहिए
अगर हर कोई अपना jailbroken AGI चलाने लगे, तो स्थिर social norms बनाए रखने का एकमात्र तरीका शायद बड़े पैमाने की surveillance ही होगा, जो यह निगरानी करे कि कौन CBRNE threats बना रहा है
civil liberties के नज़रिए से यह साफ़ जीत नहीं लगती, लेकिन मैं समझता हूँ कि ऐसी दलील दी जा सकती है
मेरे घर और मेरे बिज़नेस में तो यह शुरू से ही जीत चुका था
सही कहें तो यह open weights था, और यह सूक्ष्म फ़र्क कुछ असहज लगता है
मैं कभी यह समझ नहीं पाया कि किसी प्रोडक्ट के काम करने या उसके development को पूरी तरह दो बड़े startups में से किसी एक के secret source पर निर्भर बना दिया जाए, जिनकी profitability भी अस्पष्ट है और जिनका भीतर क्या चल रहा है यह भी पता नहीं
यह sound engineering principles के भी ख़िलाफ़ है
इसलिए मेरा ऐसा करने का इरादा कभी नहीं था, और आज AI को explore करने की वजह भी यही है कि open weights की वजह से मुझे लगा इस पर समय लगाना सार्थक है
वैसे भी बिज़नेस अक्सर एक single payment platform और अमेरिका के दो credit card providers की policies पर निर्भर हो जाता है, और वही अपने आप में काफ़ी बुरा है
शायद freelancer स्वभाव की वजह से, जब मुझसे कहा जाता है कि foundational technology नहीं बल्कि किसी और के product को समझने और सीखने में बहुत ज़्यादा ऊर्जा लगाऊँ, तो मैं हमेशा असहज हो जाता हूँ
मुझे वह दौर भी याद है जब Microsoft departments को NT source code access का वादा करके मनाया करता था
मुझे यह भी याद है कि उस समय हमारे यहाँ एक senior व्यक्ति ने कहा था कि Linux तो एक side branch है और NT access ही हमें meaningful बनाएगा
मैं खुद को और अपने आसपास के लोगों को हमेशा याद दिलाता हूँ कि अपने भाग्य पर नियंत्रण हमेशा और ज़्यादा चाहिए होता है, और cutting edge हमेशा latest stable technology से आगे होता है
प्रगति cutting edge पर होती है, लेकिन वहाँ नुकसान का जोखिम भी होता है
engineering का ध्यान दूसरों की प्रगति पर सवारी करने पर नहीं, बल्कि latest stable technology पर build करने पर होना चाहिए
llama.cpp जैसे tools खुले हैं, लेकिन weights के बिना वे बेकार हैं
weights असल में एक बेहद महँगा capital हैं, जिसे आपस में लड़ रही बड़ी organizations donate कर रही हैं
उदाहरण के लिए, मुझे नहीं पता कि archive.org सचमुच खुले weights बना सकता है या नहीं, और archive.org के अलावा यह कल्पना करना भी मुश्किल है कि freebsd या apache जैसी कोई दूसरी open source organization सच में खुले weights बनाने की स्थिति में हो
अगर कोई कर सकता है, तो शायद सरकारें, सरकारी संस्थाएँ या universities कर सकती हैं
लेकिन अभी ऐसी संस्थाओं के पास weights बनाने वाली infrastructure पर पैसा झोंकने लायक funding, authority, इच्छा या दिलचस्पी पर्याप्त नहीं है
AI हमारे बिज़नेस के development तरीके को complement करता है, और engineers सबसे अच्छे open source models की तुलना में Opus 4.8 का इस्तेमाल करना बहुत ज़्यादा पसंद करते हैं
मैं मानता हूँ कि open source महत्वपूर्ण है, लेकिन अपने बिज़नेस में मैं बस वही सबसे अच्छे tools इस्तेमाल करूँगा जो उपलब्ध हैं
जब open source का मतलब free software जैसा बना दिया जाता है, तो यह लगभग यह कहने जैसा हो जाता है कि आपको बस मुफ्त copies चाहिए
हमें कहना यह चाहिए कि public और community-run projects मिलकर pretraining और training करें
इसका मतलब है training corpora को सार्वजनिक रूप से handle करना और training work को किसी न किसी तरह coordinate करना
यह शब्द के अर्थ को पूरी तरह बदल देता है, और वैसा ही है जैसे लोग piracy और theft को गड्डमड्ड कर देते हैं
दोनों अलग चीज़ें हैं, इसलिए अलग शब्द इस्तेमाल होने चाहिए
free weights, inference code, और chat templates, community-run LLM project से बहुत अलग चीज़ें हैं
फंडिंग कौन देगा?
training cost की महँगाई की कल्पना करना भी मुश्किल है
या तो VC funding model है जो investment return चाहता है, या CCP funding model है जो चीन के authoritarian social model को मज़बूत करना चाहता है
universities के 4B model जैसी चीज़ हो सकती है, लेकिन उससे बहुत दूर तक जाना मुश्किल लगता है
मैं हर दिन हैरान होता हूँ कि मेरा Linux computer दो trillion-dollar कंपनियों द्वारा बनाए गए operating systems जैसा लगभग वही experience देता है
बल्कि कुछ ऐसे काम भी करता है जो वे commercial alternatives नहीं कर पाते
अगर DeepSeek सचमुच पश्चिमी competitors की लागत के 1/10 और कर्मचारियों के सिर्फ़ एक हिस्से के साथ model ला सकता है, तो इसका मतलब यह हो सकता है कि इस क्षेत्र में alternatives देने वाले किसी खिलाड़ी के लिए बाज़ार मौजूद है
मैं सोचता हूँ कि IBM जैसी कंपनियाँ Linux में योगदान देने और उन contributions को मुफ्त में जारी करने के लिए इतनी तैयार क्यों रहती हैं
क्योंकि वे ऐसे corporate sponsors के समूह का हिस्सा हैं जिन्हें बाज़ार के ज़्यादा dominant commercial players के लिए एक alternative चाहिए
Meta भी React को लगभग मुफ्त में इसी वजह से देती है
Meta के लिए यह ज़्यादा फ़ायदेमंद है कि वही standard बन जाए और वह ऐसे लोगों को hire कर सके जो उसे पहले से जानते हों
AI models में ऐसे ecosystem benefits की कल्पना करना और मुश्किल है, लेकिन शायद वे कहीं मौजूद हों
यह कल्पना की जा सकती है कि datacenter/VPS providers बड़े AI कंपनियों की bargaining power कम करने के लिए ऐसी चीज़ों को sponsor करें
बेशक, यह आशावाद सिर्फ़ एक दिवास्वप्न भी हो सकता है
अगर model बनाने वाले लोग दूसरों का काम खंगालकर उस पर training कर सकते हैं और जानकारी को ऐसे धोकर अपना बना सकते हैं कि मूल creators को कुछ लौटाना भी न पड़े, तो फिर models को distill करना अवैध क्यों होना चाहिए, यह मैं नहीं समझता
यह वही चीज़ है जो frontier model makers व्यापक intellectual property के साथ कर रहे हैं
training आज जितनी महँगी लगती है, कभी computers भी उतने ही अकल्पनीय रूप से महँगे थे
अगर कई universities मिलकर पैसा लगाएँ तो?
अगर कई देश मिलकर पैसा लगाएँ तो?
आख़िरकार breakthroughs आएँगे और optimizations होंगी
लोगों को शक था कि open source operating system संभव भी होगा या नहीं, लेकिन Linux दशकों से desktop environment में एक वास्तविक विकल्प रहा है, और server तथा phone operating system के रूप में तो उसकी व्यापकता कहने की ज़रूरत ही नहीं
पुराने models इस्तेमाल करने में कोई मूल्य नहीं है
open source AI manifesto यह माँग करता है कि “open source AI आर्थिक रूप से भी sustainable होना चाहिए,” लेकिन यह wishful thinking के ज़्यादा क़रीब लगता है
gpt-oss अब पुराना हो चुका है, लेकिन जब आया था तब ठीक था
Nemotron भी solid है, और खासकर हाल की ultra release अच्छी है
Nvidia के पास खास तौर पर Chinese models की तुलना में कहीं बेहतर कहानी है, क्योंकि वह सिर्फ़ model ही नहीं बल्कि pre/post-training data तक, हर हिस्से को खोलता है
companies के byproduct के रूप में open source models मिलने का इंतज़ार करने के बजाय, मैं open source AI lab को support करने के लिए हर महीने 50 डॉलर देने को पूरी तरह तैयार हूँ
आप कैसे जानेंगे कि वह open source AI lab किसी न किसी रूप में बाद में for-profit company में spin out नहीं हो जाएगी?
शायद मैं उनकी API इस्तेमाल करना शुरू कर दूँ
वह किसी corporate byproduct की तरह भी नहीं है
Open weight AI के लिए training और research में बड़ा पूंजी निवेश करने की प्रेरणा शायद न हो
donation fund जैसी कोई चीज़ बन सकती है, लेकिन frontier labs को मिलने वाली funding के स्तर तक पहुँचना स्वाभाविक रूप से मुश्किल होगा
इसलिए मुझे लगता है कि AI का सिर्फ open weight के आधार पर मौजूद रहना शायद असंभव हो सकता है
OpenAI, Anthropic, Google जैसे बड़े player बने रहेंगे, और उनके पास open source versions से बेहतर models होने की संभावना ज़्यादा है
यह Photoshop और GIMP के रिश्ते जैसा दिख सकता है
यानी Photoshop frontier lab है और GIMP open weight model
GIMP कई image editing workflows के लिए काफ़ी उपयोगी है, लेकिन Photoshop बस बेहतर है
frontier labs से बेहतर open weight models हों तो निश्चित ही अच्छा होगा, लेकिन मुझे यह संभव नहीं लगता
OpenAI वगैरह भी on-premise products ला सकते हैं
चाहे वह appliance rack हो या किसी और रूप में, बड़ी कंपनियाँ data sovereignty और cost control के लिए inference को local में चलाना चाहेंगी
खासकर जब manufacturing या अन्य network-isolated environments में AI को integrate करने का समय आएगा, तब यह और भी सच होगा
अभी एक तरह का hypergrowth phase चल रहा है, लेकिन जब तक AI के पीछे की technology सच में evolve नहीं करती, बेहतर से बेहतर models बनाना धीरे-धीरे कठिन होगा और diminishing returns आएँगे
अगर LLM का GIMP, VC-funded model की performance का 80% भी दे दे, तो वह बहुत लोगों के लिए काफ़ी उपयोगी होगा
भले ही यह सच हो कि वह proprietary model जितना अच्छा नहीं है, फिर भी open source model इस्तेमाल करने का विकल्प होना ही अपने-आप में जीत है
जब यह साफ़ हो जाएगा कि consumers से trillion dollars निकालना असंभव है, तब trillion-dollar valuations को बेमानी माना जाएगा
इस बीच भी, और वैसे भी अगर software optimization और hardware scaling जारी रहती है, तो जल्द ही mobile devices पर Fable से भी बेहतर क्षमता वाला open weight चलने लगेगा
हालाँकि यह व्यावहारिक कैसे होगा, मुझे नहीं पता
कुछ AI models इतने बड़े होते हैं कि उन्हें सिर्फ cutting-edge hyperscale datacenters में ही तर्कसंगत रूप से चलाया जा सकता है
ऐसे models को open source के रूप में जारी करना ज़्यादातर अर्थहीन है
उनका पैमाना आज के सबसे बड़े public models से भी बहुत बड़ा है, और इतना कि छोटे, सस्ते अस्थायी clusters पर धीमा inference चलाने की संभावना भी बाहर हो जाती है
Fable शायद पहले से ही उस बिंदु पर हो सकता है
मैं भावना और mission से सहमत हूँ, लेकिन यह लक्ष्य अब राजनीति से अलग नहीं किया जा सकता
Open Source(tm) होने भर से यह नहीं रुकता कि सरकारें या अन्य संस्थाएँ silicon या उस silicon से क्या किया जा सकता है, उस पर नियंत्रण न लगाएँ; और दुनिया भर में यह पहले से हो रहा है
model open source हो तब भी regulation या economic incentives की समस्या हल नहीं होती
यह ऐसा मुद्दा नहीं है जिसे कुछ paragraphs में समेटा जा सके
AI एक सभ्यतागत इन्फ्रास्ट्रक्चर है, और इसे सिर्फ source नहीं बल्कि सभ्यतागत समाधान चाहिए
सब जानते हैं कि AI कंपनियों ने training के लिए बिना अनुमति चीज़ें उठाई हैं, लेकिन कुछ नहीं होगा
यह क़ानून के वर्ग-आधारित लागू होने का खुला उदाहरण है
वे अपने क़ानून मनमाने ढंग से लागू करते हैं, और वजह हमेशा national security बताई जाएगी
क्योंकि इन्फ्रास्ट्रक्चर उन्हीं के पास है, उनके हित ही national security बन जाते हैं
technology जब भी बड़ी छलाँग लगाती है, तब वह खेल को हिला सकती है, लेकिन finance capitalism जल्दी ढलकर उस लहर को अपने भीतर समा लेता है
अगर लेख में इसका ज़िक्र नहीं था, तो open source और open weight के बीच का अंतर महत्वपूर्ण है
open weight models लगभग उस entry-level drug की तरह हैं जिसमें पहली dose मुफ़्त होती है
कम-से-कम मूल training data के बिना उन्हें अर्थपूर्ण ढंग से upgrade करने की क्षमता इतनी सीमित होती है कि वे लगातार विकसित हो रहे state-of-the-art models से जल्दी पीछे छूट जाते हैं
फिर आप अगली release का इंतज़ार करने लगते हैं या provider के API पर वापस चले जाते हैं
सिर्फ knowledge cutoff date को आगे बढ़ा देने से ही user experience काफ़ी बेहतर हो जाता है, inference, quantization-aware training, और आगे आने वाले कई सुधारों की तो बात ही अलग है
open weight models को बेहतर बनाने पर research की जा सकती है, लेकिन निष्कर्ष वही रहता है
अगर वह open source नहीं है, तो आम जनता को मिलने वाला लाभ काफ़ी कम हो जाता है
ओपन सोर्स AI परिभाषा के अनुसार कभी भी पूरी तरह जीत नहीं सकता
आज के समय में AI आखिरकार hill-climbing optimization के काफ़ी करीब है, और बंद research labs खुली दुनिया जो भी करती है उसे absorb करके उसके ऊपर और बना सकती हैं
ज़्यादातर use cases में यह कोई बड़ी समस्या नहीं है, क्योंकि AI इस समय capability saturation के तरीके से काम कर रहा है
https://www.delanceyukschoolschesschallenge.com/the-rising-t...
अपवाद सिर्फ वे क्षेत्र हैं जहाँ प्रकृति या दूसरे लोगों के साथ मूलतः प्रतिस्पर्धा होती है और जहाँ प्रतिद्वंद्वी पर बढ़त महत्वपूर्ण होती है
दूसरी बड़ी जीत शायद तब होगी जब आम लोग इसे अपने हार्डवेयर पर चला सकेंगे
Microsoft Linux से जितना चाहे सीख सकता था, लेकिन Linux ने commercial competitors के बावजूद न सिर्फ अपनी प्रासंगिकता बनाए रखी, बल्कि Firefox के मौजूदा market share जैसे मामलों के विपरीत अब यह बेहद बड़े अंतर से सबसे व्यापक रूप से इस्तेमाल होने वाला operating system बन चुका है
ऐसा नहीं लगता कि खुले सिस्टम से सभी अच्छे ideas या data को absorb कर लेने की क्षमता ही एकमात्र निर्णायक कारक है
अभी Fable और Mythos cutting edge हैं, लेकिन जल्द ही वे commodity बन जाएँगे
OpenAI/Anthropic जैसी latest models के सहारे आगे निकलने की कोशिश करने वाली हर एक कंपनी के मुकाबले, उनके complements को commodity बनाने की कोशिश करने वाली लगभग सौ कंपनियाँ होंगी
ओपन सोर्स की जीत के लिए इतना काफ़ी है कि बंद models के विकल्पों में कम-से-कम एक GPT-4 जितना अच्छा हो
दरअसल Google Gemma models के साथ हम लगभग उस बिंदु तक पहुँच चुके हैं
एक software engineer के तौर पर Sonnet के बाद मुझे अपनी productivity में कोई फ़र्क महसूस नहीं हुआ
बेशक Opus बेहतर है और Fable उससे भी बेहतर होगा, लेकिन आर्थिक मूल्य के नज़रिए से देखें तो हम पहले ही diminishing returns से टकरा रहे हैं
जब मैं Cursor में शुरुआती GPT models में से एक इस्तेमाल करता था और फिर Claude Code तथा Sonnet पर गया, तब मेरे लिए लगभग 5x productivity improvement हुआ
Claude Code से पहले मैं AI का इस्तेमाल सिर्फ छोटे code snippets के लिए करता था, लेकिन Claude Code + Sonnet के साथ मैं पूरे subtasks उसे सौंप सकता था
फिर भी मैं Opus पर इतना भरोसा नहीं करता कि उसे पूरा feature शुरू से अंत तक दे दूँ
मुझे यक़ीन नहीं कि कभी ऐसा होगा भी, और शायद इसकी ज़रूरत भी न हो
कंपनियाँ software engineers से एक काफ़ी ऊँचा baseline talent level चाहती हैं, लेकिन उस स्तर से ऊपर उन्हें सच में कोई फ़र्क नहीं पड़ता
फ़र्क बड़ा भी हो, तो वे उसे नोटिस तक नहीं करतीं