3 पॉइंट द्वारा GN⁺ 4 시간 전 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • AI काम, शिक्षा, विज्ञान, software, सृजन, public services, और राष्ट्रीय क्षमता के लिए सभ्यतागत अवसंरचना है, और इसकी पहुंच कुछ कंपनियों की शर्तों और कीमतों पर निर्भर नहीं होनी चाहिए
  • बिना अनुमति intelligent systems का research, निर्माण, repair, वितरण, audit, adjustment, training, preservation, और execution करने की क्षमता सीधे ऑपरेशनल स्वतंत्रता से जुड़ी है
  • open source AI को यह उपयोग-योग्यता बनाए रखनी चाहिए, भले ही आज की प्रमुख labs, विदेशी labs, hardware vendors, cloud platforms, और open-weight model providers दिशा बदल दें या गायब हो जाएं
  • अगर कुछ बंद frontier labs और platform कंपनियां models को नियंत्रित करती हैं, तो intelligent infrastructure के cognition subscription economy में बदलने का जोखिम है
  • अमेरिका को intelligent infrastructure को चलाने, inspect करने, modify करने, benchmark करने, train करने, और preserve करने की स्वतंत्रता में पीछे नहीं रहना चाहिए, और व्यावहारिक रुख अमेरिकी क्षमता और global open standards के संयोजन पर आधारित होना चाहिए

ओपन सोर्स AI को हर हाल में जीतना चाहिए

  • अगर intelligence केवल कुछ बंद संस्थानों से उधार लेकर इस्तेमाल की जाने वाली चीज़ बन जाए, तो आम लोग केवल software freedom ही नहीं बल्कि ऑपरेशनल स्वतंत्रता भी खो देंगे
  • intelligent systems का बिना अनुमति research, निर्माण, repair, वितरण, audit, adjustment, training, preservation, और execution किया जा सकना चाहिए, और यह क्षमता अस्तित्वगत रूप से महत्वपूर्ण है
  • AI को काम, शिक्षा, विज्ञान, software, सृजन, public services, और राष्ट्रीय क्षमता को सहारा देने वाली सभ्यतागत अवसंरचना माना जाता है
  • AI तक पहुंच closed APIs, remote platforms, बदलती terms, अपारदर्शी adjustments, model availability, और कुछ कंपनियों द्वारा तय की गई कीमतों पर निर्भर नहीं होनी चाहिए

ओपन सोर्स AI को बनाए रखने के लिए आवश्यक शर्तें

  • open source AI उपयोग-योग्य, समझने योग्य, और पुनरुत्पाद्य होना चाहिए
  • open source AI local deployment में सक्षम हो, आर्थिक रूप से टिकाऊ हो, और community governance संभाल सके
  • आज की प्रमुख labs, विदेशी labs, hardware vendors, cloud platforms, और open-weight model providers दिशा बदल दें या गायब हो जाएं, तब भी open source AI चलता रहना चाहिए
  • अगर कुछ बंद frontier labs और platform कंपनियां models को नियंत्रित करती हैं, तो intelligent infrastructure के cognition subscription economy में बदलने का जोखिम है
  • अमेरिका को intelligent infrastructure को चलाने, inspect करने, modify करने, benchmark करने, train करने, और preserve करने की स्वतंत्रता में पीछे नहीं रहना चाहिए
  • व्यावहारिक रुख ऐसा होना चाहिए जो अमेरिकी क्षमता और global open standards, दोनों को साथ रखे

2 टिप्पणियां

 
GN⁺ 4 시간 전
Lobste.rs की राय
  • ओपन सोर्स “AI” जैसी कोई चीज़ मौजूद नहीं है। लोकल पर चल सकने वाले LLM बस अपारदर्शी ढेले हैं, जिन्हें ऐसी दिग्गज कंपनियाँ मेहरबानी से उपलब्ध कराती हैं जो हर version की training पर लाखों डॉलर खर्च करती हैं और input data पर पूरा नियंत्रण रखती हैं
    स्वतंत्र रूप से धनी न होने वाला कोई व्यक्ति यह पूरी तरह जाँच नहीं कर सकता कि मॉडल कैसे बनाया गया, मूल training dataset में बदलाव नहीं कर सकता, और न ही जब चाहे उसे शुरुआत से फिर बना सकता है
    अपने पर्सनल कंप्यूटर पर पहले से compiled मुफ़्त LLM चलाना दरअसल केंद्रीकृत infrastructure पर पाली गई निर्भरता है, और मौजूदा हक़ीक़त में यह ऐसी तकनीक का समर्थन करने के अधिक क़रीब है जिस पर व्यक्ति संरचनात्मक रूप से नियंत्रण नहीं रख सकता। इससे बेहतर तो कोई यह घोषणापत्र लिखे कि low-temperature nuclear fusion को जीतना चाहिए

    • मोटे तौर पर यह सही है, लेकिन व्यवहार में ऐसे मॉडल भी हैं जिन्हें public funding मिली है और जिनके weights, training data, methodology आदि सार्वजनिक किए गए हैं
      बेशक, सिर्फ तकनीकी क्षमता के हिसाब से देखें तो ऐसे मॉडल ज़्यादातर frontier models के स्तर के नहीं हैं, और कई बार उनका लक्ष्य भी वही नहीं होता। उदाहरण के लिए, EU ने translation जैसे उद्देश्यों के लिए ऐसे मॉडल के विकास को fund किया जो EU की भाषाओं का बेहतर प्रतिनिधित्व करे
      और मैं यह भी नहीं मानता कि open source model को परिभाषा के अनुसार ज़रूर लोकल पर चलने योग्य होना चाहिए। अगर मॉडल सचमुच खुला है, तो उसके पीछे की कंपनी बंद हो जाने पर भी उसके आगे के विकास की बुनियाद कंपनी के अंदर बंद नहीं रह जाती, इसलिए जोखिम काफ़ी कम हो जाता है। Open source software का मतलब हमेशा यह नहीं होता कि “इसे मैं अपनी local machine पर सस्ते में चला सकता हूँ”
    • लोकल पर चलने वाले LLM में भी खुलेपन का एक spectrum है। कुछ तो ऐसे अपारदर्शी ढेले हैं जिनमें training data और methodology की जानकारी लगभग नहीं होती, लेकिन कुछ में training dataset और source code सार्वजनिक हैं
      हाल के अपेक्षाकृत खुले LLM में NVIDIA-Nemotron-3-Nano-30B-A3B (open source code, training dataset का अधिकांश हिस्सा उपलब्ध) और Olmo-3.1-32B-Think (open source code, सारा training data Hugging Face पर सार्वजनिक) शामिल हैं
      सिद्धांततः कोई भी ऐसे मॉडल को दोबारा बना सकता है, यह तय कर सकता है कि training में कौन-सा data इस्तेमाल होगा, या training recipe बदल सकता है। लेकिन यह बात सही है कि जो व्यक्ति धनी नहीं है, उसके लिए pretraining अब भी पहुँच से बाहर है
    • पूरी तरह open source model वाक़ई मौजूद हैं। वे frontier model नहीं हैं, लेकिन सचमुच मौजूद हैं
      OLMo को OSI की verification process से गुज़रा हुआ मॉडल बताया गया है, और Pythia को भी OSI ने open source AI system की आवश्यकताओं को पूरा करने वाला माना है। Lucie-7B, OSI AI definition का पालन करने वाले शुरुआती multilingual LLM में से एक है, और इसके निर्माताओं का कहना है कि training dataset, data preparation code, और model weights सभी open license के तहत उपलब्ध हैं
    • “यह पूरी तरह जाँचना संभव नहीं कि इसे कैसे बनाया गया, मूल training dataset में बदलाव नहीं किया जा सकता, और मनचाहे ढंग से शुरुआत से फिर नहीं बनाया जा सकता” — इसमें सही बात यह है कि जिन मॉडलों का प्रचार “open” कहकर किया जाता है, वे सभी data, training procedure आदि के मामले में वास्तव में पारदर्शी और खुले नहीं हैं। सबसे अच्छा लक्ष्य reproducibility तक पहुँचना है
      यह भी सही है कि शुरुआत से training करने में बहुत पैसा लगता है। लेकिन अगर ऐसा है, तो क्या Linux kernel का इस्तेमाल करना भी “पाली गई निर्भरता” कहलाएगा? क्योंकि वही शर्तें वहाँ भी लागू होती हैं
  • “AI काम, शिक्षा, विज्ञान, software, सृजन, public service और राष्ट्रीय क्षमता के लिए सभ्यतागत infrastructure है” — ऐसा नहीं है। इसे नियंत्रित करने वाले लोग बस इसे ऐसा बनाना चाहते हैं और पूरी ताकत से धकेल रहे हैं, लेकिन असलियत में यह ऐसा नहीं है

  • बस अपने विचार resource-hungry, copyright उल्लंघन करने वाली और hallucinate करने वाली मशीन को outsource मत करो 😘
    बेशक, इस शक्ति को मुट्ठीभर बड़ी कंपनियों के हाथों में केंद्रित न होने देना AI की मौजूदा बड़ी समस्याओं में से एक को हल करता है, लेकिन बाकी समस्याओं को ज़रा भी हल नहीं करता

    • “यह बहुत resource खाता है” — यह बात frontier model की training के समय या तब सही है जब frontier model को करोड़ों लोग इस्तेमाल कर रहे हों। लेकिन अगर आप लोकल AI के बारे में ऐसा कह रहे हैं, तो या तो हिसाब ग़लत है, या आप काफ़ी चरम environmentalist रुख़ ले रहे हैं
      असल में उपयोगी सबसे छोटा लोकल coding agent Qwen3.6 27B है, और power-limited NVIDIA कार्ड पर यह लगभग 280~300W पर आराम से चल जाता है। एक दिन coding में जितनी बिजली लगेगी, वह desktop gaming machine पर Subnautica 2 को कुछ घंटे चलाने से भी कम होगी। इसकी एक वजह यह भी है कि छोटे मॉडल को बहुत ज़्यादा सोच outsource नहीं की जा सकती, इसलिए AI ज़्यादा देर idle रहता है और इंसान ज़्यादा सोचता है
      Training cost ज़्यादा बड़ी है, लेकिन अगर बात साल में 27B आकार के कुछ ही मॉडल train करने की हो, तो पूरी औद्योगिक सभ्यता के पैमाने पर यह गिनती में भी मुश्किल से आएगा। मैंने पहले कभी हिसाब लगाया था कि Iceland में geothermal-powered aluminium smelter एक और जोड़ने जितनी बात हो, तो 27B-स्तर के कुछ मॉडल आराम से train किए जा सकते हैं। यह मुफ़्त नहीं है, लेकिन rounding error के क़रीब है
      Inference की बिजली खपत तीन incandescent bulbs से कम है, और वह भी सिर्फ तब जब मॉडल वास्तव में generate कर रहा हो। Training की बिजली खपत एक बड़े industrial facility के स्तर की है, लेकिन यह लगभग पूरी तरह renewable energy से भी हो सकती है। Iceland इस मामले में अच्छा है
      “Copyright infringement” वाली बात मौजूदा अमेरिकी case law के हिसाब से सही नहीं लगती, और copyright अधिकारों को और मज़बूत करने की माँग पर सावधानी से सोचना चाहिए। मैं 90 के दशक से copyright expansion का विरोध करता आया हूँ, इसलिए भले ही LLM training का तरीका मुझे पसंद न हो, यह मुद्दा अब copyright law के दायरे से निकलकर politics और legislation के दायरे में जाता दिखता है। हालाँकि Anthropic द्वारा किताबों की सीधी illegal copying एक अपवाद है
      लेकिन विचार outsource करने की समस्या तेज़ी से बदतर होती जा रही है। बहुत से लोग खुद को machine god की meat puppets बनाना चाहते हैं, और यह डरावना है
    • Copyright infringement का मुद्दा LLM और AI कंपनियों के बुरे होने की वजह के रूप में अक्सर उठाया जाता है, लेकिन मुझे लगता है कि उसी मुद्दे के इर्द-गिर्द लामबंद होना भटकाव है
      यह कुछ वैसा है जैसे यह कहना कि हत्या इसलिए बुरी है क्योंकि वह illegal है। हत्या बुरी है, लेकिन उसके बुरे होने की वजह उसकी illegality नहीं है। क़ानून बदल सकता है। अगर AI को copyright की वजह से बुरा कहकर माहौल बनाया जाए और फिर संसद उसे legal कर दे, तो क्या सब लोग अचानक AI को ठीक मान लेंगे? असली चिंता के केंद्र के क़रीब और भी कारण थे, और उन्हीं पर एकजुट होना शायद ज़्यादा उपयोगी होता
      Alexandra Elbakyan भी एक copyright infringer हैं। लेकिन वह एक वयस्क इंसान हैं, और हर विश्वविद्यालय में उनकी मूर्ति होनी चाहिए
  • सचमुच खुले और न्यायपूर्ण machine learning और large language model का भविष्य पूरी supply chain को ध्यान में रखे बिना संभव नहीं है। https://time.com/6247678/openai-chatgpt-kenya-workers/ पढ़ने की सलाह है

  • जल्द ही हम data peak पर पहुँचेंगे, और उसके बाद की प्रगति अधिकतर इस दिशा में आती दिखती है कि नवीनतम LLM को agentic तरीक़े से बाँधकर इस्तेमाल किया जाए
    आख़िरी बार खुले तौर पर जारी किए गए open source models आने वाले कई सालों तक लगातार बदलते open source agent-type या किसी और upper structure की बुनियाद के रूप में इस्तेमाल हो सकते हैं

  • अधिक सटीक रूप से कहें, तो जनता को पिछले 20 वर्षों में, ख़ासकर हाल के समय में, tech giants को मिली विशाल public funding को पहचानना चाहिए और tax से बने infrastructure पर अपना अधिकार माँगना चाहिए
    ये कंपनियाँ भारी public funding के बिना पैदा भी नहीं हो सकती थीं और न ही टिक सकती थीं। ऊपर से training data का बड़ा हिस्सा सीधे public commons से लिया गया है
    ये मॉडल निजी प्रयास का परिणाम नहीं, बल्कि विशाल सामूहिक प्रयास का अंतिम नतीजा हैं, और इन्हें कानूनी रूप से public commons के रूप में मान्यता मिलनी चाहिए

  • यह महत्वपूर्ण है या नहीं, bubble है या नहीं, hallucinate करने वाले token predictor हैं या नहीं — फिर भी यह बहुत ज़रूरी है कि सभी देशों के पास ऐसा कानूनी ढाँचा हो जो “Frontier lab” को नवीनतम मॉडल छोड़कर बाकी मॉडलों को open source के रूप में जारी करने के लिए बाध्य करे
    सार्वजनिक किए जाने वाले दायरे में weights, training data, methodology आदि शामिल होने चाहिए, या फिर हर मॉडल को 10~15 साल बाद open source बनाना अनिवार्य होना चाहिए। मानव ज्ञान की प्रगति और “जिनके पास है” और “जिनके पास नहीं है” के बीच विभाजन को रोकने के लिए, हर मॉडल को एक निश्चित समय के बाद सार्वजनिक होना चाहिए
    आप सोच सकते हैं कि AGI क़रीब नहीं है, लेकिन इन frontier labs की मंशा AGI तक सबसे पहले पहुँचना और फिर उसे paywall के पीछे अकेले अपने पास रखना है। संभावना बड़ी हो या छोटी, मानवता के समग्र हित में ऐसा होने से रोका जाना चाहिए

 
GN⁺ 4 시간 전
Hacker News की राय
  • कुछ समय से हम ऐसे machines के साथ distributed model training system बनाने पर विचार कर रहे हैं जिनमें लोग volunteer की तरह योगदान दें, लेकिन व्यावहारिक रूप से इसकी कठिनाई खगोलीय स्तर की है
    communication speed संभाली नहीं जाती, और भरोसेमंद न होने वाले nodes से आने वाला data contamination भी एक समस्या है
    बाद वाली समस्या शायद self-healing checkpoint rollback system से लगभग हल की जा सकती है, जिसमें contaminated data के बाद के सारे results फेंकने की ज़रूरत न पड़े, लेकिन यह ऐसा छोटा project नहीं है जिसे कोई एक व्यक्ति सिर्फ़ idea के दम पर कर ले
    अगर अब frontier labs पूरी की पूरी आगे की प्रगति करने से रोकी जाएँ, तो इस दिशा में रुचि पैदा हो सकती है
    पृथ्वी पर मौजूद सभी GPU का कुल योग उनकी क्षमता पर भारी पड़ेगा, लेकिन इसे कुशलतापूर्वक distributed तरीके से इस्तेमाल करने का तरीका चाहिए
    भले हम Fable को उनकी तरह तेज़ी से train न कर सकें, लेकिन कभी पहुँच पाना, हमेशा के लिए न पहुँच पाने से बेहतर है

    • जैसा मैंने पहले दूसरे reply में भी लिखा था, यह अच्छा idea होने पर भी वास्तविक दुनिया में टिकना मुश्किल है
      AI-specific hardware सिर्फ़ consumer GPU से बहुत तेज़ ही नहीं, बल्कि power efficiency में भी बहुत बेहतर है और connectivity में भी, और ये तीनों पहलू अलग-अलग इस idea को तोड़ देते हैं
      power efficiency का फ़र्क इतना बड़ा है कि पृथ्वी के सभी public GPU या मिलते-जुलते devices को जोड़ भी लें, तो बिजली का बिल बहुत ज़्यादा होगा, और उसी पैसे में अपना data center बनाना कुल लागत के हिसाब से शायद सस्ता पड़े
      बिजली मुफ़्त भी हो, तब भी दुनिया भर में फैले GPU को internet latency के साथ जोड़ने पर यह हज़ारों से लाखों गुना धीमा हो जाएगा, और यह संभव भी होगा या नहीं, यह भी साफ़ नहीं
      कुल मिलाकर इस दशक के भीतर fable-oss मिलना मुश्किल है, और शायद इस सदी में भी नहीं
      बेहतर यह होगा कि सरकारें गठबंधन के रूप में ही सही, सीधे data center खरीदें, उनका स्वामित्व रखें, और उन्हें सार्वजनिक हित में चलाएँ; और वास्तव में ऐसा होना भी चाहिए
    • जब लोग distributed training के बारे में सोचते हैं, तो वे पहले यह नहीं सोचते कि एक ही कंपनी के स्वामित्व वाले विशाल data centers लंबी दूरी पर model train कर रहे हैं
      वे ज़्यादा यह कल्पना करते हैं कि हज़ारों छोटे data centers या individual users internet के ज़रिए spare compute जोड़कर किसी एक इकाई से बड़े training run को coordinate कर रहे हैं
      Pluralis Research, Prime Intellect, Nous Research जैसी कंपनियाँ इसी vision का पीछा कर रही हैं और वे पहले ही कुछ पैमाने वाले distributed training में सफल भी हुई हैं, लेकिन वास्तविक internet-based distributed training अब भी centralized training से बहुत पीछे है
      सबसे बड़े models, जैसे Pluralis का 8B Protocol Model, Prime Intellect का INTELLECT-1, और Nous का Consilience 40B भी, xAI के Grok 4 जैसे मौजूदा frontier model की तुलना में 1,000 गुना कम compute पर train किए गए थे
      https://epoch.ai/gradient-updates/how-far-can-decentralized-...
    • यह सही नहीं है कि पृथ्वी के सभी GPU का कुल योग उनकी क्षमता पर भारी पड़ता है
      आपने यह गलत समझा है कि कितना silicon उन्हीं कंपनियों के पास गया है, और वह silicon consumer hardware की तुलना में कितना अधिक शक्तिशाली है
    • कुछ साल पहले Petals नाम का एक project था, जो P2P के ज़रिए इस लक्ष्य के कुछ हिस्से हासिल करने की कोशिश कर रहा था: https://github.com/bigscience-workshop/petals
      BLOOM model भी collaborative तरीके से बना एक नतीजा था: https://huggingface.co/docs/transformers/en/model_doc/bloom
    • मुझे लगता है कि सही techniques के साथ gradient information को 10000 गुना compress किया जा सकता है, इसलिए यह संभव है
      Nous दावा करता है कि वह यह पहले ही कर चुका है: https://github.com/NousResearch/DisTrO
      पहले भी gradient compression papers में बड़े compression ratios रिपोर्ट किए गए हैं
  • इसके साथ distributed LLM inference की भी ज़रूरत है
    अब हम उस बिंदु पर पहुँच चुके हैं जहाँ किसी एक व्यक्ति के लिए latest model चलाने लायक setup बनाना बहुत महँगा हो गया है
    इसलिए हमें ऐसा framework बनाना और अपनाना चाहिए जिसमें लोग अपने resources साझा करके latest models को distributed तरीके से चला सकें
    तब सरकारों के लिए censorship करना भी कठिन हो जाएगा
    किसी एक actor को इसे weaponize करने से रोकने का एकमात्र तरीका है कि सबको access दिया जाए

    • सोचता हूँ क्या local छोटे LLM एक-दूसरे की भरपाई करके, मिलकर कुल मिलाकर कहीं बेहतर LLM बना सकते हैं
    • मैंने Teale.com बनाया है और उसे open source भी किया है
      यह Mac, Windows, Linux, Android, iOS, यहाँ तक कि HarmonyOS पर भी fully distributed inference चलाता है
      open source/open weights models लगातार बेहतर होंगे, और अंततः smartphone या glasses hardware पर भी mythos-class कुछ चलने लगेगा
      लेकिन अभी supply और demand को match करना बेहद झंझटभरा है
      उदाहरण के लिए 16GB RAM वाले MacBook जैसा physical hardware होने का मतलब यह नहीं कि वास्तव में पूरे 16GB का इस्तेमाल हो सके, और model व settings (kvcache, context limit, temperature आदि) को demand के हिसाब से match करने की समस्या भी है
      हमें लोगों द्वारा, लोगों के लिए AI inference चाहिए, इसलिए मदद का स्वागत है
    • अगर model distributed है, तो model layers के बीच data transfer को देखते हुए distributed LLM inference बहुत अक्षम लगता है
      Petals नाम के एक project ने 180B model पर अधिकतम 4 tok/s का दावा किया था, लेकिन repository में 2 साल से update नहीं है
      https://petals.dev/
    • यह दावा कि किसी एक actor को इसे weaponize करने से रोकने का एकमात्र तरीका सबको access देना है, उसके बीच में भी कई रास्ते हैं
      policy space में ऐसे मॉडल भी आते हैं जहाँ सरकार access और monopoly दोनों को regulate करती है
      मैं इस तकनीक के monopoly के ख़िलाफ़ हूँ, लेकिन सबको jailbroken AGI/ASI दे देने का जोखिम भी स्पष्ट होना चाहिए
      एक toy example के तौर पर आप universal basic AI की कल्पना कर सकते हैं, जहाँ सरकार कई labs (n_quorum) को subcontract दे और सबको token budget उपलब्ध कराए
      लेकिन API संचालन के साथ safety controls भी होने चाहिए
      अगर हर कोई अपना jailbroken AGI चलाने लगे, तो स्थिर social norms बनाए रखने का एकमात्र तरीका शायद बड़े पैमाने की surveillance ही होगा, जो यह निगरानी करे कि कौन CBRNE threats बना रहा है
      civil liberties के नज़रिए से यह साफ़ जीत नहीं लगती, लेकिन मैं समझता हूँ कि ऐसी दलील दी जा सकती है
  • मेरे घर और मेरे बिज़नेस में तो यह शुरू से ही जीत चुका था
    सही कहें तो यह open weights था, और यह सूक्ष्म फ़र्क कुछ असहज लगता है
    मैं कभी यह समझ नहीं पाया कि किसी प्रोडक्ट के काम करने या उसके development को पूरी तरह दो बड़े startups में से किसी एक के secret source पर निर्भर बना दिया जाए, जिनकी profitability भी अस्पष्ट है और जिनका भीतर क्या चल रहा है यह भी पता नहीं
    यह sound engineering principles के भी ख़िलाफ़ है
    इसलिए मेरा ऐसा करने का इरादा कभी नहीं था, और आज AI को explore करने की वजह भी यही है कि open weights की वजह से मुझे लगा इस पर समय लगाना सार्थक है
    वैसे भी बिज़नेस अक्सर एक single payment platform और अमेरिका के दो credit card providers की policies पर निर्भर हो जाता है, और वही अपने आप में काफ़ी बुरा है
    शायद freelancer स्वभाव की वजह से, जब मुझसे कहा जाता है कि foundational technology नहीं बल्कि किसी और के product को समझने और सीखने में बहुत ज़्यादा ऊर्जा लगाऊँ, तो मैं हमेशा असहज हो जाता हूँ
    मुझे वह दौर भी याद है जब Microsoft departments को NT source code access का वादा करके मनाया करता था
    मुझे यह भी याद है कि उस समय हमारे यहाँ एक senior व्यक्ति ने कहा था कि Linux तो एक side branch है और NT access ही हमें meaningful बनाएगा
    मैं खुद को और अपने आसपास के लोगों को हमेशा याद दिलाता हूँ कि अपने भाग्य पर नियंत्रण हमेशा और ज़्यादा चाहिए होता है, और cutting edge हमेशा latest stable technology से आगे होता है
    प्रगति cutting edge पर होती है, लेकिन वहाँ नुकसान का जोखिम भी होता है
    engineering का ध्यान दूसरों की प्रगति पर सवारी करने पर नहीं, बल्कि latest stable technology पर build करने पर होना चाहिए

    • इस संदर्भ में open source शब्द में एक असहज सूक्ष्मता है
      llama.cpp जैसे tools खुले हैं, लेकिन weights के बिना वे बेकार हैं
      weights असल में एक बेहद महँगा capital हैं, जिसे आपस में लड़ रही बड़ी organizations donate कर रही हैं
      उदाहरण के लिए, मुझे नहीं पता कि archive.org सचमुच खुले weights बना सकता है या नहीं, और archive.org के अलावा यह कल्पना करना भी मुश्किल है कि freebsd या apache जैसी कोई दूसरी open source organization सच में खुले weights बनाने की स्थिति में हो
      अगर कोई कर सकता है, तो शायद सरकारें, सरकारी संस्थाएँ या universities कर सकती हैं
      लेकिन अभी ऐसी संस्थाओं के पास weights बनाने वाली infrastructure पर पैसा झोंकने लायक funding, authority, इच्छा या दिलचस्पी पर्याप्त नहीं है
    • दिलचस्प बात यह है कि मैंने एक अलग रास्ता चुना
      AI हमारे बिज़नेस के development तरीके को complement करता है, और engineers सबसे अच्छे open source models की तुलना में Opus 4.8 का इस्तेमाल करना बहुत ज़्यादा पसंद करते हैं
      मैं मानता हूँ कि open source महत्वपूर्ण है, लेकिन अपने बिज़नेस में मैं बस वही सबसे अच्छे tools इस्तेमाल करूँगा जो उपलब्ध हैं
  • जब open source का मतलब free software जैसा बना दिया जाता है, तो यह लगभग यह कहने जैसा हो जाता है कि आपको बस मुफ्त copies चाहिए
    हमें कहना यह चाहिए कि public और community-run projects मिलकर pretraining और training करें
    इसका मतलब है training corpora को सार्वजनिक रूप से handle करना और training work को किसी न किसी तरह coordinate करना
    यह शब्द के अर्थ को पूरी तरह बदल देता है, और वैसा ही है जैसे लोग piracy और theft को गड्डमड्ड कर देते हैं
    दोनों अलग चीज़ें हैं, इसलिए अलग शब्द इस्तेमाल होने चाहिए
    free weights, inference code, और chat templates, community-run LLM project से बहुत अलग चीज़ें हैं

    • EleutherAI शायद उस चीज़ के क़रीब हो सकता है
  • फंडिंग कौन देगा?
    training cost की महँगाई की कल्पना करना भी मुश्किल है
    या तो VC funding model है जो investment return चाहता है, या CCP funding model है जो चीन के authoritarian social model को मज़बूत करना चाहता है
    universities के 4B model जैसी चीज़ हो सकती है, लेकिन उससे बहुत दूर तक जाना मुश्किल लगता है

    • मैं उस चिंता से सहमत हूँ, लेकिन आज भी इसी तरह की बड़ी और जटिल चीज़ें open source बनी हुई हैं
      मैं हर दिन हैरान होता हूँ कि मेरा Linux computer दो trillion-dollar कंपनियों द्वारा बनाए गए operating systems जैसा लगभग वही experience देता है
      बल्कि कुछ ऐसे काम भी करता है जो वे commercial alternatives नहीं कर पाते
      अगर DeepSeek सचमुच पश्चिमी competitors की लागत के 1/10 और कर्मचारियों के सिर्फ़ एक हिस्से के साथ model ला सकता है, तो इसका मतलब यह हो सकता है कि इस क्षेत्र में alternatives देने वाले किसी खिलाड़ी के लिए बाज़ार मौजूद है
      मैं सोचता हूँ कि IBM जैसी कंपनियाँ Linux में योगदान देने और उन contributions को मुफ्त में जारी करने के लिए इतनी तैयार क्यों रहती हैं
      क्योंकि वे ऐसे corporate sponsors के समूह का हिस्सा हैं जिन्हें बाज़ार के ज़्यादा dominant commercial players के लिए एक alternative चाहिए
      Meta भी React को लगभग मुफ्त में इसी वजह से देती है
      Meta के लिए यह ज़्यादा फ़ायदेमंद है कि वही standard बन जाए और वह ऐसे लोगों को hire कर सके जो उसे पहले से जानते हों
      AI models में ऐसे ecosystem benefits की कल्पना करना और मुश्किल है, लेकिन शायद वे कहीं मौजूद हों
      यह कल्पना की जा सकती है कि datacenter/VPS providers बड़े AI कंपनियों की bargaining power कम करने के लिए ऐसी चीज़ों को sponsor करें
      बेशक, यह आशावाद सिर्फ़ एक दिवास्वप्न भी हो सकता है
    • हमें वाकई एक legal precedent चाहिए कि model distillation एक वैध गतिविधि है
      अगर model बनाने वाले लोग दूसरों का काम खंगालकर उस पर training कर सकते हैं और जानकारी को ऐसे धोकर अपना बना सकते हैं कि मूल creators को कुछ लौटाना भी न पड़े, तो फिर models को distill करना अवैध क्यों होना चाहिए, यह मैं नहीं समझता
      यह वही चीज़ है जो frontier model makers व्यापक intellectual property के साथ कर रहे हैं
    • क्या आपने कभी 1960s के computers की लागत को inflation-adjust करके देखा है?
      training आज जितनी महँगी लगती है, कभी computers भी उतने ही अकल्पनीय रूप से महँगे थे
      अगर कई universities मिलकर पैसा लगाएँ तो?
      अगर कई देश मिलकर पैसा लगाएँ तो?
      आख़िरकार breakthroughs आएँगे और optimizations होंगी
      लोगों को शक था कि open source operating system संभव भी होगा या नहीं, लेकिन Linux दशकों से desktop environment में एक वास्तविक विकल्प रहा है, और server तथा phone operating system के रूप में तो उसकी व्यापकता कहने की ज़रूरत ही नहीं
    • यह सिर्फ़ महँगा नहीं, बल्कि अपव्ययी भी है
      पुराने models इस्तेमाल करने में कोई मूल्य नहीं है
      open source AI manifesto यह माँग करता है कि “open source AI आर्थिक रूप से भी sustainable होना चाहिए,” लेकिन यह wishful thinking के ज़्यादा क़रीब लगता है
    • शायद यह तरीका संभव हो कि जो labs closed models जारी करती हैं, उन्हें open source models भी साथ में जारी करने चाहिए
      gpt-oss अब पुराना हो चुका है, लेकिन जब आया था तब ठीक था
      Nemotron भी solid है, और खासकर हाल की ultra release अच्छी है
      Nvidia के पास खास तौर पर Chinese models की तुलना में कहीं बेहतर कहानी है, क्योंकि वह सिर्फ़ model ही नहीं बल्कि pre/post-training data तक, हर हिस्से को खोलता है
  • companies के byproduct के रूप में open source models मिलने का इंतज़ार करने के बजाय, मैं open source AI lab को support करने के लिए हर महीने 50 डॉलर देने को पूरी तरह तैयार हूँ

    • AI labs सैकड़ों अरब डॉलर खर्च कर रही हैं, इसलिए प्रतिस्पर्धा करने के लिए subscribers की संख्या बहुत बड़ी चाहिए होगी
    • मुझे लगता है OpenAI ने trust को बर्बाद कर दिया
      आप कैसे जानेंगे कि वह open source AI lab किसी न किसी रूप में बाद में for-profit company में spin out नहीं हो जाएगी?
    • मेरी जानकारी में DeepSeek के पास कोई closed model नहीं है और वह ज़्यादातर अन्य संस्थाओं से अधिक code/data/papers सार्वजनिक करता है
      शायद मैं उनकी API इस्तेमाल करना शुरू कर दूँ
      वह किसी corporate byproduct की तरह भी नहीं है
  • Open weight AI के लिए training और research में बड़ा पूंजी निवेश करने की प्रेरणा शायद न हो
    donation fund जैसी कोई चीज़ बन सकती है, लेकिन frontier labs को मिलने वाली funding के स्तर तक पहुँचना स्वाभाविक रूप से मुश्किल होगा
    इसलिए मुझे लगता है कि AI का सिर्फ open weight के आधार पर मौजूद रहना शायद असंभव हो सकता है
    OpenAI, Anthropic, Google जैसे बड़े player बने रहेंगे, और उनके पास open source versions से बेहतर models होने की संभावना ज़्यादा है
    यह Photoshop और GIMP के रिश्ते जैसा दिख सकता है
    यानी Photoshop frontier lab है और GIMP open weight model
    GIMP कई image editing workflows के लिए काफ़ी उपयोगी है, लेकिन Photoshop बस बेहतर है
    frontier labs से बेहतर open weight models हों तो निश्चित ही अच्छा होगा, लेकिन मुझे यह संभव नहीं लगता

    • मैं भी काफ़ी हद तक ऐसा ही सोचता हूँ, लेकिन open source model न भी हो तब भी local AI आख़िरकार अनिवार्य होगा
      OpenAI वगैरह भी on-premise products ला सकते हैं
      चाहे वह appliance rack हो या किसी और रूप में, बड़ी कंपनियाँ data sovereignty और cost control के लिए inference को local में चलाना चाहेंगी
      खासकर जब manufacturing या अन्य network-isolated environments में AI को integrate करने का समय आएगा, तब यह और भी सच होगा
    • Photoshop और GIMP वाली उपमा काफ़ी अच्छी है
      अभी एक तरह का hypergrowth phase चल रहा है, लेकिन जब तक AI के पीछे की technology सच में evolve नहीं करती, बेहतर से बेहतर models बनाना धीरे-धीरे कठिन होगा और diminishing returns आएँगे
      अगर LLM का GIMP, VC-funded model की performance का 80% भी दे दे, तो वह बहुत लोगों के लिए काफ़ी उपयोगी होगा
      भले ही यह सच हो कि वह proprietary model जितना अच्छा नहीं है, फिर भी open source model इस्तेमाल करने का विकल्प होना ही अपने-आप में जीत है
    • थोड़ा पीछे हटकर देखें तो यह समय की बात है
      जब यह साफ़ हो जाएगा कि consumers से trillion dollars निकालना असंभव है, तब trillion-dollar valuations को बेमानी माना जाएगा
      इस बीच भी, और वैसे भी अगर software optimization और hardware scaling जारी रहती है, तो जल्द ही mobile devices पर Fable से भी बेहतर क्षमता वाला open weight चलने लगेगा
    • अगर users के पास folding@home की तरह training के लिए compute donate करने का तरीका हो, तो शायद यह संभव हो
      हालाँकि यह व्यावहारिक कैसे होगा, मुझे नहीं पता
    • एक और ज़्यादा बुनियादी वजह है कि सिर्फ open weight के आधार पर AI का अस्तित्व कठिन है
      कुछ AI models इतने बड़े होते हैं कि उन्हें सिर्फ cutting-edge hyperscale datacenters में ही तर्कसंगत रूप से चलाया जा सकता है
      ऐसे models को open source के रूप में जारी करना ज़्यादातर अर्थहीन है
      उनका पैमाना आज के सबसे बड़े public models से भी बहुत बड़ा है, और इतना कि छोटे, सस्ते अस्थायी clusters पर धीमा inference चलाने की संभावना भी बाहर हो जाती है
      Fable शायद पहले से ही उस बिंदु पर हो सकता है
  • मैं भावना और mission से सहमत हूँ, लेकिन यह लक्ष्य अब राजनीति से अलग नहीं किया जा सकता
    Open Source(tm) होने भर से यह नहीं रुकता कि सरकारें या अन्य संस्थाएँ silicon या उस silicon से क्या किया जा सकता है, उस पर नियंत्रण न लगाएँ; और दुनिया भर में यह पहले से हो रहा है
    model open source हो तब भी regulation या economic incentives की समस्या हल नहीं होती
    यह ऐसा मुद्दा नहीं है जिसे कुछ paragraphs में समेटा जा सके
    AI एक सभ्यतागत इन्फ्रास्ट्रक्चर है, और इसे सिर्फ source नहीं बल्कि सभ्यतागत समाधान चाहिए

    • monopoly capitalism और finance capitalism 100 साल से भी ज़्यादा समय से बाज़ार पर हावी हैं, और राज्य उन विशाल हितों की सेवा करता है
      सब जानते हैं कि AI कंपनियों ने training के लिए बिना अनुमति चीज़ें उठाई हैं, लेकिन कुछ नहीं होगा
      यह क़ानून के वर्ग-आधारित लागू होने का खुला उदाहरण है
      वे अपने क़ानून मनमाने ढंग से लागू करते हैं, और वजह हमेशा national security बताई जाएगी
      क्योंकि इन्फ्रास्ट्रक्चर उन्हीं के पास है, उनके हित ही national security बन जाते हैं
      technology जब भी बड़ी छलाँग लगाती है, तब वह खेल को हिला सकती है, लेकिन finance capitalism जल्दी ढलकर उस लहर को अपने भीतर समा लेता है
  • अगर लेख में इसका ज़िक्र नहीं था, तो open source और open weight के बीच का अंतर महत्वपूर्ण है
    open weight models लगभग उस entry-level drug की तरह हैं जिसमें पहली dose मुफ़्त होती है
    कम-से-कम मूल training data के बिना उन्हें अर्थपूर्ण ढंग से upgrade करने की क्षमता इतनी सीमित होती है कि वे लगातार विकसित हो रहे state-of-the-art models से जल्दी पीछे छूट जाते हैं
    फिर आप अगली release का इंतज़ार करने लगते हैं या provider के API पर वापस चले जाते हैं
    सिर्फ knowledge cutoff date को आगे बढ़ा देने से ही user experience काफ़ी बेहतर हो जाता है, inference, quantization-aware training, और आगे आने वाले कई सुधारों की तो बात ही अलग है
    open weight models को बेहतर बनाने पर research की जा सकती है, लेकिन निष्कर्ष वही रहता है
    अगर वह open source नहीं है, तो आम जनता को मिलने वाला लाभ काफ़ी कम हो जाता है

  • ओपन सोर्स AI परिभाषा के अनुसार कभी भी पूरी तरह जीत नहीं सकता
    आज के समय में AI आखिरकार hill-climbing optimization के काफ़ी करीब है, और बंद research labs खुली दुनिया जो भी करती है उसे absorb करके उसके ऊपर और बना सकती हैं
    ज़्यादातर use cases में यह कोई बड़ी समस्या नहीं है, क्योंकि AI इस समय capability saturation के तरीके से काम कर रहा है
    https://www.delanceyukschoolschesschallenge.com/the-rising-t...
    अपवाद सिर्फ वे क्षेत्र हैं जहाँ प्रकृति या दूसरे लोगों के साथ मूलतः प्रतिस्पर्धा होती है और जहाँ प्रतिद्वंद्वी पर बढ़त महत्वपूर्ण होती है

    • आम कामों में जब capability saturation आ जाता है, तब ओपन सोर्स जीतता है, और ऐसा पहले से हो रहा है
      दूसरी बड़ी जीत शायद तब होगी जब आम लोग इसे अपने हार्डवेयर पर चला सकेंगे
    • Linux के बारे में भी यही बात कही जा सकती थी
      Microsoft Linux से जितना चाहे सीख सकता था, लेकिन Linux ने commercial competitors के बावजूद न सिर्फ अपनी प्रासंगिकता बनाए रखी, बल्कि Firefox के मौजूदा market share जैसे मामलों के विपरीत अब यह बेहद बड़े अंतर से सबसे व्यापक रूप से इस्तेमाल होने वाला operating system बन चुका है
      ऐसा नहीं लगता कि खुले सिस्टम से सभी अच्छे ideas या data को absorb कर लेने की क्षमता ही एकमात्र निर्णायक कारक है
    • बंद research labs को भी अब भी अपने निवेश को justify करना पड़ता है, और जैसे-जैसे model capability ठहराव के करीब पहुँचती है, यह काम और मुश्किल होता जाता है
      अभी Fable और Mythos cutting edge हैं, लेकिन जल्द ही वे commodity बन जाएँगे
      OpenAI/Anthropic जैसी latest models के सहारे आगे निकलने की कोशिश करने वाली हर एक कंपनी के मुकाबले, उनके complements को commodity बनाने की कोशिश करने वाली लगभग सौ कंपनियाँ होंगी
    • AllegroLisp, SBCL से काफ़ी पीछे है
    • ओपन सोर्स मॉडल को Claude Mythos या Claude Sonnet जितना अच्छा होना ज़रूरी नहीं है ताकि उसे जीत माना जाए
      ओपन सोर्स की जीत के लिए इतना काफ़ी है कि बंद models के विकल्पों में कम-से-कम एक GPT-4 जितना अच्छा हो
      दरअसल Google Gemma models के साथ हम लगभग उस बिंदु तक पहुँच चुके हैं
      एक software engineer के तौर पर Sonnet के बाद मुझे अपनी productivity में कोई फ़र्क महसूस नहीं हुआ
      बेशक Opus बेहतर है और Fable उससे भी बेहतर होगा, लेकिन आर्थिक मूल्य के नज़रिए से देखें तो हम पहले ही diminishing returns से टकरा रहे हैं
      जब मैं Cursor में शुरुआती GPT models में से एक इस्तेमाल करता था और फिर Claude Code तथा Sonnet पर गया, तब मेरे लिए लगभग 5x productivity improvement हुआ
      Claude Code से पहले मैं AI का इस्तेमाल सिर्फ छोटे code snippets के लिए करता था, लेकिन Claude Code + Sonnet के साथ मैं पूरे subtasks उसे सौंप सकता था
      फिर भी मैं Opus पर इतना भरोसा नहीं करता कि उसे पूरा feature शुरू से अंत तक दे दूँ
      मुझे यक़ीन नहीं कि कभी ऐसा होगा भी, और शायद इसकी ज़रूरत भी न हो
      कंपनियाँ software engineers से एक काफ़ी ऊँचा baseline talent level चाहती हैं, लेकिन उस स्तर से ऊपर उन्हें सच में कोई फ़र्क नहीं पड़ता
      फ़र्क बड़ा भी हो, तो वे उसे नोटिस तक नहीं करतीं