1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Artificial Analysis Intelligence Index में ओपन-वेट LLM के क्लोज्ड LLM की पिछली performance तक पहुँचने में लगने वाला समय 2024 की गर्मियों से लगातार घटता दिख रहा है
  • इस single metric पर trendline खींचने पर gap 3 दिसंबर 2026 को 0 महीने हो जाता है, जिससे यह अनुमान निकलता है कि open models, metric के हिसाब से frontier closed models के बराबर पहुँच जाएंगे
  • इसी analysis को सभी 18 benchmarks तक बढ़ाने पर average gap लगभग flat है और पूरी अवधि में 5 महीने से कम के स्तर पर बना रहता है
  • सुधार मुख्य रूप से coding benchmarks में हुआ है, जहाँ coding metrics का gap 15 महीने से घटकर 1–2 महीने रह गया
  • LLM quality का evaluation metrics पर बहुत निर्भर करता है, इसलिए यह व्याख्या भी संभव है कि open models जल्द ही बराबरी कर लेंगे और यह भी कि वे लगातार करीब 5 महीने पीछे रहेंगे

single metric में दिखती तेज़ पकड़

  • gap की गणना open-weight LLM की benchmark frontier को आधार बनाकर की जाती है: closed LLM frontier ने अतीत में किस समय वही performance दी थी, इसे पीछे जाकर देखा जाता है
  • इस्तेमाल किया गया headline metric Artificial Analysis का Artificial Analysis Intelligence Index है, जो model की overall क्षमता को evaluate करने की कोशिश करता है
  • इस metric में 2024 की गर्मियों के आसपास से open-weight LLM और closed LLM के बीच gap घटना शुरू हुआ, और उसके बाद भी यह shrinking trend जारी रहा
  • trendline को भविष्य में बढ़ाने पर gap 3 दिसंबर 2026 को 0 महीने हो जाता है
    • लिखे जाने के समय के आधार पर यह लगभग 6 महीने बाद की गणना है

18 benchmarks से निकलता अलग निष्कर्ष

  • Artificial Analysis के सभी 18 benchmarks पर वही analysis लागू करने से single metric से अलग तस्वीर सामने आती है
  • हर महीने के लिए 18 datasets के gap का boxplot बनाया गया और सभी datasets के average gap पर trendline निकाली गई
  • average gap की trendline लगभग पूरी तरह flat है और पूरी अवधि में 5 महीने से कम के आसपास रहती है
  • model improvements का बड़ा हिस्सा coding metrics में हुआ है
    • coding index 15 महीने पीछे के स्तर से घटकर 1–2 महीने पीछे के स्तर पर आ गया
    • बाकी ज़्यादातर datasets में समय के साथ gap धीरे-धीरे बढ़ता दिखता है
  • measurement criteria के आधार पर LLM quality का आकलन बहुत बदल जाता है
    • एक criteria से Christmas के आसपास open source singularity की भविष्यवाणी की जा सकती है
    • दूसरे criteria से open source LLM, closed LLM से लगातार लगभग 5 महीने पीछे हैं, और gap बढ़ भी सकता है

1 टिप्पणियां

 
GN⁺ 4 시간 전
Hacker News की रायें
  • ओपन वेट मॉडल्स के भविष्य की सबसे बड़ी समस्या यह है कि आज के ओपन वेट मॉडल्स DeepSeek जैसे निजी संगठनों की सदिच्छा पर निर्भर होकर निकले हैं
    नल कभी भी बंद हो सकता है, और जब तक किसी रूप में community-owned hardware नहीं बनता, ओपन वेट मॉडल्स के बंद हो जाने का जोखिम बना रहेगा

    • फिर भी ओपन मॉडल्स का सबसे बड़ा फायदा यह है कि एक बार सार्वजनिक हो चुकी क्षमता छीनी नहीं जा सकती
      आगे कोई नया मॉडल बिल्कुल भी न आए, तब भी पहले से हासिल क्षमताएं बनी रहती हैं। इसके विपरीत API-आधारित मॉडल्स को provider अपनी मर्जी से बंद कर सकता है, और ऐसा हो सकता है कि gpt5-mini जल्द गायब हो जाए और उसकी जगह महंगा 5.4-mini ले ले
      Nvidia को लोग मॉडल जितना चलाएंगे, उतना सीधा फायदा होगा, इसलिए उसके पास Nemotron सीरीज़ जारी रखने की प्रेरणा है, और Google को भी browser features के लिए इस्तेमाल होने वाले छोटे मॉडल वैसे भी leak होंगे यह पता है, इसलिए developer market share हासिल करना बेहतर है
      चीनी लैब्स के पास भी मॉडल लगातार जारी करने की प्रेरणा है, और देशों के बीच commercial war की वजह से सरकारी समर्थन जारी रहने की संभावना भी बड़ी है
    • DeepSeek कोई charity नहीं, बल्कि पश्चिमी AI market को short करने की कोशिश करने वाले hedge fund जैसा है
      बात कुछ ऐसी है: “हम तुम्हारे 90% काम को 1/10 लागत में कर सकते हैं, और density metrics में तो बेहतर हैं”; कम से कम मेरी theory में यह AI दुनिया का Hindenburg Research जैसा दिखता है
    • लेख के मूल लेखक के तौर पर, मुझे लगता है कि ओपन वेट मॉडल्स का भविष्य fabless chip design companies जैसा हो सकता है
      ऐसी कंपनियां बन सकती हैं जो मॉडल train करें, और फिर उन मॉडल्स को API चलाने वाली inference कंपनियों को license करें
      inference कंपनियां कहीं कम capital में operate कर सकती हैं, और training कंपनियों को inference में resources नहीं लगाने पड़ेंगे
      कुछ चीनी model training कंपनियां पहले से इसी तरह inference providers को मॉडल license कर रही हैं
    • मॉडल training के लिए SETI@Home जैसा कुछ चाहिए
    • यह charity नहीं है; labs को public models से एक-दूसरे से सीखकर कुछ हासिल होता है
      financial नजरिए से भी यह समझ में आता है। subscription limits को पूरा इस्तेमाल करने वाला user operator पर subscription fee से ज्यादा cost डाल सकता है, और Anthropic चीन द्वारा data collection पर इतनी तीखी प्रतिक्रिया क्यों देता है, इसकी वजह भी यह हो सकती है
      weights public कर देने पर competitor को subscription service पर लगातार requests मारने की जरूरत नहीं रहती; वह model download करके analyze कर सकता है और पूरे दिन चला सकता है, जिससे burden कम होता है
      सबसे बड़े मॉडल्स को major players के अलावा खुद चलाने की वजह लगभग नहीं होती। hardware rent subscription fee से बेहिसाब महंगा है और tens of thousands of dollars लगते हैं; खरीदना हो तो hundreds of thousands of dollars चाहिए
  • “अभी pension cash out करके किसी दूरदराज़ island पर उड़ जाना और civilization के बचे हुए करीब 6 महीने शांति से बिताना अच्छा समय है”, “इसलिए शायद open source apocalypse अभी नहीं आएगा” जैसी अभिव्यक्तियां थीं, लेकिन अच्छे open source models कब से apocalypse के संकेत बन गए, समझ नहीं आता

    • उल्टा, open source models apocalypse के खिलाफ hedge हैं
      कम से कम cyberpunk-style dystopia के खिलाफ hedge तो माने जा सकते हैं
    • मैंने इसे मजाकिया अंदाज में उस भयानक नतीजे की ओर इशारा समझा कि जब open weights cutting-edge models की क्षमता तक पहुंच जाएं, तो unrestricted mythos+ level model सबके हाथ में होगा
    • प्यारा है। climate change का food crops और cancer rates पर apocalypse जैसा असर, खासकर ozone layer collapse के बाद का असर, भी लोगों को बदल नहीं पाया
      लेकिन open model LLM को monster की तरह देखा जा रहा है। क्या market को OpenAI या Anthropic ही सुरक्षित रूप से control करें और सारे फैसले लें?
    • यह लेख open-weight LLMs host करने वाली कंपनी का blog post है(https://www.doubleword.ai/)
      शायद यह मजाकिया अभिव्यक्ति रही होगी
    • apocalypse की बातें all-time high पर हैं, और लगता है लोग हर दिन और ज्यादा neurotic होते जा रहे हैं
  • मौजूदा रुझान के हिसाब से चीनी मॉडल्स के लिए अमेरिका के अत्याधुनिक मॉडल्स से आगे निकलना मुश्किल है
    अमेरिकी मॉडल्स की बढ़त ज्यादा और बेहतर, मुख्यतः synthetic data हासिल करने से आती है—यहां तक कि ऐसे तरीकों से भी, जैसे विशाल teacher models से data generate करना, जिन्हें असल conversational traffic में लगाना लगभग नामुमकिन है
    चीनी मॉडल्स model optimization पर जबरदस्त मेहनत करते हैं और अमेरिका के frontier models से ज्यादा व बेहतर training data हासिल करके आगे बढ़ते हैं
    अगर चीन के open-weight models को अमेरिकी labs के frontier models से आगे निकलना है, तो यह समीकरण उलटना होगा। चीनी labs को frontier model data harvesting से आगे बढ़कर नया data बनाने वाले data systems और प्रयास खड़े करने होंगे, और नई पीढ़ी का hardware भी बड़ी मात्रा में जुटाना होगा
    frontier-scale model training अपने आप में कोई अकल्पनीय उपलब्धि नहीं है; असली hardware जिस जगह लगता है वह teacher model inference है

    • जब तक आप उन कंपनियों में काम नहीं करते, असल में वे क्या कर रही हैं यह जानना संभव नहीं
      z.ai या Alibaba के अंदर क्या हो रहा है, यह भी नहीं पता, और Anthropic या OpenAI के अंदर क्या हो रहा है, यह भी नहीं पता
      बस यह बहुत कम संभावना लगती है कि वे एक-दूसरे से data collect नहीं कर रहे होंगे। मुझे पूरा यकीन है कि Anthropic में भी competitors को देखने के लिए GLM 5.2 weights खंगालने वाली कोई team होगी
      किसी lab को Anthropic data मिल जाने का मतलब यह नहीं कि वह अपनी research नहीं करती
      optimization पर focus इसलिए था क्योंकि best hardware मिल नहीं पा रहा था, और top labs के पीछे रहने की इकलौती वजह यह भी हो सकती है कि उनके पास H200 या MI350 नहीं थे। अब उनके पास होंगे
      आप एक और risk को भी कम करके आंक रहे हैं। Anthropic अमेरिकी सरकार से टकराव के बाद इस समय दुनिया के “best” models को internally बांधकर रख रहा है
      चीन में भी ऐसा हो सकता है। जहां तक पता है, चीनी सरकार AI exports और open-weight models को लेकर हैरानीजनक रूप से खुली है, लेकिन यह छोटी पर नजरअंदाज न की जा सकने वाली संभावना भी है कि GLM 5.2 का कोई बेहतर version अंदर ही रखा गया हो और कोई उसके बारे में बोल न सके
      चीनी lab के 6 महीने पीछे होने और best model को दबाकर रखने के लिए मजबूर किए जाने के मामले बाहर से अलग पहचानना मुश्किल है
    • भले ही यह वर्णन सही हो कि “चीनी labs को frontier model data harvesting से आगे बढ़कर नया data बनाना होगा”, वे यह कल से भी कर सकते हैं और इतने अल्पदृष्टि नहीं हैं कि यह बात सोच न पाएं
      मैं इसे barrier नहीं मानता; यह पिछले 50 वर्षों से चली आ रही एशिया को कम आंकने वाली सोच जैसा लगता है
      LLM बनाने में अमेरिका के पास कोई जन्मजात विशेष advantage भी नहीं है, और अमेरिका का first-mover advantage “यह सार्वजनिक करने के लिए बहुत खतरनाक है” जैसे export-control खेलों में देरी करके बर्बाद होने की संभावना ज्यादा है
    • Anthropic ने दावा किया था कि distillation के लिए जितना data निकाला गया, वह पूरे internet की तुलना में बहुत छोटा है
      internet पर वह अधिकांश ज्ञान वैसे ही मौजूद है जिसकी model से जानकारी होने की उम्मीद की जाती है
      बेहतर model से थोड़े data पर distillation करना अब भी मददगार है, लेकिन यह original internet-trained model में बिल्कुल न होने वाली क्षमताएं transfer करने से ज्यादा आज्ञाकारी assistant persona के अनुरूप क्षमताएं ढूंढने और trolling जैसी अवांछित क्षमताओं को दबाने जैसा है
      ChatGPT से बनाए गए instruction-tuning datasets को Alpaca आदि में इस्तेमाल करना इसका primitive version था
      अगर imitate करने के लिए साफ target न हो तो competitors को human evaluators पर ज्यादा निर्भर रहना पड़ेगा, लेकिन चीन में data labeling companies बहुत हैं, इसलिए यह कोई बड़ी बाधा नहीं है
    • “चीन के पास अमेरिका की नकल करने के अलावा कोई विकल्प नहीं” यह विचार बहुत अल्पदृष्टि और कम जानकारी वाला निष्कर्ष है
      चीन से सिर्फ model distillation के नए तरीके ही नहीं आ रहे हैं
    • समझ नहीं आता यह कैसे होगा। जल्द ही विकल्प बस बहुत पुराने OAI models या नए चीनी models ही होंगे
      अमेरिकी सरकार बिना explicit permission के latest models तक access देने के मूड में नहीं लगती
  • इस बात की ज्यादा चर्चा नहीं दिखती कि closed models benchmarks को असल में धोखा दे सकते हैं
    Anthropic या OpenAI जिस चीज को model के रूप में brand करते हैं, वह जरूरी नहीं कि केवल weights हों; वह model को augment करने वाला पूरा backend system भी हो सकता है
    तब benchmark scores सिर्फ weights वाले open source model से बेहतर आ सकते हैं

    • सही है, और मुझे इसमें कोई दिक्कत नहीं लगती। performance में सब कुछ शामिल माना जाना चाहिए
      open source के लिए भी यही बात है, और benchmarks भी किसी execution tool के बिना नहीं चलाए जाते
      AGI 100% neural network से बना है या 50% neural network और 50% Perl scripts से, इससे किसी को फर्क नहीं पड़ता
  • यह बात समझ आती है कि model performance में सुधार का बड़ा हिस्सा coding benchmarks से आया
    coding models के सबसे स्पष्ट short-term use cases में से एक है, tokens के लिए ज्यादा पैसा देने को तैयार market मौजूद है, काम करने के लिए विशाल corpus है, और problem domain में खुद काफी verification की क्षमता built-in है

  • आजादी की धरती कहे जाने वाला अमेरिका अब गैर-अमेरिकियों को frontier models इस्तेमाल करने से भी रोक रहा है
    उलटे “authoritarian country” और “freedom के उलट” माने जाने वाले चीन ने, खासकर अपनी capitalist software industry के आधार पर, सारे competitive open-weight models बनाए हैं
    सचमुच irony है
    एक चीनी के रूप में, मैं समझता हूं कि यह strategy पीछे होने की स्थिति में open source को asymmetric competition के साधन की तरह इस्तेमाल करने और कम compute resources की भरपाई बोझ बांटकर करने की है। फिर भी यह बहुत ironic है

    • तुलना पहले वाक्य से ही टूट जाती है
      अमेरिका खुद को freedom की धरती कह सकता है, लेकिन सैकड़ों वर्षों से economic protectionism का खेल खेलता आया है
      यह बस उसका latest example है
  • सोच रहा हूँ कि closed model कंपनियाँ open models को किस हद तक performance boost दे रही हैं
    अगर closed models में सुधार रुक जाए, तो क्या open models की प्रगति भी धीमी हो जाएगी

    • समझ नहीं आता कि यह क्यों माना जाता है कि सिर्फ अमेरिकी labs ही innovation कर सकती हैं
      उदाहरण के लिए DeepSeek पहले ही efficiency में काफी innovation कर चुका है
    • “distillation” open-weight models को बराबरी पर लाने में कितनी मदद करता है, यह चीन के कुछ लोगों को जरूर पता होगा
      यह धारणा कि closed models का सुधार रुकते ही सभी closed models भी रुक जाएँगे, बहुत कम संभावना वाली है—जब तक कि models जल्द ही किसी दीवार से न टकरा जाएँ
      चीनी कंपनियाँ compute power में अमेरिका से पीछे हो सकती हैं, लेकिन problem generation और reinforcement learning के क्षेत्रों में, जो अभी अच्छी तरह काम कर रहे हैं, उनके पास ऐसे researchers हैं जो अपने अमेरिकी साथियों जितने ही काबिल हैं [0]
      खासकर programming जैसे क्षेत्रों में, जहाँ short feedback loops संभव हैं, तेज सुधार जारी रहने की संभावना काफी है—जब तक हम बेबस इंसान objective function परिभाषित करने की क्षमता खो न दें
      इसके उलट, जहाँ feedback धीमा या महँगा है, वहाँ मैं जादू की उम्मीद नहीं करता। बड़ी और सक्षम pharma companies भी evaluation process बहुत धीमा और महँगा होने के कारण लगातार शानदार नई दवाएँ invent नहीं कर पातीं, और models भी इसी वजह से जल्द ऐसा कर पाना मुश्किल पाएँगे
      drug development के n रास्तों को m बार repeat करते हुए reinforcement learning चलानी हो, तो अगर संभव भी हो, लागत n*m को 10 मिलियन~100 मिलियन डॉलर से गुणा करने जितनी होगी और m साल लगेंगे
      [0] अमेरिकी university system के जरिए दुनिया भर की talent अमेरिकी labs में आती थी; यह brain drain सूख रहा है, इसलिए इस क्षेत्र में अमेरिका की बढ़त घटने की संभावना है
  • हालिया अमेरिकी export bans के साथ देखें तो दिलचस्प है
    क्या अमेरिका ऐसे models की quality के मामले में, जिन्हें आम लोग इस्तेमाल कर सकें, open source—खासकर चीनी labs—को बराबरी पर आने देकर अपनी lead बर्बाद कर रहा है
    जब users latest models इस्तेमाल नहीं कर सकते, तब भी क्या अमेरिकी labs बढ़त बनाए रख पाएँगी

    • मुझे हैरानी है कि यह महत्वपूर्ण क्यों है
      न यह कह रहा हूँ कि यह महत्वपूर्ण है, न कि नहीं; लेकिन “अमेरिका जीता” या “चीन जीता” का क्या practical value है, यह समझ नहीं आता
  • अगर यह मान्यता सही है कि open-weight और चीनी models नवीनतम cutting-edge models की distillation पर बहुत निर्भर हैं, तो gap latest cutting-edge model से meaningful data निकालने के लिए जरूरी न्यूनतम समय और latest dependent model की training पूरी करने के समय के योग के आसपास स्थिर हो जाएगा
    इस gap को process efficiency बढ़ाकर घटाया जा सकता है, लेकिन पूरी तरह खत्म नहीं किया जा सकता
    Anthropic या OpenAI में distillation को बाधित करने की कोशिशें भी संतुलन बदल सकती हैं

  • सोच रहा हूँ कि क्या कई companies और governments, जो मानती हैं कि उन्हें अग्रणी LLM applications की frontier पर होना चाहिए और उन पर लगातार निर्भर होने लगी हैं, Arthur C. Clarke की short story Superiority जैसी स्थिति में फँस जाएँगी
    [1] मूल पाठ: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
    [2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)