10 पॉइंट द्वारा GN⁺ 2025-07-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • हालिया AI प्रगति में नए आइडिया से अधिक नए datasets का प्रवेश मुख्य रहा है
  • ज़्यादातर बड़े breakthroughs पहले से मौजूद तकनीकों को नए data sources पर लागू करने से सामने आए
  • AI तकनीक में innovation की तुलना में data में बदलाव का model performance पर अधिक प्रभाव पड़ता है
  • आगे का paradigm shift भी YouTube, robots आदि जैसे नए data sources के उपयोग से संभव होने की संभावना है
  • अधिकांश researchers नई methodologies पर ध्यान देते हैं, लेकिन वास्तव में data ही प्रगति का केंद्र है

AI प्रगति की स्थिति और पैटर्न

  • पिछले 15 वर्षों में, खासकर हाल के 5 वर्षों में AI ने तेज़ी से प्रगति की है
  • कुछ researchers का दावा है कि AI विशेष कार्यों को करने की क्षमता में 'AI के लिए Moore’s Law' की तरह exponential रूप से आगे बढ़ रहा है
  • लेकिन वास्तविकता में बड़े breakthroughs बार-बार नहीं होते, बल्कि धीमी लेकिन लगातार प्रगति का ढांचा बना रहता है

innovation कहाँ से आता है

  • बहुत से लोग मानते हैं कि AI प्रगति MIT, Stanford, Google आदि अकादमिक और औद्योगिक जगत के ideas से आती है
  • research के माध्यम से model training cost घटाने और efficiency सुधारने वाले system innovations निश्चित रूप से जारी हैं
    • 2022 में Stanford के FlashAttention ने memory utilization को optimize किया
    • 2023 में Google के speculative decoding ने inference speed बढ़ाई
    • 2024 का Muon project optimizer के लिए नई approach लेकर आया
    • 2025 का DeepSeek-R1 open source में प्रमुख AI labs के स्तर का model उपलब्ध कराता है
  • researchers arXiv, conferences और social media आदि के माध्यम से तेज़ी से खुले तौर पर अपने नतीजे साझा कर रहे हैं, जिससे global distributed scientific experimentation सक्रिय रूप से चल रहा है

क्यों लगता है कि AI innovation धीमा पड़ गया है

  • हाल में Grok 3, GPT-4.5 जैसे नवीनतम models की performance improvement की रफ़्तार कम हुई है
  • math olympiad जैसे वास्तविक evaluations में कम scores आने के कारण बढ़ा-चढ़ाकर किए गए दावों की आलोचना भी है
  • बड़े paradigm changes (deep learning, transformer, RLHF, Reasoning) 10 साल के पैमाने पर दुर्लभ रूप से सामने आते हैं

बड़े breakthroughs की समानता: नए datasets

  • 4 बड़े breakthroughs उन क्षणों से मेल खाते हैं जब नए data sources का पहली बार बड़े पैमाने पर उपयोग किया गया
    • AlexNet: ImageNet (label किए गए बड़े image data)
    • Transformers: पूरे web का text data (Internet)
    • RLHF: मनुष्यों द्वारा feedback दिया गया 'अच्छा text' data
    • Reasoning: calculator, compiler आदि external verification tools के results
  • हर dataset के पहली बार बड़े पैमाने पर आने के बाद, बचे हुए data को हासिल करने की प्रतिस्पर्धा और उसे efficiently उपयोग करने की तकनीकों का विकास जारी रहा

नए ideas बनाम data की भूमिका

  • किसी खास model architecture के बिना भी, यदि वही data दिया जाए तो समान स्तर के models विकसित किए जा सकते हैं
  • वास्तव में तकनीकी innovation से अधिक, training में इस्तेमाल होने वाले dataset replacement का performance पर बड़ा प्रभाव पड़ता है
    • AlexNet की जगह कोई और structure आता, तब भी ImageNet होने से प्रगति संभव थी
    • Transformer न होने पर भी LSTM, SSM आदि समान data के साथ मिलती-जुलती performance दिखा सकते हैं
  • dataset training outcomes की upper bound तय करता है, और केवल model या algorithm improvements से इसे पार नहीं किया जा सकता
  • The Bitter Lesson में ज़ोर दिए गए विचार की तरह, नई methods से अधिक आख़िरकार वास्तव में महत्वपूर्ण चीज़ data ही है

अगले AI paradigm shift के उम्मीदवार

  • AI की अगली बड़ी छलांग किसी नए network या RL method से नहीं, बल्कि अब तक कम उपयोग किए गए नए data sources से आने की अधिक संभावना है
  • यानी, जब नए datasets बड़े पैमाने पर हासिल किए जाएंगे, तब paradigm shift होने की संभावना सबसे अधिक है
    • सबसे अधिक चर्चा में रहने वाला उम्मीदवार: YouTube आदि का video data
      • YouTube पर हर मिनट 500 घंटे के videos upload होते हैं
      • यह text की तुलना में कई गुना अधिक जानकारी रखता है, और linguistic nuance से लेकर physical व cultural context तक सीखना संभव बनाता है
      • Google जैसी big tech कंपनियाँ जल्द ही इस dataset पर training को गंभीर रूप से आगे बढ़ा सकती हैं
    • एक और संभावना: robots (embodied systems) के ज़रिए physical world data collection
      • यदि camera और sensor data को GPU पर बड़े पैमाने पर process और train करने वाली infrastructure उपलब्ध हो जाए, तो यह data भी AI innovation का प्रमुख स्रोत बन सकता है
  • text data अपनी सीमाओं के क़रीब पहुँच रहा है, इसलिए video, robots जैसे नए data sources AI का भविष्य तय कर सकते हैं

निष्कर्ष

  • AI की अगली प्रगति नए ideas या algorithms से नहीं, बल्कि नए data sources से आएगी
  • 95% researchers नई methodologies पर ध्यान देते हैं, लेकिन वास्तविक innovation datasets में बदलाव से पैदा होती है
  • यदि AI प्रगति चाहिए, तो नए ideas नहीं बल्कि नए data की उपलब्धता पर ध्यान देना होगा

1 टिप्पणियां

 
GN⁺ 2025-07-01
Hacker News राय
  • John Carmack के खोजबीन करने के तरीके को काफ़ी दिलचस्प बताया गया
    उन्होंने अपना अनुभव साझा किया कि एक ऐसे मॉडल को train किया गया जो 2D वीडियो गेम असाधारण रूप से अच्छा खेलता है, और फिर यह परखा गया कि क्या वह पहले कभी न देखे गए 2D गेम या नए लेवल पर भी अच्छा प्रदर्शन कर सकता है
    यह बताते हुए कि जिन गेम्स का उसे पहले अनुभव नहीं था उनमें मॉडल का प्रदर्शन उल्टा गिर गया, इस बात पर ज़ोर दिया गया कि यह artificial intelligence नहीं बल्कि किसी विशेष task में दक्षता भर है
    यह भी कहा गया कि superintelligence (ASI) का डर फैलाने से कहीं ज़्यादा कठिन काम ऐसा general intelligence बनाना है जो इंसान से तेज़ी से नए 2D गेम सीख सके

    • यह इंगित किया गया कि John Carmack ने इस निष्कर्ष के लिए जिस मॉडल का इस्तेमाल किया वह state of the art नहीं था, और न ही कोई महँगा foundational model, बल्कि मज़े के लिए किया गया एक प्रोजेक्ट था
      यह भी कहा गया कि अगर गहरी video/vision AI research करनी हो, तो games के पार लागू होने वाले probability-based latent space को manipulate करने वाला तरीका ज़्यादा उपयुक्त होगा
      veo3 के prompt constraints के तहत video generate करने की क्षमता का उदाहरण देकर समझाया गया कि AI 2D·3D गेम्स को generalize कर सकता है
      यह दावा भी किया गया कि veo3 बिना किसी खास गेम पर fine-tuning के भी किसी भी गेम को काफ़ी तर्कसंगत तरीके से खेलता हुआ परिणाम दिखा सकता है

    • यह कहा गया कि लोग आख़िर चर्चा को जानबूझकर इस दिशा में क्यों ले जाते हैं, यह समझना मुश्किल है
      दिए गए goal तक पहुँचने के कई तरीके हो सकते हैं, और John Carmack AI expert भी नहीं हैं, फिर उनके experiment को मानक की तरह क्यों लिया जा रहा है, इस पर सवाल उठाया गया

    • यह अंदाज़ा लगाया गया कि शायद मॉडल का आकार बहुत बड़ा कर देने से overfitting हो गया, यानी वह सिर्फ़ एक खास dataset पर फिट हो गया
      यह जिज्ञासा जताई गई कि अगर मॉडल पर constraints लगाए जाएँ, तो क्या उसे ज़्यादा सामान्य heuristics सीखने की ओर प्रेरित किया जा सकता है
      यह ज़ोर देकर कहा गया कि बिना constraints वाला AI आख़िरकार बस optimal speedrun record ही replay करेगा, लेकिन नए content का सामना होने पर अलग-अलग heuristics कहीं ज़्यादा महत्वपूर्ण होते हैं

    • यह स्पष्ट किया गया कि यहाँ जिस विषय की बात हो रही है वह Meta-Reinforcement Learning का क्षेत्र है
      John Carmack का इस क्षेत्र को explore करना अर्थपूर्ण है, लेकिन यह कोई बिल्कुल नया research topic नहीं है
      Meta-Reinforcement Learning का संक्षिप्त परिचय

    • यह कहा गया कि मॉडल में ‘वास्तविक बुद्धिमत्ता’ है या नहीं, यह AGI पर विचार करने वाली अकादमिक दुनिया के लिए दिलचस्प विषय हो सकता है, लेकिन LLM को उपयोगी रूप से इस्तेमाल करने वाले कई वास्तविक users के लिए यह उतना महत्वपूर्ण नहीं है
      यह रुख भी सामने आया कि मौजूदा प्रगति AGI तक जाती है या नहीं, इसकी चिंता नहीं है
      यह साझा किया गया कि अगर Claude 4 पर ही विकास रुक जाए, तब भी लोग उसे उपयोगी पाते रहेंगे
      AGI बहस की बजाय इस बात को कहीं अधिक रोचक बताया गया कि आजकल लोग वास्तव में AI का इस्तेमाल कैसे कर रहे हैं

  • पूरे भरोसे के साथ कहा गया कि हम अभी AI के शुरुआती युग में जी रहे हैं
    भाषा (LLM: GPT-4, Claude) और vision (CLIP, DALL·E) के दो क्षेत्रों में AI ने चमत्कारिक प्रगति की है, ऐसा उदाहरणों के साथ समझाया गया
    यह इंगित किया गया कि कंप्यूटर कविता और code लिख रहे हैं, तस्वीरों का वर्णन कर रहे हैं, और इंसानी स्तर की बातचीत कर रहे हैं, लेकिन असल में हमने सिर्फ़ text और image इन दो modalities का विस्तार किया है
    मानव बुद्धि स्पर्श, स्वाद, गंध, गति, भावना जैसी कई संवेदनाओं से गुँथा हुआ एक समृद्ध multimodal स्वरूप रखती है
    LLM या Vision Transformer इन तत्वों को लगभग बिल्कुल लागू नहीं कर पाए हैं
    यह ज़ोर देकर कहा गया कि असली AI frontier रोज़मर्रा के जीवन की जटिल और समृद्ध संवेदनात्मक दुनिया में है
    इसके लिए नए sensors, tokens से आगे जाने वाले data representation के तरीके, और अनुभव-आधारित learning के नए model training methods की ज़रूरत बताई गई

    • इस राय का विनम्र विरोध किया गया कि language और vision केवल artificial intelligence के सार का शुरुआती बिंदु हैं
      कहा गया कि touch दिलचस्प ज़रूर है, लेकिन online दुनिया की सभी interactions के लिए audio, video और language ही काफ़ी हैं
      यह समझाया गया कि इंसानों और जानवरों के बीच निर्णायक फ़र्क ‘बाक़ी बची संवेदनाएँ’ नहीं बल्कि speech, image और language में है
      साथ ही यह दृष्टिकोण रखा गया कि real-world action के लिए touch, proprioception और smell का integration महत्वपूर्ण है, लेकिन intelligence का मूल language और vision में है

    • यह राय रखी गई कि organic adaptability और memory persistence वे दो चीज़ें हैं जिनमें सबसे अधिक प्रगति होनी चाहिए
      यह बताया गया कि मानव मस्तिष्क की संरचना dynamic रूप से बदलती रहती है, जबकि LLM स्थिर हैं और उन्हें किसी जानकारी को बार-बार सीखना पड़ता है, तभी वे ‘सीखते’ हैं
      इस बात पर ज़ोर दिया गया कि intelligent machine बनाने के लिए उसे real time में ख़ुद सीखने और जानकारी को याद रखने में सक्षम होना चाहिए

    • यह दृष्टिकोण भी सामने आया कि जिन AI architectures के साथ हम अभी काम कर रहे हैं, उनमें शायद language और vision ही अंतिम सीमा हों
      कहा गया कि पिछले कुछ वर्षों में LLM को लेकर बहुत खबरें रहीं, लेकिन AI के अन्य क्षेत्रों में उल्लेखनीय breakthroughs लगभग नहीं दिखे

    • यह ज़ोर देकर कहा गया कि AI प्रगति का असली भविष्य इंसान जैसी संवेदनात्मक समृद्धि और physical world में उलझे हुए जीवन में है
      इसे समझाने के लिए यह उपमा दी गई कि जैसे Dr. Who में Dalek को दिमाग़ वाली मशीन नहीं बल्कि मशीन ही कहा गया था, वैसे ही मनुष्य भी अपने पूरे शरीर से ही ‘स्वयं’ होता है

    • ‘यक़ीन से परे प्रगति’ वाली बात पर यह व्यंग्यपूर्ण नज़रिया रखा गया कि यह बस 1970 के दशक की परित्यक्त तकनीकों को 10 लाख गुना ज़्यादा शक्तिशाली कंप्यूटरों पर लागू करना भर है
      यह भी कहा गया कि अभी ऐसे model structures या computation methods में कोई खास बुनियादी नवाचार दिखाई नहीं देता जो आगे performance को exponential ढंग से बढ़ा दे

  • वैज्ञानिक प्रगति और तकनीकी प्रगति के बीच भ्रम का ज़िक्र किया गया
    यह समझाया गया कि विज्ञान की प्रगति S-curve की तरह तेज़ी से बढ़ती है और फिर धीरे-धीरे diminishing returns के चरण में प्रवेश करती है
    लोग तेज़ optimization वाले चरण और धीमे पड़ने वाले चरण में फ़र्क नहीं कर पाते, इस बात की ओर इशारा किया गया

    • यह कटाक्ष किया गया कि साधारण hype या उम्मीद को ‘तकनीकी प्रगति’ कहना बहुत उदारता होगी

    • यह भी जोड़ा गया कि लोग S-curve और exponential function के अंतर को ठीक से नहीं समझते
      समझाया गया कि कुछ खास हिस्सों में दोनों लगभग एक जैसे दिख सकते हैं

  • यह सवाल उठाया गया कि DeepSeek का नाम विशेष रूप से क्यों लिया जाता है

  • model architecture पर research papers पढ़ने वाले नज़रिये से कहा गया कि नए ideas की बाढ़ सी आई हुई है
    हालाँकि, वास्तव में दिलचस्प नतीजे देने वाले विचार बहुत सीमित हैं
    यह अनुमान भी लगाया गया कि PyTorch जैसी libraries experimental development को कुछ हद तक बाधित करती होंगी
    यह आकलन किया गया कि basic building blocks को सीधे उठा लेने की आदत इतनी सामान्य हो गई है कि लोग हर घटक पर गहराई से सोचना कम कर देते हैं
    इस प्रवृत्ति पर भी संदेह जताया गया कि लोग ‘model card’ में checkbox भरने के लिए दूसरों के बनाए tokenizer या vision model को बस जोड़ देते हैं

    • यह समझाया गया कि ऐसा रुझान मानव समाज में भी बेहद आम और स्वाभाविक पैटर्न है
      जब मौजूदा foundational technology पर बौद्धिक खोज का ROI गिरने लगता है, तो कुछ समय के लिए मानव संसाधन दूसरे क्षेत्रों की ओर शिफ्ट हो जाते हैं
      लेकिन जब सीमाएँ सामने आती हैं, तब अंततः नवाचारी लोग फिर मूलभूत क्षेत्रों में लौटकर बड़ा बदलाव लाते हैं, ऐसा अनुमान व्यक्त किया गया
      यह भी कहा गया कि PyTorch जैसी foundational tech की अगली पीढ़ी भी इसी तरह विकसित होगी

    • यह भी कहा गया कि पिछले 2~3 वर्षों में ऐसे बड़े architecture improvements कम ही रहे हैं जिन्हें बहुत से लोग जानते हों और रोज़मर्रा में इस्तेमाल करते हों, लेकिन 3 साल जैसी छोटी time horizon को नज़रअंदाज़ करने की प्रवृत्ति भी है
      LLM के अलावा भी कई दिलचस्प और उपयोगी research दिशाएँ चल रही हैं, और भले ही वक्ता उस क्षेत्र का विशेषज्ञ नहीं है, फिर भी उसे लगता है कि बेहद विविध नए प्रयास लगातार आ रहे हैं

    • यह कहा गया कि अगर PyTorch नहीं भी होता, तो जिन लोगों में नए experiment करने की प्रवृत्ति नहीं है, वे तब भी वैसा ही व्यवहार करते

  • यह दृष्टिकोण रखा गया कि अगर हम मानव-स्तरीय बुद्धि की नकल करने वाली किसी system की कल्पना करें, तो models के बीच अंतर का मूल ‘dataset में बदलाव’ को माना जा सकता है
    कहा गया कि वास्तव में मानव स्मृति, शिक्षा और background भी problem-solving क्षमता का बड़ा हिस्सा तय करते हैं, इसलिए यह तुलना कुछ हद तक मिलती-जुलती है

  • यह जिज्ञासा जताई गई कि मॉडल active तरीके से data कैसे हासिल कर सकता है, यानी ख़ुद data खोजकर सीखने की संभावना क्या है
    यह सुझाव दिया गया कि इंसानी शिशु की तरह अलग-अलग क्रियाएँ करके प्रत्यक्ष अनुभव से सीखने का तरीका चाहिए
    यह भी कहा गया कि सिर्फ़ data feed करते रहने की मौजूदा स्थिति से आगे बढ़कर, उदाहरण के लिए 3D objects बनाए जा सकते हैं, इसलिए उन्हें physics simulator से जोड़ना एक अच्छा रास्ता हो सकता है
    Cursor का उदाहरण देते हुए सुझाव दिया गया कि rule-setting के बाद reasoning model से उसके कारणों का निष्कर्ष निकलवाकर training data में शामिल किया जाए, तो data की value और बढ़ सकती है
    यह भी कहा गया कि अगर user के व्यवहारिक चयन के कारणों पर पीछे मुड़कर विचार करके उन्हें training data बनाया जाए, तो और गहरी insights मिल सकती हैं

    • यह बताया गया कि simulation और robot arm, car जैसी ‘embodied AI’ पर सक्रिय research पहले से चल रही है

    • यह भी कहा गया कि यह तरीका मूलतः reinforcement learning ही है, और व्यवहार में यह आसान क्षेत्र नहीं है

  • यह राय रखी गई कि ज़्यादातर नए ideas, पुराने ideas से ही शुरू होते हैं
    AI को पुराने ideas तक अधिक तेज़ी और नए कोण से पहुँचने वाला एक tool बताया गया
    यह ज़ोर देकर कहा गया कि innovation पुराने ideas की खाइयों या उनके intersections से निकलती है, और अंततः innovation पूर्वजों की उपलब्धियों के ऊपर ही खड़ी होती है
    AI को ऐसी elevator के रूप में समझाया गया जो हमें सीधे giants के shoulders तक पहुँचा देती है, और आख़िरकार बात इस पर निर्भर करती है कि tool का इस्तेमाल कैसे किया जाता है

    • पुराने ideas तक पहुँचने वाली बात से सहमति जताई गई, लेकिन ‘नए दृष्टिकोण’ से पहुँचने की क्षमता पर सीमा बताई गई
      कहा गया कि LLM data interpretation में कुछ मदद कर सकते हैं, लेकिन मौजूदा research की तुलना में पूरी तरह नए ideas बनाने में अभी भी कमज़ोर हैं
      यह भी समझाया गया कि LLM का इस्तेमाल research के कुछ विशेष क्षेत्रों को तेज़ कर सकता है, लेकिन बाकी क्षेत्रों में इसकी सीमाएँ हैं

    • यह उदाहरण देकर कहा गया कि ऐसा इंसान कल्पना करना कठिन है जिसने सारा ज्ञान आत्मसात कर लिया हो और फिर भी कोई बिल्कुल नया idea न निकाल पाए

    • यह ज़ोर देकर कहा गया कि लेख का मुख्य बिंदु AI innovation अपने आप में नहीं, बल्कि data की मात्रा और quality में सुधार पर चर्चा है
      यह माना गया कि बुनियादी innovations हुई हैं, लेकिन सबसे अच्छा performance improvement तरीका अब भी अधिक और उच्च गुणवत्ता वाले data से ही आता है
      AI विकास के चक्र को ‘ज़्यादा data → गहरा model → फिर दोहराव’ के रूप में उदाहरण देकर समझाया गया
      और यह हैरानी जताई गई कि किसी की अपनी राय इस दृष्टिकोण से कैसे जुड़ती है

    • इस दावे का विरोध करते हुए कि हर नया idea पुराने से ही पैदा होता है, benzene ring की खोज का उदाहरण दिया गया
      समझाया गया कि benzene ring की संरचना का विचार सपने में साँप द्वारा अपनी ही पूँछ काटने वाली आकृति, यानी ‘Ouroboros’, से आया था, और इस तरह पहले न देखी गई कल्पनाशक्ति भी अक्सर innovation का स्रोत बनती है

  • यह कहा गया कि आधुनिक LLM आख़िरकार बस संख्याओं को जोड़ने और गुणा करने का काम ही कर रहे हैं
    इसे अतिशयोक्ति के साथ इस तरह कहा गया कि बाबिलोनी लोग 4000 साल पहले से यही करते आ रहे थे

    • इसके जवाब में कहा गया कि इंसान भी आख़िरकार तरंगों की परस्पर क्रिया का परिणाम ही हैं, और हर अर्थ अंततः दिया ही जाता है
      यह जोड़ा गया कि अगर concept space में index लगाने का कोई तरीका हो, तो आश्चर्य की संभावनाओं की खोज की जा सकती है, इसलिए संभावनाएँ अनंत हैं

    • यह तुलना की गई कि बाबिलोनी लोग यह काम मिट्टी की तख्तियों पर करते थे, जबकि आज यह atom-मोटाई की दीवारों वाले semiconductors में होता है
      इस आधार पर कहा गया कि तरीक़े में बड़ा अंतर है

  • यह विचार रखा गया कि मौजूदा AI training वास्तव में dataset को याद करवाने की प्रक्रिया के ज़्यादा क़रीब है
    यह ज़ोर देकर कहा गया कि यह data पर ख़ुद सोचने, निष्कर्ष निकालने और उन्हें याद रखने की प्रक्रिया नहीं है
    यह आकलन किया गया कि किसी दिए गए विषय के ‘facts’ के मामले में यह PhD से ज़्यादा जान सकता है, लेकिन उन बातों पर सोचने में इंसान अब भी बेहतर है

    • इस पर यह अनुमान लगाया गया कि शायद इसी वजह से PhD धारक लोग भी textbook पास में रखते हैं
      यह पलटकर पूछा गया कि क्या AI model को पहले से दर्ज हर तथ्य वास्तव में याद रखना ज़रूरी भी है

    • इसके जवाब में कहा गया कि प्रक्रिया वास्तव में थोड़ी अधिक जटिल है
      इसे इस तरह आंका गया कि मॉडल data को heuristics के रूप में internalize करता है ताकि input पर उचित response दे सके
      यह भी कहा गया कि यही heuristics कभी इंसानों को चकित करती हैं और कभी नए तरह के problem solving की झलक देती हैं
      यह जोड़ा गया कि ‘सोच’ की अवधारणा बहुत व्यापक है, इसलिए स्पष्ट निर्णय कठिन है, लेकिन AGI अभी भी बहुत दूर है

    • ‘किसी विषय पर PhD से अधिक facts याद रखना’ वाली बात की तुलना एक notebook से की गई
      यह इंगित किया गया कि notebook भी ज़्यादा facts समेट सकती है, है न?