"Attention is all you need" पेपर के सह-लेखक ने कहा, अब वह Transformers से "ऊब चुके" हैं

(venturebeat.com)

11 पॉइंट द्वारा GN⁺ 2025-10-25 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Transformers आर्किटेक्चर के सह-विकासकर्ता और इसका नाम गढ़ने वाले Llion Jones ने कहा कि “AI रिसर्च जरूरत से ज़्यादा संकीर्ण हो गई है” और वह Transformer-केंद्रित paradigm को छोड़ने वाले हैं
ChatGPT, Claude जैसे प्रमुख AI सिस्टमों की आधारभूत तकनीक Transformer ही है, लेकिन उन्होंने आत्म-आलोचनात्मक तौर पर कहा कि यही तकनीक अगली पीढ़ी के innovation को रोक भी सकती है
उन्होंने चेतावनी दी कि सिर्फ सुरक्षित विषय चुने जा रहे हैं और creativity गायब हो रही है, और यह कि “exploration की तुलना में exploitation पर ज़रूरत से ज़्यादा झुकाव” के कारण AI इंडस्ट्री कहीं बड़े innovation मिस कर रही हो सकती है
उन्होंने आलोचना की कि Transformer पेपर के जन्म के समय खुले प्रयोग का माहौल था, लेकिन अब ऊंची salary भी रिसर्च की आज़ादी की गारंटी नहीं देती
उन्होंने ज़ोर दिया कि Sakana AI में वह स्वतंत्र खोज पर केंद्रित रिसर्च संस्कृति को फिर से बनाना चाहते हैं, और “अगला Transformer-स्तर का innovation शायद हमारे बिलकुल पास हो”

Transformer के रचयिता की आत्म-आलोचना और नई घोषणा

2017 के "Attention Is All You Need" पेपर के सह-लेखक और Transformer नाम सीधे गढ़ने वाले Llion Jones ने सैन फ्रांसिस्को TED AI कॉन्फ्रेंस में AI रिसर्च के एकरूपीकरण की समस्या की तीखी आलोचना की
1 लाख से अधिक citations पाने वाले ऐतिहासिक पेपर के लेखक का अपनी ही रचना के बारे में सार्वजनिक रूप से यह कहना कि वह उससे “पूरी तरह ऊब चुके हैं”, एक असाधारण बयान है
वह इस समय टोक्यो-आधारित Sakana AI के CTO और सह-संस्थापक हैं
- उन्होंने कहा, “AI रिसर्च एक ही structure में फंस गई है,” और बताया कि वह Transformer रिसर्च पर समय कम करके नई architectures तलाश रहे हैं
- उन्होंने ज़ोर देकर कहा, “AI क्षेत्र में पहले से कहीं ज़्यादा talent और funding है, लेकिन रिसर्च उल्टा और संकीर्ण होती जा रही है”
- इस स्थिति के कारण के रूप में उन्होंने investor returns का दबाव और अत्यधिक competition का ज़िक्र किया, और कहा कि रिसर्चर creativity खो रहे हैं और “पेपर जल्दी निकालने” वाले माहौल में काम कर रहे हैं

संसाधन बढ़े, लेकिन creativity घटी — यह विरोधाभास

आज AI रिसर्चरों को यह मानकर चलना पड़ता है कि एक ही विषय पर 3-4 समूह एक साथ काम कर रहे हैं, और उन्हें लगातार यह देखना पड़ता है कि कहीं कोई दूसरी टीम उन्हें “पहले” तो नहीं कर गई
अकादमिक रिसर्चर जोखिम भरे लेकिन disruptive प्रोजेक्ट्स की बजाय ऐसे विषय चुनने की ओर झुक रहे हैं जिन्हें सुरक्षित रूप से publish किया जा सके
- competition के दबाव में पेपर जल्दी जमा किए जा रहे हैं, जिससे वैज्ञानिक कठोरता प्रभावित होती है और creativity घटती है
- रिसर्चर “exploitation” की ओर झुक रहे हैं और “exploration” की उपेक्षा कर रहे हैं
AI algorithms के exploration-exploitation trade-off की अवधारणा लागू करें, तो संभव है कि मौजूदा AI इंडस्ट्री अत्यधिक exploitation के कारण साधारण local optimum में फंस गई हो और बेहतर विकल्पों को खो रही हो
जैसे Transformer आने से ठीक पहले रिसर्चर recurrent neural network (RNN) में incremental सुधारों में उलझे हुए थे, उसी तरह आज भी एक ही architecture के variations पर जरूरत से ज़्यादा ध्यान देकर करीब खड़े innovation को मिस करने का जोखिम है

“अगर Transformer से पहले के दौर के रिसर्चरों को पता होता कि अगला बड़ा innovation बस आने ही वाला है, तो वे इतना समय बर्बाद नहीं करते”

Transformer की उत्पत्ति: आज़ादी से पैदा हुआ innovation

Jones ने याद किया कि जब Transformer रिसर्च की शुरुआत हुई थी, तब वह ऊपर से किसी भी दबाव के बिना एक आज़ाद माहौल में शुरू हुई थी
- उन्होंने कहा, “यह lunch-time discussions और whiteboard doodles से शुरू हुआ एक idea था”
रिसर्च टीम के पास कोई स्पष्ट idea नहीं था, लेकिन उन्हें काफी समय और स्वतंत्रता मिली हुई थी, और किसी खास project या performance metric को लेकर management का कोई दबाव नहीं था
- न किसी निश्चित संख्या में पेपर publish करने की मांग थी, न metrics सुधारने का दबाव
- experiments और trial-and-error के ज़रिये autonomous exploration संभव था
आज सालाना 10 लाख डॉलर से अधिक salary पर भर्ती किए गए रिसर्चर भी साहसी ideas आज़माने के बजाय अपनी कीमत साबित करने के दबाव में महसूस कर सकते हैं

“वे यह साबित करने के लिए कि वे मूल्यवान talent हैं, safe research चुनते हैं”

Sakana AI का प्रयोग: ऊंचे वेतन से बड़ी है आज़ादी

Jones Sakana AI में Transformer-पूर्व वाले स्वतंत्र रिसर्च माहौल को फिर से बनाने की कोशिश कर रहे हैं
- प्रकृति से प्रेरित रिसर्च का पीछा
- पेपर publication या competitors के साथ सीधी दौड़ को लेकर न्यूनतम दबाव
इंजीनियर Brian Cheung की सलाह साझा की: "आपको सिर्फ वही रिसर्च करनी चाहिए जो आपके बिना हो ही नहीं सकती"
ठोस उदाहरण के रूप में "continuous thought machine" प्रोजेक्ट का परिचय दिया
- दिमाग के synchronization mechanism को neural networks में integrate करने पर रिसर्च
- उन्होंने कहा कि इस विचार को रखने वाले व्यक्ति को उसकी पिछली नौकरी या academia में शक-भरी प्रतिक्रिया मिलती और समय बर्बाद न करने का दबाव झेलना पड़ता
- Sakana में उसे 1 हफ्ते का exploration time दिया गया, और नतीजतन यह NeurIPS की मुख्य कॉन्फ्रेंस में ध्यान खींचने वाली सफलता में बदल गया
उन्होंने तर्क दिया कि ऐसा exploratory environment खुद talent hiring का शक्तिशाली साधन बन सकता है
- प्रतिभाशाली और महत्वाकांक्षी लोग स्वाभाविक रूप से ऐसे माहौल की ओर आते हैं

Transformer की सफलता का विरोधाभास: पूर्णता जो innovation रोकती है

उन्होंने कहा कि Transformer की सफलता “इतनी शक्तिशाली है कि वही नए innovation को रोक रही है”
उनका विश्लेषण था, “जितनी अधिक मौजूदा तकनीक perfect लगती है, उतनी ही कम प्रेरणा बेहतर चीज़ खोजने की बचती है”
हालांकि उन्होंने Transformer रिसर्च को पूरी तरह खारिज नहीं किया, और जोड़ा कि “अब भी इससे वास्तविक value creation संभव है”
लेकिन उन्होंने ज़ोर देकर कहा, “मौजूदा विशाल संसाधनों और talent को देखते हुए, हम इससे कहीं ज़्यादा व्यापक exploration कर सकते हैं”
उनका निष्कर्ष collaboration और open exploration के महत्व पर था
- “competition नहीं, collaboration के ज़रिये exploration dial बढ़ाना होगा। तभी असली प्रगति संभव है”

AI इंडस्ट्री की ‘exploration problem’ के निहितार्थ

Jones की चेतावनी ऐसे समय में गूंज रही है जब AI scaling की सीमाओं और नई architectures की खोज की ज़रूरत पर चर्चा तेज़ है
इंडस्ट्री में पहले ही यह समझ फैल रही है कि सिर्फ Transformer scaling से अब सीमाएं सामने आ रही हैं
प्रमुख रिसर्चर मौजूदा paradigm की बुनियादी सीमाओं पर अब खुलकर चर्चा करने लगे हैं
- यह समझ बढ़ रही है कि सिर्फ scale नहीं, बल्कि architectural innovation भी अधिक उन्नत AI सिस्टमों के लिए ज़रूरी है
हर साल अरबों डॉलर AI development में लगाए जा रहे हैं, और लैब्स के बीच तीव्र competition के कारण secrecy और तेज़ publication cycle बढ़ रही है; ऐसे में Jones द्वारा वर्णित आज़ाद exploratory research लगातार घट रही है
Jones के insider perspective का विशेष महत्व इसलिए है
- क्योंकि मौजूदा क्षेत्र पर हावी तकनीक को सीधे बनाने वाले व्यक्ति के रूप में वह innovative discovery के लिए ज़रूरी शर्तों को अच्छी तरह समझते हैं
- और अपनी पहचान बनाने वाले Transformer से खुद पीछे हटने का उनका फैसला उनके संदेश को विश्वसनीयता देता है
हम ऐसे अहम मोड़ पर हैं जहाँ अगला Transformer-स्तर का innovation ऐसे रिसर्चरों द्वारा खोजा जा सकता है जिनके पास explore करने की आज़ादी हो, या फिर हज़ारों रिसर्चर incremental improvements की दौड़ में लगे रहें और वह अनदेखा रह जाए
निष्कर्षतः Jones, Transformer पर सबसे लंबे समय तक काम करने वालों में से एक होने के नाते, शायद सबसे अच्छी तरह जानते हैं कि अब अगले चरण की ओर बढ़ने का समय है

“Transformer-स्तर की breakthrough शायद पहले से हमारे पास ही है, बस competition की वजह से दिखाई नहीं दे रही”

1 टिप्पणियां

GN⁺ 2025-10-25

Hacker News की राय

मेरी नज़र में transformer हाल के इतिहास के सबसे उत्पादक आविष्कारों में से एक रहा है
2017 में पहली बार आने के बाद सिर्फ 8 साल में इसने कई क्षेत्रों को पूरी तरह बदल दिया, और यहाँ तक कि Nobel Prize मिलने में भी कुछ योगदान दिया
मुझे लगता है कि मूल रूप से अहम विचार probabilistic graphical model है। probability को sequence, tree और graph के साथ जोड़ने वाला यह दृष्टिकोण आगे भी शोध के लिए बहुत मूल्यवान रहेगा
- सच कहूँ तो, मुझे नहीं लगता कि architecture खुद में कोई बड़ा breakthrough देगा
  transformer पहले से ही एक बहुत शानदार universal approximator है। थोड़े-बहुत सुधार संभव हैं, लेकिन इससे ज़्यादा ‘universal’ कुछ ढूँढना व्यावहारिक रूप से मुश्किल है
  इसके बजाय मुझे लगता है कि auto-regressive task, cross entropy loss, और gradient descent पर ही फिर से सोचने की ज़रूरत है
- मैं जानना चाहता हूँ कि कौन-से क्षेत्र पूरी तरह बदल गए
  मेरे क्षेत्र पर भी इसका असर हुआ है, लेकिन सच कहूँ तो वह असर लगभग पूरी तरह नकारात्मक रहा है
- पहले probabilistic graphical model का बहुत इस्तेमाल करने वाले व्यक्ति के तौर पर, मुझे उम्मीद है कि transformer युग में मेरा अनुभव फिर से काम आएगा
  लेकिन अभी तक उसके संकेत नहीं दिख रहे। फिर भी उम्मीद बाकी है
- मैं भी निजी तौर पर एक probabilistic hypergraph model की रूपरेखा बना चुका हूँ
  अभी उसे paper के रूप में व्यवस्थित नहीं किया है, लेकिन कई जगह इस विचार की ओर बढ़ती हुई हलचल दिख रही है
  काश दिन में थोड़ा और समय होता
- सहमत। मुझे लगता है causal inference और symbolic reasoning ही transformer के बाद की असली चुनौती हैं
Sakana AI के co-founder और CTO Jones ने कहा कि वह transformer से आगे बढ़कर “अगली बड़ी चीज़” खोज रहे हैं, लेकिन सच कहूँ तो यह investment जुटाने वाली PR जैसी लगती है
- “Attention is all he needs” इस पर बिल्कुल फिट बैठता है
- फिर भी, अगर कुछ नया करना है तो funding चाहिए, इसलिए दोनों बातें सही हो सकती हैं
- वैज्ञानिक तो वैसे भी कुछ नया और रचनात्मक खोजते रहते हैं
- जो भी हो, हमने उनकी बात पर attention तो दिया ही
- लेकिन सच में, मैं जानना चाहता हूँ कि वे अभी बेचना क्या चाहते हैं
मज़ाक में कहूँ तो, मुझे लगा था 2024 में singularity आ जाएगी, लेकिन “monetization” और “self-improvement” के बीच के time lag की वजह से जैसे सब रुक गया है
लगता है transformer model से जब तक सारा पैसा निचोड़ नहीं लिया जाता, तब तक हम 20 साल और इसी पर अटके रहेंगे
- अभी hardware और energy infrastructure बहुत बड़े पैमाने पर बढ़ रहे हैं
  यह सिर्फ transformer के लिए नहीं है, इसलिए उल्टा यह प्रोत्साहन देगा कि इस infrastructure का पूरा फायदा उठाने वाला नया architecture खोजा जाए
- हो सकता है recursive self-improvement पहले से ही चल रही हो
  बस वह इतनी तेज़ नहीं है कि इंसान उसे साफ़ तौर पर देख सके
ज़्यादातर लोगों के लिए “AI” आखिरकार एक दिखने वाला software product ही है
लेकिन उसके भीतर core model सिर्फ एक हिस्सा है, बाकी काम हज़ारों low-wage workers human feedback के ज़रिए उसे तराशते हैं
हकीकत में product development 90% है, और ML research 10%
ज़्यादातर papers सिर्फ PhD लेने के लिए career-oriented research होते हैं, और सच में experimental research बहुत कम है
transformer को GPU पर बहुत अच्छे से चलने लायक बनाया गया है, इसलिए नया model बनाने के लिए hardware manufacturer को भी मनाना पड़ता है
आखिरकार hardware और software की एक साथ evolution ज़रूरी है
बुनियादी बदलाव दशकों के पैमाने पर होंगे
- लेकिन यह बात उल्टे तरीके से सोची गई है
  parallelize किए जा सकने वाले algorithm मूल रूप से श्रेष्ठ हैं, इसलिए GPU उसी के हिसाब से विकसित हुए
  RNN sequential है, इसलिए parallelize करना मुश्किल है, जबकि transformer ने उस bottleneck को हटा दिया
मुझे लगता है non-transformer research अब भी काफ़ी सक्रिय है
बस chatbot-style CRM में पैसा जाने की वजह से वह कम दिखती है
मुझे नहीं लगता कि नया architecture ही जवाब है। बल्कि data efficiency बढ़ाने के तरीके ज़्यादा अहम हैं
Ilya Sutskever ने भी “ऐसे learning method” पर ज़ोर दिया था जो पूरे internet के बिना भी काम कर सके
- लेख में बात “नया architecture ही जवाब है” की नहीं थी, बल्कि इस बात की थी कि exploration और exploitation का balance बिगड़ गया है
- नए architecture की चर्चा दरअसल AGI के लिए है
  अगर इंसानों की तरह सीखना है, तो सिर्फ internet data खिला देने वाला तरीका काफ़ी नहीं होगा
- 2017 से पहले के ज़्यादातर researcher अब transformer पर ही केंद्रित हैं
  researcher की संख्या बढ़ी है, लेकिन non-transformer research का अनुपात शायद उल्टा घटा है
आख़िरी हिस्से में em dash(—) इतने ज़्यादा थे कि मज़ाक किया गया कि यह लेख transformer ने लिखा होगा
- AI का अगला trend शायद “disrupters” हो
transformer ने सारा ध्यान और funding अपनी ओर खींच लिया है
researcher भी transformer industry में समा गए हैं
लगता है कि जब तक यह किसी बड़ी सीमा से नहीं टकराता, यह स्थिति चलती रहेगी
उम्मीद है कि energy consumption ही असली सीमा बने और research की दिशा बदले
- सच में energy जल्द ही bottleneck बन सकती है
  xAI ने data center के आसपास gas turbine लगाकर बिजली की समस्या हल की, लेकिन इससे स्थानीय लोगों की सेहत पर असर पड़ा
  मुझे लगता है कि ऐसे तरीके पर जल्द ही regulation लगेगा
लोगों में नए model architecture innovation को लेकर ज़रूरत से ज़्यादा जुनून है
model आखिरकार सिर्फ data compression representation बनाने का एक tool है
compression और efficient हो जाए, तब भी capability में बहुत बड़ा फर्क नहीं आएगा
इसके बजाय training efficiency बढ़ाना ज़्यादा ज़रूरी है। आजकल reinforcement learning(RL) इसका उदाहरण है
- लेकिन training efficiency आखिरकार architecture से जुड़ी होती है
  नई संरचनाओं की खोज कोई अतिशय जुनून नहीं, बल्कि exploration और exploitation के balance को बनाए रखने का काम है
मुझे लगता है transformer-केंद्रित industry structure कहीं न कहीं GPU/NPU की computational convenience से बना है
हो सकता है इससे बेहतर AI technology मौजूद हो, लेकिन मौजूदा hardware पर उसकी computational cost बहुत ज़्यादा हो
हमारा दिमाग 500 watt नहीं खाता, शायद यही एक संकेत हो

"Attention is all you need" पेपर के सह-लेखक ने कहा, अब वह Transformers से "ऊब चुके" हैं

Transformer के रचयिता की आत्म-आलोचना और नई घोषणा

संसाधन बढ़े, लेकिन creativity घटी — यह विरोधाभास

Transformer की उत्पत्ति: आज़ादी से पैदा हुआ innovation

Sakana AI का प्रयोग: ऊंचे वेतन से बड़ी है आज़ादी

Transformer की सफलता का विरोधाभास: पूर्णता जो innovation रोकती है

AI इंडस्ट्री की ‘exploration problem’ के निहितार्थ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय