"Attention is all you need" पेपर के सह-लेखक ने कहा, अब वह Transformers से "ऊब चुके" हैं
(venturebeat.com)- Transformers आर्किटेक्चर के सह-विकासकर्ता और इसका नाम गढ़ने वाले Llion Jones ने कहा कि “AI रिसर्च जरूरत से ज़्यादा संकीर्ण हो गई है” और वह Transformer-केंद्रित paradigm को छोड़ने वाले हैं
- ChatGPT, Claude जैसे प्रमुख AI सिस्टमों की आधारभूत तकनीक Transformer ही है, लेकिन उन्होंने आत्म-आलोचनात्मक तौर पर कहा कि यही तकनीक अगली पीढ़ी के innovation को रोक भी सकती है
- उन्होंने चेतावनी दी कि सिर्फ सुरक्षित विषय चुने जा रहे हैं और creativity गायब हो रही है, और यह कि “exploration की तुलना में exploitation पर ज़रूरत से ज़्यादा झुकाव” के कारण AI इंडस्ट्री कहीं बड़े innovation मिस कर रही हो सकती है
- उन्होंने आलोचना की कि Transformer पेपर के जन्म के समय खुले प्रयोग का माहौल था, लेकिन अब ऊंची salary भी रिसर्च की आज़ादी की गारंटी नहीं देती
- उन्होंने ज़ोर दिया कि Sakana AI में वह स्वतंत्र खोज पर केंद्रित रिसर्च संस्कृति को फिर से बनाना चाहते हैं, और “अगला Transformer-स्तर का innovation शायद हमारे बिलकुल पास हो”
Transformer के रचयिता की आत्म-आलोचना और नई घोषणा
- 2017 के "Attention Is All You Need" पेपर के सह-लेखक और Transformer नाम सीधे गढ़ने वाले Llion Jones ने सैन फ्रांसिस्को TED AI कॉन्फ्रेंस में AI रिसर्च के एकरूपीकरण की समस्या की तीखी आलोचना की
- 1 लाख से अधिक citations पाने वाले ऐतिहासिक पेपर के लेखक का अपनी ही रचना के बारे में सार्वजनिक रूप से यह कहना कि वह उससे “पूरी तरह ऊब चुके हैं”, एक असाधारण बयान है
- वह इस समय टोक्यो-आधारित Sakana AI के CTO और सह-संस्थापक हैं
- उन्होंने कहा, “AI रिसर्च एक ही structure में फंस गई है,” और बताया कि वह Transformer रिसर्च पर समय कम करके नई architectures तलाश रहे हैं
- उन्होंने ज़ोर देकर कहा, “AI क्षेत्र में पहले से कहीं ज़्यादा talent और funding है, लेकिन रिसर्च उल्टा और संकीर्ण होती जा रही है”
- इस स्थिति के कारण के रूप में उन्होंने investor returns का दबाव और अत्यधिक competition का ज़िक्र किया, और कहा कि रिसर्चर creativity खो रहे हैं और “पेपर जल्दी निकालने” वाले माहौल में काम कर रहे हैं
संसाधन बढ़े, लेकिन creativity घटी — यह विरोधाभास
- आज AI रिसर्चरों को यह मानकर चलना पड़ता है कि एक ही विषय पर 3-4 समूह एक साथ काम कर रहे हैं, और उन्हें लगातार यह देखना पड़ता है कि कहीं कोई दूसरी टीम उन्हें “पहले” तो नहीं कर गई
- अकादमिक रिसर्चर जोखिम भरे लेकिन disruptive प्रोजेक्ट्स की बजाय ऐसे विषय चुनने की ओर झुक रहे हैं जिन्हें सुरक्षित रूप से publish किया जा सके
- competition के दबाव में पेपर जल्दी जमा किए जा रहे हैं, जिससे वैज्ञानिक कठोरता प्रभावित होती है और creativity घटती है
- रिसर्चर “exploitation” की ओर झुक रहे हैं और “exploration” की उपेक्षा कर रहे हैं
- AI algorithms के exploration-exploitation trade-off की अवधारणा लागू करें, तो संभव है कि मौजूदा AI इंडस्ट्री अत्यधिक exploitation के कारण साधारण local optimum में फंस गई हो और बेहतर विकल्पों को खो रही हो
- जैसे Transformer आने से ठीक पहले रिसर्चर recurrent neural network (RNN) में incremental सुधारों में उलझे हुए थे, उसी तरह आज भी एक ही architecture के variations पर जरूरत से ज़्यादा ध्यान देकर करीब खड़े innovation को मिस करने का जोखिम है
“अगर Transformer से पहले के दौर के रिसर्चरों को पता होता कि अगला बड़ा innovation बस आने ही वाला है, तो वे इतना समय बर्बाद नहीं करते”
Transformer की उत्पत्ति: आज़ादी से पैदा हुआ innovation
- Jones ने याद किया कि जब Transformer रिसर्च की शुरुआत हुई थी, तब वह ऊपर से किसी भी दबाव के बिना एक आज़ाद माहौल में शुरू हुई थी
- उन्होंने कहा, “यह lunch-time discussions और whiteboard doodles से शुरू हुआ एक idea था”
- रिसर्च टीम के पास कोई स्पष्ट idea नहीं था, लेकिन उन्हें काफी समय और स्वतंत्रता मिली हुई थी, और किसी खास project या performance metric को लेकर management का कोई दबाव नहीं था
- न किसी निश्चित संख्या में पेपर publish करने की मांग थी, न metrics सुधारने का दबाव
- experiments और trial-and-error के ज़रिये autonomous exploration संभव था
- आज सालाना 10 लाख डॉलर से अधिक salary पर भर्ती किए गए रिसर्चर भी साहसी ideas आज़माने के बजाय अपनी कीमत साबित करने के दबाव में महसूस कर सकते हैं
“वे यह साबित करने के लिए कि वे मूल्यवान talent हैं, safe research चुनते हैं”
Sakana AI का प्रयोग: ऊंचे वेतन से बड़ी है आज़ादी
- Jones Sakana AI में Transformer-पूर्व वाले स्वतंत्र रिसर्च माहौल को फिर से बनाने की कोशिश कर रहे हैं
- प्रकृति से प्रेरित रिसर्च का पीछा
- पेपर publication या competitors के साथ सीधी दौड़ को लेकर न्यूनतम दबाव
- इंजीनियर Brian Cheung की सलाह साझा की: "आपको सिर्फ वही रिसर्च करनी चाहिए जो आपके बिना हो ही नहीं सकती"
- ठोस उदाहरण के रूप में "continuous thought machine" प्रोजेक्ट का परिचय दिया
- दिमाग के synchronization mechanism को neural networks में integrate करने पर रिसर्च
- उन्होंने कहा कि इस विचार को रखने वाले व्यक्ति को उसकी पिछली नौकरी या academia में शक-भरी प्रतिक्रिया मिलती और समय बर्बाद न करने का दबाव झेलना पड़ता
- Sakana में उसे 1 हफ्ते का exploration time दिया गया, और नतीजतन यह NeurIPS की मुख्य कॉन्फ्रेंस में ध्यान खींचने वाली सफलता में बदल गया
- उन्होंने तर्क दिया कि ऐसा exploratory environment खुद talent hiring का शक्तिशाली साधन बन सकता है
- प्रतिभाशाली और महत्वाकांक्षी लोग स्वाभाविक रूप से ऐसे माहौल की ओर आते हैं
Transformer की सफलता का विरोधाभास: पूर्णता जो innovation रोकती है
- उन्होंने कहा कि Transformer की सफलता “इतनी शक्तिशाली है कि वही नए innovation को रोक रही है”
- उनका विश्लेषण था, “जितनी अधिक मौजूदा तकनीक perfect लगती है, उतनी ही कम प्रेरणा बेहतर चीज़ खोजने की बचती है”
- हालांकि उन्होंने Transformer रिसर्च को पूरी तरह खारिज नहीं किया, और जोड़ा कि “अब भी इससे वास्तविक value creation संभव है”
- लेकिन उन्होंने ज़ोर देकर कहा, “मौजूदा विशाल संसाधनों और talent को देखते हुए, हम इससे कहीं ज़्यादा व्यापक exploration कर सकते हैं”
- उनका निष्कर्ष collaboration और open exploration के महत्व पर था
- “competition नहीं, collaboration के ज़रिये exploration dial बढ़ाना होगा। तभी असली प्रगति संभव है”
AI इंडस्ट्री की ‘exploration problem’ के निहितार्थ
- Jones की चेतावनी ऐसे समय में गूंज रही है जब AI scaling की सीमाओं और नई architectures की खोज की ज़रूरत पर चर्चा तेज़ है
- इंडस्ट्री में पहले ही यह समझ फैल रही है कि सिर्फ Transformer scaling से अब सीमाएं सामने आ रही हैं
- प्रमुख रिसर्चर मौजूदा paradigm की बुनियादी सीमाओं पर अब खुलकर चर्चा करने लगे हैं
- यह समझ बढ़ रही है कि सिर्फ scale नहीं, बल्कि architectural innovation भी अधिक उन्नत AI सिस्टमों के लिए ज़रूरी है
- हर साल अरबों डॉलर AI development में लगाए जा रहे हैं, और लैब्स के बीच तीव्र competition के कारण secrecy और तेज़ publication cycle बढ़ रही है; ऐसे में Jones द्वारा वर्णित आज़ाद exploratory research लगातार घट रही है
- Jones के insider perspective का विशेष महत्व इसलिए है
- क्योंकि मौजूदा क्षेत्र पर हावी तकनीक को सीधे बनाने वाले व्यक्ति के रूप में वह innovative discovery के लिए ज़रूरी शर्तों को अच्छी तरह समझते हैं
- और अपनी पहचान बनाने वाले Transformer से खुद पीछे हटने का उनका फैसला उनके संदेश को विश्वसनीयता देता है
- हम ऐसे अहम मोड़ पर हैं जहाँ अगला Transformer-स्तर का innovation ऐसे रिसर्चरों द्वारा खोजा जा सकता है जिनके पास explore करने की आज़ादी हो, या फिर हज़ारों रिसर्चर incremental improvements की दौड़ में लगे रहें और वह अनदेखा रह जाए
- निष्कर्षतः Jones, Transformer पर सबसे लंबे समय तक काम करने वालों में से एक होने के नाते, शायद सबसे अच्छी तरह जानते हैं कि अब अगले चरण की ओर बढ़ने का समय है
“Transformer-स्तर की breakthrough शायद पहले से हमारे पास ही है, बस competition की वजह से दिखाई नहीं दे रही”
1 टिप्पणियां
Hacker News की राय
मेरी नज़र में transformer हाल के इतिहास के सबसे उत्पादक आविष्कारों में से एक रहा है
2017 में पहली बार आने के बाद सिर्फ 8 साल में इसने कई क्षेत्रों को पूरी तरह बदल दिया, और यहाँ तक कि Nobel Prize मिलने में भी कुछ योगदान दिया
मुझे लगता है कि मूल रूप से अहम विचार probabilistic graphical model है। probability को sequence, tree और graph के साथ जोड़ने वाला यह दृष्टिकोण आगे भी शोध के लिए बहुत मूल्यवान रहेगा
transformer पहले से ही एक बहुत शानदार universal approximator है। थोड़े-बहुत सुधार संभव हैं, लेकिन इससे ज़्यादा ‘universal’ कुछ ढूँढना व्यावहारिक रूप से मुश्किल है
इसके बजाय मुझे लगता है कि auto-regressive task, cross entropy loss, और gradient descent पर ही फिर से सोचने की ज़रूरत है
मेरे क्षेत्र पर भी इसका असर हुआ है, लेकिन सच कहूँ तो वह असर लगभग पूरी तरह नकारात्मक रहा है
लेकिन अभी तक उसके संकेत नहीं दिख रहे। फिर भी उम्मीद बाकी है
अभी उसे paper के रूप में व्यवस्थित नहीं किया है, लेकिन कई जगह इस विचार की ओर बढ़ती हुई हलचल दिख रही है
काश दिन में थोड़ा और समय होता
Sakana AI के co-founder और CTO Jones ने कहा कि वह transformer से आगे बढ़कर “अगली बड़ी चीज़” खोज रहे हैं, लेकिन सच कहूँ तो यह investment जुटाने वाली PR जैसी लगती है
मज़ाक में कहूँ तो, मुझे लगा था 2024 में singularity आ जाएगी, लेकिन “monetization” और “self-improvement” के बीच के time lag की वजह से जैसे सब रुक गया है
लगता है transformer model से जब तक सारा पैसा निचोड़ नहीं लिया जाता, तब तक हम 20 साल और इसी पर अटके रहेंगे
यह सिर्फ transformer के लिए नहीं है, इसलिए उल्टा यह प्रोत्साहन देगा कि इस infrastructure का पूरा फायदा उठाने वाला नया architecture खोजा जाए
बस वह इतनी तेज़ नहीं है कि इंसान उसे साफ़ तौर पर देख सके
ज़्यादातर लोगों के लिए “AI” आखिरकार एक दिखने वाला software product ही है
लेकिन उसके भीतर core model सिर्फ एक हिस्सा है, बाकी काम हज़ारों low-wage workers human feedback के ज़रिए उसे तराशते हैं
हकीकत में product development 90% है, और ML research 10%
ज़्यादातर papers सिर्फ PhD लेने के लिए career-oriented research होते हैं, और सच में experimental research बहुत कम है
transformer को GPU पर बहुत अच्छे से चलने लायक बनाया गया है, इसलिए नया model बनाने के लिए hardware manufacturer को भी मनाना पड़ता है
आखिरकार hardware और software की एक साथ evolution ज़रूरी है
बुनियादी बदलाव दशकों के पैमाने पर होंगे
parallelize किए जा सकने वाले algorithm मूल रूप से श्रेष्ठ हैं, इसलिए GPU उसी के हिसाब से विकसित हुए
RNN sequential है, इसलिए parallelize करना मुश्किल है, जबकि transformer ने उस bottleneck को हटा दिया
मुझे लगता है non-transformer research अब भी काफ़ी सक्रिय है
बस chatbot-style CRM में पैसा जाने की वजह से वह कम दिखती है
मुझे नहीं लगता कि नया architecture ही जवाब है। बल्कि data efficiency बढ़ाने के तरीके ज़्यादा अहम हैं
Ilya Sutskever ने भी “ऐसे learning method” पर ज़ोर दिया था जो पूरे internet के बिना भी काम कर सके
अगर इंसानों की तरह सीखना है, तो सिर्फ internet data खिला देने वाला तरीका काफ़ी नहीं होगा
researcher की संख्या बढ़ी है, लेकिन non-transformer research का अनुपात शायद उल्टा घटा है
आख़िरी हिस्से में em dash(—) इतने ज़्यादा थे कि मज़ाक किया गया कि यह लेख transformer ने लिखा होगा
transformer ने सारा ध्यान और funding अपनी ओर खींच लिया है
researcher भी transformer industry में समा गए हैं
लगता है कि जब तक यह किसी बड़ी सीमा से नहीं टकराता, यह स्थिति चलती रहेगी
उम्मीद है कि energy consumption ही असली सीमा बने और research की दिशा बदले
xAI ने data center के आसपास gas turbine लगाकर बिजली की समस्या हल की, लेकिन इससे स्थानीय लोगों की सेहत पर असर पड़ा
मुझे लगता है कि ऐसे तरीके पर जल्द ही regulation लगेगा
लोगों में नए model architecture innovation को लेकर ज़रूरत से ज़्यादा जुनून है
model आखिरकार सिर्फ data compression representation बनाने का एक tool है
compression और efficient हो जाए, तब भी capability में बहुत बड़ा फर्क नहीं आएगा
इसके बजाय training efficiency बढ़ाना ज़्यादा ज़रूरी है। आजकल reinforcement learning(RL) इसका उदाहरण है
नई संरचनाओं की खोज कोई अतिशय जुनून नहीं, बल्कि exploration और exploitation के balance को बनाए रखने का काम है
मुझे लगता है transformer-केंद्रित industry structure कहीं न कहीं GPU/NPU की computational convenience से बना है
हो सकता है इससे बेहतर AI technology मौजूद हो, लेकिन मौजूदा hardware पर उसकी computational cost बहुत ज़्यादा हो
हमारा दिमाग 500 watt नहीं खाता, शायद यही एक संकेत हो