कंप्यूटर विज्ञान > मशीन लर्निंग

  • शीर्षक: क्या RNN ही सब कुछ थे?
  • लेखक: Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadegh
  • प्रस्तुति तिथि: 2 अक्टूबर 2024

सारांश

  • पृष्ठभूमि: Transformer की sequence length scalability सीमाओं के कारण parallelization-सक्षम recurrent sequence models में रुचि फिर से बढ़ रही है। इसी के चलते S4, Mamba, Aaren जैसी नई recurrent architectures प्रस्तावित की गई हैं और वे समान प्रदर्शन हासिल कर रही हैं.

  • अनुसंधान सामग्री: पारंपरिक recurrent neural networks (RNN) यानी LSTM (1997) और GRU (2014) का पुनरावलोकन किया गया। ये मॉडल backpropagation through time (BPTT) की आवश्यकता के कारण धीमे थे, लेकिन input, forget, और update gates में hidden state dependency हटाने से BPTT की जरूरत खत्म हो जाती है और इन्हें parallel में कुशलतापूर्वक train किया जा सकता है.

  • परिणाम: न्यूनतम संस्करण (minLSTMs, minGRUs) पेश किए गए, जो (1) पारंपरिक मॉडलों की तुलना में बहुत कम parameters का उपयोग करते हैं, और (2) training के दौरान पूरी तरह parallelization सक्षम हैं (length 512 की sequence पर 175 गुना तेज)। RNN के ये सरलित संस्करण हाल के sequence models के empirical performance के अनुरूप हैं.

GN⁺ की संक्षिप्त टिप्पणी

  • यह शोध पारंपरिक RNN मॉडलों की bottleneck समस्या को हल करके parallel training संभव बनाने के कारण रोचक है.
  • Transformer की सीमाओं को पार करने वाले एक विकल्प के रूप में यह RNN की संभावनाओं पर फिर से प्रकाश डालता है.
  • यह machine learning और AI क्षेत्र में sequence modeling की efficiency बढ़ाने में योगदान दे सकता है.
  • समान कार्यक्षमता वाले प्रोजेक्ट्स में हाल के Transformer-आधारित मॉडल शामिल हैं.

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.