सार

  • आधुनिक neural networks में normalization layers को लंबे समय से अनिवार्य माना जाता रहा है.
  • यह अध्ययन दिखाता है कि normalization के बिना भी समान या उससे बेहतर प्रदर्शन हासिल किया जा सकता है.
  • इसमें Dynamic Tanh (DyT) नामक एक सरल तकनीक पेश की गई है, जो normalization layers का स्थान ले सकती है.
  • DyT आम तौर पर hyperparameter tuning के बिना भी normalized models के बराबर या उनसे बेहतर प्रदर्शन करता है.
  • विभिन्न settings में DyT के प्रभाव को सत्यापित किया गया, जिससे normalization layers की अनिवार्यता पर पुनर्विचार करने की जरूरत सामने आती है.

कार्यान्वयन

  • DyT module को PyTorch code की कुछ पंक्तियों में लागू किया जा सकता है.

मुख्य निष्कर्ष

  • Layer normalization एक scaled tanh function की तरह काम करता है.
  • शुरुआती layers में यह मुख्यतः linear होता है, लेकिन गहरी layers में tanh function की विशिष्ट S-आकार की वक्रता दिखती है.

मूल्यांकन

  • विभिन्न architectures और tasks में DyT के प्रभाव और सामान्यता का मूल्यांकन किया गया.
  • सभी मामलों में DyT का उपयोग करने वाले Transformers ने normalized models के समान या उनसे बेहतर प्रदर्शन किया.

सामग्री

  • शोध के बारे में विस्तृत जानकारी paper डाउनलोड करके देखी जा सकती है.
  • implementation details GitHub repository में देखी जा सकती हैं.

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.