सार
- आधुनिक neural networks में normalization layers को लंबे समय से अनिवार्य माना जाता रहा है.
- यह अध्ययन दिखाता है कि normalization के बिना भी समान या उससे बेहतर प्रदर्शन हासिल किया जा सकता है.
- इसमें Dynamic Tanh (DyT) नामक एक सरल तकनीक पेश की गई है, जो normalization layers का स्थान ले सकती है.
- DyT आम तौर पर hyperparameter tuning के बिना भी normalized models के बराबर या उनसे बेहतर प्रदर्शन करता है.
- विभिन्न settings में DyT के प्रभाव को सत्यापित किया गया, जिससे normalization layers की अनिवार्यता पर पुनर्विचार करने की जरूरत सामने आती है.
कार्यान्वयन
- DyT module को PyTorch code की कुछ पंक्तियों में लागू किया जा सकता है.
मुख्य निष्कर्ष
- Layer normalization एक scaled tanh function की तरह काम करता है.
- शुरुआती layers में यह मुख्यतः linear होता है, लेकिन गहरी layers में tanh function की विशिष्ट S-आकार की वक्रता दिखती है.
मूल्यांकन
- विभिन्न architectures और tasks में DyT के प्रभाव और सामान्यता का मूल्यांकन किया गया.
- सभी मामलों में DyT का उपयोग करने वाले Transformers ने normalized models के समान या उनसे बेहतर प्रदर्शन किया.
सामग्री
- शोध के बारे में विस्तृत जानकारी paper डाउनलोड करके देखी जा सकती है.
- implementation details GitHub repository में देखी जा सकती हैं.
अभी कोई टिप्पणी नहीं है.