- आधुनिक AI में attention का फ़ॉर्मूला off-by-one त्रुटि से प्रभावित है, जिससे Transformer models को compress और deploy करना कठिन हो जाता है.
- यह त्रुटि मॉडल के भीतर outlier weights से जुड़ी है, और ये outliers अपने साथियों की तुलना में बहुत बड़े होते हैं, जिससे performance में गिरावट और quantization में कठिनाई आती है.
- यह bug attention mechanism में इस्तेमाल होने वाले softmax function से संबंधित है, और यह function इस काम के लिए उपयुक्त नहीं है.
- प्रस्तावित समाधान softmax function में एक छोटा संशोधन है, जिसमें denominator में 1 जोड़ा जाता है ताकि जब attention head कोई जानकारी जोड़ न सके, तो वह "कुछ न कहे".
- यह संशोधन, Softmax Super-Mod या QuietAttention, outlier feedback loop को हल करने और quantization को बेहतर बनाने की उम्मीद रखता है.
- प्रयोगों के माध्यम से इस समाधान की प्रभावशीलता की जाँच करने के लिए input context में 0 vector को prefix के रूप में जोड़ा जा सकता है और weight kurtosis तथा activation infinity norm का अवलोकन किया जा सकता है.
- लेखक इस समाधान को और गहराई से परखने और सत्यापित करने के लिए सहयोग और प्रयोगों का आमंत्रण देते हैं.
1 टिप्पणियां
Hacker News राय