1 पॉइंट द्वारा GN⁺ 2023-07-25 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • आधुनिक AI में attention का फ़ॉर्मूला off-by-one त्रुटि से प्रभावित है, जिससे Transformer models को compress और deploy करना कठिन हो जाता है.
  • यह त्रुटि मॉडल के भीतर outlier weights से जुड़ी है, और ये outliers अपने साथियों की तुलना में बहुत बड़े होते हैं, जिससे performance में गिरावट और quantization में कठिनाई आती है.
  • यह bug attention mechanism में इस्तेमाल होने वाले softmax function से संबंधित है, और यह function इस काम के लिए उपयुक्त नहीं है.
  • प्रस्तावित समाधान softmax function में एक छोटा संशोधन है, जिसमें denominator में 1 जोड़ा जाता है ताकि जब attention head कोई जानकारी जोड़ न सके, तो वह "कुछ न कहे".
  • यह संशोधन, Softmax Super-Mod या QuietAttention, outlier feedback loop को हल करने और quantization को बेहतर बनाने की उम्मीद रखता है.
  • प्रयोगों के माध्यम से इस समाधान की प्रभावशीलता की जाँच करने के लिए input context में 0 vector को prefix के रूप में जोड़ा जा सकता है और weight kurtosis तथा activation infinity norm का अवलोकन किया जा सकता है.
  • लेखक इस समाधान को और गहराई से परखने और सत्यापित करने के लिए सहयोग और प्रयोगों का आमंत्रण देते हैं.

1 टिप्पणियां

 
GN⁺ 2023-07-25
Hacker News राय
  • लेखक softmax के denominator में 1 जोड़ने का सुझाव देता है.
  • यह बदलाव नेटवर्क को बहुत ऊँचे या बहुत नीचे weight देने के बजाय किसी चीज़ पर उच्च confidence चुनने से बचने की अनुमति देता है.
  • कुछ टिप्पणीकार इस बदलाव के महत्व पर संदेह करते हैं और सुझाव देते हैं कि इसी तरह की तकनीकें पहले भी इस्तेमाल की गई हैं.
  • अन्य लोग इस लेख के गैर-शैक्षणिक tone और नए ideas को explore करने की इच्छा की सराहना करते हैं.
  • एक टिप्पणीकार अपना व्यक्तिगत अनुभव साझा करता है, जिसमें उसने एक लोकप्रिय algorithm में ऐसी गलती पकड़ी थी जिसे शुरू में दूसरों ने नज़रअंदाज़ कर दिया था.
  • एक अन्य टिप्पणीकार लेखक की इस बात के लिए प्रशंसा करता है कि उसने वास्तविक समस्या पहचानी और एक सरल समाधान सुझाया.
  • हालांकि, वे लेखक से यह भी कहते हैं कि वह इस दावे के समर्थन में अधिक evidence और explanation दे कि यह समाधान outlier feedback loop को ठीक करेगा.
  • कुछ टिप्पणीकार सुझाव देते हैं कि प्रस्तावित समाधान को validate करने के लिए अतिरिक्त experiments और fine-tuning की ज़रूरत है.
  • एक टिप्पणीकार 2020 के एक paper का उल्लेख करते हुए एक अलग attention formula सुझाता है, जो quantization समस्या को हल कर सकता है.
  • यह भी कहा गया कि denominator में 1 जोड़ने का यह तरीका dummy token के आम होने से पहले अक्सर इस्तेमाल किया जाता था.
  • कुछ टिप्पणीकार लेखक के tone की आलोचना करते हैं और research community में इस तकनीक के प्रति जागरूकता की कमी पर आश्चर्य जताते हैं.