Differential Transformer
(arxiv.org)-
Transformer अक्सर असंबंधित context पर ज़रूरत से ज़्यादा attention आवंटित करने की प्रवृत्ति रखता है.
-
Diff Transformer एक नया approach प्रस्तावित करता है जो संबंधित context पर attention को बढ़ाता है और noise को हटाता है.
-
विभेदक attention mechanism
- दो अलग-अलग softmax attention maps के अंतर के माध्यम से attention scores की गणना करता है.
- यह subtraction noise को हटाता है और sparse attention patterns के उभरने को प्रोत्साहित करता है.
-
प्रयोगात्मक परिणाम
- language modeling experiments में Diff Transformer ने विभिन्न model sizes और training token settings में Transformer की तुलना में बेहतर प्रदर्शन दिखाया.
- practical applications में long-context modeling, key information retrieval, hallucination mitigation, in-context learning, activation outlier reduction आदि में उल्लेखनीय लाभ प्रदान करता है.
-
व्यावहारिक लाभ
- असंबंधित context से कम प्रभावित होने के कारण question answering और text summarization में hallucination को कम कर सकता है.
- in-context learning में accuracy बेहतर करने के साथ-साथ order permutation के प्रति robustness भी बढ़ाता है.
-
निष्कर्ष
- Diff Transformer बड़े language models को आगे बढ़ाने के लिए एक अत्यंत प्रभावी और आशाजनक architecture के रूप में स्थापित होता है.
GN⁺ का सार
- Diff Transformer, Transformer की सीमाओं को दूर करने के लिए प्रस्तावित एक नया architecture है, जिसका फोकस संबंधित context पर attention बढ़ाने और अनावश्यक noise हटाने पर है.
- यह शोध बड़े language models के प्रदर्शन को बेहतर बनाने पर केंद्रित है, और विशेष रूप से long-context modeling जैसे practical applications में इसके लाभों को रेखांकित करता है.
- यह असंबंधित context से कम प्रभावित होकर hallucination को कम करने तथा in-context learning की accuracy और robustness बढ़ाने में योगदान देता है.
1 टिप्पणियां
Hacker News राय
सामान्य softmax attention mechanism को असंबंधित जानकारी के लिए 0 के करीब attention weight असाइन करने में कठिनाई होती है। नया तरीका इसे हल करता है, लेकिन इससे negative attention weight बनने की संभावना भी हो सकती है। नेटवर्क इसे कैसे संभालता है, यह समझना कठिन है
इस तरह का बारीक काम बहुत रोचक है। बदलाव छोटे हैं, इसलिए दूसरे लोग इन्हें आसानी से अपना सकते हैं। हालांकि, "2 Differential Transformer" सेक्शन का आखिरी वाक्य स्पष्ट नहीं है, जिससे तुलना प्रभावित हो सकती है
machine learning की नई दुनिया में यह तरीका क्यों काम करता है, इसे लेकर भ्रम है। noise-canceling headphones वाली उपमा मददगार है, लेकिन यहाँ signal और noise को स्पष्ट रूप से अलग नहीं किया जा सकता
Differential attention, दो softmax attention functions के अंतर का उपयोग करके attention noise को हटाता है। यह architecture, बेहतर गुणवत्ता वाले model के लिए दोगुनी attention memory इस्तेमाल करता है, या समान गुणवत्ता पर कम parameters का उपयोग करता है
अगर attention के दोनों समूह एक ही चीज़ सीखते हैं, तो attention mask एक-दूसरे से घटकर attention को 0 तक ले जाएगा और loss बढ़ जाएगा। loss कम करने के लिए उन्हें अलग चीज़ें सीखनी होंगी। एक समूह संबंधित context पर और दूसरा असंबंधित context पर ध्यान देने की रणनीति सीखता है
λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) सेटिंग प्रयोगों में अच्छी तरह काम करती है। इस formula की पृष्ठभूमि जानने की जिज्ञासा है
यह जानना रोचक होगा कि positional noise को हटाना कितना मूल्यवान है। alibi version और alibi baseline की तुलना वाली तालिका देखना चाहूँगा। शोधकर्ताओं को बधाई
यह सोचने वाली बात है कि यहाँ क्या खोया जा रहा है। creativity या concepts के बीच interpolation की क्षमता पर इसका क्या असर पड़ता है, यह भी जानने की जिज्ञासा है। ऐसा लगता है कि hallucination और creativity का आपस में गहरा संबंध है
समस्या को हल करना अच्छी बात है, लेकिन लगता है कि approach गलत दिशा में है। पूरे context को hierarchical तरीके से समझना चाहिए। attention vector के समान input से difference vector निकालने पर यह समझना मुश्किल है कि attention vector को सही तरह कैसे सुधारा जाए
क्या softmax खुद values को 0 तक नहीं धकेल सकता, लेकिन दो softmax maps को घटाने से 0 output मिल सकता है? यह जिज्ञासा है