- बहुत लंबे (Ultra Long) context को support करने के लिए Transformer के विकल्प के रूप में नई architecture Hyena का उपयोग
- Hyena, signal processing से प्रेरित sequence model पर आधारित है
- छोटे/लंबे context evaluation में Transformers से प्रतिस्पर्धा करने वाला पहला वैकल्पिक मॉडल
- OpenLLM leaderboard tasks में Llama-2, Yi और Mistral 7B के समान प्रदर्शन, और लंबे context summarization में उत्कृष्ट प्रदर्शन
- StripedHyena लंबे sequence training, fine-tuning और generation में अधिक तेज़ और memory-efficient है
- नई model grafting तकनीक का उपयोग कर optimize किया गया, जिससे training के दौरान model architecture बदली जा सकती है
- StripedHyena, transformer और Hyena के architectural components को graft करके बनाया गया है, और इसे लंबे context data से समृद्ध RedPajama dataset के मिश्रण पर train किया गया है
अभी कोई टिप्पणी नहीं है.