- RWKV-v5 आर्किटेक्चर पर आधारित 7.52B पैरामीटर मॉडल
- दुनिया का सबसे पर्यावरण-अनुकूल 7B मॉडल, जिसमें प्रति token लागत कम है
- 100 से अधिक भाषाओं में 1.1 ट्रिलियन tokens पर train किया गया
- बहुभाषी benchmark में सभी 7B class मॉडलों से बेहतर प्रदर्शन
- अंग्रेज़ी evaluation में Falcon (1.5T), LLaMA2 (2T), Mistral (>2T?) स्तर के प्रदर्शन के करीब
- बहुत कम instruction tuning किया गया foundation model, इसलिए विभिन्न use cases के लिए fine-tuning की आवश्यकता
- Attention की आवश्यकता न रखने वाला transformer
- Apache 2.0 license के तहत, व्यक्तिगत या व्यावसायिक उपयोग के लिए बिना किसी प्रतिबंध के उपलब्ध
बहुभाषी प्रदर्शन का विवरण
- बहुभाषी प्रदर्शन का मूल्यांकन xLAMBDA, xStoryCloze, xWinograd, xCopa आदि में कुल 23 भाषाओं पर किया गया।
- ये benchmark हर भाषा में commonsense reasoning को मापते हैं।
- RWKV v4 से v5 आर्किटेक्चर में बदलाव के साथ बहुभाषी प्रदर्शन में बड़ा सुधार हुआ।
- बहुभाषी benchmark की कमी के कारण, train की गई 100+ भाषाओं में से बाकी 75+ भाषाओं में मॉडल की भाषा-क्षमता का सीधे मूल्यांकन करना कठिन है।
अंग्रेज़ी प्रदर्शन का विवरण
- अंग्रेज़ी प्रदर्शन को commonsense reasoning और world knowledge को कवर करने वाले 12 अलग benchmark के माध्यम से मापा गया।
- RWKV v4 से v5 आर्किटेक्चर में बदलाव के साथ अंग्रेज़ी प्रदर्शन में बड़ा सुधार हुआ।
- v5 मॉडल दिए गए token training volume के लिए अपेक्षित transformer प्रदर्शन स्तर के अनुरूप है।
- अतिरिक्त 1 ट्रिलियन tokens की training के साथ LLaMA2 स्तर तक पहुँचने और Mistral स्तर के करीब आने की उम्मीद है।
अच्छा dataset + scalable आर्किटेक्चर: क्या सभी को इसकी ज़रूरत है?
- 300 बिलियन tokens बिंदु पर checkpoint ने pythia-6.9b के समान प्रदर्शन दिखाया।
- RWKV-v4 आर्किटेक्चर पर पहले के प्रयोगों की तरह, RWKV जैसे linear transformer समान training token संख्या पर transformer के समान प्रदर्शन स्तर तक scale होते हैं।
- मॉडल evaluation performance में सटीक आर्किटेक्चर की तुलना में data अधिक महत्वपूर्ण है या नहीं, यह सवाल बार-बार उठता है।
- RWKV-आधारित आर्किटेक्चर और transformer मॉडल के बीच CUDA compute cost की तुलना करते समय, linear बनाम quadratic scalability महत्वपूर्ण है।
सभी के लिए समावेशी AI बनाना - सिर्फ़ अंग्रेज़ी के लिए नहीं
- RWKV के बहुभाषी दृष्टिकोण पर आम feedback यह है कि इससे अंग्रेज़ी evaluation score प्रभावित होते हैं और linear transformer की प्रगति धीमी पड़ती है।
- लेकिन RWKV टीम इस दृष्टिकोण को बदलने की योजना नहीं रखती और केवल अंग्रेज़ी-उपयोग करने वाली दुनिया के लिए नहीं, बल्कि पूरी दुनिया के लिए AI बनाना चाहती है।
- 2023 के अनुसार, दुनिया की केवल 17% आबादी अंग्रेज़ी बोलती है।
- शीर्ष 25 भाषाओं और उससे अधिक का समर्थन करके लगभग 4 अरब लोगों, यानी विश्व जनसंख्या के 50%, को कवर किया जा सकता है।
- RWKV टीम बहुभाषी dataset का विस्तार करके और समर्थित भाषाओं की संख्या बढ़ाकर दुनिया के 100% हिस्से को कवर करना चाहती है।
भविष्य की योजनाएँ
- यह release अब तक के सबसे शक्तिशाली linear transformer को दर्शाती है।
- यह LLaMA2 और Mistral से आगे नहीं निकला, लेकिन इसने दिखाया कि RWKV-v5 मॉडल आर्किटेक्चर समान token संख्या पर transformer प्रदर्शन की तरह scale होता है।
- फ़रवरी 2024 में RWKV v5 पर updated paper जारी करने और मार्च में v5 Eagle 2T मॉडल पर आधारित MoE मॉडल तथा RWKV-v6 "Finch" 1.5B, 3B world model जारी करने की योजना है।
आभार
- इस foundation model को train करने के लिए अधिकांश compute उपलब्ध कराने वाले StabilityAI का धन्यवाद।
- paper लेखन प्रक्रिया के दौरान पूरा समर्थन देने वाले EleutherAI का धन्यवाद।
- RWKV project को support और host करने वाले Linux Foundation AI & Data समूह का धन्यवाद।
GN⁺ की राय:
- Eagle 7B एक linear transformer मॉडल है जो कई भाषाओं का समर्थन करता है और कम लागत पर उच्च प्रदर्शन प्रदान करता है।
- यह मॉडल AI की पहुँच बढ़ाने और पर्यावरण पर प्रभाव कम करने में योगदान दे सकता है।
- RWKV टीम के पास AI को दुनिया भर के सभी लोगों तक पहुँचाने और सभी भाषाओं को शामिल करने की दिशा में तकनीक विकसित करने का स्पष्ट विज़न है।
2 टिप्पणियां
मैंने कल रात थोड़ी देर के लिए डेमो इस्तेमाल किया था, और यह काफ़ी तेज़ था और अच्छे नतीजे भी दे रहा था। इसने Korean और Japanese को भी स्वाभाविक रूप से समझा और जवाब दिया।
Hacker News टिप्पणियाँ
वैकल्पिक LLM (बड़े भाषा मॉडल) आर्किटेक्चर में प्रगति हो रही है, यह दिलचस्प है, लेकिन अफसोस है कि यह लेख केवल मॉडल की गुणवत्ता पर ही केंद्रित है
मॉडल आर्किटेक्चर जैसे Transformer, Mamba, SSM, RWKV आदि उतने महत्वपूर्ण नहीं हैं; training dataset का प्रभाव अधिक महत्वपूर्ण है
RWKV-v5 Eagle 7B को Apache 2.0 लाइसेंस के तहत रिलीज़ किया गया है, इसलिए इसे व्यक्तिगत या व्यावसायिक उपयोग में बिना किसी प्रतिबंध के इस्तेमाल किया जा सकता है
फिलहाल मुख्य फोकस decoder-only next-token prediction models पर है
RWKV मॉडल सामान्य Transformer मॉडल्स की तुलना में कैसे हैं, और benchmarks की व्याख्या कैसे करनी चाहिए, इस पर स्पष्टीकरण का अनुरोध
आवश्यक RAM की मात्रा और केवल CPU इस्तेमाल करने पर token processing speed की जानकारी स्पष्ट नहीं है
सुझाव है कि project member Reddit पर सवालों के जवाब दे रहे हैं, इसलिए वहाँ देखना उपयोगी हो सकता है
अगर आप RWKV मॉडल आज़माना चाहते हैं लेकिन इंतज़ार नहीं करना चाहते, तो rwkv-demo-api.recursal.ai इस्तेमाल करने की सिफारिश की गई है
मार्च 2024 पर आधारित MoE मॉडल v5 Eagle 2T को लेकर उत्साह व्यक्त किया गया है
RWKV-4 प्रयोग में inference speed तेज़ थी, लेकिन tokenization speed बहुत धीमी होने का अनुभव हुआ