Eagle 7B - Transformer को पीछे छोड़ने वाला मॉडल

(blog.rwkv.com)

6 पॉइंट द्वारा GN⁺ 2024-01-30 | 2 टिप्पणियां | WhatsApp पर शेयर करें

RWKV-v5 आर्किटेक्चर पर आधारित 7.52B पैरामीटर मॉडल
दुनिया का सबसे पर्यावरण-अनुकूल 7B मॉडल, जिसमें प्रति token लागत कम है
100 से अधिक भाषाओं में 1.1 ट्रिलियन tokens पर train किया गया
बहुभाषी benchmark में सभी 7B class मॉडलों से बेहतर प्रदर्शन
अंग्रेज़ी evaluation में Falcon (1.5T), LLaMA2 (2T), Mistral (>2T?) स्तर के प्रदर्शन के करीब
बहुत कम instruction tuning किया गया foundation model, इसलिए विभिन्न use cases के लिए fine-tuning की आवश्यकता
Attention की आवश्यकता न रखने वाला transformer
Apache 2.0 license के तहत, व्यक्तिगत या व्यावसायिक उपयोग के लिए बिना किसी प्रतिबंध के उपलब्ध

बहुभाषी प्रदर्शन का विवरण

बहुभाषी प्रदर्शन का मूल्यांकन xLAMBDA, xStoryCloze, xWinograd, xCopa आदि में कुल 23 भाषाओं पर किया गया।
ये benchmark हर भाषा में commonsense reasoning को मापते हैं।
RWKV v4 से v5 आर्किटेक्चर में बदलाव के साथ बहुभाषी प्रदर्शन में बड़ा सुधार हुआ।
बहुभाषी benchmark की कमी के कारण, train की गई 100+ भाषाओं में से बाकी 75+ भाषाओं में मॉडल की भाषा-क्षमता का सीधे मूल्यांकन करना कठिन है।

अंग्रेज़ी प्रदर्शन का विवरण

अंग्रेज़ी प्रदर्शन को commonsense reasoning और world knowledge को कवर करने वाले 12 अलग benchmark के माध्यम से मापा गया।
RWKV v4 से v5 आर्किटेक्चर में बदलाव के साथ अंग्रेज़ी प्रदर्शन में बड़ा सुधार हुआ।
v5 मॉडल दिए गए token training volume के लिए अपेक्षित transformer प्रदर्शन स्तर के अनुरूप है।
अतिरिक्त 1 ट्रिलियन tokens की training के साथ LLaMA2 स्तर तक पहुँचने और Mistral स्तर के करीब आने की उम्मीद है।

अच्छा dataset + scalable आर्किटेक्चर: क्या सभी को इसकी ज़रूरत है?

300 बिलियन tokens बिंदु पर checkpoint ने pythia-6.9b के समान प्रदर्शन दिखाया।
RWKV-v4 आर्किटेक्चर पर पहले के प्रयोगों की तरह, RWKV जैसे linear transformer समान training token संख्या पर transformer के समान प्रदर्शन स्तर तक scale होते हैं।
मॉडल evaluation performance में सटीक आर्किटेक्चर की तुलना में data अधिक महत्वपूर्ण है या नहीं, यह सवाल बार-बार उठता है।
RWKV-आधारित आर्किटेक्चर और transformer मॉडल के बीच CUDA compute cost की तुलना करते समय, linear बनाम quadratic scalability महत्वपूर्ण है।

सभी के लिए समावेशी AI बनाना - सिर्फ़ अंग्रेज़ी के लिए नहीं

RWKV के बहुभाषी दृष्टिकोण पर आम feedback यह है कि इससे अंग्रेज़ी evaluation score प्रभावित होते हैं और linear transformer की प्रगति धीमी पड़ती है।
लेकिन RWKV टीम इस दृष्टिकोण को बदलने की योजना नहीं रखती और केवल अंग्रेज़ी-उपयोग करने वाली दुनिया के लिए नहीं, बल्कि पूरी दुनिया के लिए AI बनाना चाहती है।
2023 के अनुसार, दुनिया की केवल 17% आबादी अंग्रेज़ी बोलती है।
शीर्ष 25 भाषाओं और उससे अधिक का समर्थन करके लगभग 4 अरब लोगों, यानी विश्व जनसंख्या के 50%, को कवर किया जा सकता है।
RWKV टीम बहुभाषी dataset का विस्तार करके और समर्थित भाषाओं की संख्या बढ़ाकर दुनिया के 100% हिस्से को कवर करना चाहती है।

भविष्य की योजनाएँ

यह release अब तक के सबसे शक्तिशाली linear transformer को दर्शाती है।
यह LLaMA2 और Mistral से आगे नहीं निकला, लेकिन इसने दिखाया कि RWKV-v5 मॉडल आर्किटेक्चर समान token संख्या पर transformer प्रदर्शन की तरह scale होता है।
फ़रवरी 2024 में RWKV v5 पर updated paper जारी करने और मार्च में v5 Eagle 2T मॉडल पर आधारित MoE मॉडल तथा RWKV-v6 "Finch" 1.5B, 3B world model जारी करने की योजना है।

आभार

इस foundation model को train करने के लिए अधिकांश compute उपलब्ध कराने वाले StabilityAI का धन्यवाद।
paper लेखन प्रक्रिया के दौरान पूरा समर्थन देने वाले EleutherAI का धन्यवाद।
RWKV project को support और host करने वाले Linux Foundation AI & Data समूह का धन्यवाद।

GN⁺ की राय:

Eagle 7B एक linear transformer मॉडल है जो कई भाषाओं का समर्थन करता है और कम लागत पर उच्च प्रदर्शन प्रदान करता है।
यह मॉडल AI की पहुँच बढ़ाने और पर्यावरण पर प्रभाव कम करने में योगदान दे सकता है।
RWKV टीम के पास AI को दुनिया भर के सभी लोगों तक पहुँचाने और सभी भाषाओं को शामिल करने की दिशा में तकनीक विकसित करने का स्पष्ट विज़न है।

2 टिप्पणियां

cosine20 2024-01-31

मैंने कल रात थोड़ी देर के लिए डेमो इस्तेमाल किया था, और यह काफ़ी तेज़ था और अच्छे नतीजे भी दे रहा था। इसने Korean और Japanese को भी स्वाभाविक रूप से समझा और जवाब दिया।

GN⁺ 2024-01-30

Hacker News टिप्पणियाँ

वैकल्पिक LLM (बड़े भाषा मॉडल) आर्किटेक्चर में प्रगति हो रही है, यह दिलचस्प है, लेकिन अफसोस है कि यह लेख केवल मॉडल की गुणवत्ता पर ही केंद्रित है
- लेख अचानक खत्म हो जाता है, इसलिए नए आर्किटेक्चर अपनाने की प्रेरणा पर्याप्त नहीं मिलती
- performance और context size पर चर्चा की ज़रूरत है
- लेख में context का कोई उल्लेख नहीं है, यह निराशाजनक है
- RWKV-4 का चार्ट दोबारा इस्तेमाल किया गया है, लेकिन यह स्पष्ट नहीं है कि चार्ट क्या दिखाता है
मॉडल आर्किटेक्चर जैसे Transformer, Mamba, SSM, RWKV आदि उतने महत्वपूर्ण नहीं हैं; training dataset का प्रभाव अधिक महत्वपूर्ण है
- भाषा डेटा मानवीय अनुभव का भंडार है, और इसके माध्यम से AI का विभिन्न क्षमताएँ हासिल करना यह संकेत देता है कि intelligence केवल मस्तिष्क तक सीमित नहीं है
RWKV-v5 Eagle 7B को Apache 2.0 लाइसेंस के तहत रिलीज़ किया गया है, इसलिए इसे व्यक्तिगत या व्यावसायिक उपयोग में बिना किसी प्रतिबंध के इस्तेमाल किया जा सकता है
- टीम ने testing और adoption के लिए सही प्रोत्साहन तय किया है, यह सकारात्मक है
फिलहाल मुख्य फोकस decoder-only next-token prediction models पर है
- BERT और T5 के encoder अब भी retrieval या classification कार्यों के लिए embedding बनाने में उपयोगी हैं
- embedding use cases के लिए बेहतर pretraining architecture पर और शोध की आवश्यकता है
RWKV मॉडल सामान्य Transformer मॉडल्स की तुलना में कैसे हैं, और benchmarks की व्याख्या कैसे करनी चाहिए, इस पर स्पष्टीकरण का अनुरोध
- ऐसा लगता है कि इसका प्रदर्शन Mistral 7B/mistral-tiny के समान है
आवश्यक RAM की मात्रा और केवल CPU इस्तेमाल करने पर token processing speed की जानकारी स्पष्ट नहीं है
सुझाव है कि project member Reddit पर सवालों के जवाब दे रहे हैं, इसलिए वहाँ देखना उपयोगी हो सकता है
- संबंधित Reddit user का लिंक दिया गया है
अगर आप RWKV मॉडल आज़माना चाहते हैं लेकिन इंतज़ार नहीं करना चाहते, तो rwkv-demo-api.recursal.ai इस्तेमाल करने की सिफारिश की गई है
मार्च 2024 पर आधारित MoE मॉडल v5 Eagle 2T को लेकर उत्साह व्यक्त किया गया है
- performance और environment/token cost के संतुलन की उम्मीद है
- Scandinavian भाषाओं में सुधार की भी उम्मीद है, लेकिन नतीजे देखना बाकी है
- training data के मूल्य और इष्टतम प्रशिक्षण के लिए content structure तथा balance की समझ ही वास्तविक क्रांति लाएगी
RWKV-4 प्रयोग में inference speed तेज़ थी, लेकिन tokenization speed बहुत धीमी होने का अनुभव हुआ
- RWKV-5 के लिए अधिक ठोस दिशानिर्देशों की आवश्यकता है