Zyphra Zamba2-7B, Llama3 को पीछे छोड़ने वाला छोटा language model जारी

(zyphra.com)

7 पॉइंट द्वारा GN⁺ 2024-10-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Zamba2-7B ने Mistral-7B, Gemma-7B, Llama3-8B जैसे मौजूदा प्रमुख 7B मॉडलों की तुलना में evaluation benchmark performance और inference efficiency, दोनों में SOTA हासिल किया है
Zamba2-7B first token generation तक 25% अधिक तेज़ है, tokens per second में 20% सुधार दिखाता है, और Llama3-8B आदि की तुलना में memory usage काफ़ी कम करता है, यानी inference efficiency बेहद उत्कृष्ट है

Zamba1-7B की तुलना में Zamba2-7B architecture में सुधार

Mamba1 blocks को Mamba2 blocks से बदला गया है
एक single shared attention block की जगह पूरे network में ABAB pattern में interleaved 2 shared attention blocks का उपयोग किया गया है
हर shared MLP block पर LoRA projector लागू किया गया है, जिससे depth के अनुसार shared layer call पर MLP को specialize किया जा सकता है
मॉडल weights को Apache 2.0 license के तहत open source के रूप में जारी किया गया है

Zamba2-7B language modeling evaluation set पर performance

Zamba2 latency और generation speed को ध्यान में रखते हुए standard language modeling evaluation sets पर बेहद उत्कृष्ट performance दिखाता है
8B से कम छोटे language models में quality और performance, दोनों में अग्रणी है

Zamba2-7B मौजूदा SOTA मॉडलों से बेहतर क्यों है

नया shared attention architecture Mamba2 backbone में अधिक parameters allocate करने की अनुमति देता है। Shared transformer blocks attention operations की समृद्ध inter-sequence dependencies को preserve करते हैं
3 trillion token pretraining dataset, Zyda और सक्रिय रूप से filtered तथा deduplicated public datasets के संयोजन से बना है, और मौजूदा शीर्ष open source pretraining datasets की तुलना में सर्वोच्च quality हासिल करता है
अलग "annealing" pretraining phase में 100 billion high-quality tokens पर learning rate को तेज़ी से कम किया गया। Annealing set कई high-quality sources से एकत्र किया गया है और इसकी quality पर सख़्त नियंत्रण रखा गया है

बेहतरीन pretraining और annealing dataset quality की वजह से Zamba2-7B training token per performance के मामले में बहुत उत्कृष्ट है, और प्रतिस्पर्धी मॉडलों के curve से काफ़ी ऊपर आराम से स्थित है

Zamba hybrid SSM-attention architecture

Zamba2-7B मूल Zamba hybrid SSM-attention architecture का उपयोग और विस्तार करता है
मुख्य Zamba architecture, एक या अधिक shared attention layers के साथ interleaved Mamba layer backbone से बना है (Zamba1 में 1, Zamba2 में 2 shared attention का उपयोग)
इस attention में model के parameter cost को न्यूनतम रखने के लिए shared weights हैं
input की मूल model embeddings को इन attention blocks से जोड़ने पर depth के दौरान information retention बेहतर होती दिखती है, जिससे performance सुधरता है
Zamba2 architecture shared MLP पर LoRA projection matrices लागू करता है, जिससे हर block को कम parameter overhead के साथ अपनी विशिष्ट position के लिए थोड़ा specialize होने की अतिरिक्त representational power मिलती है

SOTA inference efficiency हासिल करने के कारण

Mamba2 blocks बहुत efficient हैं और समान parameter वाले transformer blocks की तुलना में लगभग 4 गुना throughput देते हैं
Mamba blocks को केवल store करने के लिए छोटा hidden state चाहिए और KV-cache की ज़रूरत नहीं होती, इसलिए केवल shared attention block calls के लिए KV state store करना पड़ता है
model size को इस तरह चुना गया है कि वह modern hardware पर parallelization के लिए बहुत उपयुक्त हो (उदाहरण: GPU के कई streaming multiprocessors, CPU के multicore)

Zamba2-7B training और release

Zamba2-7B को Megatron-LM आधारित internal training framework का उपयोग करके 128 H100 GPUs पर लगभग 50 दिनों तक train किया गया
Zamba2-7B दिखाता है कि 7B scale पर छोटे teams और संतुलित budget के साथ भी state-of-the-art तक पहुँचना और उसे पार करना संभव है
इसे open source license के साथ जारी किया गया है ताकि researchers, developers और enterprises इसकी capabilities का उपयोग कर सकें
उम्मीद है कि AI community Zamba के अनोखे architecture का पता लगाएगी और efficient foundation models की सीमाओं को आगे बढ़ाती रहेगी

जारी किए गए Zamba2-7B models:

Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
Pure PyTorch: https://github.com/Zyphra/Zamba2

Zyphra का vision

Zyphra team advanced AI systems के democratization, performance frontier पर नए architectures की खोज, और शक्तिशाली models पर scientific research तथा understanding को आगे बढ़ाने के लिए समर्पित है
यह team इस vision को साझा करने वाले अन्य लोगों के साथ सहयोग की उम्मीद कर रही है

GN⁺ की राय

Zyphra द्वारा Zamba2 को open source के रूप में जारी करना बहुत महत्वपूर्ण है। इससे कोई भी cutting-edge language model को मुफ़्त में इस्तेमाल और research कर सकता है, जो AI तकनीक के democratization में योगदान देगा
Zamba2 का नया architecture मौजूदा transformer-based models की सीमाओं को पार कर अधिक efficient language models बनाने की दिशा दिखाता है। Shared attention और LoRA projection जैसे Zamba के अनोखे विचार आगे के language model research को प्रेरित कर सकते हैं
यह भी उत्साहजनक है कि छोटे और मध्यम आकार की teams भी आधुनिक hardware का उपयोग कर SOTA performance वाले large language models बना सकती हैं। उम्मीद है कि आगे विभिन्न संगठनों की भागीदारी से foundation model development और अधिक सक्रिय होगा
यह देखना ज़रूरी होगा कि Zamba2 की performance वास्तविक applications में कैसी साबित होती है। बेहतरीन benchmark scores हमेशा सीधे real-world tasks में नहीं बदलते। अलग-अलग क्षेत्रों के practitioners द्वारा Zamba2 का उपयोग कर उसके फ़ायदे और सीमाएँ साझा करना महत्वपूर्ण होगा

1 टिप्पणियां

GN⁺ 2024-10-16

Hacker News राय

जो लोग लेख में लिंक न किए गए weights ढूंढ रहे हैं, उनके लिए लिंक दिया गया है
- बेस मॉडल: Zyphra/Zamba2-7B
- Instruct tuning: Zyphra/Zamba2-7B-Instruct
यह जानने की जिज्ञासा है कि performance में सुधार dataset में सुधार की वजह से है या architecture की वजह से। यह शायद एक महंगा experiment होगा
LLM releases द्वारा benchmark का चुनिंदा इस्तेमाल किए जाने से थकान महसूस होती है। SOTA qwen2.5/phi3.5 से तुलना जानने की जिज्ञासा है
- पूछा गया है कि क्या किसी को कोई ताज़ा independent leaderboard पता है। Lmsys और livebench हाल के ज़्यादातर बड़े models को छोड़ देते हैं
ज़्यादा Apache licensed models देखना अच्छा लगता है, खासकर अलग-अलग architectures के साथ
Mamba2 blocks पर हुए सैद्धांतिक काम की मात्रा की तुलना में performance improvement बहुत मामूली है
- attention अब भी महत्वपूर्ण है
जब दो attention heads इस्तेमाल किए जाते हैं, तो यह जानने की जिज्ञासा है कि क्या हर attention head डेटा के अलग-अलग पहलुओं पर ध्यान देता है
- memory research में घटनाओं के dual representation की एक अवधारणा है। एक ज़्यादा सटीक representation होता है, और दूसरा ज़्यादा context-weighted representation
- LLM में एक ऐसी व्यवस्था की कल्पना की जा सकती है जहाँ attention का एक head सटीक representation पर और दूसरा head ज़्यादा मोटी जानकारी पर केंद्रित हो। लेकिन LLM के बारे में पर्याप्त जानकारी न होने के कारण यह पक्का नहीं कि यह सिर्फ एक रूपक है
यह जानने की जिज्ञासा है कि 7B में खास क्या है। पूछा गया है कि 8B, 9B, 11.234B क्यों नहीं। यह भी जिज्ञासा है कि क्या 7B को 2 की power के रूप में समझा जाता है
एक और दिन, AI में एक और world record बन गया
- Sergey Bubka याद आते हैं। उन्होंने पुरुष pole vault का world record 35 बार तोड़ा था
पूछा गया है कि क्या किसी के पास इस बारे में कोई जानकारी है कि यह मॉडल किन भाषाओं को support करता है