DBRX - नया अत्याधुनिक (SOTA) ओपन LLM

(databricks.com)

16 पॉइंट द्वारा GN⁺ 2024-03-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Databricks ने नया ओपन, general-purpose LLM DBRX पेश किया
यह standard benchmarks पर मौजूदा ओपन LLMs से बेहतर नया top-tier मॉडल है, और उन क्षमताओं को ओपन कम्युनिटी और enterprises तक लाता है जो पहले closed model APIs तक सीमित थीं
- GPT-3.5 से बेहतर प्रदर्शन करता है और Gemini 1.0 Pro से भी मुकाबला कर सकता है
- कोड में भी CodeLLaMA-70B जैसे specialized models से बेहतर
DBRX training और inference performance में उल्लेखनीय सुधार दिखाता है
- efficiency बढ़ाने के लिए fine-grained Mixture-of-Experts (MoE) architecture का उपयोग करता है
- inference speed, LLaMA2-70B से अधिकतम 2 गुना तेज है, और आकार में Grok-1 की तुलना में लगभग 40% छोटा है

DBRX की संरचना

DBRX एक transformer-based decoder-only large language model (LLM) है, जिसे next-token prediction के जरिए train किया गया है
कुल 132B parameters में से 36B active हैं, और इसे 12T tokens के text और code data पर pre-train किया गया है
DBRX अन्य ओपन MoE models की तुलना में अधिक fine-grained है, और इससे model quality बेहतर होती दिखाई देती है

benchmarks में गुणवत्ता

DBRX Instruct composite benchmarks, programming और math benchmarks, तथा MMLU में leading model है
DBRX Instruct standard benchmarks पर सभी chat या instruction-tuned models से बेहतर है

closed models के साथ तुलना

DBRX Instruct, GPT-3.5 से बेहतर है और Gemini 1.0 Pro तथा Mistral Medium के मुकाबले प्रतिस्पर्धी है
DBRX Instruct general knowledge, common-sense reasoning, programming और mathematical reasoning में GPT-3.5 से आगे है

long-context tasks और RAG में गुणवत्ता

DBRX Instruct को अधिकतम 32K token context window के साथ train किया गया है.
DBRX Instruct की तुलना long-context benchmarks में GPT-3.5 Turbo और GPT-4 Turbo API के नवीनतम versions से की गई है.
DBRX Instruct सभी context lengths और sequence के सभी हिस्सों में GPT-3.5 Turbo से बेहतर प्रदर्शन दिखाता है.

training efficiency

DBRX MoE architecture और पूरा training pipeline, training efficiency को validate करता है.
DBRX MoE architecture, training के लिए आवश्यक FLOPs घटाते हुए high quality हासिल करता है.

inference efficiency

DBRX, NVIDIA TensorRT-LLM का उपयोग करने वाले optimized inference infrastructure पर उच्च inference throughput दिखाता है.
MoE models आम तौर पर कुल parameters की संख्या की तुलना में तेज inference speed देते हैं.

DBRX कैसे बनाया गया

DBRX को NVIDIA H100 का उपयोग करके train किया गया और Databricks के tools से बनाया गया.
DBRX, Databricks के MPT और Dolly projects की निरंतरता में विकसित किया गया, और ग्राहकों के साथ मिलकर हजारों LLMs train किए गए.

Databricks में DBRX के साथ शुरुआत

Databricks Mosaic AI Foundation Model API के जरिए DBRX का उपयोग आसानी से किया जा सकता है.
DBRX को Databricks Marketplace से डाउनलोड करके model serving में deploy किया जा सकता है.

निष्कर्ष

Databricks का मानना है कि हर enterprise को GenAI की दुनिया में अपने data और अपनी दिशा पर नियंत्रण होना चाहिए.
DBRX, Databricks के अगली पीढ़ी के GenAI products का एक मुख्य घटक है.

योगदान

DBRX का development Mosaic team के नेतृत्व में हुआ, और Databricks के विभिन्न विभागों के सहयोग से इसे पूरा किया गया.

GN⁺ की राय

DBRX एक नया open-source language model है जो मौजूदा GPT models के साथ प्रतिस्पर्धा कर सकता है, और खासकर code generation तथा programming tasks में शानदार performance दिखाने की उम्मीद है.
MoE architecture का उपयोग करके DBRX ने inference speed और model size, दोनों में efficiency को काफी बेहतर किया है. इससे resource-constrained environments में भी high-performance models का उपयोग संभव हो सकता है.
DBRX का open-source approach researchers और developers को model के साथ स्वतंत्र रूप से experiment करने और उसे बेहतर बनाने का अवसर देता है. यह AI community के लिए बड़ा योगदान हो सकता है.
DBRX द्वारा उपलब्ध कराए गए API और integration tools enterprises को अपने language models को अधिक आसानी से develop और deploy करने में मदद करते हैं. इससे कंपनियां AI technology का उपयोग करके अपनी प्रतिस्पर्धात्मकता मजबूत कर सकती हैं.
DBRX की release open-source language models की प्रगति में एक महत्वपूर्ण milestone बन सकती है, और आगे यह model कैसे विकसित होगा और विभिन्न क्षेत्रों में कैसे लागू होगा, यह देखना दिलचस्प होगा.

1 टिप्पणियां

GN⁺ 2024-03-28

Hacker News राय

इस समय ध्यान देने लायक मॉडल:
- Miqu 70B: सामान्य बातचीत के लिए
- Deepseed 33B: कोडिंग के लिए
- Yi 34B: 32K context से अधिक वाली बातचीत के लिए
- इन मॉडलों के fine-tuned versions भी मौजूद हैं
- 34B-70B रेंज में दूसरे मॉडल भी हैं, लेकिन Qwen मॉडल प्रभावशाली नहीं हैं
- Llama 70B, Mixtral, Grok मॉडल चार्ट में दिखते हैं, लेकिन इन्हें नवीनतम SOTA कहना मुश्किल है, हालांकि Mixtral batch size 1 की speed में बेहतरीन है
मॉडल कार्ड और resource requirements:
- मॉडल को लगभग 264GB RAM की जरूरत है
- parameters की संख्या के बजाय (GPU RAM + CPU RAM) की कुल मात्रा और evaluation metrics को track करने की ओर कब बदलाव आएगा, इस पर जिज्ञासा
- उदाहरण के लिए, float32 इस्तेमाल करने वाला 7B parameter model, float4 इस्तेमाल करने वाले उसी parameter count के model से बेहतर perform करने की संभावना रखता है
- हाल में जारी अच्छे मॉडलों को एक GPU में फिट करने के लिए quantize करने के उदाहरण हैं, लेकिन quantized models मूल मॉडल से अलग होते हैं, इसलिए metrics फिर से चलाने चाहिए
बड़े language models (LLM) की convergence:
- इस बात के संकेत हैं कि जब सभी LLM models को एक ही data पर train किया जाता है, तो वे किसी खास बिंदु की ओर converge करते हैं
- task performance पर दावे बस दावे ही हैं; अगला Llama या Mixtral iteration भी converge करेगा
- LLM ऐसे evolve होते दिखते हैं जैसे Linux/Windows या iOS/Android, जहां base model के स्तर पर बहुत बड़ा अंतर नहीं होता
mixed quantization और MoE offloading से उम्मीद:
- Mixed Quantization with MQQ और MoE Offloading के जरिए 10GB VRAM वाले rtx3080 पर Mistral 8x7B चलाया जा सका
- यही तरीका DBRX पर भी लागू हो सकता है और VRAM requirement को काफी कम कर सकता है
Databricks का business benefit:
- Databricks को open LLM में लाखों डॉलर निवेश करने से क्या business फायदा मिलेगा, इस पर उत्सुकता
चार्ट तुलना और evaluation:
- LLaMa2 का Human Eval score चार्ट में डालकर उसे Code Llama Instruct 70b से compare न करना चार्ट के साथ अपराध है
- DBRX, Code Llama Instruct के 67.8 से बहुत आगे नहीं है, लेकिन फिर भी शानदार है
नया GPU खरीदने की योजना और VRAM requirements:
- सवाल कि क्या 16GB VRAM GPU, 70GB model को ठीक से चला सकता है, और क्या वह 12GB VRAM GPU से साफ तौर पर बेहतर प्रदर्शन करता है
- Ollama लोकल पर अच्छी तरह चलता है, और mixtral(7B, 3.4GB) 1080ti पर अच्छे से काम करता है, लेकिन 24.6GB version थोड़ा धीमा है और startup time भी noticeably लगता है
base model approval को लेकर असंतोष:
- base model के लिए approval process काफी open नहीं लगती
- कई लोग download मौका मिलने का इंतजार कर रहे हैं, जबकि instruct model को तुरंत approval मिल जाता है
- base model fine-tuning के लिए ज्यादा दिलचस्प है
training efficiency में सुधार:
- LLM pre-training pipeline पिछले 10 महीनों में लगभग 4 गुना ज्यादा compute-efficient हो गई है
- training cost बहुत अधिक होने के कारण ऐसे सुधार स्वागतयोग्य हैं, और उम्मीद है कि यह Moore's law का अनुसरण करेगा
coding evaluations के contamination की संभावना:
- training data की वजह से coding evaluations contaminate हो सकते हैं
- ऐसे score inflation से बचने के लिए standard methods क्या हैं, इस पर सवाल

DBRX - नया अत्याधुनिक (SOTA) ओपन LLM

DBRX की संरचना

benchmarks में गुणवत्ता

closed models के साथ तुलना

long-context tasks और RAG में गुणवत्ता

training efficiency

inference efficiency

DBRX कैसे बनाया गया

Databricks में DBRX के साथ शुरुआत

निष्कर्ष

योगदान

GN⁺ की राय

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय