- Databricks ने नया ओपन, general-purpose LLM DBRX पेश किया
- यह standard benchmarks पर मौजूदा ओपन LLMs से बेहतर नया top-tier मॉडल है, और उन क्षमताओं को ओपन कम्युनिटी और enterprises तक लाता है जो पहले closed model APIs तक सीमित थीं
- GPT-3.5 से बेहतर प्रदर्शन करता है और Gemini 1.0 Pro से भी मुकाबला कर सकता है
- कोड में भी CodeLLaMA-70B जैसे specialized models से बेहतर
- DBRX training और inference performance में उल्लेखनीय सुधार दिखाता है
- efficiency बढ़ाने के लिए fine-grained Mixture-of-Experts (MoE) architecture का उपयोग करता है
- inference speed, LLaMA2-70B से अधिकतम 2 गुना तेज है, और आकार में Grok-1 की तुलना में लगभग 40% छोटा है
DBRX की संरचना
- DBRX एक transformer-based decoder-only large language model (LLM) है, जिसे next-token prediction के जरिए train किया गया है
- कुल 132B parameters में से 36B active हैं, और इसे 12T tokens के text और code data पर pre-train किया गया है
- DBRX अन्य ओपन MoE models की तुलना में अधिक fine-grained है, और इससे model quality बेहतर होती दिखाई देती है
benchmarks में गुणवत्ता
- DBRX Instruct composite benchmarks, programming और math benchmarks, तथा MMLU में leading model है
- DBRX Instruct standard benchmarks पर सभी chat या instruction-tuned models से बेहतर है
closed models के साथ तुलना
- DBRX Instruct, GPT-3.5 से बेहतर है और Gemini 1.0 Pro तथा Mistral Medium के मुकाबले प्रतिस्पर्धी है
- DBRX Instruct general knowledge, common-sense reasoning, programming और mathematical reasoning में GPT-3.5 से आगे है
long-context tasks और RAG में गुणवत्ता
- DBRX Instruct को अधिकतम 32K token context window के साथ train किया गया है.
- DBRX Instruct की तुलना long-context benchmarks में GPT-3.5 Turbo और GPT-4 Turbo API के नवीनतम versions से की गई है.
- DBRX Instruct सभी context lengths और sequence के सभी हिस्सों में GPT-3.5 Turbo से बेहतर प्रदर्शन दिखाता है.
training efficiency
- DBRX MoE architecture और पूरा training pipeline, training efficiency को validate करता है.
- DBRX MoE architecture, training के लिए आवश्यक FLOPs घटाते हुए high quality हासिल करता है.
inference efficiency
- DBRX, NVIDIA TensorRT-LLM का उपयोग करने वाले optimized inference infrastructure पर उच्च inference throughput दिखाता है.
- MoE models आम तौर पर कुल parameters की संख्या की तुलना में तेज inference speed देते हैं.
DBRX कैसे बनाया गया
- DBRX को NVIDIA H100 का उपयोग करके train किया गया और Databricks के tools से बनाया गया.
- DBRX, Databricks के MPT और Dolly projects की निरंतरता में विकसित किया गया, और ग्राहकों के साथ मिलकर हजारों LLMs train किए गए.
Databricks में DBRX के साथ शुरुआत
- Databricks Mosaic AI Foundation Model API के जरिए DBRX का उपयोग आसानी से किया जा सकता है.
- DBRX को Databricks Marketplace से डाउनलोड करके model serving में deploy किया जा सकता है.
निष्कर्ष
- Databricks का मानना है कि हर enterprise को GenAI की दुनिया में अपने data और अपनी दिशा पर नियंत्रण होना चाहिए.
- DBRX, Databricks के अगली पीढ़ी के GenAI products का एक मुख्य घटक है.
योगदान
- DBRX का development Mosaic team के नेतृत्व में हुआ, और Databricks के विभिन्न विभागों के सहयोग से इसे पूरा किया गया.
GN⁺ की राय
- DBRX एक नया open-source language model है जो मौजूदा GPT models के साथ प्रतिस्पर्धा कर सकता है, और खासकर code generation तथा programming tasks में शानदार performance दिखाने की उम्मीद है.
- MoE architecture का उपयोग करके DBRX ने inference speed और model size, दोनों में efficiency को काफी बेहतर किया है. इससे resource-constrained environments में भी high-performance models का उपयोग संभव हो सकता है.
- DBRX का open-source approach researchers और developers को model के साथ स्वतंत्र रूप से experiment करने और उसे बेहतर बनाने का अवसर देता है. यह AI community के लिए बड़ा योगदान हो सकता है.
- DBRX द्वारा उपलब्ध कराए गए API और integration tools enterprises को अपने language models को अधिक आसानी से develop और deploy करने में मदद करते हैं. इससे कंपनियां AI technology का उपयोग करके अपनी प्रतिस्पर्धात्मकता मजबूत कर सकती हैं.
- DBRX की release open-source language models की प्रगति में एक महत्वपूर्ण milestone बन सकती है, और आगे यह model कैसे विकसित होगा और विभिन्न क्षेत्रों में कैसे लागू होगा, यह देखना दिलचस्प होगा.
1 टिप्पणियां
Hacker News राय
इस समय ध्यान देने लायक मॉडल:
मॉडल कार्ड और resource requirements:
बड़े language models (LLM) की convergence:
mixed quantization और MoE offloading से उम्मीद:
Databricks का business benefit:
चार्ट तुलना और evaluation:
नया GPU खरीदने की योजना और VRAM requirements:
base model approval को लेकर असंतोष:
training efficiency में सुधार:
coding evaluations के contamination की संभावना: