- Qwen2.5-1M एक उच्च-प्रदर्शन open source मॉडल है जो 1M टोकन तक context length को सपोर्ट करता है, और यह 2 महीने पहले जारी किए गए Qwen2.5-Turbo का उन्नत संस्करण है
- 2 checkpoints जारी किए गए: Qwen2.5-7B-Instruct-1M और Qwen2.5-14B-Instruct-1M
- Qwen मॉडल में पहली बार 1M टोकन context का सपोर्ट
- inference framework जारी: vLLM आधारित optimized inference framework उपलब्ध, sparse attention तकनीक के integration से 1M टोकन input को 3~7 गुना तेज़ प्रोसेस करता है
- technical report जारी: training और inference framework design, तथा experiment results पर विस्तृत technical report साझा की गई
मॉडल प्रदर्शन
long-context कार्य
- Passkey Retrieval मूल्यांकन: 1M टोकन दस्तावेज़ से जानकारी को सटीक रूप से निकाला गया। Qwen2.5-7B मॉडल में कुछ छोटी त्रुटियाँ दिखीं, जबकि Qwen2.5-14B ने उच्च सटीकता बनाए रखी
- जटिल कार्य मूल्यांकन:
- RULER, LV-Eval, LongbenchChat आदि में Qwen2.5-1M मॉडल ने 128K मॉडल से बेहतर प्रदर्शन किया
- खास तौर पर Qwen2.5-14B ने GPT-4o-mini की तुलना में भी समग्र रूप से बेहतर प्रदर्शन दिखाया
short-context कार्य
- short-context कार्यों में भी Qwen2.5-1M मॉडल ने 128K संस्करण के समान प्रदर्शन बनाए रखा
- GPT-4o-mini जैसी short-context performance दिखाते हुए भी यह अधिकतम 8 गुना लंबा context सपोर्ट करता है
मुख्य तकनीक
long-context training
- context length को 4K से 256K तक क्रमिक रूप से बढ़ाया गया
- RoPE-आधारित tuning, चरणबद्ध training और reinforcement learning लागू किए गए
- Dual Chunk Attention(DCA) तकनीक के माध्यम से 1M टोकन context तक विस्तार का सपोर्ट
- DCA training के बिना भी long-context में उच्च सटीकता बनाए रखता है
sparse attention
- MInference-आधारित sparse attention अपनाया गया
- Chunked Prefill integration: memory usage को 96.7% तक कम किया
- Length Extrapolation integration: DCA के साथ मिलाकर सटीकता और inference efficiency में सुधार
- Sparsity Refinement on Long Sequences: optimized sparsification configuration के जरिए long-context में performance loss को न्यूनतम किया गया
- परिणामस्वरूप 1M टोकन लंबाई पर inference speed में 3.2x~6.7x सुधार
लोकल environment में Qwen2.5-1M डिप्लॉय करना
सिस्टम आवश्यकताएँ
- CUDA 12.1/12.3, Python 3.9~3.12
- VRAM आवश्यकताएँ:
- Qwen2.5-7B: 120GB या अधिक
- Qwen2.5-14B: 320GB या अधिक
इंस्टॉलेशन और रन
- vLLM repository को clone करके install करें
- OpenAI-compatible API service शुरू करें
- Curl या Python से मॉडल के साथ interaction संभव है
आगे की दिशा
- अधिक efficient training, model architecture और inference methods पर शोध जारी है
- short context और long context दोनों में उत्कृष्ट performance को लक्ष्य बनाकर विकास जारी
- long-context मॉडल की practical usability को और विस्तृत करने की योजना
3 टिप्पणियां
क्या यह लोकल पर कोरियाई के साथ अच्छी तरह चलेगा?
2023-08-03 Alibaba, ओपन सोर्स AI मॉडल QWEN जारी
2024-04-25 Qwen1.5-110B : Alibaba की ओपन सोर्स LLM Qwen1.5 सीरीज़ का पहला 100B+ मॉडल
2024-06-07 Alibaba ने Qwen 2 मॉडल जारी किया
2024-09-19 Qwen2.5 - कई foundation model जारी
2024-11-28 QwQ - ChatGPT o1 जैसा Alibaba का reasoning LLM
2024-12-24 Qwen के नए visual reasoning model QvQ के उपयोग का अनुभव
Hacker News की राय
AI coding में बहुत बड़ी context window वास्तव में उपयोगी नहीं होती। लगभग 25-30k tokens से ज़्यादा इनपुट देने पर model भ्रमित हो जाता है
Ollama में context window की लंबाई नियंत्रित करने के लिए
num_ctxparameter है और इसका default 2048 हैmemory-centric computing की नवीनतम तकनीक (SOTA) पर चर्चा
यह पुष्टि करना है कि 128K से अधिक context length वाला पहला locally runnable model सीधे 1M तक बढ़ गया है या नहीं
Mac पर लंबे prompts को सफलतापूर्वक चलाने वाले लोगों की राय सुनना चाहेंगे
1M context window वाला केवल API model नवंबर में जारी किया गया था
native context length के बारे में अफवाहें सुनी हैं, लेकिन यह स्पष्ट नहीं कि वह वास्तव में 1M context length है या नहीं
सभी लोग context window को बड़ा बना रहे हैं, लेकिन output के बारे में भी सोचना ज़रूरी है