Qwen2.5-1M - 1 मिलियन टोकन तक सपोर्ट करने वाले Qwen को self-host करें

(qwenlm.github.io)

4 पॉइंट द्वारा GN⁺ 2025-01-29 | 3 टिप्पणियां | WhatsApp पर शेयर करें

Qwen2.5-1M एक उच्च-प्रदर्शन open source मॉडल है जो 1M टोकन तक context length को सपोर्ट करता है, और यह 2 महीने पहले जारी किए गए Qwen2.5-Turbo का उन्नत संस्करण है
2 checkpoints जारी किए गए: Qwen2.5-7B-Instruct-1M और Qwen2.5-14B-Instruct-1M
- Qwen मॉडल में पहली बार 1M टोकन context का सपोर्ट
inference framework जारी: vLLM आधारित optimized inference framework उपलब्ध, sparse attention तकनीक के integration से 1M टोकन input को 3~7 गुना तेज़ प्रोसेस करता है
technical report जारी: training और inference framework design, तथा experiment results पर विस्तृत technical report साझा की गई

मॉडल प्रदर्शन

long-context कार्य

Passkey Retrieval मूल्यांकन: 1M टोकन दस्तावेज़ से जानकारी को सटीक रूप से निकाला गया। Qwen2.5-7B मॉडल में कुछ छोटी त्रुटियाँ दिखीं, जबकि Qwen2.5-14B ने उच्च सटीकता बनाए रखी
जटिल कार्य मूल्यांकन:
- RULER, LV-Eval, LongbenchChat आदि में Qwen2.5-1M मॉडल ने 128K मॉडल से बेहतर प्रदर्शन किया
- खास तौर पर Qwen2.5-14B ने GPT-4o-mini की तुलना में भी समग्र रूप से बेहतर प्रदर्शन दिखाया

short-context कार्य

short-context कार्यों में भी Qwen2.5-1M मॉडल ने 128K संस्करण के समान प्रदर्शन बनाए रखा
GPT-4o-mini जैसी short-context performance दिखाते हुए भी यह अधिकतम 8 गुना लंबा context सपोर्ट करता है

मुख्य तकनीक

long-context training

context length को 4K से 256K तक क्रमिक रूप से बढ़ाया गया
RoPE-आधारित tuning, चरणबद्ध training और reinforcement learning लागू किए गए
Dual Chunk Attention(DCA) तकनीक के माध्यम से 1M टोकन context तक विस्तार का सपोर्ट
DCA training के बिना भी long-context में उच्च सटीकता बनाए रखता है

sparse attention

MInference-आधारित sparse attention अपनाया गया
Chunked Prefill integration: memory usage को 96.7% तक कम किया
Length Extrapolation integration: DCA के साथ मिलाकर सटीकता और inference efficiency में सुधार
Sparsity Refinement on Long Sequences: optimized sparsification configuration के जरिए long-context में performance loss को न्यूनतम किया गया
परिणामस्वरूप 1M टोकन लंबाई पर inference speed में 3.2x~6.7x सुधार

लोकल environment में Qwen2.5-1M डिप्लॉय करना

सिस्टम आवश्यकताएँ

CUDA 12.1/12.3, Python 3.9~3.12
VRAM आवश्यकताएँ:
- Qwen2.5-7B: 120GB या अधिक
- Qwen2.5-14B: 320GB या अधिक

इंस्टॉलेशन और रन

vLLM repository को clone करके install करें
OpenAI-compatible API service शुरू करें
Curl या Python से मॉडल के साथ interaction संभव है

आगे की दिशा

अधिक efficient training, model architecture और inference methods पर शोध जारी है
short context और long context दोनों में उत्कृष्ट performance को लक्ष्य बनाकर विकास जारी
long-context मॉडल की practical usability को और विस्तृत करने की योजना

3 टिप्पणियां

yangeok 2025-01-30

क्या यह लोकल पर कोरियाई के साथ अच्छी तरह चलेगा?

xguru 2025-01-29

2023-08-03 Alibaba, ओपन सोर्स AI मॉडल QWEN जारी
2024-04-25 Qwen1.5-110B : Alibaba की ओपन सोर्स LLM Qwen1.5 सीरीज़ का पहला 100B+ मॉडल
2024-06-07 Alibaba ने Qwen 2 मॉडल जारी किया
2024-09-19 Qwen2.5 - कई foundation model जारी
2024-11-28 QwQ - ChatGPT o1 जैसा Alibaba का reasoning LLM
2024-12-24 Qwen के नए visual reasoning model QvQ के उपयोग का अनुभव

GN⁺ 2025-01-29

Hacker News की राय

AI coding में बहुत बड़ी context window वास्तव में उपयोगी नहीं होती। लगभग 25-30k tokens से ज़्यादा इनपुट देने पर model भ्रमित हो जाता है
- यह समस्या gpt-4o, Sonnet, DeepSeek आदि में होती है
- कई users ने इस समस्या की रिपोर्ट की है, और इसे हल करने के लिए dedicated help pages बनाए हैं
- बड़ा context उन खास tasks में उपयोगी हो सकता है जहाँ "कम-मूल्य" context बहुत अधिक हो, लेकिन coding में यह समस्या पैदा कर सकता है
Ollama में context window की लंबाई नियंत्रित करने के लिए num_ctx parameter है और इसका default 2048 है
- macOS पर MLX का उपयोग करके चलाने के लिए एक tip है
memory-centric computing की नवीनतम तकनीक (SOTA) पर चर्चा
- AI memory cost को कम करने के लिए नए paradigm की ज़रूरत हो सकती है
- DRAM और optical interconnects को जोड़ने का कोई तरीका हो सकता है
- यह जिज्ञासा है कि क्या transformer जैसी क्षमता वाली कोई ऐसी चीज़ है जो sequence पर निर्भर न हो
यह पुष्टि करना है कि 128K से अधिक context length वाला पहला locally runnable model सीधे 1M तक बढ़ गया है या नहीं
Mac पर लंबे prompts को सफलतापूर्वक चलाने वाले लोगों की राय सुनना चाहेंगे
1M context window वाला केवल API model नवंबर में जारी किया गया था
native context length के बारे में अफवाहें सुनी हैं, लेकिन यह स्पष्ट नहीं कि वह वास्तव में 1M context length है या नहीं
- llama3 8b जैसे models के बारे में कहा जाता है कि उनका context बड़ा है, लेकिन वास्तव में ऐसा नहीं है
- 16gb vram में 8k से आगे जाना कठिन है
सभी लोग context window को बड़ा बना रहे हैं, लेकिन output के बारे में भी सोचना ज़रूरी है
- हज़ारों lines of code generate करना चाहते हैं, इसके लिए कोई tips हैं क्या

Qwen2.5-1M - 1 मिलियन टोकन तक सपोर्ट करने वाले Qwen को self-host करें

मॉडल प्रदर्शन

long-context कार्य

short-context कार्य

मुख्य तकनीक

long-context training

sparse attention

लोकल environment में Qwen2.5-1M डिप्लॉय करना

सिस्टम आवश्यकताएँ

इंस्टॉलेशन और रन

आगे की दिशा

संबंधित पढ़ाई

3 टिप्पणियां

Hacker News की राय