4 पॉइंट द्वारा GN⁺ 2025-01-29 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • Qwen2.5-1M एक उच्च-प्रदर्शन open source मॉडल है जो 1M टोकन तक context length को सपोर्ट करता है, और यह 2 महीने पहले जारी किए गए Qwen2.5-Turbo का उन्नत संस्करण है
  • 2 checkpoints जारी किए गए: Qwen2.5-7B-Instruct-1M और Qwen2.5-14B-Instruct-1M
    • Qwen मॉडल में पहली बार 1M टोकन context का सपोर्ट
  • inference framework जारी: vLLM आधारित optimized inference framework उपलब्ध, sparse attention तकनीक के integration से 1M टोकन input को 3~7 गुना तेज़ प्रोसेस करता है
  • technical report जारी: training और inference framework design, तथा experiment results पर विस्तृत technical report साझा की गई

मॉडल प्रदर्शन

long-context कार्य

  • Passkey Retrieval मूल्यांकन: 1M टोकन दस्तावेज़ से जानकारी को सटीक रूप से निकाला गया। Qwen2.5-7B मॉडल में कुछ छोटी त्रुटियाँ दिखीं, जबकि Qwen2.5-14B ने उच्च सटीकता बनाए रखी
  • जटिल कार्य मूल्यांकन:
    • RULER, LV-Eval, LongbenchChat आदि में Qwen2.5-1M मॉडल ने 128K मॉडल से बेहतर प्रदर्शन किया
    • खास तौर पर Qwen2.5-14B ने GPT-4o-mini की तुलना में भी समग्र रूप से बेहतर प्रदर्शन दिखाया

short-context कार्य

  • short-context कार्यों में भी Qwen2.5-1M मॉडल ने 128K संस्करण के समान प्रदर्शन बनाए रखा
  • GPT-4o-mini जैसी short-context performance दिखाते हुए भी यह अधिकतम 8 गुना लंबा context सपोर्ट करता है

मुख्य तकनीक

long-context training

  • context length को 4K से 256K तक क्रमिक रूप से बढ़ाया गया
  • RoPE-आधारित tuning, चरणबद्ध training और reinforcement learning लागू किए गए
  • Dual Chunk Attention(DCA) तकनीक के माध्यम से 1M टोकन context तक विस्तार का सपोर्ट
  • DCA training के बिना भी long-context में उच्च सटीकता बनाए रखता है

sparse attention

  • MInference-आधारित sparse attention अपनाया गया
  • Chunked Prefill integration: memory usage को 96.7% तक कम किया
  • Length Extrapolation integration: DCA के साथ मिलाकर सटीकता और inference efficiency में सुधार
  • Sparsity Refinement on Long Sequences: optimized sparsification configuration के जरिए long-context में performance loss को न्यूनतम किया गया
  • परिणामस्वरूप 1M टोकन लंबाई पर inference speed में 3.2x~6.7x सुधार

लोकल environment में Qwen2.5-1M डिप्लॉय करना

सिस्टम आवश्यकताएँ

  • CUDA 12.1/12.3, Python 3.9~3.12
  • VRAM आवश्यकताएँ:
    • Qwen2.5-7B: 120GB या अधिक
    • Qwen2.5-14B: 320GB या अधिक

इंस्टॉलेशन और रन

  1. vLLM repository को clone करके install करें
  2. OpenAI-compatible API service शुरू करें
  3. Curl या Python से मॉडल के साथ interaction संभव है

आगे की दिशा

  • अधिक efficient training, model architecture और inference methods पर शोध जारी है
  • short context और long context दोनों में उत्कृष्ट performance को लक्ष्य बनाकर विकास जारी
  • long-context मॉडल की practical usability को और विस्तृत करने की योजना

3 टिप्पणियां

 
yangeok 2025-01-30

क्या यह लोकल पर कोरियाई के साथ अच्छी तरह चलेगा?

 
GN⁺ 2025-01-29
Hacker News की राय
  • AI coding में बहुत बड़ी context window वास्तव में उपयोगी नहीं होती। लगभग 25-30k tokens से ज़्यादा इनपुट देने पर model भ्रमित हो जाता है

    • यह समस्या gpt-4o, Sonnet, DeepSeek आदि में होती है
    • कई users ने इस समस्या की रिपोर्ट की है, और इसे हल करने के लिए dedicated help pages बनाए हैं
    • बड़ा context उन खास tasks में उपयोगी हो सकता है जहाँ "कम-मूल्य" context बहुत अधिक हो, लेकिन coding में यह समस्या पैदा कर सकता है
  • Ollama में context window की लंबाई नियंत्रित करने के लिए num_ctx parameter है और इसका default 2048 है

    • macOS पर MLX का उपयोग करके चलाने के लिए एक tip है
  • memory-centric computing की नवीनतम तकनीक (SOTA) पर चर्चा

    • AI memory cost को कम करने के लिए नए paradigm की ज़रूरत हो सकती है
    • DRAM और optical interconnects को जोड़ने का कोई तरीका हो सकता है
    • यह जिज्ञासा है कि क्या transformer जैसी क्षमता वाली कोई ऐसी चीज़ है जो sequence पर निर्भर न हो
  • यह पुष्टि करना है कि 128K से अधिक context length वाला पहला locally runnable model सीधे 1M तक बढ़ गया है या नहीं

  • Mac पर लंबे prompts को सफलतापूर्वक चलाने वाले लोगों की राय सुनना चाहेंगे

  • 1M context window वाला केवल API model नवंबर में जारी किया गया था

  • native context length के बारे में अफवाहें सुनी हैं, लेकिन यह स्पष्ट नहीं कि वह वास्तव में 1M context length है या नहीं

    • llama3 8b जैसे models के बारे में कहा जाता है कि उनका context बड़ा है, लेकिन वास्तव में ऐसा नहीं है
    • 16gb vram में 8k से आगे जाना कठिन है
  • सभी लोग context window को बड़ा बना रहे हैं, लेकिन output के बारे में भी सोचना ज़रूरी है

    • हज़ारों lines of code generate करना चाहते हैं, इसके लिए कोई tips हैं क्या