• बड़े भाषा मॉडल (Large Language Models, LLMs) के streaming applications की deployment पर एक लेख, जो memory consumption और LLMs की training sequence length से लंबे text को generalize करने की सीमित क्षमता के कारण चुनौतीपूर्ण है.
  • लेखक 'attention sink' नामक अवधारणा पेश करते हैं, जो शुरुआती tokens पर मजबूत attention score की घटना को दर्शाती है, भले ही वे अर्थ की दृष्टि से महत्वपूर्ण न हों.
  • लेखक StreamingLLM प्रस्तुत करते हैं, जो एक कुशल framework है और finite-length attention window के साथ train किए गए LLMs को बिना fine-tuning के infinite sequence length तक generalize करने में सक्षम बनाता है.
  • StreamingLLM, Llama-2, MPT, Falcon और Pythia जैसे models को 40 लाख tokens से अधिक तक स्थिर और कुशल language modeling करने में सक्षम बनाता है.
  • लेखकों ने यह भी पाया कि pre-training के दौरान dedicated attention sink के रूप में placeholder tokens जोड़ने से streaming deployment को और बेहतर बनाया जा सकता है.
  • streaming setting में StreamingLLM, sliding window recomputation baseline की तुलना में अधिकतम 22.2 गुना तेज़ प्रदर्शन करता है.
  • लेखक स्पष्ट करते हैं कि StreamingLLM में LLMs का context window बढ़ाया नहीं जाता, और model केवल सबसे हाल के tokens को ही process कर सकता है.
  • StreamingLLM, multi-round conversations जैसे streaming applications के लिए आदर्श है, जहाँ model को व्यापक memory या past data पर निर्भर हुए बिना लगातार काम करते रहना होता है.
  • लेखक StreamingLLM का core code, जिसमें Llama-2, MPT, Falcon और Pythia शामिल हैं, साथ ही perplexity code, Streaming Llama Chatbot demo, StreamEval dataset और evaluation code को जारी करने की योजना बना रहे हैं.

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.