अवलोकन

  • DAIR.AI द्वारा हर हफ्ते प्रकाशित किए जाने वाले ML शोधपत्रों पर आधारित इस लेख का स्वचालित अनुवाद किया गया है.

  • इस सप्ताह चुने गए शोधपत्रों की प्रवृत्ति देखें तो बड़े भाषा मॉडल (Large Language Models, LLMs) और उनके विभिन्न रूपों पर केंद्रित शोध विशेष रूप से प्रमुख दिखता है। "OLMo", "Advances in Multimodal LLMs", "Corrective RAG", "LLMs for Mathematical Reasoning", "Compression Algorithms for LLMs", "MoE-LLaVA", "Rephrasing the Web", "Redefining Retrieval in RAG", "Hallucination in LVLMs", "SliceGPT" जैसे शोधपत्र शीर्षकों से स्पष्ट है कि भाषा मॉडलों के प्रदर्शन में सुधार, अनुप्रयोगों के विस्तार और दक्षता बढ़ाने पर केंद्रित शोध सक्रिय रूप से आगे बढ़ रहा है.

  • इन शोध प्रवृत्तियों को भाषा प्रसंस्करण तकनीक की सीमाओं को पार करने और अधिक जटिल समस्याओं को हल करने के लिए अकादमिक जगत और उद्योग जगत के निरंतर प्रयासों का प्रतिबिंब माना जा सकता है। हाल के समय में LLMs केवल साधारण टेक्स्ट प्रोसेसिंग तक सीमित नहीं रहे, बल्कि जटिल गणितीय तर्क, multimodal data processing, अधिक परिष्कृत information retrieval और reconstruction जैसे विविध क्षेत्रों तक इनका उपयोग फैल गया है। साथ ही, इन मॉडलों के बड़े आकार और जटिलता के कारण model compression जैसी तकनीकें इन्हें वास्तविक वातावरण में अधिक कुशलता से deploy और उपयोग करने का एक प्रमुख तत्व बन गई हैं। अपेक्षाकृत कम संसाधनों के साथ बड़े मॉडलों को चलाने की आवश्यकता वाले मामलों में ऐसी तकनीकों का महत्व लगातार बढ़ रहा है.

  • साथ ही, 'Multimodal LLMs' और 'MoE-LLaVA' पर शोध टेक्स्ट के अलावा कई प्रकार के डेटा (जैसे: image, sound आदि) को एकीकृत करके संसाधित करने की विधियों में प्रगति को दर्शाता है, और यह दिखाता है कि AI सिस्टम वास्तविक दुनिया की जानकारी को अधिक समृद्ध रूप से समझ और उपयोग कर सकते हैं। मॉडल की interpretability और reliability बढ़ाने की दिशा में 'Corrective RAG' और 'Redefining Retrieval in RAG' को मॉडल की reasoning प्रक्रिया और उसके परिणामों की सटीकता सुधारने के प्रयास के रूप में देखा जा सकता है, जबकि मॉडलों द्वारा जनरेट किए गए कंटेंट की गुणवत्ता बढ़ाने वाले शोधों में 'Hallucination in LVLMs' और 'Rephrasing the Web' प्रमुख हैं। ये सभी रुझान इस बात के संकेत माने जा सकते हैं कि निकट भविष्य में और अधिक बुद्धिमान तथा परिष्कृत AI सिस्टम सामने आएंगे.


OLMo: भाषा मॉडल विज्ञान को तेज़ करना / OLMo: Accelerating the Science of Language Models

शोधपत्र परिचय

  • open training code, open data, full model weights, evaluation code और fine-tuning code को शामिल करने वाला 7b parameter मॉडल open language model (OLMo) प्रस्तुत किया गया है, जो कई generative tasks में मजबूत प्रदर्शन दिखाता है; इसका एक छोटा संस्करण olmo 1b भी है.

    Introduces open language model (olmo), a 7b parameter model; it includes open training code, open data, full model weights, evaluation code, and fine-tuning code; it shows strong performance on many generative tasks; there is also a smaller version of it, olmo 1b.

शोधपत्र सार(Abstract)

  • भाषा मॉडल (LMs) अब NLP शोध और commercial products दोनों में सर्वव्यापी हो चुके हैं। जैसे-जैसे इनका व्यावसायिक महत्व बढ़ा है, सबसे शक्तिशाली मॉडल proprietary interfaces के पीछे बंद होते गए हैं, और उनके training data, architecture तथा development से जुड़ी महत्वपूर्ण जानकारी सार्वजनिक नहीं की गई है। इन मॉडलों का वैज्ञानिक अध्ययन करते समय—विशेषकर इनके bias और संभावित जोखिमों को समझने के लिए—ऐसे विवरणों का महत्व बहुत अधिक है, इसलिए हमारा मानना है कि शोध समुदाय को शक्तिशाली और वास्तव में open LMs तक पहुंच मिलनी चाहिए। इसी उद्देश्य से, यह technical report OLMo की पहली रिलीज़ का विस्तार से वर्णन करती है, जो भाषा मॉडलिंग के विज्ञान को निर्मित और अध्ययन करने के लिए एक state-of-the-art, वास्तव में Open Language Model और उसका framework है। अधिकांश पूर्व प्रयासों के विपरीत, जिनमें केवल model weights और inference code जारी किए गए थे, हम OLMo के साथ पूरा framework भी जारी कर रहे हैं, जिसमें training data तथा training और evaluation code शामिल हैं। हमें उम्मीद है कि यह रिलीज़ open research community को सशक्त और मजबूत करेगी तथा innovation की एक नई लहर को प्रेरित करेगी.

    Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.

शोधपत्र लिंक

https://arxiv.org/abs/2402.00838

और पढ़ें

https://x.com/omarsar0/status/1753080417530318872


MM-LLM: multimodal बड़े भाषा मॉडलों में हालिया प्रगति / MM-LLMs: Recent Advances in MultiModal Large Language Models

शोधपत्र परिचय

  • यह multimodal बड़े भाषा मॉडलों के लिए model architecture और training pipeline की design formulations को समझाने वाला एक व्यापक survey paper है।

    A comprehensive survey outlining design formulations for model architecture and training pipeline around multimodal large language models.

शोधपत्र सार(Abstract)

  • पिछले एक वर्ष में बहु-मोडल बड़े भाषा मॉडल (MM-LLM) ने काफ़ी प्रगति की है। इन्होंने cost-effective training strategies के ज़रिए off-the-shelf LLMs को MM input या output सपोर्ट करने लायक बेहतर बनाया है। इसके परिणामस्वरूप बने मॉडल न केवल LLMs की अंतर्निहित reasoning और decision-making क्षमताओं को बनाए रखते हैं, बल्कि MM tasks की एक विस्तृत श्रृंखला को भी सक्षम बनाते हैं। इस शोधपत्र में हम MM-LLM पर आगे के शोध को प्रोत्साहित करने के उद्देश्य से एक व्यापक survey प्रस्तुत करते हैं। विशेष रूप से, हम पहले model architecture और training pipeline के लिए सामान्य design formulations का खाका पेश करते हैं। इसके बाद, हम $26$ मौजूदा MM-LLMs का संक्षिप्त परिचय देते हैं, जिनमें से हर एक अपनी विशिष्ट formulation से पहचाना जाता है। इसके अतिरिक्त, हम मुख्य benchmarks पर MM-LLMs के प्रदर्शन की समीक्षा करते हैं और MM-LLMs की क्षमता बढ़ाने के लिए प्रमुख training recipes का सार प्रस्तुत करते हैं। अंत में, हम MM-LLMs के लिए आशाजनक दिशाओं का अन्वेषण करते हैं और साथ ही इस क्षेत्र के नवीनतम विकासों को real-time में ट्रैक करने वाली एक वेबसाइट भी संचालित करते हैं। हमें उम्मीद है कि यह survey MM-LLM क्षेत्र की निरंतर प्रगति में योगदान देगा।
    > In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

शोधपत्र लिंक

https://arxiv.org/abs/2401.13601

आगे पढ़ें

https://x.com/omarsar0/status/1751705689964089616


CRAG: स्व-सुधारक retrieval augmented generation / Corrective Retrieval Augmented Generation

शोधपत्र परिचय

  • RAG system में generation की robustness को बेहतर बनाने के लिए corrective retrieval augmented generation (CRAG) प्रस्तावित किया गया है। इसका मुख्य विचार retriever के लिए एक self-correct component लागू करना और augmented generation के लिए retrieved documents के उपयोग को बेहतर बनाना है। retrieval evaluator, query दिए जाने पर, retrieved documents की समग्र गुणवत्ता का आकलन करने में मदद करता है। web search और optimized knowledge utilization operations का उपयोग automatic self-correction और retrieved documents के कुशल उपयोग को बेहतर बना सकता है।
    > Proposes corrective retrieval augmented generation (CRAG) to improve the robustness of generation in a rag system; the core idea is to implement a self-correct component for the retriever and improve the utilization of retrieved documents for augmenting generation; the retrieval evaluator helps to assess the overall quality of retrieved documents given a query; using web search and optimized knowledge utilization operations can improve automatic self-correction and efficient utilization of retrieved documents.

शोधपत्र सार (Abstract)

  • बड़े भाषा मॉडल (LLM) अनिवार्य रूप से hallucination दिखाते हैं, क्योंकि वे केवल अपने भीतर समाहित parametric knowledge के आधार पर उत्पन्न टेक्स्ट की सटीकता सुनिश्चित नहीं कर सकते। retrieval-augmented generation (RAG), LLM के लिए एक व्यावहारिक पूरक है, लेकिन यह retrieved documents की प्रासंगिकता पर बहुत अधिक निर्भर करता है, इसलिए retrieval गलत होने पर मॉडल कैसे व्यवहार करेगा, इसे लेकर चिंताएँ उठती हैं। इसी उद्देश्य से, हम generation की robustness बेहतर करने के लिए Corrective Retrieval Augmented Generation (CRAG) प्रस्तावित करते हैं। विशेष रूप से, एक lightweight retrieval evaluator इस तरह डिज़ाइन किया गया है कि वह किसी query के लिए retrieved documents की समग्र गुणवत्ता का आकलन करे और एक confidence degree लौटाए, जिसके आधार पर विभिन्न knowledge retrieval actions ट्रिगर किए जा सकें। चूँकि static और सीमित corpora से retrieval करने पर अक्सर sub-optimal documents ही मिलते हैं, इसलिए retrieval results को बेहतर बनाने के लिए large-scale web search को एक extension के रूप में उपयोग किया जाता है। इसके अलावा, retrieved documents के लिए decompose-then-recompose algorithm तैयार किया गया है, ताकि वह चुनिंदा रूप से मुख्य जानकारी पर ध्यान केंद्रित करे और अप्रासंगिक जानकारी को फ़िल्टर कर दे। CRAG plug-and-play है और इसे विभिन्न RAG-आधारित approaches के साथ सहजता से जोड़ा जा सकता है। short-form और long-form generation tasks को कवर करने वाले चार datasets पर किए गए experiments दिखाते हैं कि CRAG, RAG-आधारित approaches के प्रदर्शन में उल्लेखनीय सुधार कर सकता है。
    > Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.

पेपर लिंक

https://arxiv.org/abs/2401.15884

आगे पढ़ें

https://x.com/omarsar0/status/1752173216942944556


गणितीय reasoning के लिए बड़े भाषा मॉडल: प्रगति और चुनौतियाँ / Large Language Models for Mathematical Reasoning: Progresses and Challenges

पेपर परिचय

  • गणितीय reasoning के लिए machine learning में हुए शोध और विकास का एक अवलोकन प्रस्तुत किया गया है, और गणित के लिए machine learning पर जारी शोध को प्रेरित करने हेतु प्रगति, क्षमताएँ, सीमाएँ और अनुप्रयोगों पर चर्चा की गई है।
    > Introduces an overview of research developments in llms for mathematical reasoning; discusses advancements, capabilities, limitations, and applications to inspire ongoing research on llms for mathematics.

पेपर सारांश (Abstract)

  • गणितीय reasoning, मानव बुद्धिमत्ता की मूलभूत संज्ञानात्मक क्षमताओं का आकलन करने के लिए एक आधारशिला का काम करता है। हाल के समय में, गणितीय समस्याओं को स्वचालित रूप से हल करने के उद्देश्य से बड़े भाषा मॉडलों (LLM) के विकास में उल्लेखनीय वृद्धि हुई है। हालांकि, गणितीय समस्या प्रकारों का परिदृश्य बहुत विशाल और विविध है, और LLM-उन्मुख तकनीकों का मूल्यांकन विभिन्न datasets और settings में किया जा रहा है। यही विविधता इस तेज़ी से बढ़ते क्षेत्र में वास्तविक प्रगति और बाधाओं को पहचानना कठिन बना देती है। यह survey चार महत्वपूर्ण आयामों को संबोधित करने का प्रयास करता है: i) अध्ययन की गई विभिन्न गणितीय समस्याओं और उनसे संबंधित datasets का व्यापक विश्लेषण, ii) गणितीय समस्या-समाधान के लिए प्रस्तावित LLM-उन्मुख तकनीकों के पूरे spectrum का परीक्षण, iii) गणित हल करने में LLM को प्रभावित करने वाले कारकों और चिंताओं का अवलोकन, iv) इस क्षेत्र में बनी हुई चुनौतियों का स्पष्टीकरण। हमारी जानकारी के अनुसार, यह survey गणित के क्षेत्र में LLM के परिदृश्य की पहली व्यापक जाँचों में से एक है, जो इस तेज़ी से विकसित हो रहे क्षेत्र की वर्तमान स्थिति, उपलब्धियों और भविष्य की चुनौतियों पर एक समग्र दृष्टिकोण प्रदान करता है।
    > Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.

पेपर लिंक

https://arxiv.org/abs/2402.00157

आगे पढ़ें

https://x.com/omarsar0/status/1753424518171738194


भाषा मॉडलों के लिए compression algorithms पर एक व्यापक सर्वे / A Comprehensive Survey of Compression Algorithms for Language Models

शोधपत्र परिचय

  • pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, और efficient architecture design जैसे compression algorithms को कवर करता है।
    > Covers compression algorithms like pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design.

शोधपत्र सार(Abstract)

  • सटीकता को कम किए बिना भाषा मॉडलों को compress कैसे किया जा सकता है? हाल के भाषा मॉडलों की उल्लेखनीय प्रगति का लाभ उठाने के लिए, लेकिन उनके विशाल आकार से होने वाले दुष्प्रभावों—जैसे बढ़ते carbon emissions और महंगे maintenance cost—से बचते हुए, भाषा मॉडलों के लिए compression algorithms की संख्या तेजी से बढ़ रही है। अनेक compression algorithms ने भाषा मॉडलों को compress करने में उल्लेखनीय प्रगति दिखाई है, लेकिन विडंबना यह है कि algorithms की अत्यधिक संख्या के कारण उभरते रुझानों को समझना और उनके पीछे के मूलभूत सिद्धांतों की पहचान करना कठिन होता जा रहा है। इस शोधपत्र में pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, और efficient architecture design सहित विभिन्न compression algorithms का सर्वे और सार प्रस्तुत किया गया है। इसमें न केवल विभिन्न compression algorithms की समग्र प्रवृत्तियों का सार दिया गया है, बल्कि प्रतिनिधि algorithms का चयन कर उनका गहन विश्लेषण भी प्रस्तुत किया गया है। इसमें compression algorithms की प्रत्येक श्रेणी के महत्व और large language models के उदय के कारण अत्यधिक प्रभावशाली हो रहे low-cost compression algorithms के वांछनीय गुणों पर चर्चा की गई है। अंत में, सर्वे के परिणामों के आधार पर भविष्य के आशाजनक शोध विषयों का परिचय दिया गया है।
    > How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly growing to benefit from remarkable advances of recent language models without side effects due to the gigantic size of language models, such as increased carbon emissions and expensive maintenance fees. While numerous compression algorithms have shown remarkable progress in compressing language models, it ironically becomes challenging to capture emerging trends and identify the fundamental concepts underlying them due to the excessive number of algorithms. In this paper, we survey and summarize diverse compression algorithms including pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design. We not only summarize the overall trend of diverse compression algorithms but also select representative algorithms and provide in-depth analyses of them. We discuss the value of each category of compression algorithms, and the desired properties of low-cost compression algorithms which have a significant impact due to the emergence of large language models. Finally, we introduce promising future research topics based on our survey results.

शोधपत्र लिंक

https://arxiv.org/abs/2401.15347

आगे पढ़ें

https://x.com/omarsar0/status/1752746770377974072


MoE-LLaVA: बड़े vision-language models के लिए Mixture of Experts / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

शोधपत्र परिचय

  • बड़े vision-language models के लिए कई experts को साथ में tune करके, स्थिर computational cost पर parameters को काफी कम करने वाला sparse model बनाने वाला यह दृष्टिकोण multi-modal learning और model sparsity से जुड़ी performance degradation की समस्या को हल करने में भी मदद करता है।
    > Employs mixture of experts tuning for large vision-language models which constructs a sparse model with a substantial reduction in parameters with a constant computational cost; this approach also helps to address performance degradation associated with multi-modal learning and model sparsity.

शोधपत्र सार(Abstract)

  • बड़े Vision-Language Models (LVLMs) में मॉडल को scale करने से प्रदर्शन को प्रभावी ढंग से बेहतर बनाया जा सकता है। लेकिन model parameters बढ़ाने पर training और inference की लागत काफी बढ़ जाती है, क्योंकि computation में हर token के लिए सभी model parameters सक्रिय हो जाते हैं। इस शोध में LVLMs के लिए एक नई training strategy, MoE-tuning, प्रस्तावित की गई है, जो बहुत बड़ी संख्या में parameters वाला लेकिन constant computational cost रखने वाला sparse model बना सकती है, और सामान्यतः multimodal learning तथा model sparsity से जुड़े performance degradation को प्रभावी रूप से संबोधित करती है। इसके अलावा, MoE आधारित sparse LVLM architecture, MoE-LLaVA framework, भी प्रस्तुत किया गया है। यह framework deployment के दौरान router के माध्यम से केवल top-k experts को सक्रिय करता है और बाकी experts को निष्क्रिय रखता है। व्यापक experiments से visual understanding में MoE-LLaVA की उत्कृष्ट क्षमता और model outputs में hallucination कम करने की इसकी संभावनाएँ सामने आईं। उल्लेखनीय रूप से, केवल 3 billion sparsely activated parameters के साथ, MoE-LLaVA ने विभिन्न visual understanding datasets पर LLaVA-1.5-7B के तुलनीय प्रदर्शन दिखाया, और object hallucination benchmark में LLaVA-1.5-13B से भी बेहतर प्रदर्शन किया। MoE-LLaVA के माध्यम से, यूनिटी sparse LVLMs के लिए एक baseline स्थापित करना और अधिक efficient तथा effective multimodal learning systems के विकास के लिए भविष्य के शोध को मूल्यवान insights देना चाहता है। कोड \url{https://github.com/PKU-YuanGroup/MoE-LLaVA} पर उपलब्ध है।
    > For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.

पेपर लिंक

https://arxiv.org/abs/2401.15947

आगे पढ़ें

https://github.com/PKU-YuanGroup/MoE-LLaVA

https://x.com/LinBin46984/status/1753403875531375003


वेब को फिर से लिखना: compute और data-efficient language modeling के लिए एक recipe / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

पेपर परिचय

  • off-the-shelf instruction-tuned model, जिसे “like wikipedia” या “question-answer format” जैसे specific style और format में web documents को paraphrase करने के लिए prompt किया जाता है, का उपयोग करके real और synthetic paraphrases पर LLMs का joint pre-training किया जाता है; इससे pre-training की गति लगभग 3x तक बढ़ती है, perplexity में सुधार होता है, और कई tasks पर zero-shot question answering accuracy बेहतर होती है.
    > Uses an off-the-shelf instruction-tuned model prompted to paraphrase web documents in specific styles and formats such as “like wikipedia” or “question-answer format” to jointly pre-train llms on real and synthetic rephrases; it speeds up pre-training by ~3x, improves perplexity, and improves zero-shot question answering accuracy on many tasks.

पेपर सार (Abstract)

  • बड़े language models आमतौर पर वेब से बड़े पैमाने पर स्क्रैप किए गए डेटा पर प्रशिक्षित होते हैं, जो अक्सर असंरचित, शोरयुक्त और खराब तरीके से लिखे गए होते हैं। मौजूदा scaling laws दिखाते हैं कि ऐसे डेटा से सीखने के लिए compute और data दोनों की प्रचुर मात्रा चाहिए, और यह आवश्यकता प्रशिक्षित किए जा रहे model के आकार के साथ बढ़ती है। प्री-ट्रेनिंग से जुड़ी भारी compute लागत और लंबे समय, तथा वेब पर उच्च-गुणवत्ता वाले डेटा की आसन्न कमी के कारण यह व्यावहारिक नहीं है। इस शोध में वेब Rephrase Augmented Pre-training ($\textbf{WRAP}$) प्रस्तावित किया गया है, जो एक off-the-shelf instruction-tuned model का उपयोग करता है, जिसे वेब पर मौजूद दस्तावेज़ों को "Wikipedia जैसा" या "question-answer format" जैसी विशिष्ट शैलियों में paraphrase करने के लिए prompt किया जाता है, ताकि वास्तविक और synthetic rephrases पर LLMs को संयुक्त रूप से pre-train किया जा सके। सबसे पहले, यह दिखाया गया है कि स्वाभाविक रूप से शोरयुक्त C4 dataset पर WRAP का उपयोग pre-training को $\sim3x$ तेज कर देता है। समान pre-training compute budget पर, यह Pile के विभिन्न subsets में औसतन 10% से अधिक perplexity सुधारता है, और 13 tasks में zero-shot question answer accuracy को 2% से अधिक बढ़ाता है। दूसरा, re-phrasing style का model performance पर प्रभाव जाँचा गया है, जिससे यह समझने में insight मिलती है कि training data की संरचना OOD settings में LLMs के प्रदर्शन को कैसे प्रभावित कर सकती है। प्राप्त लाभ इस तथ्य से जुड़े हैं कि re-phrased synthetic data की उपयोगिता केवल वास्तविक डेटा की तुलना में अधिक है, क्योंकि यह (i) ऐसी style diversity शामिल करता है जो downstream evaluation style को काफ़ी करीब से दर्शाती है, और (ii) web-scraped data की तुलना में अधिक 'quality' रखता है।
    > Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.

शोधपत्र लिंक

https://arxiv.org/abs/2401.16380

और पढ़ें

https://x.com/pratyushmaini/status/1752337225097076809


शोर की शक्ति: RAG सिस्टम्स के लिए retrieval की पुनर्परिभाषा / The Power of Noise: Redefining Retrieval for RAG Systems

शोधपत्र परिचय

  • RAG सिस्टम के retrieval component को बेहतर बनाने के लिए आवश्यक तत्वों पर केंद्रित यह शोध पुष्टि करता है कि प्रासंगिक जानकारी को query के पास रखा जाना चाहिए; अन्यथा model के लिए उस जानकारी पर ध्यान केंद्रित करना कठिन हो जाता है। आश्चर्यजनक रूप से, यह भी पाया गया कि संबंधित documents हमेशा RAG सिस्टम के प्रदर्शन में सुधार नहीं करते। इससे भी अधिक अप्रत्याशित रूप से, असंबंधित और शोरयुक्त documents भी यदि सही तरीके से रखे जाएँ, तो accuracy बढ़ाने में मदद कर सकते हैं।
    > a study that focuses on the components needed to improve the retrieval component of a rag system; confirms that the position of relevant information should be placed near the query, the model will struggle to attend to the information if this is not the case; surprisingly, it finds that related documents don't necessarily lead to improved performance for the rag system; even more unexpectedly, irrelevant and noisy documents can help drive up accuracy if placed correctly.

शोधपत्र सार (Abstract)

  • Retrieval-Augmented Generation (RAG) सिस्टम पारंपरिक Large Language Models (LLMs) की तुलना में एक बड़ा विकास दर्शाते हैं। RAG सिस्टम Information Retrieval (IR) चरण के माध्यम से प्राप्त बाहरी डेटा को शामिल करके अपनी generation क्षमता को बेहतर बनाते हैं, और इस तरह standard LLMs की उन सीमाओं को पार करते हैं जो उनके pre-trained knowledge और सीमित context window तक बंधी होती हैं। इस क्षेत्र में अधिकांश शोध मुख्य रूप से RAG सिस्टम के भीतर LLMs के generative पहलू पर केंद्रित रहे हैं। यह अध्ययन RAG सिस्टम पर IR components के प्रभाव का गहन और आलोचनात्मक विश्लेषण करके इस कमी को भरता है। इस पेपर में यह विश्लेषण किया गया है कि प्रभावी RAG prompt formulation के लिए retriever में कौन-सी विशेषताएँ होनी चाहिए, खासकर इस बात पर ध्यान देते हुए कि किस प्रकार के documents retrieve किए जाने चाहिए। इसमें prompt के साथ documents की relevance, उनकी position, और context में शामिल documents की संख्या जैसे विभिन्न तत्वों का मूल्यांकन किया गया है। निष्कर्षों से पता चलता है कि, अन्य महत्वपूर्ण insights के साथ, अप्रासंगिक documents को शामिल करना आश्चर्यजनक रूप से accuracy में 30% से अधिक सुधार ला सकता है, जो गुणवत्ता घटने की हमारी शुरुआती धारणा के विपरीत है। ये परिणाम इस बात पर ज़ोर देते हैं कि retrieval को language generation models के साथ एकीकृत करने के लिए विशेष रणनीतियाँ विकसित करने की आवश्यकता है, और इस प्रकार इस क्षेत्र में भविष्य के शोध के लिए आधार तैयार होता है।
    > Retrieval-Augmented Generation (RAG) systems पारंपरिक Large Language Models (LLMs) की तुलना में एक महत्वपूर्ण प्रगति हैं। RAG सिस्टम Information Retrieval (IR) चरण के माध्यम से प्राप्त बाहरी डेटा को शामिल करके अपनी generation क्षमता को बढ़ाते हैं, जिससे standard LLMs की सीमाएँ दूर होती हैं, जो अपने pre-trained knowledge और सीमित context window तक restricted होते हैं। इस क्षेत्र में अधिकांश शोध मुख्य रूप से RAG सिस्टम के भीतर LLMs के generative aspect पर केंद्रित रहे हैं। हमारा अध्ययन RAG सिस्टम पर IR components के प्रभाव का गहराई और आलोचनात्मक रूप से विश्लेषण करके इस gap को भरता है। यह पेपर इस बात का विश्लेषण करता है कि प्रभावी RAG prompt formulation के लिए retriever में कौन-सी विशेषताएँ होनी चाहिए, खासतौर पर इस बात पर ध्यान देते हुए कि किस प्रकार के documents retrieve किए जाने चाहिए। हम विभिन्न तत्वों का मूल्यांकन करते हैं, जैसे prompt के प्रति documents की relevance, उनकी position, और context में शामिल उनकी संख्या। हमारे निष्कर्ष बताते हैं कि, अन्य insights के साथ, अप्रासंगिक documents को शामिल करना अप्रत्याशित रूप से accuracy में 30% से अधिक सुधार ला सकता है, जो गुणवत्ता घटने की हमारी शुरुआती धारणा के विपरीत है। ये परिणाम retrieval को language generation models के साथ एकीकृत करने के लिए specialized strategies विकसित करने की आवश्यकता को रेखांकित करते हैं, और इस प्रकार इस क्षेत्र में भविष्य के शोध के लिए आधार तैयार करते हैं।

पेपर लिंक

https://arxiv.org/abs/2401.14887

और पढ़ें

https://x.com/omarsar0/status/1751803310267314509


बड़े Vision-Language Models में hallucination पर survey paper / A Survey on Hallucination in Large Vision-Language Models

पेपर परिचय

  • बड़े vision-language models (LVLM; Large Vision-Language Model) में hallucination की समस्या और hallucination को कम करने की तकनीकों पर चर्चा करता है, LVLM hallucination के evaluation methods और benchmarks का परिचय देता है, और LVLM hallucination के कारणों तथा उन्हें कम करने के संभावित तरीकों पर उपयोगी tips और अच्छा analysis प्रदान करता है।
    > बड़े vision-language models (lvlm) में hallucination की समस्याओं और उन्हें कम करने की तकनीकों पर चर्चा करता है; यह lvlm hallucination के evaluation methods और benchmarks का परिचय देता है; lvlm hallucination के कारणों और उन्हें कम करने के संभावित तरीकों पर tips और अच्छा analysis प्रदान करता है।

पेपर सारांश (Abstract)

  • हाल के समय में Large Vision-Language Models (LVLMs) का विकास, व्यावहारिक implementation की क्षमता के कारण, AI परिदृश्य में लगातार अधिक ध्यान आकर्षित कर रहा है। हालांकि, "hallucination", या अधिक विशिष्ट रूप से कहें तो तथ्यात्मक visual content और उससे संबंधित textual generation के बीच misalignment, LVLMs के उपयोग में एक महत्वपूर्ण चुनौती प्रस्तुत करता है। इस व्यापक survey में, हम LVLMs से संबंधित hallucinations का विश्लेषण करते हैं ताकि एक समग्र overview स्थापित किया जा सके और भविष्य में mitigation को आसान बनाया जा सके। हमारी समीक्षा की शुरुआत LVLMs में hallucination की अवधारणा को स्पष्ट करने से होती है, जिसमें hallucination के विभिन्न लक्षण प्रस्तुत किए जाते हैं और LVLM hallucination में निहित विशिष्ट चुनौतियों को उजागर किया जाता है। इसके बाद, हम LVLMs के लिए विशिष्ट hallucination के मूल्यांकन हेतु विशेष रूप से तैयार benchmarks और methodologies की रूपरेखा प्रस्तुत करते हैं। इसके अतिरिक्त, हम इन hallucinations के मूल कारणों की जांच करते हैं, जिसमें training data और model components से प्राप्त insights शामिल हैं। हम hallucination को कम करने के मौजूदा तरीकों की आलोचनात्मक समीक्षा भी करते हैं। अंत में, इस survey का समापन LVLMs में hallucination से संबंधित open questions और future directions पर चर्चा के साथ होता है।
    > हाल के समय में Large Vision-Language Models (LVLMs) का विकास, उनकी व्यावहारिक implementation क्षमता के कारण, AI परिदृश्य में बढ़ता हुआ ध्यान आकर्षित कर रहा है। हालांकि, ``hallucination'', या अधिक विशेष रूप से, तथ्यात्मक visual content और उससे संबंधित textual generation के बीच misalignment, LVLMs के उपयोग में एक महत्वपूर्ण चुनौती उत्पन्न करता है। इस व्यापक survey में, हम LVLM-related hallucinations का विश्लेषण करते हैं ताकि एक overview स्थापित किया जा सके और भविष्य के mitigation को सुगम बनाया जा सके। हमारी समीक्षा की शुरुआत LVLMs में hallucinations की अवधारणा को स्पष्ट करने से होती है, जिसमें hallucination के विविध लक्षण प्रस्तुत किए जाते हैं और LVLM hallucinations में निहित विशिष्ट चुनौतियों को उजागर किया जाता है। इसके बाद, हम LVLMs के लिए विशिष्ट hallucinations के evaluation हेतु विशेष रूप से तैयार benchmarks और methodologies की रूपरेखा प्रस्तुत करते हैं। इसके अतिरिक्त, हम इन hallucinations के मूल कारणों की जांच करते हैं, जिसमें training data और model components से संबंधित insights शामिल हैं। हम hallucinations को कम करने के मौजूदा तरीकों की आलोचनात्मक समीक्षा भी करते हैं। अंत में, यह survey LVLMs के भीतर hallucinations से संबंधित open questions और future directions पर चर्चा के साथ समाप्त होता है।

पेपर लिंक

https://arxiv.org/abs/2402.00253

और पढ़ें

https://x.com/omarsar0/status/1753449211931079101


SliceGPT: पंक्तियाँ और स्तंभ हटाकर बड़े भाषा मॉडलों को संपीड़ित करना / SliceGPT: Compress Large Language Models by Deleting Rows and Columns

शोधपत्र परिचय

  • यह एक नई LLM compression तकनीक है, जो post-training sparsification स्कीम प्रस्तावित करती है जिसमें प्रत्येक weight matrix को एक छोटे dense matrix से बदला जाता है; यह नेटवर्क के embedding dimension को कम करने में मदद करती है और dense मॉडल के अधिकांश zero-shot performance को बनाए रखते हुए Llama2-70B और Phi-2 मॉडलों के model parameters का अधिकतम 20% तक हटा सकती है।
    > A new llm compression technique that proposes a post-training sparsification scheme that replaces each weight matrix with a smaller dense matrix; helps reduce the embedding dimension of the network and can remove up to 20% of model parameters for llama2-70b and phi-2 models while retaining most of the zero-shot performance of the dense models.

शोधपत्र सार(Abstract)

  • बड़े भाषा मॉडल natural language processing की आधारशिला बन चुके हैं, लेकिन इनके उपयोग के साथ compute और memory resources के लिहाज़ से काफी अधिक लागत जुड़ी होती है। Sparsification इन resource constraints को कम करने का एक समाधान देती है, और हालिया शोधों ने दिखाया है कि प्रशिक्षित मॉडलों को बाद में भी sparsify किया जा सकता है। मौजूदा sparsification तकनीकों को अतिरिक्त data structures की ज़रूरत पड़ती है और वर्तमान hardware पर इनसे मिलने वाला speedup सीमित रहता है। इस शोधपत्र में SliceGPT प्रस्तुत किया गया है, जो एक नई post-training sparsification विधि है और प्रत्येक weight matrix को एक छोटे (dense) matrix से बदलकर नेटवर्क के embedding dimension को कम करती है। व्यापक प्रयोगों के माध्यम से शोधकर्ताओं ने दिखाया कि SliceGPT, LLAMA2-70B, OPT 66B और Phi-2 मॉडलों में model parameters (embeddings सहित) का अधिकतम 25% तक हटा सकता है, जबकि dense मॉडल की zero-shot task performance का क्रमशः 99%, 99% और 90% बनाए रखता है। Sliced मॉडल कम GPU पर चलते हैं और बिना किसी अतिरिक्त code optimization के अधिक तेज़ी से चलते हैं। 24GB consumer GPU पर इसने LLAMA2-70B inference के लिए कुल compute को dense मॉडल के 64% तक घटाया, और 40GB A100 GPU पर इसे 66% तक घटाया। यह शोध transformer networks में computational invariance के बारे में एक नई समझ भी देता है, जिससे SliceGPT संभव हुआ है, और उम्मीद है कि यह pre-trained मॉडलों की memory और computation मांग को कम करने के लिए भविष्य के नए रास्ते खोलेगा। Code यहाँ उपलब्ध है: https://github.com/microsoft/TransformerCompression
    > Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression

शोधपत्र लिंक

https://arxiv.org/abs/2401.15024v1

आगे पढ़ें

https://github.com/microsoft/TransformerCompression

https://x.com/_akhaliq/status/1751796334531592496


मूल पाठ

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c5e


⚠️विज्ञापन⚠️: PyTorch Korea User Group द्वारा संकलित यह लेख क्या आपको उपयोगी लगा? सदस्य के रूप में जुड़ें, और हम प्रमुख लेख आपको ईमेल से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly, लेकिन Daily में भी बदल सकते हैं।)

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.