अवलोकन

  • DAIR.AI द्वारा हर सप्ताह प्रकाशित किए जाने वाले ML पेपर्स पर लिखे गए लेख का स्वचालित अनुवाद किया गया है।

  • इस सप्ताह चुने गए पेपर्स मुख्य रूप से 'Large Language Models(LLMs)', 'Reasoning and Attention in AI System', और 'Artificial Intelligence in Medical Domain' से जुड़े रुझानों पर केंद्रित हैं।

  • खास तौर पर, 'Reasoning and Attention in AI System' का विषय प्रमुख रूप से उभरकर सामने आया है। यह इस बात को दर्शाता है कि AI केवल पैटर्न पहचान से आगे बढ़कर, इंसानों जैसी तर्क और समस्या-समाधान क्षमता हासिल करने की दिशा में प्रयास कर रहा है।

  • मेडिकल क्षेत्र में AI के उपयोग पर शोध भी उल्लेखनीय है। 'LLMs as Collaborators for Medical Reasoning' इस क्षेत्र का एक महत्वपूर्ण उदाहरण है, जो मेडिकल डेटा को संभालने में LLMs के अनुप्रयोग की संभावनाओं की पड़ताल करता है।

  • संक्षेप में, इस सप्ताह चुने गए पेपर्स दिखाते हैं कि जटिल reasoning क्षमता, इंसानों जैसी attention फोकस करने की प्रणाली के विकास, और मेडिकल क्षेत्र में AI के अनुप्रयोग पर केंद्रित शोधों की संख्या अधिक थी। इसे AI तकनीक के विकास की दिशा का एक महत्वपूर्ण संकेतक माना जा सकता है।


(जो शायद आपको भी चाहिए) सिस्टम 2 अटेंशन / System 2 Attention (is something you might need too)

पेपर परिचय

  • LLM की reasoning और instruction-following क्षमताओं का उपयोग करके यह तय किया जाता है कि किस पर ध्यान दिया जाए, फिर input context को दोबारा इस तरह बनाया जाता है कि उसमें केवल प्रासंगिक हिस्से हों। इसके बाद पुनर्निर्मित context पर attention लागू कर मॉडल से अंतिम उत्तर लिया जाता है। इससे factuality बढ़ती है और QA तथा math word problems जैसे कार्यों में यह standard attention-based LLMs से बेहतर प्रदर्शन करता है।

    Leverages the reasoning and instruction following capabilities of llms to decide what to attend to; it regenerates input context to only include relevant portions before attending to the regenerated context to elicit the final response from the model; increases factuality and outperforms standard attention-based llms on tasks such as qa and math world problems.

पेपर सारांश

  • Transformer-आधारित Large Language Models (LLMs) में soft attention, संदर्भ से अप्रासंगिक जानकारी को latent representations में शामिल कर लेने के प्रति संवेदनशील होती है, जिससे next token generation पर नकारात्मक प्रभाव पड़ता है। इन समस्याओं को दूर करने के लिए, हम System 2 Attention (S2A) प्रस्तुत करते हैं, जो प्राकृतिक भाषा में तर्क करने और निर्देशों का पालन करने की LLMs की क्षमता का उपयोग करके यह तय करता है कि किस पर ध्यान देना चाहिए। S2A input context को फिर से इस तरह बनाता है कि उसमें केवल प्रासंगिक हिस्से शामिल हों, और फिर पुनर्निर्मित context पर attention लगाकर अंतिम उत्तर प्राप्त करता है। प्रयोगों में, opinion या अप्रासंगिक जानकारी वाले तीन कार्यों—QA, math word problems, और longform generation—पर S2A ने standard attention-based LLMs की तुलना में बेहतर प्रदर्शन किया। इसमें factuality और objectivity बढ़ी, जबकि sycophancy घटी।

    Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.

पेपर लिंक

https://arxiv.org/abs/2311.11829

और पढ़ें

https://x.com/jaseweston/status/1726784511357157618


लंबे context वाले Large Language Models में Transformer आर्किटेक्चर का विकास: एक व्यापक सर्वेक्षण / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

पेपर परिचय

  • pre-training से लेकर inference तक, सभी चरणों में long-context क्षमताओं को optimize करने वाले transformer architecture modules को बेहतर बनाने की methodologies का एक अवलोकन।

    An overview of the methodologies for enhancing transformer architecture modules that optimize long-context capabilities across all stages from pre-training to inference.

पेपर सारांश

  • ChatGPT से शुरू हुई Transformer-आधारित बड़े भाषा मॉडल (LLM) की लहर ने Artificial General Intelligence (AGI) की ओर एक क्रांतिकारी रास्ता खोला है, और इसका उपयोग knowledge base, human interface, dynamic agent जैसे विविध क्षेत्रों में हो रहा है। लेकिन एक प्रमुख सीमा अब भी मौजूद है: संसाधन सीमाओं से बंधे कई मौजूदा LLM मुख्य रूप से छोटे टेक्स्ट पर pre-train किए गए हैं, इसलिए वे वास्तविक दुनिया में आम तौर पर मिलने वाले लंबे context वाले prompts पर कम प्रभावी साबित होते हैं। यह पेपर pre-training से लेकर inference तक हर चरण में long-context क्षमता को optimize करने के लिए Transformer-आधारित LLM की model architecture में हुए विकास पर केंद्रित एक व्यापक survey प्रस्तुत करता है। सबसे पहले, यह मौजूदा Transformer-आधारित मॉडलों में long-context input और output को संभालने के दौरान आने वाली समस्याओं की पहचान और विश्लेषण करता है। इसके बाद, इन समस्याओं को हल करने के लिए architecture स्तर पर Transformer upgrades के पूरे परिदृश्य को समझने हेतु एक समग्र taxonomy प्रस्तुत की जाती है। फिर, long-context LLM के लिए व्यापक रूप से उपयोग की जाने वाली evaluation necessities—जैसे datasets, metrics, और baseline models—का सर्वे दिया गया है, साथ ही libraries, systems, और compilers जैसे उल्लेखनीय optimization toolkits का परिचय कराया गया है, जो विभिन्न चरणों में LLM की efficiency और effectiveness को बढ़ाते हैं। अंत में, यह क्षेत्र की प्रमुख चुनौतियों और भविष्य के शोध के संभावित रास्तों पर चर्चा करता है। साथ ही, संबंधित साहित्य को real-time में curate और update करने के लिए एक repository भी बनाई गई है (https://github.com/Strivin0311/long-llms-learning)।

    ChatGPT से शुरू हुई Transformer-based Large Language Models (LLMs) की लहर ने Artificial General Intelligence (AGI) की ओर एक क्रांतिकारी रास्ता खोला है और इनका उपयोग knowledge base, human interface, तथा dynamic agent जैसे विविध क्षेत्रों में हुआ है। हालांकि, एक प्रमुख सीमा मौजूद है: संसाधन सीमाओं से बंधे कई मौजूदा LLM मुख्य रूप से छोटे टेक्स्ट पर pre-train किए गए हैं, जिससे वे वास्तविक दुनिया में आम तौर पर मिलने वाले लंबे-context prompts के लिए कम प्रभावी हो जाते हैं। इस पेपर में हम pre-training से inference तक सभी चरणों में long-context capabilities को optimize करने के लिए Transformer-based LLMs की model architecture में प्रगति पर केंद्रित एक comprehensive survey प्रस्तुत करते हैं। सबसे पहले, हम मौजूदा Transformer-based models में long-context input और output को संभालने की समस्याओं को रेखांकित और विश्लेषित करते हैं। फिर, हम मुख्य रूप से इन समस्याओं को हल करने के लिए architecture पर Transformer upgrades के परिदृश्य को समझने हेतु एक holistic taxonomy प्रदान करते हैं। इसके बाद, हम long-context LLMs के लिए उपयोग होने वाली evaluation necessities—जिनमें datasets, metrics, और baseline models शामिल हैं—की जांच प्रस्तुत करते हैं, साथ ही libraries, systems, और compilers जैसे कुछ बेहतरीन optimization toolkits भी, जो विभिन्न चरणों में LLMs की efficiency और efficacy को बढ़ाते हैं। अंत में, हम इस क्षेत्र की प्रमुख चुनौतियों और भविष्य के शोध के संभावित रास्तों पर भी चर्चा करते हैं। अतिरिक्त रूप से, हमने https://github.com/Strivin0311/long-llms-learning पर एक repository स्थापित की है, जहाँ हम संबंधित साहित्य को real-time updates के साथ curate करते हैं.

पेपर लिंक

https://arxiv.org/abs/2311.12351

आगे पढ़ें

https://x.com/omarsar0/status/1727358484360945750


PaSS: समानांतर speculative sampling / PaSS: Parallel Speculative Sampling

पेपर परिचय

  • speculative sampling और parallel decoding के एक variant पर आधारित LLM inference time को कम करने का एक तरीका, जो केवल $O(d_{emb})$ अतिरिक्त parameters सीखकर महत्वपूर्ण speed-up (अधिकतम 30%) हासिल करता है।

    speculative sampling और parallel decoding के एक variant पर आधारित llms के inference time को कम करने का तरीका; केवल o(d_emb) अतिरिक्त parameters सीखकर महत्वपूर्ण speed-up (अधिकतम 30%) हासिल करता है.

पेपर सारांश

  • भाषा मॉडलों का आकार जब दसियों अरब parameters तक बढ़ाया जाता है, तो वे कई तरह के tasks में प्रभावशाली प्रदर्शन कर सकते हैं। generation के समय इन मॉडलों का उपयोग auto-regressively किया जाता है, इसलिए हर generated token के लिए एक forward pass की आवश्यकता होती है, और इस वजह से memory से पूरे parameter set को पढ़ना पड़ता है। यह memory access generation के दौरान मुख्य bottleneck बनता है, और मॉडल का आकार बढ़ने पर यह bottleneck और भी गंभीर हो जाता है। इसके अलावा, कई tokens के लिए forward pass को parallel में चलाने पर अक्सर लगभग उतना ही समय लगता है जितना केवल एक token के forward pass में लगता है। ये दो अवलोकन speculative sampling के विकास तक ले जाते हैं, जिसमें एक दूसरा छोटा मॉडल कुछ tokens का draft तैयार करता है, और फिर बड़े मॉडल के एक single forward pass से उन्हें validate या reject किया जाता है। दुर्भाग्य से, इस विधि के लिए ऐसे दो मॉडल चाहिए जो एक ही tokenizer साझा करते हों, इसलिए इसका adoption सीमित हो जाता है। इसके विकल्प के रूप में, हम parallel decoding का उपयोग प्रस्तावित करते हैं, जो बिना किसी computational cost और बिना दूसरे मॉडल की आवश्यकता के एक single model से कई tokens का draft तैयार कर सकता है। इस approach में केवल एक अतिरिक्त input token की आवश्यकता होती है, जो उन शब्दों को चिह्नित करता है जिन्हें एक साथ generate किया जाएगा। यह अधिकतम $30%$ speed-up जैसा आशाजनक प्रदर्शन दिखाता है, जबकि इसके लिए केवल $O(d_{emb})$ जितने अतिरिक्त parameters की जरूरत होती है.

    Scaling the size of language models to tens of billions of parameters has led to impressive performance on a wide range of tasks. At generation, these models are used auto-regressively, requiring a forward pass for each generated token, and thus reading the full set of parameters from memory. This memory access forms the primary bottleneck for generation and it worsens as the model size increases. Moreover, executing a forward pass for multiple tokens in parallel often takes nearly the same time as it does for just one token. These two observations lead to the development of speculative sampling, where a second smaller model is used to draft a few tokens, that are then validated or rejected using a single forward pass of the large model. Unfortunately, this method requires two models that share the same tokenizer and thus limits its adoption. As an alternative, we propose to use parallel decoding as a way to draft multiple tokens from a single model with no computational cost, nor the need for a second model. Our approach only requires an additional input token that marks the words that will be generated simultaneously. We show promising performance (up to $30%$ speed-up) while requiring only as few as $O(d_{emb})$ additional parameters.

पेपर लिंक

https://arxiv.org/abs/2311.13581

और पढ़ें

https://x.com/omarsar0/status/1728066181796418009


Mirasol3B: समय-संरेखित और प्रासंगिक modalities के लिए एक multimodal autoregressive model / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

पेपर परिचय

  • यह audio, video और text में सीखने के लिए एक multimodal model है, जो multimodal modeling को अलग-अलग, केंद्रित autoregressive models में विभाजित करता है; inputs को modality के अनुसार process किया जाता है; यह approach अन्य मॉडलों की तुलना में लंबे videos को संभाल सकता है, और video QA, long video QA, तथा audio-video-text benchmark पर state-of-the-art approaches से बेहतर प्रदर्शन करता है।

    A multimodal model for learning across audio, video, and text which decouples the multimodal modeling into separate, focused autoregressive models; the inputs are processed according to the modalities; this approach can handle longer videos compared to other models and it outperforms state-of-the-art approach on video qa, long video qa, and audio-video-text benchmark.

पेपर सारांश

  • मल्टीमोडल लर्निंग की मुख्य चुनौतियों में से एक यह है कि इसमें अलग-अलग तरह की modalities (जैसे: video, audio, text) को जोड़ना पड़ता है। उदाहरण के लिए, video और audio, text की तुलना में कहीं अधिक तेज़ दर से प्राप्त होते हैं और समय के हिसाब से भी लगभग मेल खाते हैं। ये अक्सर text के साथ synchronized नहीं होते, जो title या description जैसे global context के रूप में आता है। इसके अलावा, video और audio inputs का आकार बहुत बड़ा होता है, और video की लंबाई बढ़ने के साथ यह और बढ़ता जाता है। इसलिए स्वाभाविक रूप से इन modalities के लिए अधिक compute की ज़रूरत होती है और long-range dependencies को model करना अधिक कठिन हो जाता है। यहाँ multimodal modeling को अलग करके, हर modality की विशेषताओं के अनुसार inputs को process करने वाले अलग और केंद्रित autoregressive models में बाँटा गया है। इसके लिए Mirasol3B नाम का एक multimodal model प्रस्तावित किया गया है, जिसमें time-synchronized modalities (audio और video) के लिए एक autoregressive component और context modalities के लिए एक autoregressive component शामिल है, जो समय के हिसाब से ज़रूरी नहीं कि aligned हों, लेकिन फिर भी sequential हों। video-audio inputs की लंबी sequences को संभालने के लिए, video और audio sequences को लगातार snippets में बाँटकर उनकी representations को autoregressively process करने का प्रस्ताव है। इसके लिए एक Combiner mechanism भी प्रस्तावित किया गया है, जो एक timeframe के भीतर audio-video जानकारी को jointly model करता है। Combiner कच्चे spatio-temporal signals से audio और video features निकालना सीखता है, और फिर इन features को fuse करके हर snippet के लिए compact लेकिन expressive representations बनाना सीखता है। यह approach स्थापित multimodal benchmarks पर state-of-the-art प्रदर्शन हासिल करता है और कहीं बड़े models को पीछे छोड़ता है। साथ ही, compact representations सीखकर, audio-video feature representations की sequence length को नियंत्रित करके, और समय के साथ उनकी dependencies को model करके, media inputs की ऊँची computational demand को प्रभावी ढंग से संभालता है。

    One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.

पेपर लिंक

https://arxiv.org/abs/2311.05698

आगे पढ़ें

https://x.com/GoogleAI/status/1724553024088191211


Orca 2: छोटे भाषा मॉडल्स को तर्क करना सिखाना / Orca 2: Teaching Small Language Models How to Reason

पेपर परिचय

  • छोटे language models को reasoning सिखाने के लिए एक approach प्रस्तावित किया गया है। विशेष रूप से, माना जाता है कि यह lm step-by-step processing, recall-then-generate, recall-reason-generate, extract-generate, और direct-answer methods जैसी reasoning techniques का उपयोग करता है। zero-shot settings में उन्नत reasoning क्षमताओं को परखने वाले जटिल कार्यों पर मूल्यांकन में यह समान आकार के models से बेहतर प्रदर्शन करता है और अपने से 5-10x बड़े models के समान या उनसे बेहतर performance levels हासिल करता है।

    Proposes an approach to teach smaller language models to reason; specifically, the lm is thought to use reasoning techniques, such as step-by-step processing, recall-then-generate, recall-reason-generate, extract-generate, and direct-answer methods; outperforms models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings.

पेपर सारांश

  • Orca 1 explanation traces जैसे समृद्ध signals से सीखता है, जिससे वह BigBench Hard और AGIEval जैसे benchmarks पर पारंपरिक instruction-tuned models से बेहतर प्रदर्शन करता है। Orca 2 में, हम यह खोज जारी रखते हैं कि बेहतर training signals छोटे LMs की reasoning abilities को कैसे बढ़ा सकते हैं। छोटे LMs को train करने पर शोध अक्सर अधिक सक्षम models के output की नकल करने के लिए imitation learning पर निर्भर रहा है। लेकिन हमारा तर्क है कि imitation पर अत्यधिक ज़ोर छोटे models की क्षमता को सीमित कर सकता है। हम छोटे LMs को अलग-अलग tasks के लिए अलग solution strategies अपनाना सिखाना चाहते हैं, जो संभव है कि बड़े model द्वारा उपयोग की गई strategy से अलग हों। उदाहरण के लिए, बड़े models किसी जटिल task का direct answer दे सकते हैं, लेकिन छोटे models में यह क्षमता हमेशा नहीं होती। Orca 2 में, हम model को विभिन्न reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer आदि) सिखाते हैं। इससे भी अधिक महत्वपूर्ण यह है कि हम model को हर task के लिए सबसे प्रभावी solution strategy तय करना सीखने में मदद करते हैं। हम 15 विविध benchmarks के एक व्यापक सेट का उपयोग करके Orca 2 का मूल्यांकन करते हैं (जो लगभग 100 tasks और 36,000 से अधिक unique prompts के बराबर है)। Zero-shot settings में advanced reasoning abilities को परखने वाले जटिल tasks पर मूल्यांकन में Orca 2 समान आकार के models से काफ़ी बेहतर प्रदर्शन करता है और 5-10x बड़े models के समान या उनसे बेहतर performance level हासिल करता है। छोटे LMs के development, evaluation और alignment पर शोध को समर्थन देने के लिए Orca 2 weights को aka.ms/orca-lm पर सार्वजनिक रूप से उपलब्ध कराया गया है

    Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LMs' reasoning abilities. Research on training small LMs has often relied on imitation learning to replicate the output of more capable models. We contend that excessive emphasis on imitation may restrict the potential of smaller models. We seek to teach small LMs to employ different solution strategies for different tasks, potentially different from the one used by the larger model. For example, while larger models might provide a direct answer to a complex task, smaller models may not have the same capacity. In Orca 2, we teach the model various reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.). More crucially, we aim to help the model learn to determine the most effective solution strategy for each task. We evaluate Orca 2 using a comprehensive set of 15 diverse benchmarks (corresponding to approximately 100 tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings. make Orca 2 weights publicly available at aka.ms/orca-lm to support research on the development, evaluation, and alignment of smaller LMs

पेपर लिंक

https://arxiv.org/abs/2311.11045

और पढ़ें

https://x.com/omarsar0/status/1726990087399915995


GPQA: स्नातकोत्तर-स्तर का Google-proof Q&A benchmark / GPQA: A Graduate-Level Google-Proof Q&A Benchmark

पेपर परिचय

  • जीवविज्ञान, भौतिकी और रसायन विज्ञान के domain experts द्वारा लिखे गए 448 multiple-choice प्रश्नों से बना एक स्नातकोत्तर-स्तर का Google-proof QA benchmark प्रस्तावित किया गया है। सबसे मज़बूत GPT-4-आधारित baseline 39% accuracy हासिल करता है, और यह benchmark scalable oversight experiments प्रदान करता है, जो मानव क्षमताओं से आगे निकल चुके आधुनिक AI systems से भरोसेमंद और सत्यनिष्ठ जानकारी प्राप्त करने में मदद कर सकता है।

    Proposes a graduate-level google-proof qa benchmark consisting of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry; the strongest gpt-4 based baseline achieves 39% accuracy; this benchmark offers scalable oversight experiments that can help obtain reliable and truthful information from modern ai systems that surpass human capabilities.

पेपर सारांश

  • हम GPQA प्रस्तुत करते हैं, जो biology, physics और chemistry क्षेत्रों के विशेषज्ञों द्वारा तैयार किए गए 448 multiple-choice प्रश्नों का एक अत्यंत कठिन dataset है। हमने सुनिश्चित किया है कि प्रश्न उच्च-गुणवत्ता वाले और बेहद कठिन हों: संबंधित क्षेत्रों में PhD कर चुके या कर रहे विशेषज्ञों ने 65% accuracy हासिल की (और जब उन स्पष्ट गलतियों को हटाया गया जिन्हें विशेषज्ञों ने बाद में स्वयं पहचाना, तो 74%), जबकि अत्यधिक कुशल non-expert validators ने web पर बिना किसी रोक-टोक के औसतन 30 मिनट से अधिक समय बिताने के बावजूद केवल 34% accuracy हासिल की (यानी प्रश्न "Google-proof" हैं)। ये प्रश्न state-of-the-art AI systems के लिए भी कठिन हैं; हमारे सबसे मजबूत GPT-4 आधारित baseline ने 39% accuracy प्राप्त की। यदि हमें भविष्य के AI systems का उपयोग बहुत कठिन सवालों के जवाब देने में करना है, उदाहरण के लिए नए scientific knowledge के विकास के दौरान, तो हमें ऐसे scalable oversight methods विकसित करने होंगे जो इंसानों को उनके outputs की निगरानी करने में सक्षम बनाएं — और यह तब भी कठिन हो सकता है जब supervisor स्वयं कुशल और जानकार हों। कुशल non-experts और frontier AI systems, दोनों के लिए GPQA की कठिनाई, यथार्थवादी scalable oversight experiments को संभव बना सकती है; हमें उम्मीद है कि इससे ऐसे तरीके विकसित करने में मदद मिलेगी जिनसे मानव विशेषज्ञ, मानव क्षमताओं से आगे निकल चुके AI systems से विश्वसनीय रूप से सत्यपूर्ण जानकारी प्राप्त कर सकें。

    हम GPQA प्रस्तुत करते हैं, जो biology, physics और chemistry के domain experts द्वारा लिखे गए 448 multiple-choice प्रश्नों का एक चुनौतीपूर्ण dataset है। हम सुनिश्चित करते हैं कि ये प्रश्न उच्च-गुणवत्ता वाले और अत्यंत कठिन हों: संबंधित domains में PhD कर चुके या कर रहे experts 65% accuracy तक पहुँचते हैं (74% यदि उन स्पष्ट गलतियों को हटाया जाए जिन्हें experts ने बाद में पहचाना), जबकि अत्यधिक कुशल non-expert validators केवल 34% accuracy तक पहुँचते हैं, जबकि उन्होंने unrestricted web access के साथ औसतन 30 मिनट से अधिक समय बिताया (अर्थात प्रश्न "Google-proof" हैं)। ये प्रश्न state-of-the-art AI systems के लिए भी कठिन हैं, जहाँ हमारा सबसे मजबूत GPT-4 based baseline 39% accuracy प्राप्त करता है। यदि हमें भविष्य के AI systems का उपयोग बहुत कठिन प्रश्नों के उत्तर देने में करना है, उदाहरण के लिए नया scientific knowledge विकसित करते समय, तो हमें scalable oversight methods विकसित करने होंगे जो मनुष्यों को उनके outputs की निगरानी करने में सक्षम बनाएं; यह तब भी कठिन हो सकता है जब supervisors स्वयं कुशल और ज्ञानवान हों। GPQA की कठिनाई, कुशल non-experts और frontier AI systems दोनों के लिए, यथार्थवादी scalable oversight experiments को संभव बना सकती है, जिससे हमें ऐसे तरीके विकसित करने में मदद मिलने की उम्मीद है जिनसे मानव experts, मानव क्षमताओं से आगे निकल चुके AI systems से विश्वसनीय रूप से truthful information प्राप्त कर सकें.

शोधपत्र लिंक

https://arxiv.org/abs/2311.12022

और पढ़ें

https://x.com/idavidrein/status/1727033002234909060


भाषा इंटेलिजेंस को प्रज्वलित करना: Chain-of-Thought Reasoning से Language Agents तक की Hitchhiker's Guide / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents

शोधपत्र परिचय

  • CoT(Chain-of-Thought) reasoning, CoT(Chain-of-Thought) तकनीकों को आधार देने वाले foundational mechanisms, और language agent frameworks में उनके application का सारांश।

    CoT reasoning, cot techniques को आधार देने वाले foundational mechanics, और language agent frameworks में उनके application का सारांश।

शोधपत्र सार

  • वृहद भाषा मॉडल (LLM) ने विभिन्न जटिल reasoning कार्यों में अपने शक्तिशाली empirical performance के प्रमाण के साथ language intelligence के क्षेत्र को नाटकीय रूप से आगे बढ़ाया है। साथ ही, सैद्धांतिक प्रमाणों ने उनकी उभरती हुई reasoning क्षमताओं को उजागर किया है, जिससे linguistic context में उनकी उन्नत cognitive abilities का प्रभावशाली प्रदर्शन संभव हुआ है। जटिल reasoning कार्यों को संभालने में उनकी उल्लेखनीय प्रभावशीलता के लिए महत्वपूर्ण रूप से, LLM उत्तर तक पहुँचने की प्रक्रिया में intermediate steps को स्पष्ट रूप से रूपायित करने वाली रोचक chain-of-thought (CoT) reasoning तकनीकों का उपयोग करते हैं। CoT reasoning approach ने न केवल reasoning performance को बढ़ाने में दक्षता दिखाई है, बल्कि interpretability, controllability और flexibility को बेहतर बनाने में भी अपनी क्षमता साबित की है। इन खूबियों को देखते हुए, हाल के research प्रयासों ने CoT reasoning methodology को आगे बढ़ाकर autonomous language agents के विकास को प्रोत्साहित किया है, जो विविध environments में language instructions का कुशलतापूर्वक पालन करते हैं और कार्य निष्पादित करते हैं। यह survey paper महत्वपूर्ण research dimensions पर गहन चर्चा प्रस्तुत करता है, जिसमें शामिल हैं: (i) CoT तकनीकों की foundational mechanics, विशेष रूप से उनकी प्रभावशीलता के संदर्भ और औचित्य को स्पष्ट करने पर ध्यान; (ii) CoT में paradigm shift; और (iii) CoT approaches से सशक्त language agents का तेज़ी से उभार। भविष्य के research directions में generalization, efficiency, customization, scaling और safety की खोज शामिल है। यह paper व्यापक पाठक-वर्ग के लिए है—CoT reasoning और language agents का समग्र ज्ञान चाहने वाले beginners से लेकर foundational mechanics में रुचि रखने वाले और इन विषयों पर cutting-edge चर्चा में भाग लेने वाले अनुभवी researchers तक। संबंधित papers का repository https://github.com/Zoeyyao27/CoT-Igniting-Agent पर उपलब्ध है।

    Large language models (LLMs) have dramatically enhanced the field of language intelligence, as demonstrably evidenced by their formidable empirical performance across a spectrum of complex reasoning tasks. Additionally, theoretical proofs have illuminated their emergent reasoning capabilities, providing a compelling showcase of their advanced cognitive abilities in linguistic contexts. Critical to their remarkable efficacy in handling complex reasoning tasks, LLMs leverage the intriguing chain-of-thought (CoT) reasoning techniques, obliging them to formulate intermediate steps en route to deriving an answer. The CoT reasoning approach has not only exhibited proficiency in amplifying reasoning performance but also in enhancing interpretability, controllability, and flexibility. In light of these merits, recent research endeavors have extended CoT reasoning methodologies to nurture the development of autonomous language agents, which adeptly adhere to language instructions and execute actions within varied environments. This survey paper orchestrates a thorough discourse, penetrating vital research dimensions, encompassing: (i) the foundational mechanics of CoT techniques, with a focus on elucidating the circumstances and justification behind its efficacy; (ii) the paradigm shift in CoT; and (iii) the burgeoning of language agents fortified by CoT approaches. Prospective research avenues envelop explorations into generalization, efficiency, customization, scaling, and safety. This paper caters to a wide audience, including beginners seeking comprehensive knowledge of CoT reasoning and language agents, as well as experienced researchers interested in foundational mechanics and engaging in cutting-edge discussions on these topics. A repository for the related papers is available at https://github.com/Zoeyyao27/CoT-Igniting-Agent.

पेपर लिंक

https://arxiv.org/abs/2311.11797

आगे पढ़ें

https://x.com/omarsar0/status/1726803725220487277


GAIA: सामान्य AI असिस्टेंट्स के लिए एक बेंचमार्क / GAIA: a benchmark for General AI Assistants

पेपर परिचय

  • reasoning, multimodal processing, web browsing और सामान्य tool-use proficiency जैसी बुनियादी क्षमताओं के एक सेट की आवश्यकता वाले real-world प्रश्नों से बने general AI assistants के लिए एक benchmark के अनुसार, मानव प्रतिभागियों ने 92% और plugins से लैस GPT-4 ने 15% स्कोर प्राप्त किया।

    A benchmark for general ai assistants consisting of real-world questions that require a set of fundamental abilities such as reasoning, multimodal handling, web browsing, and generally tool-use proficiency; shows that human respondents obtain 92% vs. 15% for gpt-4 equipped with plugins.

पेपर सारांश

  • अगर हल हो जाए, तो AI शोध में एक मील का पत्थर साबित होने वाले General AI Assistants के benchmark GAIA का परिचय दिया गया है। GAIA ऐसे real-world सवाल पेश करता है जिनके लिए reasoning, multi-modality handling, web browsing, और सामान्य रूप से tool-use proficiency जैसी बुनियादी क्षमताओं का एक सेट चाहिए। GAIA के सवाल अवधारणात्मक रूप से इंसानों के लिए सरल हैं, लेकिन अधिकांश उन्नत AI के लिए कठिन हैं। मानव उत्तरदाताओं ने 92% और plugins से लैस GPT-4 ने 15% accuracy हासिल की। प्रदर्शन का यह उल्लेखनीय अंतर हालिया रुझान के विपरीत है, जिसमें LLMs कानून या chemistry जैसे पेशेवर कौशल वाले कार्यों में इंसानों से बेहतर प्रदर्शन कर रहे हैं। GAIA का दर्शन मौजूदा AI benchmark रुझान से अलग है, जो ऐसे कार्यों को लक्ष्य बनाने की बात करता है जो इंसानों के लिए लगातार अधिक कठिन होते जाएँ। लेखकों का मानना है कि Artificial General Intelligence (AGI) का आगमन इस बात पर निर्भर करता है कि कोई system ऐसे सवालों पर औसत इंसान जैसी robustness दिखा सके। GAIA की methodology का उपयोग करके 466 सवाल और उनके जवाब तैयार किए गए। सवाल सार्वजनिक किए गए हैं, जबकि उनमें से 300 सवालों के जवाब https://huggingface.co/gaia-benchmark पर उपलब्ध leaderboard के लिए सुरक्षित रखे गए हैं.

    We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92% vs. 15% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

पेपर लिंक

https://arxiv.org/abs/2311.12983

आगे पढ़ें

https://x.com/ThomasScialom/status/1727683993045201339


MedAgents: zero-shot medical reasoning के लिए collaborators के रूप में Large Language Models / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

पेपर परिचय

  • role-playing LLM-आधारित agents का उपयोग करने वाला medical domain के लिए एक collaborative multi-round framework प्रस्तावित किया गया है, जो LLM proficiency और reasoning capabilities को बेहतर बनाता है।

    Proposes a collaborative multi-round framework for the medical domain that leverages role-playing llm-based agents to enhance llm proficiency and reasoning capabilities.

पेपर सारांश

  • Large Language Models (LLMs) ने विभिन्न सामान्य domains में उल्लेखनीय प्रगति की है, लेकिन medicine और healthcare में उन्हें महत्वपूर्ण बाधाओं का सामना करना पड़ता है। इस क्षेत्र में domain-specific terminology और specialized knowledge पर reasoning जैसी अनूठी चुनौतियाँ हैं। इन जटिल समस्याओं को हल करने के लिए लेखक medical domain के लिए एक नया Multi-disciplinary Collaboration (MC) framework प्रस्तावित करते हैं। यह framework role-playing LLM-आधारित agents का उपयोग करता है, जो collaborative multi-round discussion में भाग लेते हैं, और इस तरह LLM proficiency तथा reasoning capabilities को बेहतर बनाते हैं। यह training-free और interpretable framework पाँच महत्वपूर्ण चरणों को शामिल करता है: domain experts को एकत्र करना, individual analyses प्रस्तावित करना, इन analyses को report में summarize करना, consensus बनने तक चर्चाओं को दोहराना, और अंततः decision लेना। यह काम विशेष रूप से zero-shot scenario पर केंद्रित है, और नौ data sets (MedQA, MedMCQA, PubMedQA, और MMLU के छह subtasks) पर मिले नतीजे दिखाते हैं कि प्रस्तावित MC framework, LLMs में medical expertise को mine और harness करने के साथ-साथ उनकी reasoning abilities को बढ़ाने में उत्कृष्ट है। इन परिणामों के आधार पर, लेखकों ने method के भीतर सामान्य errors की पहचान और वर्गीकरण के लिए human evaluation भी किया, साथ ही overall performance पर विभिन्न factors के प्रभाव को समझने के लिए ablation studies भी कीं। कोड \url{https://github.com/gersteinlab/MedAgents} पर उपलब्ध है।

    Large Language Models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and the reasoning over specialized knowledge. To address these obstinate issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages role-playing LLM-based agents who participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free and interpretable framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work particularly focuses on the zero-shot scenario, our results on nine data sets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise in LLMs, as well as extending its reasoning abilities. Based on these outcomes, we further conduct a human evaluation to pinpoint and categorize common errors within our method, as well as ablation studies aimed at understanding the impact of various factors on overall performance. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.

पेपर लिंक

https://arxiv.org/abs/2311.10537

और पढ़ें

https://x.com/omarsar0/status/1726627951582511135


बदलती जलवायु में Camels: Tulu 2 के साथ LM adaptation को बेहतर बनाना / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

पेपर परिचय

  • pretrained language models को downstream tasks और user preferences के अनुरूप ढालने की समझ और best practices को आगे बढ़ाने के लिए बेहतर Tülu models का एक suite प्रस्तुत किया गया है; Tülu 2 suite open models में state-of-the-art performance हासिल करता है और कई benchmarks पर GPT-3.5-Turbo-0301 के प्रदर्शन की बराबरी करता है या उसे पार कर जाता है।

    Presents a suite of improved tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences; tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of gpt-3.5-turbo-0301 on several benchmarks.

पेपर सारांश

  • Tülu के रिलीज़ होने के बाद [Wang et al., 2023b], instruction tuning के लिए open resources तेज़ी से विकसित हुए हैं, जिनमें बेहतर base models से लेकर नई finetuning techniques तक शामिल हैं। हमने इन कई प्रगतियों का परीक्षण किया और उन्हें Tülu में शामिल किया, जिसके परिणामस्वरूप Tülu 2 बना — बेहतर Tülu models का एक suite, जिसका उद्देश्य pretrained language models को downstream tasks और user preferences के अनुरूप ढालने की समझ और best practices को आगे बढ़ाना है। विशेष रूप से, हम जारी कर रहे हैं: (1) Tülu-V2-mix, high-quality instruction datasets का एक बेहतर collection; (2) Tülu 2, V2 mixture पर finetune किए गए LLAMA-2 models; (3) Tülu 2+DPO, direct preference optimization (DPO) से train किए गए Tülu 2 models, जिनमें अब तक का सबसे बड़ा DPO-trained model (Tülu 2+DPO 70B) शामिल है; (4) CODE Tülu 2, हमारे V2 mix पर finetune किए गए CODE LLAMA models, जो CODE LLAMA और उसके instruction-tuned variant CODE LLAMA-Instruct से बेहतर प्रदर्शन करते हैं। कई दृष्टिकोणों से किए गए हमारे evaluation से पता चलता है कि Tülu 2 suite open models में state-of-the-art performance हासिल करता है और कई benchmarks पर GPT-3.5-turbo-0301 के प्रदर्शन की बराबरी करता है या उसे पार कर जाता है। बड़े language models के adaptation पर भविष्य के open efforts को आसान बनाने के लिए हम सभी checkpoints, data, training और evaluation code जारी कर रहे हैं।

    Since the release of Tülu [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into Tülu , resulting in Tülu 2, a suite of improved Tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) Tülu-V2-mix, an improved collection of high-quality instruction datasets; (2) Tülu 2, LLAMA-2 models finetuned on the V2 mixture; (3) Tülu 2+DPO, Tülu 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (Tülu 2+DPO 70B); (4) CODE Tülu 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the Tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.

पेपर लिंक

https://arxiv.org/abs/2311.10702

और पढ़ें

https://x.com/natolambert/status/1727350301131518454


मूल लेख

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-a05

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.