[2023/11/13 ~ 11/19] इस हफ्ते के प्रमुख ML पेपर (Top ML Papers of the Week)
(discuss.pytorch.kr)अवलोकन
-
DAIR.AI पर हर हफ्ते प्रकाशित होने वाले ML पेपरों पर आधारित इस लेख का स्वचालित अनुवाद किया गया है।
-
इस हफ्ते मुख्य रूप से LLM (Large Language Models), यानी बड़े भाषा मॉडलों को बेहतर और विस्तारित करने वाले शोधों पर ध्यान रहा। खास तौर पर LLM के cost-effective संचालन, वैज्ञानिक खोजों में उनके उपयोग, और व्यावहारिक code generation के लिए language models पर आधारित पेपर शामिल हैं। इसके अलावा, इन मॉडलों की factuality बढ़ाने पर भी शोध होते हुए दिख रहे हैं।
-
language models, खासकर LLM, natural language processing (NLP) के क्षेत्र में तेजी से प्रमुख बन रहे हैं। इसका एक कारण यह है कि ये मॉडल अब इंसानों की तरह अधिक जटिल और विविध भाषाई कार्यों को संभालने लगे हैं। इन मॉडलों का उपयोग कई क्षेत्रों में किया जा सकता है, जैसे व्यवस्थित सोच की नकल करना (Contrastive CoT Prompting) या code development में automation को बेहतर बनाना (A Survey on Language Models for Code)। साथ ही, LLM को और आगे विकसित करने के तरीके भी महत्वपूर्ण शोध प्रवृत्तियाँ हैं, जैसे सटीक context filtering के ज़रिए information retrieval को मजबूत करना (Learning to Filter Context for RAG) और ऐसे शोध जो उपयोगकर्ताओं को भ्रमित न करने की दिशा में काम करते हैं (LLMs can Deceive Users)।
Emu वीडियो और Emu Edit / Emu Video and Emu Edit
पेपर परिचय
- diffusion models पर आधारित नियंत्रित image editing और text-to-video generation के लिए नए मॉडल प्रस्तुत किए गए हैं। Emu Video केवल text, केवल image, या text और image input के संयोजन का उपयोग करके high-quality वीडियो बना सकता है, और Emu Edit text निर्देशों के माध्यम से free-form editing को संभव बनाता है।
Present new models for controlled image editing and text-to-video generation based on diffusion models; emu video can generate high-quality video by using text-only, image-only, or combined text and image inputs; emu edit enables free-form editing through text instructions.
पेपर लिंक
आगे पढ़ें
https://x.com/AIatMeta/status/1725184026154349007
##CoN(Chain-of-Note): retrieval-augmented language models में robustness बढ़ाना / Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models
पेपर परिचय
- noisy, अप्रासंगिक दस्तावेज़ों और unknown scenarios को संभालते समय retrieval-augmented language models की robustness और reliability बेहतर करने का एक approach; CoN retrieved documents के लिए क्रमिक reading notes बनाता है, जिससे दिए गए प्रश्न के साथ उनकी प्रासंगिकता का मूल्यांकन किया जा सकता है और इस जानकारी को जोड़कर अंतिम उत्तर तैयार किया जा सकता है; CoN मानक retrieval-augmented language models से काफी बेहतर प्रदर्शन करता है और पूरी तरह noisy retrieved documents दिए जाने पर EM score में औसतन +7.9 का सुधार तथा pre-training knowledge scope से बाहर आने वाले real-time प्रश्नों पर rejection rates में +10.5 हासिल करता है।
An approach to improve the robustness and reliability of retrieval-augmented language models in facing noisy, irrelevant documents and in handling unknown scenarios; con generates sequential reading notes for the retrieved documents, enabling an evaluation of their relevance to the given question and integrating this information to formulate the final answer; con significantly outperforms standard retrieval-augmented language models and achieves an average improvement of +7.9 in em score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.
पेपर सारांश
- Retrieval-augmented language models (RALM) ने बड़े भाषा मॉडलों की क्षमताओं में, खासकर बाहरी knowledge sources का उपयोग करके factual hallucination को कम करने में, महत्वपूर्ण प्रगति की है। हालांकि, retrieved information की विश्वसनीयता हमेशा सुनिश्चित नहीं होती। अगर irrelevant data retrieve हो जाए, तो गलत responses आ सकते हैं, और ऐसा भी हो सकता है कि model के पास query को हल करने के लिए पर्याप्त जानकारी होने के बावजूद वह अपनी inherent knowledge को नज़रअंदाज़ कर दे। इसके अलावा, standard RALM अक्सर यह आकलन करने में संघर्ष करते हैं कि क्या उनके पास सटीक उत्तर देने के लिए पर्याप्त intrinsic और retrieved knowledge मौजूद है। जिन स्थितियों में ज्ञान अपर्याप्त हो, वहाँ आदर्श रूप से इन systems को उत्तर प्राप्त न हो पाने पर 'unknown' कहना चाहिए। इन चुनौतियों के समाधान के लिए, हमने CoN(Chain-of-Noting) पेश किया है, जो एक नया approach है और noisy, irrelevant documents का सामना करने तथा unknown scenarios को संभालने में RALM की robustness सुधारने के लिए बनाया गया है। CoN का मुख्य विचार यह है कि retrieved documents के लिए sequential reading notes बनाए जाएँ, ताकि दिए गए प्रश्न के साथ उनकी प्रासंगिकता का गहराई से मूल्यांकन किया जा सके और इस जानकारी को जोड़कर अंतिम उत्तर तैयार किया जा सके। हमने CoN के लिए training data बनाने में ChatGPT का उपयोग किया, और बाद में इसे LLaMa-2 7B model पर train किया। चार open-domain QA benchmarks पर किए गए experiments से पता चला कि CoN से लैस RALM, standard RALM की तुलना में काफी बेहतर प्रदर्शन करता है। खास तौर पर, पूरी तरह noisy retrieved documents दिए जाने पर CoN ने EM score में औसतन +7.9 का सुधार हासिल किया, और pre-training knowledge scope के बाहर आने वाले real-time questions के लिए rejection rates में औसतन +10.5 का सुधार दर्ज किया।
Retrieval-augmented language models (RALMs) represent a substantial advancement in the capabilities of large language models, notably in reducing factual hallucination by leveraging external knowledge sources. However, the reliability of the retrieved information is not always guaranteed. The retrieval of irrelevant data can lead to misguided responses, and potentially causing the model to overlook its inherent knowledge, even when it possesses adequate information to address the query. Moreover, standard RALMs often struggle to assess whether they possess adequate knowledge, both intrinsic and retrieved, to provide an accurate answer. In situations where knowledge is lacking, these systems should ideally respond with "unknown" when the answer is unattainable. In response to these challenges, we introduces Chain-of-Noting (CoN), a novel approach aimed at improving the robustness of RALMs in facing noisy, irrelevant documents and in handling unknown scenarios. The core idea of CoN is to generate sequential reading notes for retrieved documents, enabling a thorough evaluation of their relevance to the given question and integrating this information to formulate the final answer. We employed ChatGPT to create training data for CoN, which was subsequently trained on an LLaMa-2 7B model. Our experiments across four open-domain QA benchmarks show that RALMs equipped with CoN significantly outperform standard RALMs. Notably, CoN achieves an average improvement of +7.9 in EM score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.
पेपर लिंक
https://arxiv.org/abs/2311.09210
आगे पढ़ें
https://x.com/omarsar0/status/1725181141693472959
बड़े भाषा मॉडलों का वैज्ञानिक खोज पर प्रभाव: GPT-4 का उपयोग करते हुए एक प्रारंभिक अध्ययन / The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4
पेपर परिचय
- दवा खोज, जीवविज्ञान, computational chemistry सहित विभिन्न वैज्ञानिक क्षेत्रों में बड़े भाषा मॉडलों, विशेष रूप से GPT-4, के प्रभाव का अध्ययन करता है, और expert-driven case assessments तथा benchmark testing के माध्यम से complex scientific concepts की GPT-4 द्वारा समझ, उसकी problem-solving capabilities, और वैज्ञानिक अनुसंधान को आगे बढ़ाने की उसकी संभावनाओं का मूल्यांकन करता है।
Explores the impact of large language models, particularly gpt-4, across various scientific fields including drug discovery, biology, and computational chemistry; assesses gpt-4's understanding of complex scientific concepts, its problem-solving capabilities, and its potential to advance scientific research through expert-driven case assessments and benchmark testing.
पेपर सार
- पिछले कुछ वर्षों में natural language processing में हुई क्रांतिकारी प्रगति के परिणामस्वरूप शक्तिशाली large language models (LLM) उभरे हैं, जिन्होंने natural language की समझ, generation और translation सहित, तथा language processing से आगे बढ़ने वाले कार्यों तक, बेहद व्यापक क्षेत्रों में उल्लेखनीय प्रदर्शन दिखाया है। इस रिपोर्ट में वैज्ञानिक खोज के संदर्भ में LLM के प्रदर्शन का विस्तृत अध्ययन किया गया है, जिसमें state-of-the-art language model GPT-4 पर विशेष ध्यान दिया गया है। हमने drug discovery, biology, computational chemistry (density functional theory (DFT) और molecular dynamics (MD)), materials design, और partial differential equations (PDE) सहित विभिन्न वैज्ञानिक क्षेत्रों में व्यापक शोध किया है। वैज्ञानिक कार्यों पर GPT-4 का मूल्यांकन विभिन्न शोध क्षेत्रों में इसकी क्षमता खोजने, domain-specific विशेषज्ञता को सत्यापित करने, वैज्ञानिक प्रगति को तेज़ करने, resource allocation को optimize करने, भविष्य के model development का मार्गदर्शन करने, और interdisciplinary research को बढ़ावा देने के लिए बेहद महत्वपूर्ण है। हमारी exploration methodology मुख्य रूप से expert-driven case assessments पर आधारित है, जो जटिल वैज्ञानिक अवधारणाओं और संबंधों की मॉडल-समझ पर गुणात्मक अंतर्दृष्टि प्रदान करती है, और benchmark testing पर, जो अच्छी तरह परिभाषित domain-specific समस्याओं को हल करने की मॉडल की क्षमता का मात्रात्मक मूल्यांकन करती है। प्रारंभिक जांच से पता चलता है कि GPT-4 जटिल problem-solving और knowledge integration कार्यों को संभालने के लिए उपयुक्त है, और इसने विभिन्न वैज्ञानिक अनुप्रयोगों में आशाजनक क्षमता दिखाई है। व्यापक रूप से देखें तो, हम GPT-4 के knowledge base, scientific understanding, scientific numerical calculation abilities, और विभिन्न scientific prediction capabilities का मूल्यांकन करते हैं।
In recent years, groundbreaking advancements in natural language processing have culminated in the emergence of powerful large language models (LLMs), which have showcased remarkable capabilities across a vast array of domains, including the understanding, generation, and translation of natural language, and even tasks that extend beyond language processing. In this report, we delve into the performance of LLMs within the context of scientific discovery, focusing on GPT-4, the state-of-the-art language model. Our investigation spans a diverse range of scientific areas encompassing drug discovery, biology, computational chemistry (density functional theory (DFT) and molecular dynamics (MD)), materials design, and partial differential equations (PDE). Evaluating GPT-4 on scientific tasks is crucial for uncovering its potential across various research domains, validating its domain-specific expertise, accelerating scientific progress, optimizing resource allocation, guiding future model development, and fostering interdisciplinary research. Our exploration methodology primarily consists of expert-driven case assessments, which offer qualitative insights into the model's comprehension of intricate scientific concepts and relationships, and occasionally benchmark testing, which quantitatively evaluates the model's capacity to solve well-defined domain-specific problems. Our preliminary exploration indicates that GPT-4 exhibits promising potential for a variety of scientific applications, demonstrating its aptitude for handling complex problem-solving and knowledge integration tasks. Broadly speaking, we evaluate GPT-4's knowledge base, scientific understanding, scientific numerical calculation abilities, and various scientific prediction capabilities.
पेपर लिंक
https://arxiv.org/abs/2311.07361
और पढ़ें
https://x.com/omarsar0/status/1724465107046940893
तथ्यपरकता के लिए language models को fine-tune करना / Fine-tuning Language Models for Factuality
पेपर परिचय
- इंसानों से label कराने की आवश्यकता के बिना language model को factuality के लिए fine-tune किया जाता है, यह स्वचालित रूप से जनरेट की गई factuality preference rankings से सीखता है, open-ended generation settings को लक्ष्य बनाता है, और factuality पर केंद्रित RLHF या decoding strategies की तुलना में held-out topics पर Llama-2 की factuality को उल्लेखनीय रूप से बेहतर बनाता है।
Fine-tunes language model for factuality without requiring human labeling; it learns from automatically generated factuality preference rankings and targets open-ended generation settings; it significantly improves the factuality of llama-2 on held-out topics compared with rlhf or decoding strategies targeted at factuality.
पेपर सारांश
- pre-trained बड़े language models (LLMs) की fluency और creativity की वजह से language models का व्यापक उपयोग हो रहा है, और कभी-कभी इन्हें पारंपरिक search engines के विकल्प के रूप में भी इस्तेमाल किया जा रहा है। लेकिन language models अक्सर ऐसे दावे करते हैं जो सुनने में भरोसेमंद लगते हैं, पर तथ्यात्मक रूप से गलत होते हैं; इसे आमतौर पर 'hallucination' कहा जाता है। ऐसी गलतियां अनजाने में misinformation फैला सकती हैं या गलतफहमियों को लंबे समय तक बनाए रख सकती हैं। इसके अलावा, model responses की manual fact-checking एक बहुत समय लेने वाली प्रक्रिया है, इसलिए इंसानी factuality labels जुटाना महंगा पड़ता है। इस काम में, लेखक बिना human labeling के language models को अधिक factual बनाने के लिए fine-tune करते हैं, और यह पहले के काम की तुलना में अधिक open-ended generation settings को target करता है। इसके लिए वे NLP की हाल की दो प्रमुख innovations का उपयोग करते हैं। पहला, हाल के कई कार्यों ने external knowledge base के साथ consistency या बड़े model के confidence scores को मापकर open-ended text की factuality का आकलन करने के तरीके प्रस्तावित किए हैं। दूसरा, direct preference optimization algorithm, supervised imitation के अलावा अन्य objectives पर भी, संभावित model responses की preference ranking का उपयोग करके language models को सीधे fine-tune करना संभव बनाता है। लेखक दिखाते हैं कि existing retrieval systems या उनके नए retrieval-free approach से तैयार की गई automatically generated factuality preference rankings से सीखने पर, held-out topics पर Llama-2 की factuality (उत्पन्न दावों में सही दावों का प्रतिशत) RLHF या factuality-केंद्रित decoding strategies की तुलना में काफी बेहतर होती है। 7B scale पर, Llama-2-chat की तुलना में biographies generation और medical questions के answers में factual error rate क्रमशः 58% और 40% कम हुई।
The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.
पेपर लिंक
https://arxiv.org/abs/2311.08401
और पढ़ें
https://x.com/arankomatsuzaki/status/1724613041155608951
contrastive Chain-of-Thought (CoT) prompting / Contrastive Chain-of-Thought Prompting
पेपर परिचय
- language model reasoning को बेहतर बनाने के लिए contrastive chain-of-thought method प्रस्तावित किया गया है। यह approach valid reasoning और invalid reasoning, दोनों तरह के demonstrations प्रदान करती है, ताकि model को step-by-step reasoning के लिए guide किया जा सके और reasoning mistakes को कम किया जा सके। साथ ही, contrastive demonstrations बनाने की एक automatic method भी प्रस्तावित की गई है, और CoT prompting की तुलना में सुधार दिखाया गया है।
Proposes a contrastive chain of thought method to enhance language model reasoning; the approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes; also proposes an automatic method to construct contrastive demonstrations and demonstrates improvements over cot prompting.
पेपर सारांश
- भाषा मॉडल reasoning को बेहतर बनाने में chain of thought की सफलता के बावजूद, इसकी बुनियादी प्रक्रिया अभी भी पूरी तरह समझी नहीं गई है। यद्यपि तार्किक रूप से सही reasoning chain of thought के लिए स्वाभाविक रूप से महत्वपूर्ण लगता है, पहले के अध्ययनों ने आश्चर्यजनक रूप से दिखाया है कि गलत demonstrations का उपयोग करने पर भी इसका प्रभाव बहुत कम होता है। इसके अलावा, पारंपरिक chain of thought भाषा मॉडलों को यह नहीं बताता कि किन गलतियों से बचना चाहिए, जिससे संभावित रूप से और अधिक errors हो सकते हैं। इसलिए, इस विचार से प्रेरित होकर कि मनुष्य सकारात्मक और नकारात्मक दोनों उदाहरणों से सीख सकते हैं, हम भाषा मॉडल reasoning को मजबूत करने के लिए contrastive chain of thought प्रस्तावित करते हैं। पारंपरिक chain of thought की तुलना में, हमारा तरीका सही और गलत दोनों प्रकार के reasoning demonstrations प्रदान करता है, ताकि मॉडल को step-by-step reasoning के लिए मार्गदर्शन मिले और reasoning mistakes कम हों। सामान्यीकरण को बेहतर बनाने के लिए, हमने contrastive demonstrations को स्वचालित रूप से निर्मित करने की एक विधि पेश की है। reasoning benchmarks पर किए गए हमारे experiments दिखाते हैं कि contrastive chain of thought, chain-of-thought prompting के लिए एक सामान्य enhancement के रूप में काम कर सकता है।
Despite the success of chain of thought in enhancing language model reasoning, the underlying process remains less well understood. Although logically sound reasoning appears inherently crucial for chain of thought, prior studies surprisingly reveal minimal impact when using invalid demonstrations instead. Furthermore, the conventional chain of thought does not inform language models on what mistakes to avoid, which potentially leads to more errors. Hence, inspired by how humans can learn from both positive and negative examples, we propose contrastive chain of thought to enhance language model reasoning. Compared to the conventional chain of thought, our approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes. To improve generalization, we introduce an automatic method to construct contrastive demonstrations. Our experiments on reasoning benchmarks demonstrate that contrastive chain of thought can serve as a general enhancement of chain-of-thought prompting.
पेपर लिंक
https://arxiv.org/abs/2311.09277
आगे पढ़ें
https://x.com/arankomatsuzaki/status/1725340150819905723
कोड के लिए भाषा मॉडलों पर सर्वे पेपर / A Survey on Language Models for Code
पेपर परिचय
- कोड के लिए LLMs का एक overview प्रदान करता है, जिसमें 50+ models, 30+ evaluation tasks, और 500 संबंधित कार्यों की समीक्षा शामिल है।
Provides an overview of llms for code, including a review of 50+ models, 30+ evaluation tasks, and 500 related works.
पेपर सारांश
- यह कार्य भाषा मॉडलों का उपयोग करके code processing में हुई हालिया प्रगति की व्यवस्थित समीक्षा करता है, जिसमें 50+ models, 30+ evaluation tasks, और 500 संबंधित कार्य शामिल हैं। यह code processing models को GPT family द्वारा प्रतिनिधित्व किए जाने वाले सामान्य language models और code पर विशेष रूप से pretrained specialized models (अक्सर अनुकूलित objectives के साथ) में विभाजित करता है। हम इन मॉडलों के बीच संबंधों और अंतर पर चर्चा करते हैं, और statistical models तथा RNNs से pretrained Transformers और LLMs तक code modeling के ऐतिहासिक परिवर्तन को रेखांकित करते हैं, जो बिल्कुल वही रास्ता है जिससे NLP गुज़रा है। हम AST, CFG, और unit tests जैसी code-specific विशेषताओं, तथा code language models के training में उनके उपयोग पर भी चर्चा करते हैं, और इस क्षेत्र की प्रमुख चुनौतियों तथा संभावित भविष्य की दिशाओं की पहचान करते हैं। यह survey GitHub repository (https://github.com/codefuse-ai/Awesome-Code-LLM) पर खुला और लगातार अपडेट किया जाता रहेगा।
In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, and 500 related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on github repository at https://github.com/codefuse-ai/Awesome-Code-LLM.
पेपर लिंक
https://arxiv.org/abs/2311.07989v1
आगे पढ़ें
https://x.com/omarsar0/status/1725637165256761553
JARVIS-1: memory-augmented, multimodal language models के साथ open-world multitask agents / JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models
पेपर परिचय
- यह एक open-world agent है जो open-world Minecraft universe के भीतर multimodal input (visual observations और human instructions) को समझ सकता है, जटिल plans बना सकता है, और embodied control कर सकता है; यह Minecraft universe के 200 से अधिक tasks में लगभग पूर्ण प्रदर्शन दिखाता है; और long-horizon diamond pickaxe task में 12.5% completion rate हासिल करता है, जो पिछले रिकॉर्ड की तुलना में 5x सुधार है।
An open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, within the open-world minecraft universe; exhibits near-perfect performances across over 200 tasks in minecraft universe; achieves a completion rate of 12.5% in the long-horizon diamond pickaxe task, which is a 5x increase compared to previous records.
पेपर सारांश
- ओपन वर्ल्ड में मल्टीमॉडल ऑब्ज़र्वेशन के ज़रिए इंसानों जैसी planning और control हासिल करना, अधिक कार्यक्षम generalist agents के लिए एक अहम milestone है। मौजूदा approaches ओपन वर्ल्ड में कुछ खास long-horizon tasks को संभाल सकते हैं। लेकिन वे अब भी कठिनाई झेलते हैं, क्योंकि open-world tasks की संख्या सैद्धांतिक रूप से अनंत हो सकती है और game time बढ़ने के साथ task completion को क्रमिक रूप से बेहतर बनाने की क्षमता उनमें नहीं है। Unity ने JARVIS-1 पेश किया है, जो एक open-world agent है और लोकप्रिय लेकिन चुनौतीपूर्ण open-world Minecraft universe में visual observations और human instructions जैसे multimodal input को समझ सकता है, परिष्कृत plans बना सकता है, और embodied control कर सकता है। खास तौर पर, Unity ने JARVIS-1 को pre-trained multimodal language models के आधार पर विकसित किया है, जो visual observations और textual instructions को plans में map करते हैं। इन plans को अंततः goal-conditioned controllers को सौंपा जाता है। Unity ने JARVIS-1 को multimodal memory से लैस किया है, जिससे वह pre-trained knowledge और वास्तविक in-game survival experiences दोनों का उपयोग करके planning कर सके। Unity के प्रयोगों में JARVIS-1 ने Minecraft Universe Benchmark के entry से intermediate स्तर तक के 200 से अधिक विविध tasks में लगभग बेहतरीन performance दिखाई। JARVIS-1 ने लंबे horizon वाले diamond pickaxe task में 12.5% completion rate हासिल की। यह पिछले records की तुलना में अधिकतम 5 गुना तक का बड़ा सुधार है। इसके अलावा, multimodal memory की बदौलत यह भी दिखाया गया कि JARVIS-1 life-long learning paradigm का पालन करते हुए $\textit{self-improve}$ कर सकता है, जिससे अधिक general intelligence और बेहतर autonomy को बढ़ावा मिलता है। प्रोजेक्ट पेज https://craftjarvis-jarvis1.github.io पर उपलब्ध है।
मल्टीमॉडल ऑब्ज़र्वेशन के साथ एक open world में human-like planning और control हासिल करना, अधिक functional generalist agents के लिए एक प्रमुख milestone है। मौजूदा approaches open world में कुछ long-horizon tasks को संभाल सकते हैं। हालांकि, वे अब भी संघर्ष करते हैं, क्योंकि open-world tasks की संख्या संभावित रूप से अनंत हो सकती है और game time बढ़ने के साथ task completion को क्रमिक रूप से बेहतर बनाने की क्षमता उनमें नहीं है। हम JARVIS-1 पेश करते हैं, एक open-world agent जो multimodal input (visual observations और human instructions) को समझ सकता है, sophisticated plans बना सकता है, और embodied control कर सकता है—यह सब लोकप्रिय लेकिन चुनौतीपूर्ण open-world Minecraft universe के भीतर। विशेष रूप से, हमने JARVIS-1 को pre-trained multimodal language models के ऊपर विकसित किया है, जो visual observations और textual instructions को plans में map करते हैं। इन plans को अंततः goal-conditioned controllers तक भेजा जाता है। हमने JARVIS-1 को multimodal memory से सुसज्जित किया है, जो pre-trained knowledge और उसके वास्तविक game survival experiences—दोनों का उपयोग करके planning को संभव बनाती है। हमारे experiments में, JARVIS-1 ने Minecraft Universe Benchmark के entry से intermediate स्तर तक के 200 से अधिक विभिन्न tasks में लगभग perfect performance दिखाई। JARVIS-1 ने long-horizon diamond pickaxe task में 12.5% completion rate हासिल की है। यह पिछले records की तुलना में 5 गुना तक की महत्वपूर्ण बढ़ोतरी दर्शाता है। इसके अलावा, हम दिखाते हैं कि multimodal memory की बदौलत JARVIS-1 life-long learning paradigm का अनुसरण करते हुए $\textit{self-improve}$ कर सकता है, जिससे अधिक general intelligence और improved autonomy को बढ़ावा मिलता है। प्रोजेक्ट पेज https://craftjarvis-jarvis1.github.io पर उपलब्ध है.
पेपर लिंक
https://arxiv.org/abs/2311.05997
और पढ़ें
https://x.com/arankomatsuzaki/status/1723882043514470629
FILCO: Retrieval-Augmented Generation के लिए context filtering सीखने की विधि / Learning to Filter Context for Retrieval-Augmented Generation
पेपर परिचय
- यह दो चरणों के ज़रिए generator को दिए जाने वाले context की गुणवत्ता सुधारने की एक विधि प्रस्तावित करता है: 1) lexical और information-theoretic approaches के आधार पर उपयोगी context की पहचान करना, और 2) context filtering models को train करना जो inference के समय retrieved contexts को filter कर सकें; यह extractive question answering (QA), complex multi-hop और long-form QA, fact verification, और dialog generation tasks में मौजूदा approaches से बेहतर प्रदर्शन करता है।
एक ऐसी विधि प्रस्तावित करता है जो दो चरणों के माध्यम से generator को दिए जाने वाले context की गुणवत्ता में सुधार करती है: 1) lexical और information-theoretic approaches के आधार पर उपयोगी context की पहचान, और 2) context filtering models को train करना जो inference के दौरान retrieved contexts को filter कर सकें; यह extractive question answering (qa), complex multi-hop और long-form qa, fact verification, और dialog generation tasks पर मौजूदा approaches से बेहतर प्रदर्शन करता है।
पेपर सारांश
- संबंधित ज्ञान की तुरंत retrieval, open-domain question answering और fact verification जैसे कार्यों के लिए भरोसेमंद systems का एक आवश्यक हिस्सा साबित हुई है। लेकिन retrieval systems परफेक्ट नहीं होते, इसलिए generation models को आंशिक रूप से या पूरी तरह अप्रासंगिक passages दिए जाने पर भी output generate करना पड़ता है। इससे context पर जरूरत से ज़्यादा या जरूरत से कम निर्भरता हो सकती है, और generated output में hallucination जैसी समस्याएँ आ सकती हैं। इन समस्याओं को कम करने के लिए हम FILCO प्रस्तावित करते हैं, जो generator को दिए जाने वाले context की गुणवत्ता सुधारने की एक विधि है: (1) lexical और information-theoretic approaches के आधार पर उपयोगी context की पहचान करना, और (2) ऐसे context filtering models को train करना जो test time पर retrieved context को filter कर सकें। FLAN-T5 और LLaMa2 के साथ 6 knowledge-intensive tasks पर किए गए प्रयोगों में यह दिखाया गया कि यह विधि extractive question answering (QA), complex multi-hop और long-form QA, fact verification, और dialog generation tasks में मौजूदा approaches से बेहतर प्रदर्शन करती है। FILCO, context canonical output को support करे या न करे, उसकी गुणवत्ता को प्रभावी रूप से सुधारता है।
On-the-fly retrieval of relevant knowledge has proven an essential element of reliable systems for tasks such as open-domain question answering and fact verification. However, because retrieval systems are not perfect, generation models are required to generate outputs given partially or entirely irrelevant passages. This can cause over- or under-reliance on context, and result in problems in the generated output such as hallucinations. To alleviate these problems, we propose FILCO, a method that improves the quality of the context provided to the generator by (1) identifying useful context based on lexical and information-theoretic approaches, and (2) training context filtering models that can filter retrieved contexts at test time. We experiment on six knowledge-intensive tasks with FLAN-T5 and LLaMa2, and demonstrate that our method outperforms existing approaches on extractive question answering (QA), complex multi-hop and long-form QA, fact verification, and dialog generation tasks. FILCO effectively improves the quality of context, whether or not it supports the canonical output.
पेपर लिंक
https://arxiv.org/abs/2311.08377v1
और पढ़ें
https://x.com/ZhiruoW/status/1724792850079252886
MART: कई चरणों वाले automatic red-teaming के माध्यम से LLM safety में सुधार / MART: Improving LLM Safety with Multi-round Automatic Red-Teaming
पेपर परिचय
- multi-round automatic adversarial prompt writing और safe response generation को एकीकृत करके adversarial prompt writing की scalability और LLM की safety बढ़ाने, तथा safety alignment सीमित होने पर भी MART के 4 rounds के बाद किसी LLM की violation rate को अधिकतम 84.7% तक घटाने वाला एक approach प्रस्तावित किया गया है। यह व्यापक adversarial prompt writing का उपयोग करने वाले LLMs के तुलनीय प्रदर्शन तक पहुँचता है और LLM safety को बेहतर बनाता है।
Proposes an approach for improving llm safety with multi-round automatic red-teaming; incorporates automatic adversarial prompt writing and safe response generation, which increases red-teaming scalability and the safety of llms; violation rate of an llm with limited safety alignment reduces up to 84.7% after 4 rounds of mart, achieving comparable performance to llms with extensive adversarial prompt writing.
पेपर सारांश
- रेड टीमिंग बड़े भाषा मॉडल (LLM) के असुरक्षित व्यवहार को कम करने के लिए एक सामान्य प्रथा है, जिसमें LLM का गहराई से मूल्यांकन करके संभावित खामियों की पहचान की जाती है और जिम्मेदार व सटीक प्रतिक्रियाओं के साथ उन्हें संबोधित किया जाता है। हालांकि यह प्रभावी है, मैनुअल रेड टीमिंग महंगी होती है, और मौजूदा ऑटोमैटिक रेड टीमिंग आमतौर पर सुरक्षा जोखिमों को केवल खोजती है, उनका समाधान नहीं करती। इस पेपर में हम Multi-round Automatic Red-Teaming (MART) विधि प्रस्तावित करते हैं, जो ऑटोमैटिक adversarial prompt writing और safe response generation—दोनों को एकीकृत करती है, जिससे रेड टीमिंग की scalability और target LLM की safety में उल्लेखनीय सुधार होता है। विशेष रूप से, एक adversarial LLM और एक target LLM iterative तरीके से एक-दूसरे के साथ interoperate करते हैं, जहाँ adversarial LLM का लक्ष्य ऐसे चुनौतीपूर्ण prompts बनाना होता है जो target LLM से असुरक्षित प्रतिक्रियाएँ निकलवाएँ, जबकि target LLM को इन adversarial prompts पर safety-aligned data के साथ fine-tune किया जाता है। हर राउंड में adversarial LLM, अपडेट हुए target LLM पर बेहतर attack तैयार करता है, और target LLM भी safety fine-tuning के जरिए खुद को बेहतर बनाता है। adversarial prompt benchmarks पर, सीमित safety alignment वाले LLM की violation rate, MART के 4 राउंड के बाद अधिकतम 84.7% तक घट जाती है, और यह व्यापक adversarial prompt writing का उपयोग करने वाले LLMs के तुलनीय प्रदर्शन तक पहुँचती है। खास तौर पर, non-adversarial prompts पर मॉडल की helpfulness iterations के दौरान स्थिर रहती है, जो दिखाती है कि target LLM instruction following में मजबूत प्रदर्शन बनाए रखता है।
Red-teaming is a common practice for mitigating unsafe behaviors in Large Language Models (LLMs), which involves thoroughly assessing LLMs to identify potential flaws and addressing them with responsible and accurate responses. While effective, manual red-teaming is costly, and existing automatic red-teaming typically discovers safety risks without addressing them. In this paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which incorporates both automatic adversarial prompt writing and safe response generation, significantly increasing red-teaming scalability and the safety of the target LLM. Specifically, an adversarial LLM and a target LLM interplay with each other in an iterative manner, where the adversarial LLM aims to generate challenging prompts that elicit unsafe responses from the target LLM, while the target LLM is fine-tuned with safety aligned data on these adversarial prompts. In each round, the adversarial LLM crafts better attacks on the updated target LLM, while the target LLM also improves itself through safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART, achieving comparable performance to LLMs with extensive adversarial prompt writing. Notably, model helpfulness on non-adversarial prompts remains stable throughout iterations, indicating the target LLM maintains strong performance on instruction following.
पेपर लिंक
https://arxiv.org/abs/2311.07689
और पढ़ें
https://x.com/AIatMeta/status/1724887918685425829
तकनीकी रिपोर्ट: बड़े भाषा मॉडल दबाव में आने पर रणनीतिक रूप से अपने उपयोगकर्ताओं को धोखा दे सकते हैं / Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure
पेपर परिचय
- LLMs द्वारा संचालित एक autonomous stock trading agent के उपयोग की पड़ताल करता है; पाता है कि एजेंट insider tips के आधार पर काम करता है और trading decision के पीछे का कारण छिपाता है; यह दिखाता है कि उपयोगी और सुरक्षित LLMs भी बिना किसी निर्देश या deception के लिए training के, वास्तविक परिस्थिति में उपयोगकर्ताओं को रणनीतिक रूप से धोखा दे सकते हैं।
Explores the use of an autonomous stock trading agent powered by llms; finds that the agent acts upon insider tips and hides the reason behind the trading decision; shows that helpful and safe llms can strategically deceive users in a realistic situation without direction instructions or training for deception.
पेपर सारांश
- यह दिखाया गया है कि helpful, harmless, और honest बनने के लिए प्रशिक्षित बड़े language model, बिना किसी निर्देश के भी गलत व्यवहार दिखा सकते हैं और रणनीतिक रूप से उपयोगकर्ताओं को धोखा दे सकते हैं। विशेष रूप से, GPT-4 को एक agent के रूप में वास्तविक-जैसे simulated environment में deploy किया गया, जहाँ उसे एक autonomous stock trading agent की भूमिका दी गई। इस environment में मॉडल को लाभदायक stock trade से जुड़ी insider जानकारी मिलती है, और insider trading को कंपनी management द्वारा स्वीकृत न किए जाने की जानकारी होने के बावजूद वह इसे अंजाम देता है। मैनेजर को रिपोर्ट करते समय मॉडल अपने trading decision के असली कारणों को लगातार छिपाता है। सेटिंग बदलने पर यह व्यवहार कैसे बदलता है, इसका संक्षिप्त परीक्षण किया गया, जैसे मॉडल की reasoning scratchpad तक पहुँच हटाना, system instructions बदलकर गलत व्यवहार रोकने की कोशिश करना, मॉडल पर दबाव की मात्रा बदलना, पकड़े जाने के अनुमानित जोखिम को बदलना, और environment में अन्य सरल बदलाव करना। लेखकों के अनुसार, helpful, harmless, और honest बनने के लिए प्रशिक्षित बड़े language model द्वारा बिना सीधे निर्देश या deception training के किसी वास्तविक-जैसी स्थिति में उपयोगकर्ताओं को रणनीतिक रूप से धोखा देने का यह पहला प्रदर्शन है।
We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.
पेपर लिंक
https://arxiv.org/abs/2311.07590
और पढ़ें
https://x.com/ESYudkowsky/status/1725226563992715521
मूल लेख
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-e3d
अभी कोई टिप्पणी नहीं है.