[2023/09/25 ~ 10/01] इस सप्ताह के प्रमुख ML शोधपत्र (Top ML Papers of the Week)
(discuss.pytorch.kr)अवलोकन
- DAIR.AI पर हर हफ्ते प्रकाशित होने वाले ML शोधपत्रों पर आधारित इस लेख का स्वचालित अनुवाद किया गया है।
- इस सप्ताह के शोधपत्र ज़्यादातर LLM (Large Language Models) पर केंद्रित दिखते हैं। इनमें खास तौर पर विभिन्न परिवेशों में LLM process efficiency algorithms में सुधार, LLM का Graph Neural Prompting, और logical reasoning process के अनुप्रयोग जैसे विविध विषय शामिल हैं।
- इस सप्ताह चुने गए शोधपत्रों में 'Boolformer' और 'Vision Transformers Need Registers' जैसे पेपर यह भी दिखाते हैं कि शोध अन्य AI क्षेत्रों के साथ एकीकरण की दिशा में आगे बढ़ रहा है।
- इससे पता चलता है कि AI तकनीक का विकास केवल अलग-अलग क्षेत्रों को स्वतंत्र रूप से आगे बढ़ाने तक सीमित नहीं है, बल्कि कई क्षेत्रों को मिलाकर नए approaches और solutions तलाशना भी उसका एक महत्वपूर्ण हिस्सा है।
उलटाव का अभिशाप / The Reversal Curse
शोधपत्र परिचय
- 'a, b है' जैसे रूप वाले वाक्यों पर प्रशिक्षित artificial neural networks विपरीत दिशा, यानी 'b, a है', पर अपने-आप generalize नहीं करते। इस तथ्य को, अर्थात reversal curse को, यह शोधपत्र पहचानता है; साथ ही काल्पनिक वाक्यों पर artificial neural networks को fine-tune करके और model size व model families में इसके प्रभाव को दिखाता है। #llm-reasoning
> Finds that llms trained on sentences of the form “a is b” will not automatically generalize to the reverse direction “b is a”, i.e., the reversal curse; shows the effect through finetuning llms on fictitious statements and demonstrating its robustness across model sizes and model families.
शोधपत्र लिंक
https://owainevans.github.io/reversal_curse.pdf
आगे पढ़ें
https://x.com/OwainEvans_UK/status/1705285631520407821
फाउंडेशन मॉडल्स में प्रभावी long-context scaling / Effective Long-Context Scaling of Foundation Models
शोधपत्र परिचय
- यह
70bvariant प्रस्तावित करता है, जो लंबे context tasks के एक suite पर पहले से हीgpt-3.5-turbo-16kके overall performance को पार कर सकता है। इसमें एक cost-effective instruction tuning procedure शामिल है, जिसके लिए human-annotated long instruction data की आवश्यकता नहीं होती। #1b-context-window #100k-context-window
> Propose a 70b variant that can already surpass gpt-3.5-turbo-16k’s overall performance on a suite of long-context tasks. this involves a cost-effective instruction tuning procedure that does not require human-annotated long instruction data.
शोधपत्र सार
- हम long-context LLMs की एक श्रृंखला प्रस्तुत करते हैं, जो अधिकतम 32,768 tokens तक की प्रभावी context window को support करती है। हमारी model series, Llama 2 से continual pretraining के माध्यम से बनाई गई है, जिसमें लंबी training sequences और ऐसा dataset उपयोग किया गया है जहाँ लंबे texts को upsampled किया गया है। हम language modeling, synthetic context probing tasks, और विभिन्न research benchmarks पर व्यापक evaluation करते हैं। research benchmarks में, हमारे models अधिकांश regular tasks पर लगातार सुधार दिखाते हैं और long-context tasks पर Llama 2 की तुलना में उल्लेखनीय सुधार प्राप्त करते हैं। विशेष रूप से, एक cost-effective instruction tuning procedure के साथ, जिसमें human-annotated long instruction data की आवश्यकता नहीं होती, 70B variant लंबे context tasks के एक suite पर पहले से ही gpt-3.5-turbo-16k के overall performance को पार कर सकता है। इन परिणामों के साथ, हम अपनी विधि के अलग-अलग components का गहन analysis भी प्रस्तुत करते हैं। हम Llama के position encodings का विस्तार से अध्ययन करते हैं और लंबी dependencies को model करने में इसकी limitations पर चर्चा करते हैं। साथ ही, हम pretraining process में विभिन्न design choices के प्रभाव की भी जाँच करते हैं, जिनमें data mix और sequence lengths का training curriculum शामिल है। हमारे ablation experiments संकेत देते हैं कि pretrain dataset में लंबे texts की अधिकता मजबूत performance हासिल करने की कुंजी नहीं है, और हम अनुभवजन्य रूप से सत्यापित करते हैं कि long-context continual pretraining, लंबे sequences के साथ scratch से pretraining करने की तुलना में अधिक efficient है और लगभग समान रूप से प्रभावी भी है।
> We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama's position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths -- our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences.
शोधपत्र लिंक
https://arxiv.org/abs/2309.16039
आगे पढ़ें
https://x.com/omarsar0/status/1707780482178400261
बड़े language models के साथ graph neural prompting / Graph Neural Prompting with Large Language Models
शोधपत्र परिचय
- यह एक plug-and-play तरीका प्रस्तावित करता है, जो pre-trained machine learning को knowledge graphs (KGs) से उपयोगी ज्ञान सीखने में सहायता देता है; इसमें standard graph neural network encoder, cross-modality pooling module, domain projector, और self-supervised link prediction objective जैसी विभिन्न designs शामिल हैं। #knowledge-graph
> Proposes a plug-and-play method to assist pre-trained llms in learning beneficial knowledge from knowledge graphs (kgs); includes various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective.
शोधपत्र सार
- बड़े भाषा मॉडल (LLM) ने विभिन्न language modeling कार्यों में बेहतरीन प्रदर्शन के साथ उल्लेखनीय generalization क्षमता दिखाई है। हालांकि, grounded knowledge को सटीक रूप से पकड़ने और वापस देने में इनमें अब भी अंतर्निहित सीमाएँ हैं। मौजूदा शोधों ने joint training और customized model architectures के जरिए language modeling को बेहतर बनाने के लिए knowledge graph का उपयोग करने के तरीकों की पड़ताल की है, लेकिन LLMs पर इसे लागू करना उनके बहुत अधिक parameters और ऊँची computational cost के कारण कठिन है। इसके अलावा, pre-trained LLMs का लाभ उठाते हुए customized model को शुरू से train करने से कैसे बचा जाए, यह भी अब तक एक खुला प्रश्न है। इस शोध में Graph Neural Prompting (GNP) नामक एक नया plug-and-play तरीका प्रस्तावित किया गया है, जो pre-trained LLMs को KG से उपयोगी knowledge सीखने में मदद करता है। GNP में standard graph neural network encoder, cross-modality pooling module, domain projector, और self-supervised link prediction objective जैसी कई डिज़ाइन शामिल हैं। कई datasets पर किए गए व्यापक experiments से यह दिखाया गया है कि अलग-अलग LLM sizes और settings में commonsense तथा biomedical reasoning tasks, दोनों पर GNP बेहतर प्रदर्शन करता है।
> Large Language Models (LLMs) have shown remarkable generalization capability with exceptional performance in various language modeling tasks. However, they still exhibit inherent limitations in precisely capturing and returning grounded knowledge. While existing work has explored utilizing knowledge graphs to enhance language modeling via joint training and customized model architectures, applying this to LLMs is problematic owing to their large number of parameters and high computational cost. In addition, how to leverage the pre-trained LLMs and avoid training a customized model from scratch remains an open question. In this work, we propose Graph Neural Prompting (GNP), a novel plug-and-play method to assist pre-trained LLMs in learning beneficial knowledge from KGs. GNP encompasses various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective. Extensive experiments on multiple datasets demonstrate the superiority of GNP on both commonsense and biomedical reasoning tasks across different LLM sizes and settings.
शोधपत्र लिंक
https://arxiv.org/abs/2309.15427
और पढ़ें
https://x.com/omarsar0/status/1707211751354212382
Vision Transformers को Registers की ज़रूरत है / Vision Transformers Need Registers
शोधपत्र परिचय
- Vision Transformer networks के feature maps में ऐसे artifacts की पहचान की गई है जिन्हें internal computations के लिए पुनर्प्रयोजित किया जाता है, और एक ऐसा समाधान प्रस्तावित किया गया है जिसमें input sequence में अतिरिक्त tokens दिए जाते हैं ताकि वे यह भूमिका निभा सकें। यह समाधान समस्या को ठीक करता है, feature और attention maps को अधिक smooth बनाता है, और dense visual prediction tasks में नए state-of-the-art नतीजे स्थापित करता है। #vision-transformer #transformer
> Identifies artifacts in feature maps of vision transformer networks that are repurposed for internal computations; this work proposes a solution to provide additional tokens to the input sequence to fill that role; the solution fixes the problem, leads to smoother feature and attention maps, and sets new state-of-the-art results on dense visual prediction tasks.
शोधपत्र सार
- Transformers हाल के समय में visual representations सीखने के लिए एक शक्तिशाली tool के रूप में उभरे हैं। इस शोधपत्र में supervised और self-supervised ViT networks, दोनों के feature maps में artifacts की पहचान की गई है और उनकी प्रकृति का विश्लेषण किया गया है। ये artifacts मुख्यतः image के कम-जानकारी वाले background क्षेत्रों में inference के दौरान दिखाई देने वाले high-norm tokens से जुड़े होते हैं, जिन्हें internal computations के लिए पुनर्प्रयोजित किया जाता है। हम Vision Transformer की input sequence में अतिरिक्त tokens प्रदान करने पर आधारित एक सरल लेकिन प्रभावी समाधान प्रस्तावित करते हैं, जो यह भूमिका निभाते हैं। हम दिखाते हैं कि यह समाधान supervised और self-supervised models, दोनों में इस समस्या को पूरी तरह ठीक कर देता है, dense visual prediction tasks पर self-supervised visual models के लिए नया state of the art स्थापित करता है, बड़े models के साथ object discovery methods को सक्षम बनाता है, और सबसे महत्वपूर्ण बात यह है कि downstream visual processing के लिए अधिक smooth feature maps और attention maps प्रदान करता है।
> Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.
शोधपत्र लिंक
https://arxiv.org/abs/2309.16588
और पढ़ें
https://x.com/TimDarcet/status/1707769575981424866
Boolformer: Transformers के साथ logic functions का symbolic regression / Boolformer: Symbolic Regression of Logic Functions with Transformers
शोधपत्र परिचय
- यह boolean functions का end-to-end symbolic regression करने के लिए train की गई पहली transformer architecture प्रस्तुत करता है; यह जटिल functions के लिए compact formulas का अनुमान लगा सकता है और gene regulatory networks की dynamics modeling में लागू किया जा सकता है। #transformer
> Presents the first transformer architecture trained to perform end-to-end symbolic regression of boolean functions; it can predict compact formulas for complex functions and be applied to modeling the dynamics of gene regulatory networks.
शोधपत्र सार
- इस शोध में Boolformer पेश किया गया है, जो Boolean functions की end-to-end symbolic regression करने के लिए प्रशिक्षित पहली Transformer architecture है। सबसे पहले, यह दिखाया गया है कि जब एक साफ़ truth table दी जाती है, तो यह training के दौरान न देखे गए जटिल functions के लिए संक्षिप्त formulas की भविष्यवाणी कर सकता है। इसके बाद, यह दिखाया गया है कि अधूरे और noisy observations दिए जाने पर भी यह approximate expressions खोज सकता है। वास्तविक दुनिया के binary classification datasets के एक व्यापक सेट पर Boolformer का मूल्यांकन किया गया, जिससे यह साबित होता है कि यह पारंपरिक machine learning methods का एक interpretable alternative बन सकता है। अंत में, इसे gene regulatory networks की dynamics को model करने के व्यापक कार्य पर लागू किया गया। हालिया benchmark के आधार पर दिखाया गया है कि Boolformer कई orders of magnitude की speedup के साथ state-of-the-art genetic algorithms से प्रतिस्पर्धा कर सकता है। code और models सार्वजनिक रूप से उपलब्ध हैं।
> In this work, we introduce Boolformer, the first Transformer architecture trained to perform end-to-end symbolic regression of Boolean functions. First, we show that it can predict compact formulas for complex functions which were not seen during training, when provided a clean truth table. Then, we demonstrate its ability to find approximate expressions when provided incomplete and noisy observations. We evaluate the Boolformer on a broad set of real-world binary classification datasets, demonstrating its potential as an interpretable alternative to classic machine learning methods. Finally, we apply it to the widespread task of modelling the dynamics of gene regulatory networks. Using a recent benchmark, we show that Boolformer is competitive with state-of-the art genetic algorithms with a speedup of several orders of magnitude. Our code and models are available publicly.
पेपर लिंक
https://arxiv.org/abs/2309.12207
आगे पढ़ें
https://x.com/stephanedascoli/status/1706235856778834015
बड़े multimodal models को factually augmented RLHF के साथ align करना / Aligning Large Multimodal Models with Factually Augmented RLHF
पेपर परिचय
- बड़े multimodal models को align करने के लिए factually augmented RLHF लागू किया गया है। यह approach RLHF में reward hacking को कम करता है और LLaVA-Bench dataset पर text-only GPT-4 के 94% performance level तक प्रदर्शन को बेहतर बनाता है। #llm-alignment #multimodal #rlhf
> Adapts factually augmented rlhf to aligning large multimodal models; this approach alleviates the reward hacking in rlhf and improves performance on the llava-bench dataset with the 94% performance level of the text-only gpt-4.
पेपर सारांश
- बड़े multimodal models (LMM) कई modalities में बनाए जाते हैं, और दो modalities के बीच misalignment होने पर "hallucination" हो सकता है, जिसमें ऐसा text output बनता है जो संदर्भ में मौजूद multimodal information पर आधारित नहीं होता। multimodal misalignment की समस्या को हल करने के लिए, text domain के Reinforcement Learning from Human Feedback (RLHF) को vision-language alignment के कार्य में अनुकूलित किया गया है, जहाँ human annotators से दो responses की तुलना करने और अधिक hallucinated response की पहचान करने को कहा जाता है, और vision-language model को simulated human rewards को maximize करने के लिए train किया जाता है। हम Factually Augmented RLHF नाम का एक नया alignment algorithm प्रस्तावित करते हैं, जो reward model को image captions और ground-truth multi-choice options जैसी अतिरिक्त factual information से augment करता है। इससे RLHF में reward hacking की समस्या कम होती है और performance भी और बेहतर होती है। हमने मॉडल की overall capabilities सुधारने के लिए GPT-4 द्वारा generate किए गए training data (vision instruction tuning के लिए) को पहले से उपलब्ध human-written image-text pairs के साथ भी बेहतर बनाया है। वास्तविक परिस्थितियों में प्रस्तावित approach का मूल्यांकन करने के लिए, hallucinations को penalize करने पर विशेष फोकस के साथ MMHAL-BENCH नाम का एक नया evaluation benchmark विकसित किया गया है। RLHF के साथ train किया गया पहला LMM होने के नाते, हमारी approach ने LLaVA-Bench dataset पर text-only GPT-4 के 94% performance level तक उल्लेखनीय सुधार हासिल किया है (जबकि पहले की सर्वश्रेष्ठ methods केवल 87% level तक पहुँच पाती थीं), और MMHAL-BENCH पर अन्य baselines की तुलना में 60% बेहतर प्रदर्शन दिखाया है। code, model और data https://llava-rlhf.github.io पर open source हैं।
> Large Multimodal Models (LMM) are built across modalities and the misalignment between two modalities can result in "hallucination", generating textual outputs that are not grounded by the multimodal information in context. To address the multimodal misalignment issue, we adapt the Reinforcement Learning from Human Feedback (RLHF) from the text domain to the task of vision-language alignment, where human annotators are asked to compare two responses and pinpoint the more hallucinated one, and the vision-language model is trained to maximize the simulated human rewards. We propose a new alignment algorithm called Factually Augmented RLHF that augments the reward model with additional factual information such as image captions and ground-truth multi-choice options, which alleviates the reward hacking phenomenon in RLHF and further improves the performance. We also enhance the GPT-4-generated training data (for vision instruction tuning) with previously available human-written image-text pairs to improve the general capabilities of our model. To evaluate the proposed approach in real-world scenarios, we develop a new evaluation benchmark MMHAL-BENCH with a special focus on penalizing hallucinations. As the first LMM trained with RLHF, our approach achieves remarkable improvement on the LLaVA-Bench dataset with the 94% performance level of the text-only GPT-4 (while previous best methods can only achieve the 87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We opensource our code, model, data at https://llava-rlhf.github.io.
पेपर लिंक
https://arxiv.org/abs/2309.14525
आगे पढ़ें
https://x.com/arankomatsuzaki/status/1706839311306621182
बड़े भाषा मॉडलों का alignment: एक सर्वेक्षण / Large Language Model Alignment: A Survey
शोधपत्र परिचय
- यह LLM alignment पर एक व्यापक survey paper है, जिसमें outer alignment, inner alignment, mechanistic interpretability, aligned LLMs पर हमले, alignment evaluation, भविष्य की दिशाएँ और चर्चा जैसे विषय शामिल हैं। #survey-paper #llm-alignment
> A comprehensive survey paper on llm alignment; topics include outer alignment, inner alignment, mechanistic interpretability, attacks on aligned llms, alignment evaluation, future directions, and discussions.
शोधपत्र सार
- हाल के वर्षों में बड़े भाषा मॉडल (LLM) ने उल्लेखनीय प्रगति की है। इन प्रगतियों ने जहाँ बहुत ध्यान आकर्षित किया है, वहीं कई तरह की चिंताएँ भी पैदा की हैं। इन मॉडलों की क्षमता निस्संदेह बहुत विशाल है; हालांकि, ये ऐसे टेक्स्ट भी उत्पन्न कर सकते हैं जो गलत, भ्रामक, या यहाँ तक कि हानिकारक हों। इसलिए, यह सुनिश्चित करने के लिए कि ये मॉडल मानव मूल्यों के अनुरूप व्यवहार करें, alignment techniques का उपयोग करना अत्यंत महत्वपूर्ण हो जाता है। यह survey इस क्षेत्र में मौजूद capability research के साथ-साथ LLMs के लिए डिज़ाइन की गई alignment methodologies का व्यापक अन्वेषण प्रस्तुत करने का प्रयास करता है। AI alignment के दृष्टिकोण को अपनाते हुए, हम LLM alignment के प्रचलित तरीकों और उभरते प्रस्तावों को outer alignment और inner alignment में वर्गीकृत करते हैं। हम मॉडल की interpretability और adversarial attacks के प्रति संभावित vulnerabilities जैसे महत्वपूर्ण मुद्दों की भी जाँच करते हैं। LLM alignment का आकलन करने के लिए, हम अनेक benchmarks और evaluation methodologies प्रस्तुत करते हैं। LLMs के लिए alignment research की वर्तमान स्थिति पर चर्चा करने के बाद, अंत में हम भविष्य की एक दृष्टि प्रस्तुत करते हैं और आगे मौजूद संभावनाशील research avenues पर विचार करते हैं। इस survey के लिए हमारी आकांक्षा केवल इस क्षेत्र में research interest को बढ़ावा देने तक सीमित नहीं है। हम सक्षम और सुरक्षित LLMs के लिए AI alignment research community और LLM capability exploration में संलग्न शोधकर्ताओं के बीच की खाई को पाटने की भी कल्पना करते हैं।
> Recent years have witnessed remarkable progress made in large language models (LLMs). Such advancements, while garnering significant attention, have concurrently elicited various concerns. The potential of these models is undeniably vast; however, they may yield texts that are imprecise, misleading, or even detrimental. Consequently, it becomes paramount to employ alignment techniques to ensure these models to exhibit behaviors consistent with human values. This survey endeavors to furnish an extensive exploration of alignment methodologies designed for LLMs, in conjunction with the extant capability research in this domain. Adopting the lens of AI alignment, we categorize the prevailing methods and emergent proposals for the alignment of LLMs into outer and inner alignment. We also probe into salient issues including the models' interpretability, and potential vulnerabilities to adversarial attacks. To assess LLM alignment, we present a wide variety of benchmarks and evaluation methodologies. After discussing the state of alignment research for LLMs, we finally cast a vision toward the future, contemplating the promising avenues of research that lie ahead. Our aspiration for this survey extends beyond merely spurring research interests in this realm. We also envision bridging the gap between the AI alignment research community and the researchers engrossed in the capability exploration of LLMs for both capable and safe LLMs.
शोधपत्र लिंक
https://arxiv.org/abs/2309.15025
और पढ़ें
https://x.com/omarsar0/status/1706845285064818905
Qwen तकनीकी रिपोर्ट / Qwen Technical Report
शोधपत्र परिचय
- यह language agents बनाने के लिए tool use और planning capabilities से जुड़े कार्यों में RLHF की ताकत दिखाने वाली LLMs की एक श्रृंखला प्रस्तावित करता है। #qwen-vl #rlhf
> Proposes a series of llms demonstrating the strength of rlhf on tasks involving tool use and planning capabilities for creating language agents.
शोधपत्र सार
- बड़े भाषा मॉडल (LLM) ने artificial intelligence के क्षेत्र में क्रांति ला दी है, जिससे natural language processing के वे कार्य संभव हुए हैं जिन्हें पहले केवल इंसानों के लिए संभव माना जाता था। इस लेख में हम अपने बड़े भाषा मॉडल सीरीज़ के पहले प्रोडक्ट Qwen का परिचय देते हैं। Qwen एक व्यापक language model series है, जिसमें अलग-अलग parameter count वाले कई मॉडल शामिल हैं। इसमें Qwen, जो base pretrained language model है, और Qwen-Chat, जो human alignment techniques के साथ fine-tune किया गया chat model है, शामिल हैं। base language model विभिन्न downstream tasks में लगातार उत्कृष्ट प्रदर्शन दिखाते हैं, और chat model, खासकर वे जो Reinforcement Learning from Human Feedback (RLHF) का उपयोग करके train किए गए हैं, बेहद प्रतिस्पर्धी हैं। chat model agent applications बनाने के लिए advanced tool-use और planning capabilities रखते हैं, और code interpreter जैसे जटिल कार्यों में बड़े models की तुलना में भी प्रभावशाली प्रदर्शन दिखाते हैं। इसके अलावा, base language model पर बने coding-specialized models Code-Qwen और Code-Qwen-Chat, तथा mathematics-focused model Math-Qwen-Chat भी विकसित किए गए हैं। ये मॉडल open-source models की तुलना में उल्लेखनीय रूप से बेहतर प्रदर्शन दिखाते हैं, हालांकि proprietary models से थोड़ा पीछे रहते हैं।
> Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
पेपर लिंक
https://arxiv.org/abs/2309.16609
आगे पढ़ें
https://x.com/omarsar0/status/1707776749042364729
MentalLLaMA: बड़े भाषा मॉडलों का उपयोग करके सोशल मीडिया पर व्याख्यात्मक मानसिक स्वास्थ्य विश्लेषण / MentalLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models
पेपर परिचय
- instruction-following क्षमता के साथ व्याख्यात्मक मानसिक स्वास्थ्य विश्लेषण के लिए एक open-source llm series, जो 105,000 data samples वाले social media पर multi-task और multi-source interpretable mental health instruction dataset का भी प्रस्ताव करती है। #medical #llm-for-clinical-task #llama
> An open-source llm series for interpretable mental health analysis with instruction-following capability; it also proposes a multi-task and multi-source interpretable mental health instruction dataset on social media with 105k data samples.
पेपर सार
- वेब तकनीक के विकास के साथ, social media टेक्स्ट स्वचालित mental health analysis के लिए एक समृद्ध स्रोत बनते जा रहे हैं। पारंपरिक discriminative methods में interpretability कम होने की समस्या है, इसलिए हाल के वर्षों में social media पर interpretable mental health analysis के लिए ऐसे large language models पर शोध किया गया है, जिनका लक्ष्य prediction के साथ विस्तृत explanation देना है। इसके परिणामस्वरूप यह दिखाया गया कि ChatGPT सही classification के लिए मानव-जैसे explanation उत्पन्न कर सकता है। हालांकि, zero-shot/few-shot तरीके में LLM अब भी संतोषजनक classification performance हासिल नहीं कर पाते। Domain-specific fine-tuning एक प्रभावी समाधान है, लेकिन इसके सामने दो चुनौतियाँ हैं: 1) उच्च-गुणवत्ता वाले training data की कमी। 2) fine-tuning की लागत कम करने के लिए interpretable mental health analysis हेतु कोई open-source LLM जारी नहीं किया गया था। इन समस्याओं को हल करने के लिए Facebook ने social media पर 10.5 लाख data samples से बना पहला multi-task और multi-source interpretable mental health instruction (IMHI) dataset तैयार किया। Raw social media data को 10 मौजूदा स्रोतों से एकत्र किया गया, जो 8 mental health analysis tasks को कवर करते हैं। विशेषज्ञों द्वारा लिखे गए few-shot prompts और एकत्र किए गए labels का उपयोग करके ChatGPT को prompt किया गया और उसके responses से explanations प्राप्त किए गए। explanations की विश्वसनीयता सुनिश्चित करने के लिए, generated data की correctness, consistency और quality पर कठोर automatic और human evaluations किए गए। IMHI dataset और LLaMA2 foundation model के आधार पर, instruction-following क्षमता वाले interpretable mental health analysis के लिए पहली open-source LLM series, MentalLLaMA, को train किया गया। साथ ही, 10 test sets वाले IMHI evaluation benchmark पर prediction की correctness और explanation की quality की जाँच करके MentalLLaMA के प्रदर्शन का मूल्यांकन किया गया। परिणाम बताते हैं कि MentalLLaMA correctness में state-of-the-art discriminative methods के करीब पहुँचता है और उच्च-गुणवत्ता वाले explanations उत्पन्न करता है।
> With the development of web technology, social media texts are becoming a rich source for automatic mental health analysis. As traditional discriminative methods bear the problem of low interpretability, the recent large language models have been explored for interpretable mental health analysis on social media, which aims to provide detailed explanations along with predictions. The results show that ChatGPT can generate approaching-human explanations for its correct classifications. However, LLMs still achieve unsatisfactory classification performance in a zero-shot/few-shot manner. Domain-specific finetuning is an effective solution, but faces 2 challenges: 1) lack of high-quality training data. 2) no open-source LLMs for interpretable mental health analysis were released to lower the finetuning cost. To alleviate these problems, we build the first multi-task and multi-source interpretable mental health instruction (IMHI) dataset on social media, with 105K data samples. The raw social media data are collected from 10 existing sources covering 8 mental health analysis tasks. We use expert-written few-shot prompts and collected labels to prompt ChatGPT and obtain explanations from its responses. To ensure the reliability of the explanations, we perform strict automatic and human evaluations on the correctness, consistency, and quality of generated data. Based on the IMHI dataset and LLaMA2 foundation models, we train MentalLLaMA, the first open-source LLM series for interpretable mental health analysis with instruction-following capability. We also evaluate the performance of MentalLLaMA on the IMHI evaluation benchmark with 10 test sets, where their correctness for making predictions and the quality of explanations are examined. The results show that MentalLLaMA approaches state-of-the-art discriminative methods in correctness and generates high-quality explanations.
शोधपत्र लिंक
https://arxiv.org/abs/2309.13567
और पढ़ें
https://x.com/SAnaniadou/status/1707668936634794442
लॉजिक के माध्यम से large language models में zero-shot chain-of-thought reasoning को बेहतर बनाना / Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic
शोधपत्र परिचय
- LLM के zero-shot chain-of-thought reasoning को बेहतर बनाने के लिए एक नया neurosymbolic framework, जो symbolic logic के सिद्धांतों का उपयोग करके reasoning process को verify और revise करता है, ताकि LLM की reasoning capabilities में सुधार हो सके। #chain-of-thought
> A new neurosymbolic framework to improve zero-shot chain-of-thought reasoning in llms; leverages principles from symbolic logic to verify and revise reasoning processes to improve the reasoning capabilities of llms.
शोधपत्र सारांश
- हाल के बड़े language models में हुई प्रगति ने विभिन्न क्षेत्रों में उनकी उल्लेखनीय generalization क्षमता को दिखाया है। हालांकि, उनकी reasoning क्षमता में अब भी काफी सुधार की गुंजाइश है, खासकर तब जब उन्हें multi-step reasoning वाले परिदृश्यों का सामना करना पड़ता है। बड़े language models के पास व्यापक ज्ञान होता है, लेकिन अक्सर वे इस ज्ञान का प्रभावी उपयोग करके एक सुसंगत thinking paradigm स्थापित करने में विफल रहते हैं, विशेष रूप से reasoning के संदर्भ में। Generative language models कभी-कभी hallucination भी दिखाते हैं, क्योंकि उनकी reasoning प्रक्रियाएँ logical principles की सीमाओं से बंधी नहीं होतीं। बड़े language models की zero-shot chain-of-thought reasoning क्षमता को बेहतर बनाने के लिए, हम Logical Chain-of-Thought (LogiCoT) प्रस्तावित करते हैं, जो एक neurosymbolic framework है और symbolic logic के सिद्धांतों का उपयोग करके reasoning process को verify करता है और उसी के अनुसार उसे revise करता है। arithmetic, commonsense, symbolic, causal inference और social problems सहित विविध क्षेत्रों के language tasks पर किए गए experimental evaluation यह दिखाते हैं कि logic द्वारा सुदृढ़ किया गया reasoning paradigm प्रभावी है।
> हाल के बड़े language models में हुई प्रगति ने विभिन्न क्षेत्रों में उनकी उल्लेखनीय generalizability को प्रदर्शित किया है। हालांकि, उनकी reasoning abilities में अब भी काफी सुधार की आवश्यकता है, विशेष रूप से तब जब वे multi-step reasoning की मांग करने वाले परिदृश्यों का सामना करते हैं। यद्यपि बड़े language models के पास व्यापक ज्ञान होता है, उनका व्यवहार, खासकर reasoning के संदर्भ में, अक्सर इस ज्ञान का प्रभावी उपयोग करके एक सुसंगत thinking paradigm स्थापित नहीं कर पाता। Generative language models कभी-कभी hallucinations दिखाते हैं क्योंकि उनकी reasoning procedures logical principles द्वारा नियंत्रित नहीं होतीं। बड़े language models की zero-shot chain-of-thought reasoning ability को बेहतर बनाने के उद्देश्य से, हम Logical Chain-of-Thought (LogiCoT) प्रस्तावित करते हैं, जो एक neurosymbolic framework है और symbolic logic के सिद्धांतों का उपयोग करके reasoning processes को verify करता है और उसके अनुसार उन्हें revise करता है। arithmetic, commonsense, symbolic, causal inference और social problems सहित विविध domains के language tasks पर किए गए experimental evaluations logic द्वारा उन्नत reasoning paradigm की प्रभावशीलता को प्रदर्शित करते हैं.
पेपर लिंक
https://arxiv.org/abs/2309.13339
आगे पढ़ें
https://x.com/omarsar0/status/1706711389803287019
मूल लेख
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c24
2 टिप्पणियां
वाह..दिल से लिखा गया यह पोस्ट बहुत मज़ेदार लगा।
धन्यवाद ^^;