[2023/09/11 ~ 09/17] इस सप्ताह के प्रमुख ML पेपर (Top ML Papers of the Week)
(discuss.pytorch.kr)अवलोकन
- DAIR.AI में हर सप्ताह प्रकाशित होने वाले ML पेपरों पर लेख का हमने स्वचालित अनुवाद किया है।
- इस सप्ताह चुने गए पेपरों में अधिकांश LLM (Large Language Model) विषय पर केंद्रित हैं। खास बात यह है कि LLM को संभालने के तरीके काफी विविध हैं। ये पेपर भाषा मॉडल के प्रशिक्षण तरीकों, agent-आधारित LLM की विकास संभावनाओं, LLM के refinement और self-learning क्षमता, तथा LLM पर आधारित शोध की एक श्रृंखला जैसे विभिन्न दृष्टिकोणों से LLM का विश्लेषण करते हैं।
- यह रुझान दिखाता है कि artificial intelligence और machine learning के क्षेत्र में भाषा मॉडल के प्रशिक्षण तरीकों को महत्वपूर्ण माना जा रहा है, और उनमें भी LLM विशेष ध्यान आकर्षित कर रहे हैं। साथ ही, LLM को उपयोग में लाने के तरीकों की विविधता यह संकेत देती है कि यह तकनीक कितने व्यापक रूप से लागू की जा सकती है और इसकी क्षमता कितनी बड़ी है।
सिर्फ पाठ्यपुस्तकें ही काफी हैं II: PHI-1.5 तकनीकी रिपोर्ट / Textbooks Are All You Need II: phi-1.5 technical report
पेपर परिचय
- 30 अरब tokens पर प्रशिक्षित 1.3 अरब parameters वाला नया मॉडल, "पाठ्यपुस्तक-स्तर" के synthetic data से बना dataset, और reasoning tasks में अन्य बड़े मॉडलों से टक्कर लेने या उनसे बेहतर प्रदर्शन करने वाला phi-1.5 यह संकेत देता है कि data quality की भूमिका पहले की तुलना में कहीं अधिक महत्वपूर्ण है। #llm #llm-alignment
30 अरब tokens पर प्रशिक्षित 1.3 अरब parameters वाला एक नया मॉडल; dataset "textbook-quality" synthetic data से बना है; phi-1.5 reasoning tasks पर अन्य बड़े मॉडलों से टक्कर लेता है या उनसे बेहतर प्रदर्शन करता है, जिससे संकेत मिलता है कि data quality की भूमिका पहले की सोच से अधिक महत्वपूर्ण है।
पेपर सार
- हम छोटे Transformer-आधारित language models की क्षमता पर अपने शोध को आगे बढ़ा रहे हैं, जिसकी शुरुआत $TinyStories$ — 1 करोड़ parameters वाला ऐसा मॉडल जो सुसंगत English उत्पन्न कर सकता है — और उसके बाद $phi-1$ पर हुए कार्य से हुई थी, जो 1.3 अरब parameters वाला मॉडल है और जिसकी Python coding performance state-of-the-art के करीब है। बाद वाले कार्य में यह प्रस्तावित किया गया था कि पारंपरिक web data की तुलना में learning process को बेहतर बनाने के लिए मौजूदा Large Language Models (LLMs) का उपयोग करके 'पाठ्यपुस्तक-स्तर' का data तैयार किया जाए। इस बार हमने "Textbooks Are All You Need" दृष्टिकोण का पालन करते हुए प्राकृतिक भाषा में common sense reasoning पर ध्यान केंद्रित किया, और \textbf{phi-1.5} नाम का नया 1.3 अरब parameter मॉडल बनाया, जो natural language tasks पर अपने से 5x बड़े मॉडलों के तुलनीय प्रदर्शन करता है और grade-school mathematics तथा basic coding जैसे अधिक जटिल reasoning tasks में अधिकांश non-frontier LLMs को पीछे छोड़ देता है। अधिक सामान्य रूप से, $phi-1.5$ बहुत बड़े LLMs की कई विशेषताएँ दिखाता है, अच्छी भी — जैसे "step by step" सोचने की क्षमता या कुछ प्रारंभिक in-context learning करना — और बुरी भी, जिनमें hallucinations तथा toxic और biased generations की संभावना शामिल है। हालांकि, उत्साहजनक बात यह है कि web data की अनुपस्थिति के कारण इन पहलुओं में सुधार दिखाई दे रहा है। इन महत्वपूर्ण विषयों पर आगे के शोध को प्रोत्साहित करने के लिए हमने $phi-1.5$ को open source किया है।
हम छोटे Transformer-आधारित language models की क्षमता की जाँच को आगे बढ़ा रहे हैं, जिसकी शुरुआत \textbf{TinyStories} — 1 करोड़ parameters वाला ऐसा मॉडल जो सुसंगत English बना सकता है — और उसके बाद \textbf{phi-1} पर हुए कार्य से हुई, जो 1.3 अरब parameters वाला मॉडल है और जिसकी Python coding performance state-of-the-art के करीब है। बाद वाले कार्य में यह प्रस्ताव रखा गया था कि पारंपरिक web data की तुलना में learning process को बेहतर बनाने के लिए मौजूदा Large Language Models (LLMs) का उपयोग कर
textbook quality" data तैयार किया जाए। हमTextbooks Are All You Need" दृष्टिकोण का पालन करते हैं, इस बार natural language में common sense reasoning पर ध्यान केंद्रित करते हुए, और \textbf{phi-1.5} नाम का नया 1.3 अरब parameter मॉडल बनाते हैं, जिसका natural language tasks पर प्रदर्शन अपने से 5x बड़े मॉडलों के तुलनीय है, और grade-school mathematics तथा basic coding जैसे अधिक जटिल reasoning tasks में अधिकांश non-frontier LLMs को पार कर जाता है। अधिक सामान्य रूप से, \textbf{phi-1.5} बहुत बड़े LLMs की कई विशेषताएँ दिखाता है, अच्छी भी — जैसे ``step by step" सोचने या कुछ प्रारंभिक in-context learning करने की क्षमता — और बुरी भी, जिनमें hallucinations तथा toxic और biased generations की संभावना शामिल है — लेकिन उत्साहजनक रूप से, web data की अनुपस्थिति के कारण इस मोर्चे पर सुधार दिखाई दे रहा है। इन तात्कालिक विषयों पर आगे के शोध को बढ़ावा देने के लिए हमने \textbf{phi-1.5} को open-source किया है।
पेपर लिंक
https://arxiv.org/abs/2309.05463
और पढ़ें
https://x.com/omarsar0/status/1701590130270601422
बड़े भाषा मॉडल आधारित agents का उभार और क्षमता: एक survey paper / The Rise and Potential of Large Language Model Based Agents: A Survey
पेपर परिचय
- LLM-आधारित agents का एक व्यापक अवलोकन, जिसमें इन agents को बनाने के तरीकों से लेकर उन्हें उपयोगी ढंग से काम में लाने तक सब शामिल है। #survey-paper
llm-आधारित agents का एक व्यापक अवलोकन; इन agents को कैसे बनाया जाए से लेकर उन्हें उपयोगी उद्देश्यों के लिए कैसे इस्तेमाल किया जाए तक सब शामिल है।
पेपर सार
- मानवता लंबे समय से ऐसी artificial intelligence (AI) की खोज में रही है जो मानव-स्तर के बराबर हो या उससे आगे निकल जाए, और AI agents को इस लक्ष्य तक पहुंचने का एक आशाजनक माध्यम माना गया है। AI agents कृत्रिम इकाइयाँ हैं जो अपने environment को महसूस करती हैं, निर्णय लेती हैं और actions करती हैं। 20वीं सदी के मध्य से intelligent AI agents विकसित करने के लिए कई प्रयास किए गए हैं। हालांकि, ये प्रयास मुख्य रूप से algorithms या training strategies में प्रगति पर केंद्रित रहे हैं ताकि विशिष्ट capabilities या खास tasks पर performance बेहतर की जा सके। वास्तव में, community के पास जिस चीज़ की कमी है, वह एक ऐसा पर्याप्त रूप से general और powerful model है जो diverse scenarios के अनुकूल होने वाले AI agents को design करने के लिए शुरुआती आधार बन सके। Large Language Models (LLM) अपनी बहुमुखी और उल्लेखनीय क्षमताओं के कारण Artificial General Intelligence (AGI) की संभावित चिंगारी माने जाते हैं, और general AI agents बनाने की उम्मीद जगाते हैं। कई research efforts ने AI agents बनाने की नींव के रूप में LLMs का उपयोग किया है और महत्वपूर्ण प्रगति हासिल की है। पहले, agent की philosophical origins से लेकर AI में उसके विकास तक agent की अवधारणा को trace किया जाता है, और समझाया जाता है कि LLMs, AI agents की foundation के लिए क्यों उपयुक्त हैं। इसके आधार पर, brain, perception और action जैसे तीन मुख्य components से बना LLM-आधारित agents का एक conceptual framework प्रस्तुत किया जाता है, जिसे अलग-अलग applications के अनुसार ढाला जा सकता है। इसके बाद single-agent scenarios, multi-agent scenarios, और human-agent collaboration—इन तीन पहलुओं में LLM-आधारित agents के व्यापक उपयोग मामलों को देखा जाता है। फिर agent societies पर विस्तार से चर्चा की जाती है, जिसमें LLM-आधारित agents के behavior और personality, उनके समाज बनाने पर उभरने वाली social phenomena, और मानव समाज के लिए मिलने वाली insights का अध्ययन किया जाता है। अंत में, इस क्षेत्र के विभिन्न प्रमुख topics और open problems पर चर्चा की जाती है。
लंबे समय से मानवता मानव-स्तर के बराबर या उससे आगे की artificial intelligence (AI) की खोज में रही है, और AI agents को इस प्रयास का एक आशाजनक माध्यम माना गया है। AI agents कृत्रिम इकाइयाँ हैं जो अपने environment को महसूस करती हैं, निर्णय लेती हैं और actions करती हैं। 20वीं सदी के मध्य से intelligent AI agents विकसित करने के लिए अनेक प्रयास किए गए हैं। हालांकि, ये प्रयास मुख्य रूप से algorithms या training strategies में प्रगति पर केंद्रित रहे हैं ताकि विशिष्ट capabilities या खास tasks पर performance बेहतर की जा सके। वास्तव में, community के पास जिस चीज़ की कमी है, वह एक ऐसा पर्याप्त रूप से general और powerful model है जो diverse scenarios के अनुकूल होने वाले AI agents को design करने के लिए शुरुआती आधार बन सके। Large Language Models (LLMs) अपनी बहुमुखी और उल्लेखनीय क्षमताओं के कारण Artificial General Intelligence (AGI) की संभावित चिंगारी माने जाते हैं, और general AI agents बनाने की उम्मीद जगाते हैं। कई research efforts ने AI agents बनाने की foundation के रूप में LLMs का उपयोग किया है और महत्वपूर्ण प्रगति हासिल की है। हम agent की अवधारणा को उसकी philosophical origins से लेकर AI में उसके विकास तक trace करते हैं, और समझाते हैं कि LLMs, AI agents की foundation के लिए क्यों उपयुक्त हैं। इसके आधार पर, हम LLM-based agents के लिए एक conceptual framework प्रस्तुत करते हैं, जिसमें तीन मुख्य components होते हैं: brain, perception, और action; और इस framework को अलग-अलग applications के अनुसार ढाला जा सकता है। इसके बाद, हम LLM-based agents के व्यापक applications को तीन पहलुओं में देखते हैं: single-agent scenarios, multi-agent scenarios, और human-agent cooperation। इसके बाद हम agent societies में गहराई से जाते हैं, जहाँ LLM-based agents के behavior और personality, उनके समाज बनाने पर उभरने वाली social phenomena, और मानव समाज के लिए वे जो insights देते हैं, उनका अध्ययन किया जाता है। अंत में, हम इस क्षेत्र के कई प्रमुख topics और open problems पर चर्चा करते हैं।
शोधपत्र लिंक
https://arxiv.org/abs/2309.07864
आगे पढ़ें
https://x.com/omarsar0/status/1702736490067890239
EvoDiff
शोधपत्र परिचय
- sequence space में controllable protein generation के लिए evolutionary-scale data और diffusion models को जोड़ा गया है; यह ऐसे proteins generate कर सकता है जिन तक structure-based models नहीं पहुंच सकते। #diffusion
sequence space में controllable protein generation के लिए evolutionary-scale data को diffusion models के साथ जोड़ा गया है; यह ऐसे proteins generate कर सकता है जिन तक structure-based models नहीं पहुंच सकते।
शोधपत्र लिंक
https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1
आगे पढ़ें
https://x.com/KevinKaichuang/status/1701953715312136302
RAIN: Language Models बिना finetuning के खुद को align कर सकते हैं / RAIN: Your Language Models Can Align Themselves without Finetuning
शोधपत्र परिचय
- self-evaluation और rewind mechanisms को integrate करके यह पाया गया कि unaligned llms, self-boosting के जरिए सीधे ऐसे responses उत्पन्न कर सकते हैं जो human preferences के अनुरूप हों।
यह खोजता है कि self-evaluation और rewind mechanisms को integrate करके, unaligned llms self-boosting के जरिए सीधे ऐसे responses उत्पन्न कर सकते हैं जो human preferences के अनुरूप हों।
शोधपत्र सार
- बड़े भाषा मॉडल (LLM) अक्सर मानव प्राथमिकताओं के साथ असंगति दिखाते हैं। पिछले शोध में मानव प्राथमिकता डेटा एकत्र किया गया, और फिर reinforcement learning या instruction tuning (यानी तथाकथित fine-tuning चरण) का उपयोग करके pre-trained मॉडल को align किया गया। इसके विपरीत, बिना किसी अतिरिक्त डेटा के frozen LLMs को align करना अधिक आकर्षक है। यह शोध इसी दूसरे दृष्टिकोण की संभावनाओं का अन्वेषण करता है। शोधकर्ताओं ने पाया कि self-evaluation और rewind mechanism को एकीकृत करके, unaligned LLMs self-boosting के माध्यम से सीधे ऐसे उत्तर उत्पन्न कर सकते हैं जो मानव प्राथमिकताओं के अनुरूप हों। यूनिटी ने एक नई inference विधि, Rewindable Auto-regressive INference (RAIN), पेश की है, जो pre-trained LLMs को अपनी स्वयं की generation का मूल्यांकन करने और उस मूल्यांकन के परिणामों का उपयोग AI safety के लिए backward rewind तथा forward generation को निर्देशित करने की अनुमति देती है। खास बात यह है कि RAIN मॉडल alignment के लिए किसी अतिरिक्त डेटा के बिना काम करता है और इसमें training, gradient computation, या parameter update की आवश्यकता नहीं होती; self-evaluation चरण के दौरान मॉडल को fixed-template prompt के माध्यम से यह मार्गदर्शन मिलता है कि उसे किस मानव प्राथमिकता के साथ align होना है, इसलिए शुरुआती prompt को संशोधित करने की भी जरूरत नहीं पड़ती। GPT-4 और मानवों द्वारा मूल्यांकित प्रयोगात्मक परिणाम RAIN की प्रभावशीलता दिखाते हैं। HH dataset पर, RAIN, vanilla inference की तुलना में LLaMA 30B की harmlessness rate को 82% से 97% तक बढ़ाता है, जबकि helpfulness rate को बनाए रखता है। Vicuna 33B पर प्रमुख adversarial attack
llm-attacksके तहत, RAIN attack success rate को 94% से घटाकर 19% कर देता है, और इस तरह एक नया defense baseline स्थापित करता है।Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.
पेपर लिंक
https://arxiv.org/abs/2309.07124
और पढ़ें
https://x.com/omarsar0/status/1702131444041011395
रोबोट पार्कौर लर्निंग / Robot Parkour Learning
पेपर परिचय
- egocentric depth camera का उपयोग करते हुए 4-पैरों वाले walking robot पर transfer की जाने वाली end-to-end vision-based parkour policy सीखने वाली एक प्रणाली प्रस्तुत की गई है, और यह दिखाया गया है कि कम-लागत वाले robot वास्तविक वातावरण में parkour skills को स्वचालित रूप से चुन और निष्पादित कर सकते हैं।
Presents a system for learning end-to-end vision-based parkour policy which is transferred to a quadrupedal robot using its ecocentric depth camera; shows that low-cost robots can automatically select and execute parkour skills in a real-world environment.
पेपर सारांश
- पार्कूर, पैरों वाले robots के लिए locomotion की एक बड़ी चुनौती है, जिसमें robots को जटिल environments में विभिन्न obstacles को तेज़ी से पार करना होता है। मौजूदा तरीके या तो animal data या complex rewards का उपयोग करके विविध लेकिन blind locomotion skills बना सकते हैं, या फिर vision-based लेकिन specialized skills बना सकते हैं। लेकिन autonomous parkour को साकार करने के लिए robots को ऐसी generalizable skills सीखनी होंगी जो vision-based भी हों और विविध भी, ताकि वे अलग-अलग scenarios को समझकर उन पर प्रतिक्रिया दे सकें। इस शोध में हम reference motion data के बिना, simple reward का उपयोग करके, विविध parkour skills के लिए एक single end-to-end vision-based parkour policy सीखने वाली system का प्रस्ताव करते हैं। हम direct collocation से प्रेरित reinforcement learning method विकसित करते हैं, जो high obstacles पर चढ़ना, बड़े gaps को लांघना, low barriers के नीचे crawl करना, संकरे slits से निकलना, और running जैसी parkour skills उत्पन्न करती है। इन skills को एक single vision-based parkour policy में distill किया जाता है और robot के egocentric depth camera का उपयोग करके इसे एक quadrupedal robot पर transfer किया जाता है। हम दिखाते हैं कि हमारी system दो अलग-अलग low-cost robots को autonomous रूप से उपयुक्त parkour skills चुनने और execute करने में सक्षम बनाती है, ताकि वे चुनौतीपूर्ण real-world environments को पार कर सकें।
Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.
पेपर लिंक
https://arxiv.org/abs/2309.05665
और पढ़ें
https://x.com/zipengfu/status/1701316023612219445
बड़े Foundation Models में Hallucination पर सर्वे / A Survey of Hallucination in Large Foundation Models
पेपर परिचय
- विभिन्न प्रकार की hallucination घटनाओं को वर्गीकृत करता है और hallucination का आकलन करने के लिए evaluation criteria तथा mitigation strategies प्रदान करता है। #survey-paper #foundation-model
Classifies different types of hallucination phenomena and provides evaluation criteria for assessing hallucination along with mitigation strategies.
पेपर सारांश
- Foundation model (FM) में hallucination का मतलब ऐसा content उत्पन्न करना है जो factual reality से भटकता हो या fabricated information शामिल करता हो। यह survey paper, खास तौर पर 'Large' Foundation Models (LFMs) पर ध्यान देते हुए, hallucination की समस्या की पहचान, व्याख्या और समाधान के लिए हाल की कोशिशों का व्यापक overview प्रदान करता है। यह paper LFM-विशिष्ट hallucination के विभिन्न प्रकारों को वर्गीकृत करता है और hallucination की सीमा का आकलन करने के लिए evaluation criteria स्थापित करता है। साथ ही, यह LFMs में hallucination को कम करने के लिए मौजूदा strategies की समीक्षा करता है और इस क्षेत्र में भविष्य के research directions पर चर्चा करता है। मूल रूप से, यह paper LFMs में hallucination से जुड़ी चुनौतियों और समाधानों का एक व्यापक परीक्षण प्रस्तुत करता है।
Hallucination in a foundation model (FM) refers to the generation of content that strays from factual reality or includes fabricated information. This survey paper provides an extensive overview of recent efforts that aim to identify, elucidate, and tackle the problem of hallucination, with a particular focus on ``Large'' Foundation Models (LFMs). The paper classifies various types of hallucination phenomena that are specific to LFMs and establishes evaluation criteria for assessing the extent of hallucination. It also examines existing strategies for mitigating hallucination in LFMs and discusses potential directions for future research in this area. Essentially, the paper offers a comprehensive examination of the challenges and solutions related to hallucination in LFMs.
पेपर लिंक
https://arxiv.org/abs/2309.05922
और पढ़ें
https://x.com/omarsar0/status/1701970034711539839
Agents: Autonomous Language Agents के लिए एक open-source framework / Agents: An Open-source Framework for Autonomous Language Agents
पेपर परिचय
- planning, memory, tool usage, multi-agent communication जैसी क्षमताओं के समर्थन के साथ autonomous language agents बनाने के लिए एक open-source library।
An open-source library for building autonomous language agents including support for features like planning, memory, tool usage, multi-agent communication, and more.
पेपर सारांश
- हालिया large language models (LLM) की प्रगति ने शोधकर्ताओं और डेवलपर्स को ऐसे autonomous language agents बनाने में सक्षम बनाया है जो natural language interfaces का उपयोग करके विभिन्न कार्यों को अपने आप हल कर सकते हैं और environment, humans तथा अन्य agents के साथ इंटरैक्ट कर सकते हैं। हम language agents को artificial general intelligence की दिशा में एक आशाजनक मार्ग मानते हैं, और इन प्रगतियों को अधिक व्यापक गैर-विशेषज्ञ दर्शकों तक पहुँचाने के लिए हमने open-source library
Agentsजारी की है। Agents को planning, memory, tool usage, multi-agent communication, और fine-grained symbolic control जैसी महत्वपूर्ण क्षमताओं के समर्थन के लिए सावधानीपूर्वक डिज़ाइन किया गया है। Agents उपयोगकर्ता-अनुकूल है, क्योंकि यह गैर-विशेषज्ञों को बहुत अधिक coding के बिना state-of-the-art autonomous language agents बनाने, customize करने, test करने, tune करने और deploy करने में सक्षम बनाता है। साथ ही, library का modular design इसे शोधकर्ताओं के लिए आसानी से extensible बनाता है, इसलिए यह research-friendly भी है। Agents यहाँ उपलब्ध है: https://github.com/aiwaves-cn/agentsRecent advances on large language models (LLMs) enable researchers and developers to build autonomous language agents that can automatically solve various tasks and interact with environments, humans, and other agents using natural language interfaces. We consider language agents as a promising direction towards artificial general intelligence and release Agents, an open-source library with the goal of opening up these advances to a wider non-specialist audience. Agents is carefully engineered to support important features including planning, memory, tool usage, multi-agent communication, and fine-grained symbolic control. Agents is user-friendly as it enables non-specialists to build, customize, test, tune, and deploy state-of-the-art autonomous language agents without much coding. The library is also research-friendly as its modularized design makes it easily extensible for researchers. Agents is available at https://github.com/aiwaves-cn/agents.
पेपर लिंक
https://arxiv.org/abs/2309.07870
आगे पढ़ें
https://x.com/arankomatsuzaki/status/1702497897395396960
Radiology-Llama2: रेडियोलॉजी के लिए अपनी श्रेणी का सर्वश्रेष्ठ large language model / Radiology-Llama2: Best-in-Class Large Language Model for Radiology
पेपर परिचय
- रेडियोलॉजी के लिए अनुकूलित Llama 2-आधारित llm प्रस्तुत करता है; इसे रेडियोलॉजी रिपोर्ट्स के एक बड़े डेटासेट पर tune किया गया है ताकि रेडियोलॉजिकल findings से सुसंगत और clinically useful impressions तैयार किए जा सकें।
Presents an llm based on llama 2 tailored for radiology; it's tuned on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiology findings.
पेपर सार
- यह पेपर instruction tuning नामक प्रक्रिया के माध्यम से रेडियोलॉजी-विशेष large language model, Radiology-Llama2, को प्रस्तुत करता है। Radiology-Llama2, Llama2 architecture पर आधारित है और रेडियोलॉजी रिपोर्ट्स के एक बड़े डेटासेट पर आगे train किया गया है, ताकि रेडियोलॉजिकल findings से सुसंगत और clinically useful impressions उत्पन्न किए जा सकें। MIMIC-CXR और OpenI datasets पर ROUGE metrics का उपयोग करके किए गए quantitative evaluation से पता चलता है कि Radiology-Llama2 अन्य generative language models की तुलना में state-of-the-art performance हासिल करता है, जिसमें Rouge-1 score MIMIC-CXR पर 0.4834 और OpenI पर 0.4185 है। रेडियोलॉजी विशेषज्ञों द्वारा किए गए अतिरिक्त आकलन इस मॉडल की समझने-योग्यता, सुसंगतता, प्रासंगिकता, संक्षिप्तता और clinical utility में इसकी मजबूती को रेखांकित करते हैं। यह कार्य दिखाता है कि रेडियोलॉजी जैसे specialized domains के लिए डिज़ाइन और tuned किए गए localized language models में कितनी संभावनाएँ हैं। यदि इनका सही ढंग से मूल्यांकन और deployment किया जाए, तो ऐसे मॉडल दोहराव वाले कार्यों को automate करके और मानवीय विशेषज्ञता को बेहतर बनाकर रेडियोलॉजी जैसे क्षेत्रों को बदल सकते हैं।
This paper introduces Radiology-Llama2, a large language model specialized for radiology through a process known as instruction tuning. Radiology-Llama2 is based on the Llama2 architecture and further trained on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiological findings. Quantitative evaluations using ROUGE metrics on the MIMIC-CXR and OpenI datasets demonstrate that Radiology-Llama2 achieves state-of-the-art performance compared to other generative language models, with a Rouge-1 score of 0.4834 on MIMIC-CXR and 0.4185 on OpenI. Additional assessments by radiology experts highlight the model's strengths in understandability, coherence, relevance, conciseness, and clinical utility. The work illustrates the potential of localized language models designed and tuned for specialized domains like radiology. When properly evaluated and deployed, such models can transform fields like radiology by automating rote tasks and enhancing human expertise.
पेपर लिंक
https://arxiv.org/abs/2309.06419
आगे पढ़ें
https://x.com/omarsar0/status/1701774444052557965
सॉफ्टवेयर डेवलपमेंट के लिए communicative agents / Communicative Agents for Software Development
पेपर परिचय
- waterfall model को प्रतिबिंबित करने वाली virtual chat-आधारित software development company
chatdevको प्रस्तुत करता है; यह software generation में agent की प्रभावशीलता दिखाता है, जहाँ पूरा software development process 1 डॉलर से कम लागत में 7 मिनट से भी कम समय में पूरा हो जाता है।Presents chatdev, a virtual chat-powered software development company mirroring the waterfall model; shows the efficacy of the agent in software generation, even completing the entire software development process in less than seven minutes for less than one dollar.
पेपर सार
- सॉफ़्टवेयर इंजीनियरिंग एक ऐसा क्षेत्र है जिसकी विशेषता जटिल निर्णय-निर्माण प्रक्रियाएँ हैं, और यह अक्सर सूक्ष्म अंतर्ज्ञान तथा आपसी परामर्श पर निर्भर करता है। हाल के deep learning advancements ने सॉफ़्टवेयर डेवलपमेंट के विभिन्न चरणों में लागू किए गए परिष्कृत डिज़ाइनों के माध्यम से सॉफ़्टवेयर इंजीनियरिंग प्रथाओं में क्रांतिकारी बदलाव लाना शुरू कर दिया है। इस पेपर में, हम एक अभिनव paradigm प्रस्तुत करते हैं जो पूरे सॉफ़्टवेयर डेवलपमेंट प्रोसेस में large language models (LLMs) का उपयोग करता है, natural language communication के माध्यम से प्रमुख प्रक्रियाओं को सुव्यवस्थित और एकीकृत करता है, जिससे हर चरण में specialized models की आवश्यकता समाप्त हो जाती है। इस paradigm के केंद्र में ChatDev है, जो एक virtual chat-powered software development company है और स्थापित waterfall model को प्रतिबिंबित करती है, तथा development process को सावधानीपूर्वक चार अलग-अलग कालक्रमिक चरणों में विभाजित करती है: designing, coding, testing, और documenting। प्रत्येक चरण में programmers, code reviewers, और test engineers जैसे agents की एक टीम शामिल होती है, जो collaborative dialogue को बढ़ावा देती है और seamless workflow को संभव बनाती है। chat chain एक facilitator की तरह काम करती है, जो प्रत्येक चरण को atomic subtasks में विभाजित करती है। इससे यह दोहरी भूमिका निभा पाती है—context-aware communication के माध्यम से समाधान प्रस्तावित करना और उन्हें validate करना—जिससे विशिष्ट subtasks का कुशल समाधान संभव होता है। ChatDev का instrumental analysis सॉफ़्टवेयर generation में इसकी उल्लेखनीय दक्षता को रेखांकित करता है, जिससे पूरा सॉफ़्टवेयर डेवलपमेंट प्रोसेस सात मिनट से कम समय में और एक डॉलर से कम लागत में पूरा किया जा सकता है। यह न केवल संभावित vulnerabilities की पहचान करता है और उन्हें कम करता है, बल्कि संभावित hallucinations को भी ठीक करता है, वह भी उत्कृष्ट efficiency और cost-effectiveness बनाए रखते हुए। ChatDev की क्षमता, सॉफ़्टवेयर डेवलपमेंट के क्षेत्र में LLMs के एकीकरण के लिए नई संभावनाएँ खोलती है।
Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.
पेपर लिंक
https://arxiv.org/abs/2307.07924v3
और पढ़ें
https://x.com/KevinAFischer/status/1702355125418045860
MAmmoTH: हाइब्रिड instruction tuning के माध्यम से math generalist models का निर्माण / MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning
पेपर परिचय
- सामान्य गणितीय समस्या-समाधान के लिए अनुकूलित open-source मशीन लर्निंग मॉडलों की एक श्रृंखला, जिन्हें चुने हुए instruction tuning dataset पर train किया गया है, और जो कई mathematical reasoning datasets पर मौजूदा open-source models से बेहतर प्रदर्शन करते हैं। #mathglm
A series of open-source llms tailored for general math problem-solving; the models are trained on a curated instruction tuning dataset and outperform existing open-source models on several mathematical reasoning datasets.
पेपर सारांश
- सामान्य गणितीय समस्या-समाधान के लिए विशेष रूप से अनुकूलित open-source बड़े भाषा मॉडल (LLM) की एक श्रृंखला MAmmoTH पेश की गई है। MAmmoTH मॉडल हमारे सावधानीपूर्वक क्यूरेट किए गए instruction-tuning dataset MathInstruct पर प्रशिक्षित हैं। MathInstruct को 13 गणित datasets से intermediate rationales के साथ संकलित किया गया है, जिनमें से 6 में हमारे द्वारा नए सिरे से क्यूरेट किए गए rationales शामिल हैं। यह solution chain-of-thought (CoT) और program-of-thought (PoT) rationales का एक अनूठा hybrid प्रदान करता है और गणित के विविध क्षेत्रों का व्यापक coverage भी सुनिश्चित करता है। CoT और PoT का यह मिश्रण न केवल tool use की क्षमता को उजागर करता है, बल्कि अलग-अलग गणितीय समस्याओं के लिए अलग-अलग सोच प्रक्रियाओं की भी अनुमति देता है। परिणामस्वरूप, MAmmoTH श्रृंखला सभी scales पर 9 गणितीय reasoning datasets में मौजूदा open-source models से काफ़ी बेहतर प्रदर्शन करती है, जिसमें औसत accuracy gain 13% से 29% के बीच है। उल्लेखनीय रूप से, competition-level dataset MATH पर MAmmoTH-7B मॉडल 35% तक पहुँचता है, जो सर्वश्रेष्ठ open-source 7B मॉडल (WizardMath) से 25% बेहतर है, और MAmmoTH-34B मॉडल MATH पर 46% accuracy हासिल करता है, जो GPT-4 के CoT परिणाम से भी आगे है। यह शोध बेहतर गणित generalist models विकसित करने में विविध problem coverage और hybrid rationales के उपयोग के महत्व को रेखांकित करता है।
हम MAmmoTH पेश करते हैं, जो सामान्य गणितीय समस्या-समाधान के लिए विशेष रूप से अनुकूलित open-source बड़े भाषा मॉडल (LLMs) की एक श्रृंखला है। MAmmoTH मॉडल MathInstruct पर प्रशिक्षित हैं, जो हमारा सावधानीपूर्वक क्यूरेट किया गया instruction tuning dataset है। MathInstruct को 13 गणित datasets से intermediate rationales के साथ संकलित किया गया है, जिनमें से 6 के rationales हमारे द्वारा नए सिरे से क्यूरेट किए गए हैं। यह chain-of-thought (CoT) और program-of-thought (PoT) rationales का एक अनूठा hybrid प्रस्तुत करता है, और गणित के विविध क्षेत्रों का व्यापक coverage भी सुनिश्चित करता है। CoT और PoT का hybrid न केवल tool use की क्षमता को अनलॉक करता है, बल्कि अलग-अलग गणितीय समस्याओं के लिए अलग-अलग thought processes की भी अनुमति देता है। परिणामस्वरूप, MAmmoTH श्रृंखला सभी scales पर 9 mathematical reasoning datasets में मौजूदा open-source models से काफ़ी बेहतर प्रदर्शन करती है, जिसमें औसत accuracy gain 13% से 29% के बीच है। उल्लेखनीय रूप से, हमारा MAmmoTH-7B मॉडल MATH (एक competition-level dataset) पर 35% तक पहुँचता है, जो सर्वश्रेष्ठ open-source 7B मॉडल (WizardMath) से 25% बेहतर है, और MAmmoTH-34B मॉडल MATH पर 46% accuracy हासिल करता है, जो GPT-4 के CoT परिणाम से भी आगे है। हमारा काम बेहतर math generalist models विकसित करने में diverse problem coverage और hybrid rationales के उपयोग के महत्व को रेखांकित करता है.
पेपर लिंक
https://arxiv.org/abs/2309.05653
और पढ़ें
https://x.com/xiangyue96/status/1701710215442309323
मूल लेख
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-461
अभी कोई टिप्पणी नहीं है.