[2023/10/30 ~ 11/07] इस हफ्ते के प्रमुख ML पेपर (Top ML Papers of the Week
(discuss.pytorch.kr)अवलोकन
-
DAIR.AI द्वारा हर हफ्ते प्रकाशित किए जाने वाले ML पेपरों पर आधारित इस लेख का स्वचालित अनुवाद किया गया है।
-
इस हफ्ते प्रस्तुत किए गए पेपर मुख्य रूप से Large Language Models (LLMs) और उनके performance evaluation पर केंद्रित हैं। खास तौर पर 'Evaluating LLMs', 'LLMs for Chip Design', 'Efficient Context Window Extension of LLMs', 'Enhancing LLMs by Emotion Stimuli' जैसे पेपरों में LLMs के विविध अनुप्रयोगों और optimization तरीकों पर चर्चा की गई है।
-
यह रुझान दिखाता है कि पिछले कुछ वर्षों में AI क्षेत्र में LLMs का महत्व तेज़ी से बढ़ा है। विशेष रूप से OpenAI की GPT series जैसे अग्रणी models ने विभिन्न natural language processing (NLP) कार्यों में प्रभावशाली परिणाम दिखाए हैं, जिसके कारण शोधकर्ता इन models को और बेहतर बनाने या नई समस्याओं पर लागू करने के लिए सक्रिय रूप से काम कर रहे हैं। इसके साथ ही model efficiency बढ़ाने और emotion या situational context जैसे तत्वों का उपयोग करके model input-output को और समृद्ध बनाने के तरीकों में भी रुचि बढ़ रही है।
-
इसके अलावा, 'Next Generation AlphaFold' जैसे पेपर यह संकेत देते हैं कि LLMs से अलग संदर्भों में भी, structural biology जैसे विशिष्ट क्षेत्रों में machine learning methodologies लागू करके नवोन्मेषी दृष्टिकोण तलाशे जा रहे हैं। यह शोध प्रवृत्ति बताती है कि machine learning और deep learning तकनीकें केवल सैद्धांतिक प्रगति तक सीमित नहीं हैं, बल्कि उद्योग, विज्ञान, चिकित्सा और अन्य क्षेत्रों में ठोस applications के रूप में विकसित हो रही हैं।
विरल अवलोकनों से दैनिक मौसम पूर्वानुमान के लिए Deep Learning / Deep Learning for Day Forecasts from Sparse Observations
पेपर परिचय
- यह एक state-of-the-art neural weather model है, जो observation-based model द्वारा अच्छी तरह predict किए जा सकने वाले lead time range और variables — दोनों का विस्तार करता है। यह dense और sparse data sensors दोनों से सीखता है और precipitation, wind, temperature तथा dew point के लिए 24 घंटे पहले तक prediction करता है.
> A state-of-the-art neural weather model that extends both the lead time range and the variables that an observation-based model can predict well; learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature, and dew point.
पेपर सार
- Deep neural networks मौसमीय स्थितियों की modeling के लिए एक वैकल्पिक paradigm प्रदान करते हैं। डेटा उपलब्ध होने पर 1 सेकंड से कम समय में prediction करने की क्षमता, बहुत उच्च temporal और spatial resolution पर prediction देना, और सीधे atmospheric observations से सीख पाने की क्षमता — ये इस तरह के models के कुछ विशिष्ट लाभ हैं। अब तक atmospheric observations, जो सबसे high-fidelity और lowest-latency data हैं, का उपयोग करके प्रशिक्षित neural models ने state-of-the-art probabilistic Numerical Weather Prediction models की तुलना में केवल precipitation नामक एकमात्र variable पर और वह भी अधिकतम 12 घंटे के lead time तक ही अच्छा performance हासिल किया था। इस पेपर में हम MetNet-3 प्रस्तुत करते हैं, जो observation-based neural model द्वारा अच्छी तरह predict किए जा सकने वाले variables और lead time range — दोनों का महत्वपूर्ण विस्तार करता है। MetNet-3 dense और sparse data sensors दोनों से सीखता है और precipitation, wind, temperature तथा dew point के लिए 24 घंटे पहले तक prediction करता है। MetNet-3 एक महत्वपूर्ण densification technique पेश करता है, जो अत्यंत sparse targets पर network training होने के बावजूद implicit data assimilation को capture करती है और spatially dense forecasts तैयार करती है। MetNet-3 क्रमशः 2 मिनट और 1 km तक की उच्च temporal और spatial resolution के साथ कम operational latency भी प्रदान करता है। हमने पाया कि MetNet-3, CONUS क्षेत्र में 24 घंटे पहले तक के पूर्वानुमान के लिए HRRR और ENS जैसे सर्वश्रेष्ठ single-member और multi-member NWP systems से बेहतर प्रदर्शन कर सकता है, जिससे observation-based neural models के लिए performance का एक नया milestone स्थापित होता है। MetNet-3 वर्तमान में operational है और इसके forecasts अन्य models के साथ Google Search में उपलब्ध कराए जा रहे हैं।
> Deep neural networks offer an alternative paradigm for modeling weather conditions. The ability of neural models to make a prediction in less than a second once the data is available and to do so with very high temporal and spatial resolution, and the ability to learn directly from atmospheric observations, are just some of these models' unique advantages. Neural models trained using atmospheric observations, the highest fidelity and lowest latency data, have to date achieved good performance only up to twelve hours of lead time when compared with state-of-the-art probabilistic Numerical Weather Prediction models and only for the sole variable of precipitation. In this paper, we present MetNet-3 that extends significantly both the lead time range and the variables that an observation based neural model can predict well. MetNet-3 learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature and dew point. MetNet-3 introduces a key densification technique that implicitly captures data assimilation and produces spatially dense forecasts in spite of the network training on extremely sparse targets. MetNet-3 has a high temporal and spatial resolution of, respectively, up to 2 minutes and 1 km as well as a low operational latency. We find that MetNet-3 is able to outperform the best single- and multi-member NWPs such as HRRR and ENS over the CONUS region for up to 24 hours ahead setting a new performance milestone for observation based neural models. MetNet-3 is operational and its forecasts are served in Google Search in conjunction with other models.
पेपर लिंक
https://arxiv.org/abs/2306.06079
आगे पढ़ें
https://x.com/GoogleAI/status/1719774923294687636
Large Language Models का मूल्यांकन: एक व्यापक सर्वे पेपर / Evaluating Large Language Models: A Comprehensive Survey
पेपर परिचय
- यह LLM evaluation पर एक व्यापक survey (100+ pages) प्रस्तुत करता है, जिसमें विभिन्न प्रकार के evaluations, datasets, techniques आदि पर चर्चा शामिल है। #llm-survey #llm-evaluation
> A comprehensive survey (100+ pages) on evaluating llms, including discussions about the different types of evaluations, datasets, techniques, and more.
पेपर सार
- बड़े भाषा मॉडल (LLM) ने कार्यों की एक विस्तृत श्रृंखला में उल्लेखनीय क्षमताएँ प्रदर्शित की हैं। उन्होंने व्यापक ध्यान आकर्षित किया है और अनेक downstream applications में तैनात किए गए हैं। लेकिन दोधारी तलवार की तरह, LLM संभावित जोखिम भी प्रस्तुत करते हैं। इनमें निजी डेटा लीक हो सकता है या अनुचित, हानिकारक, या भ्रामक सामग्री उत्पन्न हो सकती है। इसके अलावा, LLM की तेज़ प्रगति ने पर्याप्त सुरक्षा उपायों के बिना superintelligent systems के संभावित उभरने को लेकर भी चिंताएँ बढ़ाई हैं। LLM की क्षमताओं का प्रभावी ढंग से लाभ उठाने और उनके सुरक्षित व लाभकारी विकास को सुनिश्चित करने के लिए, LLM का कठोर और व्यापक मूल्यांकन करना बेहद महत्वपूर्ण है। यह सर्वे LLM evaluation पर एक व्यापक दृष्टिकोण प्रदान करने का प्रयास करता है। यह LLM के मूल्यांकन को तीन प्रमुख समूहों में वर्गीकृत करता है: knowledge and capability evaluation, alignment evaluation, और safety evaluation। इन तीनों पहलुओं के evaluation methodologies और benchmarks की व्यापक समीक्षा के साथ, यह specialized domains में LLM के प्रदर्शन से संबंधित evaluations का एक संकलन भी प्रस्तुत करता है, और capabilities, alignment, safety, तथा applicability को कवर करने वाले comprehensive evaluation platforms के निर्माण पर चर्चा करता है। इस व्यापक अवलोकन के माध्यम से, हमें आशा है कि LLM evaluation पर और अधिक शोध को प्रोत्साहन मिलेगा, और अंततः evaluation, LLM के जिम्मेदार विकास का मार्गदर्शन करने वाली आधारशिला की भूमिका निभाएगा। हमारा लक्ष्य है कि उनका विकास ऐसी दिशा में आगे बढ़े जो संभावित जोखिमों को न्यूनतम करते हुए सामाजिक लाभ को अधिकतम करे। संबंधित शोधपत्रों की चुनी हुई सूची https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers पर उपलब्ध है.
> Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.
शोधपत्र लिंक
https://arxiv.org/abs/2310.19736
आगे पढ़ें
https://x.com/omarsar0/status/1719351676828602502
बैकबोन की लड़ाई: कंप्यूटर विज़न कार्यों में प्रीट्रेंड मॉडलों की बड़े पैमाने पर तुलना / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks
शोधपत्र परिचय
- विविध कंप्यूटर विज़न कार्यों के लिए एक बड़े पैमाने का benchmarking framework; vision transformer (ViT) और self-supervised learning (SSL) भले ही तेजी से लोकप्रिय हो रहे हों, लेकिन हमने पाया कि बड़े training sets पर supervised तरीके से pretrain किए गए convolutional neural networks अधिकांश कार्यों में सबसे बेहतर प्रदर्शन करते हैं। #self-supervised #vision-transformer
> A large benchmarking framework for a diverse suite of computer vision tasks; find that while vision transformers (vits) and self-supervised learning (ssl) are increasingly popular, convolutional neural networks pretrained in a supervised fashion on large training sets perform best on most tasks.
शोधपत्र सार
- न्यूरल नेटवर्क-आधारित computer vision सिस्टम आमतौर पर एक backbone पर बनाए जाते हैं, जो एक pretrained या randomly initialized feature extractor होता है। कुछ साल पहले तक default विकल्प ImageNet पर trained convolutional neural network था। लेकिन हाल के समय में विभिन्न algorithms और datasets का उपयोग करके pretrained अनगिनत backbones सामने आए हैं। विकल्पों की इस बहुतायत से भले ही कई तरह के सिस्टमों की performance बेहतर हुई हो, लेकिन practitioners के लिए यह तय करना आसान नहीं है कि कौन-सा backbone चुना जाए। Battle of the Backbones (BoB) इस चयन को आसान बनाता है, क्योंकि यह classification, object detection, OOD generalization आदि जैसे विविध computer vision tasks पर vision-language models, self-supervised learning से trained models, और Stable Diffusion backbone सहित pretrained models के एक विविध सेट का benchmark करता है। इसके अलावा, BoB 1,500 से अधिक training runs पर किए गए व्यापक विश्लेषण के जरिए मौजूदा approaches की strengths और weaknesses को उजागर करता है, जिससे research community को computer vision को आगे बढ़ाने के लिए promising दिशाओं का संकेत मिलता है। हालाँकि vision transformers (ViT) और self-supervised learning (SSL) लगातार लोकप्रिय हो रहे हैं, हमने पाया कि बड़े training sets पर supervised तरीके से pretrained convolutional neural networks अब भी हमारे द्वारा विचार किए गए अधिकांश tasks में सबसे बेहतर performance देते हैं। साथ ही, समान architecture और लगभग समान आकार के pretraining datasets पर किए गए apples-to-apples comparison में हमने पाया कि SSL backbones काफ़ी प्रतिस्पर्धी हैं, जो संकेत देता है कि भविष्य के कार्यों में उन्नत architectures और बड़े pretraining datasets के साथ SSL pretraining किया जाना चाहिए। शोधकर्ताओं को अपने backbone स्वयं test करने देने वाले code के साथ हमारे experiments के raw results यहाँ जारी किए गए हैं (https://github.com/hsouri/Battle-of-the-Backbones)
> Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: https://github.com/hsouri/Battle-of-the-Backbones
पेपर लिंक
https://arxiv.org/abs/2310.19909
और पढ़ें
https://x.com/micahgoldblum/status/1719719308882801045
ChipNeMo: चिप डिज़ाइन के लिए domain-adapted LLMs / ChipNeMo: Domain-Adapted LLMs for Chip Design
पेपर परिचय
- domain adaptation तकनीकों का उपयोग करके industrial chip design में LLMs के उपयोग का प्रस्ताव; assistant chatbot, electronic design automation, और bug summarization जैसे chip design के विभिन्न applications का मूल्यांकन; domain adaptation विभिन्न design tasks पर general-purpose models की तुलना में performance को काफ़ी बेहतर बनाता है; RAG में domain-adapted llm का उपयोग करने पर answer quality और बेहतर हो जाती है।
> Proposes using llms for industrial chip design by leveraging domain adaptation techniques; evaluates different applications for chip design such as assistant chatbot, electronic design automation, and bug summarization; domain adaptation significantly improves performance over general-purpose models on a variety of design tasks; using a domain-adapted llm for rag further improves answer quality.
पेपर सारांश
- ChipNeMo का लक्ष्य औद्योगिक chip design के लिए बड़े language models (LLMs) के अनुप्रयोगों का पता लगाना है। तैयार commercial या open-source LLMs को सीधे deploy करने के बजाय, यह custom tokenization, domain-adaptive continued pretraining, domain-specific instructions के साथ supervised fine-tuning (SFT), और domain-adapted retrieval models जैसी domain adaptation तकनीकों को अपनाता है। chip design के लिए चुने गए तीन LLM अनुप्रयोगों—engineering assistant chatbot, EDA script generation, और bug summarization तथा analysis—पर इन तरीकों का मूल्यांकन किया गया। परिणामों से पता चला कि इन domain adaptation तकनीकों के उपयोग से मूल्यांकित तीनों अनुप्रयोगों में general-purpose base models की तुलना में LLM performance में उल्लेखनीय सुधार हुआ, और विभिन्न design tasks पर समान या बेहतर performance के साथ model size को अधिकतम 5x तक कम किया जा सका। साथ ही, इस अध्ययन के निष्कर्ष यह भी दिखाते हैं कि वर्तमान परिणामों और आदर्श परिणामों के बीच अभी भी सुधार की गुंजाइश है। Unity को उम्मीद है कि भविष्य में domain-adapted LLM approaches पर अतिरिक्त शोध इस अंतर को कम करने में मदद करेगा।
> ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.
पेपर लिंक
https://arxiv.org/abs/2311.00176
और पढ़ें
https://x.com/omarsar0/status/1720066328961159387
YaRN: बड़े language models की efficient context window extension / YaRN: Efficient Context Window Extension of Large Language Models
पेपर परिचय
- pre-trained context window से आगे llms की context window को कुशलतापूर्वक बढ़ाने के लिए एक compute-efficient तरीका प्रस्तावित किया गया है, और fine-tuning dataset के सीमित context से आगे extrapolate करके models को अधिकतम 128k context length तक पुन: प्रस्तुत किया गया है। #yarn
> Proposes a compute-efficient method for efficiently extending the context window of llms beyond what it was pretrained on; extrapolates beyond the limited context of a fine-tuning dataset and models have been reproduced up to 128k context length.
पेपर सारांश
- Rotary Position Embeddings (RoPE) को transformer-based language models में positional information को प्रभावी ढंग से encode करने वाला पाया गया है। हालांकि, ये models उस sequence length से आगे generalize नहीं कर पाते जिस पर इन्हें train किया गया था। ऐसे models की context window को बढ़ाने के लिए एक compute-efficient तरीके के रूप में YaRN (Yet another RoPE extensioN method) प्रस्तुत किया गया है, जिसे पिछले तरीकों की तुलना में 10x कम tokens और 2.5x कम training steps की आवश्यकता होती है। YaRN का उपयोग करके यह दिखाया गया कि LLaMA models अपनी मूल pre-training सीमा से कहीं अधिक लंबे context lengths का प्रभावी रूप से उपयोग कर सकते हैं और उन तक extrapolate भी कर सकते हैं, साथ ही context window extension में पिछले state-of-the-art को भी पार कर सकते हैं। इसके अलावा, YaRN के माध्यम से fine-tuning dataset के सीमित context से आगे extrapolate करने की क्षमता भी प्रदर्शित की गई है। YaRN का उपयोग करके fine-tune किए गए models को अधिकतम 128k context length तक online (https://github.com/jquesnelle/yarn) उपलब्ध कराया गया है और पुन: प्रस्तुत किया गया है।
> Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn
पेपर लिंक
https://arxiv.org/abs/2309.00071
और पढ़ें
https://x.com/theemozilla/status/1720107186850877662
https://discuss.pytorch.kr/t/yarn-rope-llm-10-2-5-context-window-128k/…
Direct Air Capture में sorbent discovery के लिए Open DAC 2023 dataset और चुनौतियाँ / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture
पेपर परिचय
- adsorbed carbon dioxide और/या water वाले 8,800 से अधिक MOF materials पर 38m से अधिक density functional theory (DFT) calculations से बना एक dataset प्रस्तुत किया गया है। dataset से सीधे DAC के लिए गुणों की पहचान की गई है, और इस dataset पर state-of-the-art ML models को train किया गया है ताकि DFT स्तर की calculations का approximation किया जा सके। यह भविष्य में DAC सहित व्यापक applications के लिए MOFs की पहचान करने के प्रयासों के लिए एक महत्वपूर्ण baseline बन सकता है।
> adsorbed co2 और/या h2o वाले 8,800 से अधिक mof materials पर 38m से अधिक density functional theory (dft) calculations से बना एक dataset प्रस्तुत किया गया है; dataset में dac के लिए properties की सीधे पहचान की गई है; साथ ही dataset के साथ state-of-the-art ml models को train किया गया है ताकि dft स्तर की calculations का approximation किया जा सके; यह dac सहित व्यापक applications के लिए mofs की पहचान के भविष्य के प्रयासों के लिए एक महत्वपूर्ण baseline बन सकता है.
पेपर सारांश
- पृथ्वी के climate change से निपटने के लिए carbon dioxide removal के नए तरीकों की तुरंत आवश्यकता है। Direct air capture (DAC) एक उभरती हुई तकनीक है जो ambient air से सीधे carbon dioxide को capture करती है। Metal-organic frameworks (MOFs) का DAC के लिए संभावित रूप से customizable adsorbents के रूप में व्यापक अध्ययन किया गया है। हालांकि, DAC के लिए promising MOF sorbents की खोज करना कठिन है क्योंकि खोजे जाने वाला chemical space बहुत विशाल है और humidity तथा temperature के फ़ंक्शन के रूप में materials को समझना आवश्यक है। Pure Storage हालिया machine learning (ML) innovations का लाभ उठाने वाले एक computational approach का अन्वेषण करता है और Open DAC 2023 (ODAC23) नाम का एक dataset प्रस्तुत करता है, जिसमें adsorbed CO2 और/या H2O वाले 8,800 से अधिक MOF materials पर 3.8 करोड़ से अधिक density functional theory (DFT) calculations शामिल हैं। ODAC23 वर्तमान में उपलब्ध DFT-स्तरीय accuracy वाले MOF adsorption calculation data में अब तक का सबसे बड़ा dataset है। adsorbed molecules के गुणों की जांच करने के अलावा, यह dataset MOFs की structural relaxation पर समृद्ध जानकारी का स्रोत भी है, जो DAC के विशिष्ट उपयोगों से परे कई संदर्भों में उपयोगी हो सकता है। DAC के लिए promising गुणों वाले बड़ी संख्या में MOFs की पहचान सीधे ODAC23 में की गई है। इसके अलावा, इस dataset पर state-of-the-art machine learning models को train किया गया ताकि DFT स्तर पर calculations का approximation किया जा सके। यह open-source dataset और शुरुआती ML models भविष्य में DAC सहित विभिन्न applications के लिए MOFs की पहचान करने के प्रयासों के लिए एक महत्वपूर्ण baseline प्रदान करेंगे।
> वैश्विक climate change से निपटने के लिए carbon dioxide removal के नए तरीकों की तुरंत आवश्यकता है। Direct air capture (DAC) ambient air से सीधे carbon dioxide को capture करने वाली एक उभरती हुई तकनीक है। Metal-organic frameworks (MOFs) का DAC के लिए संभावित रूप से customizable adsorbents के रूप में व्यापक अध्ययन किया गया है। हालांकि, DAC के लिए promising MOF sorbents की खोज चुनौतीपूर्ण है क्योंकि chemical space बहुत विशाल है और humidity तथा temperature के अनुसार materials को समझना आवश्यक है। हम हालिया machine learning (ML) innovations से लाभान्वित एक computational approach का अन्वेषण करते हैं और Open DAC 2023 (ODAC23) नाम का एक dataset प्रस्तुत करते हैं, जिसमें adsorbed CO2 और/या H2O वाले 8,800 से अधिक MOF materials पर 38M से अधिक density functional theory (DFT) calculations शामिल हैं। ODAC23 वर्तमान में उपलब्ध DFT स्तर की accuracy वाले MOF adsorption calculations का अब तक का सबसे बड़ा dataset है। adsorbed molecules के गुणों की जांच के अलावा, यह dataset MOFs की structural relaxation पर भी समृद्ध जानकारी का स्रोत है, जो DAC के विशिष्ट applications से परे कई संदर्भों में उपयोगी होगा। DAC के लिए promising properties वाले बड़ी संख्या में MOFs की पहचान सीधे ODAC23 में की गई है। हमने इस dataset पर state-of-the-art ML models को भी train किया ताकि DFT स्तर पर calculations का approximation किया जा सके। यह open-source dataset और हमारे शुरुआती ML models भविष्य में DAC सहित व्यापक applications के लिए MOFs की पहचान करने के प्रयासों के लिए एक महत्वपूर्ण baseline प्रदान करेंगे।
पेपर लिंक
https://arxiv.org/abs/2311.00341
आगे पढ़ें
https://x.com/AIatMeta/status/1720143486505341128
मशीन लर्निंग में symmetry को लागू, खोजने और बढ़ावा देने के लिए एकीकृत framework / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning
पेपर परिचय
- मशीन लर्निंग में symmetry को लागू, खोजने और बढ़ावा देने के लिए एक एकीकृत और methodological framework प्रस्तुत किया गया है; साथ ही यह भी चर्चा की गई है कि इन विचारों को multilayer perceptions और basis function regression जैसे ML models पर कैसे लागू किया जा सकता है।
> machine learning में symmetry को लागू, खोजने और बढ़ावा देने के लिए एक unified और methodological framework प्रस्तुत करता है; साथ ही यह भी चर्चा करता है कि इन विचारों को multilayer perceptions और basis function regression जैसे ml models पर कैसे लागू किया जा सकता है.
पेपर सारांश
- सममिति प्रकृति में सर्वत्र मौजूद है और physics तथा machine learning में लगातार अधिक केंद्रीय भूमिका निभा रही है। Poincar'{e} invariance जैसी मूलभूत सममितियाँ पृथ्वी की प्रयोगशालाओं में खोजे गए भौतिक नियमों को ब्रह्मांड के सबसे दूरस्थ हिस्सों तक extrapolate करने की अनुमति देती हैं। Machine learning applications में इस तरह की extrapolatory power हासिल करने के लिए symmetry अनिवार्य है। उदाहरण के लिए, image classification में translation invariance का उपयोग करने से convolutional neural networks जैसे कम parameters वाले models को छोटे datasets पर train किया जा सकता है और state-of-the-art performance हासिल की जा सकती है। इस पेपर में, हम machine learning models में symmetry को शामिल करने के लिए एकीकृत theoretical और methodological framework तीन तरीकों से प्रस्तुत करते हैं: 1. model को train करते समय ज्ञात symmetry को लागू करना, 2. दिए गए model या dataset की अज्ञात symmetries की खोज करना, 3. training के दौरान symmetry को बढ़ावा देना, इसके लिए user-specified candidate group के भीतर symmetry तोड़ने वाला model सीखना, जब data में इसके लिए पर्याप्त साक्ष्य हो। इन कार्यों को एक सामान्य mathematical framework के भीतर रखा जा सकता है, जिसका केंद्रीय object vector bundles पर fiber-linear Lie group actions से संबंधित Lie derivative है। हम यह दिखाकर कई मौजूदा परिणामों का विस्तार और एकीकरण करते हैं कि symmetry को लागू करना और उसकी खोज करना linear algebra के ऐसे कार्य हैं जो Lie derivative की bilinear structure के संदर्भ में एक-दूसरे के dual हैं। हम symmetry को बढ़ावा देने का एक नया तरीका भी प्रस्तावित करते हैं, जिसमें Lie derivative और nuclear norm relaxation पर आधारित convex regularization functions की एक class पेश की गई है, ताकि machine learning models की training के दौरान symmetry breaking को penalize किया जा सके। हम बताते हैं कि इन विचारों को basis function regression, dynamical systems discovery, multilayer perceptrons, और images जैसे spatial fields पर कार्य करने वाले neural networks सहित machine learning models की विस्तृत श्रृंखला पर कैसे लागू किया जा सकता है।
> Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, multilayer perceptrons, and neural networks acting on spatial fields such as images.
पेपर लिंक
https://arxiv.org/abs/2311.00212
और पढ़ें
https://x.com/eigensteve/status/1720115655050227911
अगली पीढ़ी का AlphaFold / Next Generation AlphaFold
पेपर परिचय
- AlphaFold के applicability range को काफी विस्तार देने वाले AlphaFold के नए iteration पर प्रगति की रिपोर्ट दी गई है, और proteins, nucleic acids, small molecules, ions, तथा modified residues सहित complexes की joint structure prediction capabilities दिखाई गई हैं, साथ ही protein-nucleic acid interactions पर specialist predictors की तुलना में अधिक accuracy प्रदर्शित की गई है।
> Reports progress on a new iteration of alphafold that greatly expands its range of applicability; shows capabilities of joint structure prediction of complexes including proteins, nucleic acids, small molecules, ions, and modified residue; demonstrates greater accuracy on protein-nucleic acid interactions than specialists predictors.
पेपर लिंक
https://storage.googleapis.com/deepmind-media/DeepMind.com/…
और पढ़ें
https://x.com/demishassabis/status/1719345831730368596
बड़े भाषा मॉडल भावनात्मक उत्तेजनाओं को समझते हैं और उनसे बेहतर बनाए जा सकते हैं / Large Language Models Understand and Can be Enhanced by Emotional Stimuli
पेपर परिचय
- Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, GPT-4 सहित विभिन्न AI का उपयोग करके 45 कार्यों पर automatic experiments किए गए, और deterministic तथा generative applications को समेटने वाले tasks पूरे किए गए, जो एक व्यापक evaluation scenario को दर्शाते हैं; experimental results से पता चलता है कि AI में emotional intelligence की समझ मौजूद है।
> Explores the ability of llms to understand emotional stimuli; conducts automatic experiments on 45 tasks using various llms, including flan-t5-large, vicuna, llama 2, bloom, chatgpt, and gpt-4; the tasks span deterministic and generative applications that represent comprehensive evaluation scenarios; experimental results show that llms have a grasp of emotional intelligence.
पेपर सारांश
- भावनात्मक बुद्धिमत्ता हमारे रोज़मर्रा के व्यवहार और पारस्परिक interactions पर बड़ा प्रभाव डालती है। बड़े भाषा मॉडल (LLM) कई तरह के कार्यों में प्रभावशाली प्रदर्शन दिखाते हैं और इन्हें artificial general intelligence की दिशा में एक महत्वपूर्ण कदम माना जाता है, लेकिन यह अब भी स्पष्ट नहीं है कि क्या LLM वास्तव में मनोवैज्ञानिक भावनात्मक stimuli को समझ सकते हैं। भावनात्मक संकेतों को समझना और उन पर प्रतिक्रिया देना समस्या-समाधान में मनुष्यों को एक स्पष्ट बढ़त देता है। इस पेपर में, लेखक artificial neural networks की भावनात्मक stimuli को समझने की क्षमता की पड़ताल करने की दिशा में पहला कदम उठाते हैं। इसके लिए पहले Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT और GPT-4 सहित विभिन्न LLM का उपयोग करके 45 कार्यों पर automated experiments किए गए। ये कार्य deterministic applications और generative applications, दोनों में फैले हैं, जो एक व्यापक evaluation scenario को दर्शाते हैं। automated experiments से पता चलता है कि LLM भावनात्मक बुद्धिमत्ता को समझते हैं, और emotional prompts (मूल prompt और भावनात्मक stimuli को मिलाकर बने "EmotionPrompt") के जरिए उनका प्रदर्शन बेहतर किया जा सकता है (जैसे Instruction Induction में 8.00% और BIG-Bench में 115% का relative performance improvement)। मौजूदा metrics का उपयोग करके स्वचालित रूप से evaluate किए जा सकने वाले deterministic tasks के अलावा, 106 प्रतिभागियों के साथ एक human study भी की गई, ताकि vanilla prompts और emotional prompts दोनों का उपयोग करके generative tasks की गुणवत्ता का आकलन किया जा सके। human study के नतीजे दिखाते हैं कि EmotionPrompt generative tasks के प्रदर्शन को काफी बढ़ाता है (प्रदर्शन, truthfulness और responsibility metrics में औसतन 10.9% सुधार)। इस लेख में गहराई से चर्चा की गई है कि EmotionPrompt LLM के लिए प्रभावी क्यों है और कौन-से कारक इसके प्रदर्शन को प्रभावित कर सकते हैं। लेखकों का मानना है कि EmotionPrompt, human-LLM interaction के लिए interdisciplinary knowledge की खोज का एक नया रास्ता खोलता है。
> Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.
पेपर लिंक
https://arxiv.org/abs/2307.11760
और पढ़ें
https://x.com/emollick/status/1720135672764285176
FP8-LM: FP8 बड़े भाषा मॉडल का प्रशिक्षण / FP8-LM: Training FP8 Large Language Models
पेपर परिचय
- FP8 LLM को train करते समय यह पाया गया कि gradients और optimizer states जैसे अधिकांश variables के लिए, LLM training में model accuracy घटाए बिना और hyper-parameters में कोई बदलाव किए बिना low-precision data formats का उपयोग किया जा सकता है।
> Finds that when training fp8 llms most variables, such as gradients and optimizer states, in llm training, can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameter.
पेपर सारांश
- इस पेपर में बड़े language models (LLM) की efficient training के लिए FP8 low-bit data formats की जांच की गई है। हमारी मुख्य समझ यह है कि LLM training में gradients और optimizer states जैसे अधिकांश variables, model accuracy को कम किए बिना और hyper-parameters में कोई बदलाव किए बिना low-precision data formats का उपयोग कर सकते हैं। खास तौर पर, Unity LLM training के लिए एक नया FP8 automatic mixed-precision framework प्रस्तावित करता है। यह framework, LLM की mixed-precision और distributed parallel training को सरल बनाने के लिए FP8 उपयोग के तीन स्तर प्रदान करता है। यह 8-bit gradients, optimizer states और distributed learning को क्रमिक तरीके से एकीकृत करता है। प्रयोगों के नतीजे दिखाते हैं कि H100 GPU platform पर GPT-175B model को train करते समय, Unity के FP8 mixed-precision training framework ने न केवल वास्तविक memory usage को 42% तक कम किया, बल्कि व्यापक रूप से अपनाए गए BF16 framework (जैसे Megatron-LM) की तुलना में 64% तेज चला और Nvidia Transformer Engine की गति से 17% आगे रहा। इसलिए, यह बड़े foundation models की training cost को काफी हद तक कम कर सकता है। इसके अलावा, Unity की FP8 mixed-precision training methodology सामान्य प्रयोजन की है। इसे LLM instruction tuning और human feedback के साथ reinforcement learning जैसे अन्य tasks पर भी आसानी से लागू किया जा सकता है, जिससे fine-tuning cost कम हो सकती है। Unity का FP8 low-precision training framework {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP} पर open source के रूप में उपलब्ध है।
> इस पेपर में, हम बड़े language models (LLMs) की efficient training के लिए FP8 low-bit data formats का अध्ययन करते हैं। हमारी मुख्य समझ यह है कि LLM training में gradients और optimizer states जैसे अधिकांश variables, model accuracy से समझौता किए बिना और hyper-parameters में किसी बदलाव की आवश्यकता के बिना low-precision data formats का उपयोग कर सकते हैं। खास तौर पर, हम LLMs की training के लिए एक नया FP8 automatic mixed-precision framework प्रस्तावित करते हैं। यह framework, LLMs के लिए mixed-precision और distributed parallel training को सरल बनाने के लिए FP8 उपयोग के तीन स्तर प्रदान करता है। यह 8-bit gradients, optimizer states और distributed learning को क्रमिक तरीके से शामिल करता है। प्रयोगों के नतीजे दिखाते हैं कि H100 GPU platform पर GPT-175B model की training के दौरान, हमारे FP8 mixed-precision training framework ने न केवल वास्तविक memory usage में उल्लेखनीय 42% की कमी हासिल की, बल्कि व्यापक रूप से अपनाए गए BF16 framework (यानी Megatron-LM) से 64% तेज चला और Nvidia Transformer Engine की गति को 17% से पार कर गया। इससे बड़े foundation models की training cost में काफी कमी आती है। इसके अलावा, हमारी FP8 mixed-precision training methodology सामान्य प्रयोजन की है। इसे LLM instruction tuning और human feedback के साथ reinforcement learning जैसे अन्य tasks पर भी बिना रुकावट लागू किया जा सकता है, जिससे fine-tuning खर्च में बचत होती है। हमारा FP8 low-precision training framework {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP} पर open-sourced है.
पेपर लिंक
https://arxiv.org/abs/2310.18313
और पढ़ें
https://x.com/arankomatsuzaki/status/1718813303223222765
मूल लेख
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-2e0
अभी कोई टिप्पणी नहीं है.