• DAIR.AI द्वारा हर हफ्ते प्रकाशित ML पेपरों पर आधारित इस लेख का स्वचालित अनुवाद किया गया है।

  • इस हफ्ते सबमिट किए गए पेपरों को देखें तो अधिकांश अगली पीढ़ी के language models (Large Language Models, LLMs) और उनके अनुप्रयोग क्षेत्रों पर केंद्रित दिखाई देते हैं। खास तौर पर "Make Your LLM Fully Utilize the Context", "Graph Machine Learning in the Era of LLMs", "Self-Evolution of LLMs" और "Naturalized Execution Tuning (NExT)" जैसे कार्य LLMs के विकास और optimization methods के साथ-साथ नए application areas पर शोध को कवर करते हैं। यह दर्शाता है कि हाल के AI क्षेत्र में LLMs का महत्व और उपयोग-क्षमता लगातार बढ़ रही है।

  • LLMs का विकास महत्वपूर्ण इसलिए है क्योंकि ये models केवल natural language processing (Natural Language Processing, NLP) ही नहीं, बल्कि कई multimodal tasks में भी उत्कृष्ट प्रदर्शन दिखाते हैं। उदाहरण के लिए, "Make Your LLM Fully Utilize the Context" नामक पेपर इस बात की पड़ताल करता है कि LLMs द्वारा दिए गए context का अधिकतम उपयोग करके अधिक सटीक जानकारी कैसे निकाली और समझी जा सकती है। वहीं, "Graph Machine Learning in the Era of LLMs" इस पर शोध प्रस्तुत करता है कि graph-based data learning को LLMs के माध्यम से कैसे बेहतर बनाया जा सकता है, जो जटिल संबंधों और patterns को समझने में बहुत सहायक है।

  • यह रुझान संकेत देता है कि AI क्षेत्र में LLMs की भूमिका केवल language understanding और generation तक सीमित नहीं है, बल्कि यह अधिक व्यापक problem solving और applications तक फैल रही है। इसे इस रूप में भी देखा जा सकता है कि शोधकर्ता AI के विभिन्न पहलुओं का अन्वेषण कर रहे हैं और विशेष रूप से ऐसे models विकसित करने का प्रयास कर रहे हैं जो मानव भाषा को और बेहतर समझ और उपयोग कर सकें। साथ ही, यह शोध प्रवृत्ति इस संभावना को भी मजबूत करती है कि आने वाले समय में विभिन्न क्षेत्रों में LLMs का उपयोग और बढ़ेगा।

[IMG] [2024/04/22 ~ 04/28] इस सप्ताह के प्रमुख ML पेपर (Top ML Papers of the Week)|1028x618


Phi-3 तकनीकी रिपोर्ट: आपके फोन पर लोकल रूप से चलने वाला अत्यंत सक्षम language model / Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

पेपर परिचय

3.3 ट्रिलियन tokens पर प्रशिक्षित नया 3.8B parameter language model phi-3-mini, Mixtral 8x7B और GPT-3.5 के साथ प्रतिस्पर्धा करता बताया गया है। इसकी default context length 4K है, लेकिन इसका 128K तक विस्तारित संस्करण (phi-mini-128K) भी शामिल है। 3.8B model को प्रशिक्षित करने के लिए अत्यधिक फ़िल्टर किए गए web data और synthetic data को मिलाया गया है, और 4.8T tokens पर प्रशिक्षित 7B तथा 14B models (phi-3-small और phi-3-medium) के परिणाम भी रिपोर्ट किए गए हैं।

A new 3.8B parameter language model called phi-3-mini trained on 3.3 trillion tokens and is reported to rival Mixtral 8x7B and GPT-3.5; has a default context length of 4K but also includes a version that is extended to 128K (phi-mini-128K); combines heavily filtered web data and synthetic data to train the 3.8B models; it also reports results on 7B and 14B models trained on 4.8T tokens (phi-3-small and phi-3-medium).

पेपर सारांश (Abstract)

हम phi-3-mini प्रस्तुत करते हैं, जो 3.3 ट्रिलियन tokens पर प्रशिक्षित 3.8 बिलियन parameter वाला language model है। अकादमिक benchmarks और internal testing दोनों से मापा गया इसका समग्र प्रदर्शन, फोन पर deploy किए जा सकने जितना छोटा होने के बावजूद, Mixtral 8x7B और GPT-3.5 जैसे models के बराबर है (उदाहरण के लिए, phi-3-mini ने MMLU पर 69% और MT-bench पर 8.38 प्राप्त किया)। यह नवाचार पूरी तरह हमारे training dataset में निहित है, जो phi-2 में उपयोग किए गए dataset का एक scaled-up version है और अत्यधिक फ़िल्टर किए गए web data तथा synthetic data से बना है। इस model को robustness, safety और chat format के लिए भी आगे align किया गया है। हम 4.8T tokens पर प्रशिक्षित 7B और 14B models के साथ parameter scaling के कुछ शुरुआती परिणाम भी प्रस्तुत करते हैं, जिन्हें phi-3-small और phi-3-medium कहा गया है; दोनों ही phi-3-mini की तुलना में काफी अधिक सक्षम हैं (उदाहरण के लिए, MMLU पर क्रमशः 75% और 78%, तथा MT-bench पर 8.7 और 8.9)।

We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench).

पेपर लिंक

https://arxiv.org/abs/2404.14219

आगे पढ़ें

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1782780923806699716


OpenELM: open source training और inference framework के साथ एक efficient language model family / OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

पेपर परिचय

यह एक नया open language model है जो layer-wise scaling strategy का उपयोग करके parameters को कुशलतापूर्वक allocate करता है, जिससे efficiency और accuracy दोनों में सुधार होता है। यह 270M, 450M, 1.1B और 3B जैसे विभिन्न आकारों में उपलब्ध है, और OLMo की तुलना में 2× कम pre-training tokens की आवश्यकता के साथ 2.36% बेहतर accuracy हासिल करता है।

A new open language model that employs a layer-wise scaling strategy to efficiently allocate parameters and leading to better efficiency and accuracy; comes with different sizes such as 270M, 450M, 1.1B, and 3B; achieves a 2.36% improvement in accuracy compared to OLMo while requiring 2× fewer pre-training tokens.

पेपर सारांश (Abstract)

बड़े language models की reproducibility और transparency ओपन रिसर्च को आगे बढ़ाने, नतीजों की विश्वसनीयता सुनिश्चित करने, और डेटा व मॉडल bias तथा संभावित जोखिमों की जांच को संभव बनाने के लिए बेहद महत्वपूर्ण हैं। इसी उद्देश्य से हम नवीनतम open language model OpenELM जारी कर रहे हैं। OpenELM layer-wise scaling strategy का उपयोग करता है, जो transformer model की प्रत्येक layer के भीतर parameters को कुशलतापूर्वक आवंटित करके accuracy में सुधार करता है। उदाहरण के लिए, लगभग 1 billion parameters के budget पर OpenELM, OLMo की तुलना में accuracy में 2.36% सुधार दिखाता है, जबकि इसे pre-training tokens $2\times$ कम चाहिए। पहले की उन प्रथाओं से अलग, जिनमें केवल model weights और inference code दिए जाते थे और private datasets पर pre-training की जाती थी, इस release में publicly available datasets पर language model की training और evaluation के लिए पूरा framework शामिल है, जिसमें training logs, multiple checkpoints, और pre-training configurations भी शामिल हैं। हम Apple devices पर inference और fine-tuning के लिए models को MLX library में convert करने वाला code भी जारी कर रहे हैं। यह व्यापक release open research community को सशक्त और मजबूत बनाने, और भविष्य के open research प्रयासों के लिए आधार तैयार करने का लक्ष्य रखता है। pre-trained model weights और training recipes के साथ source code \url{https://github.com/apple/corenet} पर उपलब्ध है। इसके अलावा, models HuggingFace पर यहाँ मिल सकते हैं: \url{https://huggingface.co/apple/OpenELM}.

बड़े language models की reproducibility और transparency ओपन रिसर्च को आगे बढ़ाने, नतीजों की विश्वसनीयता सुनिश्चित करने, और डेटा व मॉडल bias तथा संभावित जोखिमों की जांच को संभव बनाने के लिए बेहद महत्वपूर्ण हैं। इसी उद्देश्य से हम state-of-the-art open language model OpenELM जारी कर रहे हैं। OpenELM layer-wise scaling strategy का उपयोग करता है, जो transformer model की प्रत्येक layer के भीतर parameters को कुशलतापूर्वक आवंटित करके accuracy में सुधार करता है। उदाहरण के लिए, लगभग एक billion parameters के budget पर OpenELM, OLMo की तुलना में accuracy में 2.36% सुधार दिखाता है, जबकि इसे pre-training tokens $2\times$ कम चाहिए। पहले की उन प्रथाओं से अलग, जिनमें केवल model weights और inference code दिए जाते थे, और private datasets पर pre-train किया जाता था, हमारे इस release में publicly available datasets पर language model की training और evaluation के लिए complete framework शामिल है, जिसमें training logs, multiple checkpoints, और pre-training configurations शामिल हैं। हम Apple devices पर inference और fine-tuning के लिए models को MLX library में convert करने वाला code भी जारी कर रहे हैं। यह व्यापक release open research community को सशक्त और मजबूत बनाने, और भविष्य के open research प्रयासों के लिए रास्ता तैयार करने का लक्ष्य रखता है। हमारा source code, pre-trained model weights और training recipes के साथ, \url{https://github.com/apple/corenet} पर उपलब्ध है। इसके अलावा, \model models HuggingFace पर यहाँ मिल सकते हैं: \url{https://huggingface.co/apple/OpenELM}.

पेपर लिंक

https://arxiv.org/abs/2404.14619

आगे पढ़ें

https://discuss.pytorch.kr/t/apple-270m-3b-openelm/4204

https://github.com/apple/corenet

https://huggingface.co/apple/OpenELM

https://x.com/rasbt/status/1783480053847736713


Snowflake Arctic

पेपर परिचय

यह एक open source LLM (Apache 2.0 license) है, जो एक अनोखी Dense-MoE hybrid transformer architecture का उपयोग करता है। दावा किया गया है कि coding (HumanEval+ और MBPP+), SQL (Spider), और instruction following (IFEval) जैसे enterprise metrics में इसका प्रदर्शन Llama3 70B के बराबर है, जबकि यह Llama3 70B की तुलना में 17 गुना कम compute budget का उपयोग करता है। training compute लगभग $2 million से कम (3K GPU weeks से कम) बताया गया है।

एक open-source LLM (Apache 2.0 license.) जो एक अनोखी Dense-MoE Hybrid transformer architecture का उपयोग करता है; coding (HumanEval+ & MBPP+), SQL (Spider) और instruction following (IFEval) जैसे enterprise metrics में Llama3 70B के बराबर प्रदर्शन करता है; दावा है कि यह Llama 3 70B की तुलना में 17x कम compute budget का उपयोग करता है; training compute लगभग $2 million से कम (3K GPU weeks से कम) है।

पेपर लिंक

https://snowflake.com/blog/…

आगे पढ़ें

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1783176059694821632


कॉन्टेक्स्ट का पूरा उपयोग करने वाला LLM बनाना / Make Your LLM Fully Utilize the Context

पेपर परिचय

यह LLMs में आम lost-in-the-middle समस्या को दूर करने के लिए एक approach प्रस्तुत करता है। इसमें Mistral-7B पर एक स्पष्ट 'information-intensive' training procedure लागू किया जाता है, ताकि LLM context का पूरा उपयोग कर सके। यह मॉडल 1) synthetic long context (4K-32K tokens) के भीतर short segments (∼128 tokens) पर fine-grained information awareness, और 2) दो या अधिक short segments की जानकारी को integrate करके reasoning करने की आवश्यकता वाले synthetic dataset का उपयोग करता है। परिणामस्वरूप बना मॉडल FILM-7B (Fill-in-the-Middle) यह दिखाता है कि वह 32K context window में अलग-अलग स्थानों से जानकारी को मजबूती से retrieve कर सकता है।

LLMs में आम lost-in-the-middle चुनौती को दूर करने के लिए एक approach प्रस्तुत करता है। यह Mistral-7B पर एक स्पष्ट "information-intensive" training procedure लागू करता है, ताकि LLM context का पूरी तरह उपयोग कर सके। यह एक synthetic dataset का उपयोग करता है, जहाँ उत्तर के लिए 1) synthesized long context (4K−32K tokens) के भीतर एक short segment (∼128 tokens) पर fine-grained information awareness, और 2) दो या अधिक short segments की जानकारी के integration और reasoning की आवश्यकता होती है। परिणामस्वरूप बना मॉडल, FILM-7B (Fill-in-the-Middle), यह दिखाता है कि वह अपने 32K context window में अलग-अलग स्थानों से जानकारी को मजबूती से retrieve कर सकता है।

पेपर सार (Abstract)

आज के कई बड़े language models (LLMs) लंबे input को प्रोसेस कर सकते हैं, लेकिन वे अभी भी लंबे context के भीतर मौजूद जानकारी का पूरी तरह उपयोग करने में संघर्ष करते हैं; इसे lost-in-the-middle समस्या कहा जाता है। हमारा अनुमान है कि यह समस्या long-context training के दौरान पर्याप्त explicit supervision न होने से पैदा होती है, जिससे इस बात पर ज़ोर नहीं दिया जा पाता कि लंबे context में किसी भी position पर महत्वपूर्ण जानकारी हो सकती है। इसी समझ के आधार पर, इस अध्ययन में हम lost-in-the-middle समस्या को दूर करने के लिए एक पूरी तरह data-driven समाधान, information-intensive (IN2) training, प्रस्तुत करते हैं। विशेष रूप से, IN2 training एक synthesized long-context question-answer dataset का उपयोग करती है, जहाँ उत्तर निकालने के लिए (1) synthesized long context (4K-32K tokens) के भीतर छोटे segments (~128 tokens) पर fine-grained information awareness और (2) दो या अधिक छोटे segments से जानकारी को जोड़कर reasoning करना आवश्यक है। इस information-intensive training को Mistral-7B पर लागू करके हम FILM-7B (FILl-in-the-Middle) प्रस्तुत करते हैं। लंबे context का उपयोग करने में FILM-7B की क्षमता का गहराई से मूल्यांकन करने के लिए हमने तीन probing tasks डिज़ाइन किए, जो विभिन्न context styles (document, code, structured-data context) और information retrieval patterns (forward, backward, bi-directional retrieval) को कवर करते हैं। probing results दिखाते हैं कि FILM-7B अपने 32K context window में अलग-अलग positions से जानकारी को स्थिर रूप से retrieve कर सकता है। इन probing tasks के अलावा, FILM-7B वास्तविक long-context tasks पर प्रदर्शन में उल्लेखनीय सुधार दिखाता है (उदाहरण: NarrativeQA में F1 score 23.5->26.9), जबकि short-context tasks पर लगभग समान प्रदर्शन बनाए रखता है (उदाहरण: MMLU में accuracy 59.3->59.2)। GitHub लिंक: https://github.com/microsoft/FILM.

हालांकि आज के कई बड़े language models (LLMs) लंबे input को प्रोसेस कर सकते हैं, वे अभी भी लंबे context के भीतर की जानकारी का पूरी तरह उपयोग करने में संघर्ष करते हैं, जिसे lost-in-the-middle challenge कहा जाता है। हमारा अनुमान है कि इसकी वजह long-context training के दौरान अपर्याप्त explicit supervision है, जो इस बात पर पर्याप्त ज़ोर नहीं देता कि लंबे context में कोई भी position महत्वपूर्ण जानकारी रख सकती है। इसी समझ के आधार पर, हमारा अध्ययन information-intensive (IN2) training प्रस्तुत करता है, जो lost-in-the-middle समस्या को दूर करने के लिए एक पूरी तरह data-driven समाधान है। विशेष रूप से, IN2 training एक synthesized long-context question-answer dataset का उपयोग करती है, जहाँ उत्तर के लिए (1) synthesized long context (4K-32K tokens) के भीतर एक छोटे segment (~128 tokens) पर fine-grained information awareness, और (2) दो या अधिक छोटे segments से जानकारी का integration और reasoning आवश्यक है। Mistral-7B पर इस information-intensive training को लागू करके हम FILM-7B (FILl-in-the-Middle) प्रस्तुत करते हैं। लंबे contexts के उपयोग में FILM-7B की क्षमता का गहराई से आकलन करने के लिए हमने तीन probing tasks डिज़ाइन किए हैं, जो विभिन्न context styles (document, code, और structured-data context) तथा information retrieval patterns (forward, backward, और bi-directional retrieval) को समाहित करते हैं। probing results दिखाते हैं कि FILM-7B अपने 32K context window में अलग-अलग positions से जानकारी को मज़बूती से retrieve कर सकता है। इन probing tasks से आगे, FILM-7B वास्तविक long-context tasks पर प्रदर्शन को उल्लेखनीय रूप से बेहतर बनाता है (उदाहरण के लिए, NarrativeQA पर 23.5->26.9 F1 score), जबकि short-context tasks पर तुलनीय प्रदर्शन बनाए रखता है (उदाहरण के लिए, MMLU पर 59.3->59.2 accuracy)। Github Link: https://github.com/microsoft/FILM.

शोध-पत्र लिंक

https://arxiv.org/abs/2404.16811

आगे पढ़ें

https://github.com/microsoft/FILM

https://x.com/omarsar0/status/1783905514578980949


FineWeb

शोध-पत्र परिचय

language models के प्रशिक्षण के लिए 15 ट्रिलियन tokens वाला एक बड़े पैमाने का web dataset; 2013 से 2024 के बीच CommonCrawl को filter और deduplicate करके डेटा की गुणवत्ता में सुधार करना इसका लक्ष्य है.

language models के प्रशिक्षण के लिए 15 ट्रिलियन tokens वाला एक बड़े पैमाने का web dataset; यह 2013 से 2024 के बीच CommonCrawl को filter और deduplicate करता है और इसका लक्ष्य डेटा की गुणवत्ता को बेहतर बनाना है।

शोध-पत्र लिंक

https://huggingface.co/datasets/HuggingFaceFW/fineweb

आगे पढ़ें

https://x.com/gui_penedo/status/1781953413938557276


AI-आधारित gene editors / AI-powered Gene Editors

शोध-पत्र परिचय

एक AI system, जो बड़े पैमाने की जैविक विविधता पर प्रशिक्षित LLM द्वारा संचालित है, programmable gene editor design के जरिए human genome की precision editing हासिल करता है।

बड़े पैमाने की जैविक विविधता पर प्रशिक्षित LLM द्वारा संचालित AI system के साथ programmable gene editor design का उपयोग कर मानव genome की precision editing हासिल करता है।

शोध-पत्र लिंक

https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1

आगे पढ़ें

https://x.com/thisismadani/status/1782510590839406904


AutoCrawler: web crawler generation के लिए एक progressive understanding web agent / AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

शोध-पत्र परिचय

crawlers को विविध और लगातार बदलते web environments को अधिक कुशलता से संभालने में मदद करने के लिए यह LLMs और crawlers को जोड़ता है; web crawler agent HTML की hierarchical structure का उपयोग progressive understanding के लिए करता है, top-down और step-back operations अपनाता है, और DOM tree structure का उपयोग करके एक complete और executable crawler तैयार करता है।

LLMs और crawlers को इस लक्ष्य के साथ जोड़ता है कि crawlers विविध और बदलते web environments को अधिक कुशलता से संभाल सकें; web crawler agent progressive understanding के लिए HTML की hierarchical structure का उपयोग करता है; top-down और step-back operations अपनाता है, और DOM tree structure का उपयोग करके एक complete और executable crawler बनाता है।

शोध-पत्र सार(Abstract)

वेब automation एक महत्वपूर्ण तकनीक है, जो सामान्य वेब कार्यों को automate करके, operational efficiency बढ़ाकर, और manual intervention की आवश्यकता कम करके जटिल वेब कार्यों को पूरा करती है। wrappers जैसे पारंपरिक तरीकों में नई वेबसाइट का सामना करने पर adaptability और scalability की सीमाएँ होती हैं। दूसरी ओर, बड़े language models (LLM) से संचालित generative agents open-world scenarios में कमज़ोर performance और reusability दिखाते हैं। इस अध्ययन में vertical information web pages के लिए crawler generation task और LLMs तथा crawlers को जोड़ने वाला एक paradigm पेश किया गया है, जो crawlers को विविध और लगातार बदलते वेब environments को अधिक कुशलता से संभालने में मदद करता है। हम AutoCrawler प्रस्तावित करते हैं, जो HTML की hierarchical structure का उपयोग progressive understanding के लिए करने वाला two-stage framework है। top-down और step-back operations के माध्यम से AutoCrawler गलत actions से सीख सकता है और बेहतर action generation के लिए HTML को लगातार prune कर सकता है। कई LLMs के साथ व्यापक experiments करके हमने इस framework की effectiveness प्रदर्शित की है। इस पेपर के resources \url{https://github.com/EZ-hwh/AutoCrawler} पर उपलब्ध हैं।

Web automation एक महत्वपूर्ण तकनीक है, जो सामान्य वेब actions को automate करके, operational efficiency बढ़ाकर, और manual intervention की आवश्यकता कम करके जटिल वेब कार्यों को पूरा करती है। wrappers जैसे पारंपरिक तरीके नई वेबसाइट का सामना करने पर सीमित adaptability और scalability से जूझते हैं। दूसरी ओर, बड़े language models (LLMs) से सशक्त generative agents open-world scenarios में कमज़ोर performance और reusability दिखाते हैं। इस कार्य में हम vertical information web pages के लिए एक crawler generation task और LLMs को crawlers के साथ जोड़ने वाला paradigm पेश करते हैं, जो crawlers को विविध और बदलते वेब environments को अधिक कुशलता से संभालने में मदद करता है। हम AutoCrawler प्रस्तावित करते हैं, जो HTML की hierarchical structure का उपयोग progressive understanding के लिए करने वाला two-stage framework है। top-down और step-back operations के माध्यम से AutoCrawler गलत actions से सीख सकता है और बेहतर action generation के लिए HTML को लगातार prune कर सकता है। हम कई LLMs के साथ व्यापक experiments करते हैं और अपने framework की effectiveness प्रदर्शित करते हैं। इस पेपर के resources \url{https://github.com/EZ-hwh/AutoCrawler} पर उपलब्ध हैं।

पेपर लिंक

https://arxiv.org/abs/2404.12753

आगे पढ़ें

https://github.com/EZ-hwh/AutoCrawler

https://x.com/omarsar0/status/1782462314983071757


बड़े भाषा मॉडल (LLM) के युग में ग्राफ मशीन लर्निंग / Graph Machine Learning in the Era of Large Language Models (LLMs)

पेपर परिचय

यह LLM युग में Graph ML के नवीनतम विकास का व्यापक अवलोकन प्रस्तुत करता है, जिसमें Graph ML में हालिया प्रगति, LLM ग्राफ features को कैसे बेहतर बना सकता है, और OOD तथा graph heterogeneity जैसी समस्याओं को कैसे संबोधित किया जा सकता है, शामिल हैं।

LLMs के युग में Graph ML के नवीनतम advancements का एक comprehensive overview प्रदान करता है; इसमें Graph ML में हालिया developments, LLM graph features को कैसे enhance कर सकता है, और OOD तथा graph heterogeneity जैसी समस्याओं को कैसे address कर सकता है, शामिल हैं।

पेपर सारांश (Abstract)

ग्राफ social networks, knowledge graphs, और molecular discovery जैसे विभिन्न डोमेन्स में जटिल संबंधों को दर्शाने में महत्वपूर्ण भूमिका निभाते हैं। Deep learning के आगमन के साथ Graph Neural Networks (GNNs), Graph Machine Learning (Graph ML) की आधारशिला के रूप में उभरे हैं, जो graph structures के representation और processing को आसान बनाते हैं। हाल के वर्षों में LLMs ने language tasks में अभूतपूर्व क्षमताएँ दिखाई हैं और computer vision तथा recommender systems जैसे विभिन्न applications में व्यापक रूप से अपनाए जा रहे हैं। इस उल्लेखनीय सफलता ने graph domain में LLMs को लागू करने को लेकर भी रुचि बढ़ाई है। Graph ML की generalization, transferability, और few-shot learning क्षमता को आगे बढ़ाने में LLMs की संभावनाओं को तलाशने के प्रयास लगातार बढ़ रहे हैं। दूसरी ओर, graphs, खासकर knowledge graphs, विश्वसनीय factual knowledge से समृद्ध होते हैं, इसलिए इन्हें LLMs की reasoning क्षमता बढ़ाने और hallucinations या explainability की कमी जैसी सीमाओं को कम करने के लिए इस्तेमाल किया जा सकता है। इस शोध दिशा में तेज़ प्रगति को देखते हुए, शोधकर्ताओं और practitioners को गहरी समझ देने के लिए LLM युग में Graph ML की नवीनतम प्रगति को समेटने वाली एक व्यवस्थित समीक्षा की आवश्यकता है। इसलिए इस survey में पहले Graph ML के हालिया विकास की समीक्षा की गई है। इसके बाद यह देखा गया है कि graph features की गुणवत्ता बेहतर करने, labeled data पर निर्भरता कम करने, और graph heterogeneity तथा out-of-distribution (OOD) generalization जैसी चुनौतियों से निपटने के लिए LLMs का उपयोग कैसे किया जा सकता है। फिर यह चर्चा की गई है कि graphs, LLMs को कैसे बेहतर बना सकते हैं, विशेष रूप से LLM pre-training और inference को मजबूत करने की उनकी क्षमता पर प्रकाश डालते हुए। साथ ही, विभिन्न applications का अध्ययन किया गया है और इस promising क्षेत्र की संभावित future directions पर चर्चा की गई है।

Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecular discovery. With the advent of deep learning, Graph Neural Networks (GNNs) have emerged as a cornerstone in Graph Machine Learning (Graph ML), facilitating the representation and processing of graph structures. Recently, LLMs have demonstrated unprecedented capabilities in language tasks and are widely adopted in a variety of applications such as computer vision and recommender systems. This remarkable success has also attracted interest in applying LLMs to the graph domain. Increasing efforts have been made to explore the potential of LLMs in advancing Graph ML's generalization, transferability, and few-shot learning ability. Meanwhile, graphs, especially knowledge graphs, are rich in reliable factual knowledge, which can be utilized to enhance the reasoning capabilities of LLMs and potentially alleviate their limitations such as hallucinations and the lack of explainability. Given the rapid progress of this research direction, a systematic review summarizing the latest advancements for Graph ML in the era of LLMs is necessary to provide an in-depth understanding to researchers and practitioners. Therefore, in this survey, we first review the recent developments in Graph ML. We then explore how LLMs can be utilized to enhance the quality of graph features, alleviate the reliance on labeled data, and address challenges such as graph heterogeneity and out-of-distribution (OOD) generalization. Afterward, we delve into how graphs can enhance LLMs, highlighting their abilities to enhance LLM pre-training and inference. Furthermore, we investigate various applications and discuss the potential future directions in this promising field.

पेपर लिंक

https://arxiv.org/abs/2404.14928

आगे पढ़ें

https://x.com/omarsar0/status/1783171591020392886


बड़े भाषा मॉडलों के self-evolution पर सर्वे / A Survey on Self-Evolution of Large Language Models

पेपर परिचय

LLM के self-evolution approaches पर एक व्यापक सर्वे प्रस्तुत करता है।

Provides a comprehensive survey on self-evolution approaches in LLMs.

पेपर सारांश(Abstract)

Large language models (LLM) ने विभिन्न क्षेत्रों और intelligent agent applications में उल्लेखनीय प्रगति की है। हालांकि, वर्तमान LLM जो मानव या बाहरी मॉडल की supervision से सीखते हैं, महंगे हैं और task की जटिलता तथा विविधता बढ़ने पर performance ceiling का सामना कर सकते हैं। इस समस्या को हल करने के लिए self-evolution approaches तेज़ी से उभर रहे हैं, जो LLM को स्वयं मॉडल द्वारा उत्पन्न अनुभवों को स्वायत्त रूप से हासिल करने, परिष्कृत करने और उनसे सीखने में सक्षम बनाते हैं। मानव के experiential learning process से प्रेरित यह नया training paradigm, LLM को superintelligence की दिशा में scale करने की क्षमता रखता है। इस लेख में हम LLM के self-evolution approaches का एक व्यापक survey प्रस्तुत करते हैं। सबसे पहले, हम self-evolution के लिए एक conceptual framework प्रस्तावित करते हैं और evolving process को चार चरणों—experience acquisition, experience refinement, updating, और evaluation—से बने iterative cycles के रूप में रेखांकित करते हैं। दूसरे, हम LLM और LLM-based agents के evolution objectives को वर्गीकृत करते हैं; फिर साहित्य का सार प्रस्तुत करते हैं और प्रत्येक module के लिए taxonomy तथा insights प्रदान करते हैं। अंत में, हम मौजूदा चुनौतियों की सटीक पहचान करते हैं और self-evolution frameworks को बेहतर बनाने के लिए future directions प्रस्तावित करते हैं, जिससे शोधकर्ताओं को self-evolving LLMs के विकास को तेज़ करने के लिए महत्वपूर्ण insights मिल सकें।

Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs.

पेपर लिंक

https://arxiv.org/abs/2404.14387

और पढ़ें

https://x.com/omarsar0/status/1782777977526231440


NExT: बड़े भाषा मॉडल्स को code execution के बारे में reasoning सिखाना / NExT: Teaching Large Language Models to Reason about Code Execution

पेपर परिचय

यह LLM को इस क्षमता के साथ train करता है कि वह programs के execution traces का निरीक्षण कर सके और synthetic chain-of-thought के माध्यम से run-time behavior पर reasoning कर सके; इससे MBPP और Human पर PaLM 2 मॉडल की fix rate में 26.1% और 14.3% सुधार होता है, और यह भी दिखाया गया है कि मॉडल अज्ञात scenarios पर भी generalize कर सकता है।

Trains an LLM to have the ability to inspect the execution traced of programs and reason about run-time behavior via synthetic chain-of-thought rationales; improves the fix rate of a PaLM 2 model on MBPP and Human by 26.1% and 14.3%; the model also shows that it can generalize to unknown scenarios.

पेपर सारांश(Abstract)

मानव developers की एक बुनियादी क्षमता है program execution को समझना और उस पर reasoning करना। उदाहरण के लिए, एक programmer प्राकृतिक भाषा में code execution को मानसिक रूप से simulate करके code को debug और repair कर सकता है (जिसे rubber duck debugging भी कहा जाता है)। लेकिन code के लिए बड़े language models (LLMs) आमतौर पर programs के सतही textual form पर train किए जाते हैं, इसलिए उनमें इस बात की semantic understanding की कमी हो सकती है कि run-time पर program कैसे execute होता है। इस समस्या के समाधान के लिए हम NExT प्रस्तावित करते हैं, जो LLMs को programs के execution traces (execute हुई lines की variable states) का निरीक्षण करना और chain-of-thought (CoT) rationales के माध्यम से उनके run-time behavior पर reasoning करना सिखाने की एक विधि है। विशेष रूप से, NExT self-training का उपयोग करके execution-aware rationales का एक synthetic training set bootstrap करता है, जो कठिन manual annotation के बिना सही task solutions (जैसे fixed programs) तक ले जाता है। MBPP और HumanEval पर आधारित program repair tasks के experiments दिखाते हैं कि NExT, PaLM 2 मॉडल की fix rate को क्रमशः 26.1% और 14.3% absolute तक बेहतर बनाता है, और automated metrics तथा human raters द्वारा सत्यापित रूप से rationale quality में भी महत्वपूर्ण सुधार लाता है। हमारा मॉडल उन scenarios में भी generalize कर सकता है जहाँ test-time पर program traces मौजूद नहीं होते।

A fundamental skill among human developers is the ability to understand and reason about program execution. As an example, a programmer can mentally simulate code execution in natural language to debug and repair code (aka. rubber duck debugging). However, large language models (LLMs) of code are typically trained on the surface textual form of programs, thus may lack a semantic understanding of how programs execute at run-time. To address this issue, we propose NExT, a method to teach LLMs to inspect the execution traces of programs (variable states of executed lines) and reason about their run-time behavior through chain-of-thought (CoT) rationales. Specifically, NExT uses self-training to bootstrap a synthetic training set of execution-aware rationales that lead to correct task solutions (e.g., fixed programs) without laborious manual annotation. Experiments on program repair tasks based on MBPP and HumanEval demonstrate that NExT improves the fix rate of a PaLM 2 model, by 26.1% and 14.3% absolute, respectively, with significantly improved rationale quality as verified by automated metrics and human raters. Our model can also generalize to scenarios where program traces are absent at test-time.

पेपर लिंक

https://arxiv.org/abs/2404.14662

और पढ़ें

https://x.com/AnsongNi/status/1783311827390070941


मूल लेख

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b1c


यह लेख GPT मॉडल की मदद से संक्षेपित किया गया है, इसलिए इसमें कुछ गलतियां हो सकती हैं। कृपया नीचे दिए गए मूल लेख को भी साथ में देखें! पढ़ते समय यदि आपको कोई अटपटी या गलत सामग्री मिले, तो कृपया कमेंट में बताएं।

⚠️विज्ञापन⚠️: क्या PyTorch Korean User Group द्वारा संकलित यह लेख आपको उपयोगी लगा? सदस्य के रूप में जुड़ें, तो हम प्रमुख लेख आपको ईमेल से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly है, लेकिन Daily में भी बदला जा सकता है।)

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.