अवलोकन

  • हमने DAIR.AI द्वारा हर सप्ताह प्रकाशित की जाने वाली ML शोध-पत्रों से संबंधित पोस्टों का स्वचालित अनुवाद किया है।

  • इस हफ्ते चुने गए पेपर प्राकृतिक भाषा प्रसंस्करण, डीप न्यूरल नेटवर्क और रिइंफोर्समेंट लर्निंग के नवीनतम शोध ट्रेंड्स को दर्शाते हैं। साथ ही, इस हफ्ते प्राकृतिक भाषा प्रसंस्करण (NLP) से जुड़े तकनीकी शोध भी विशेष रूप से ध्यान आकर्षित कर रहे हैं। इसके अलावा, "World Model" और "neural network trainability" जैसे शब्द शायद रिइंफोर्समेंट लर्निंग या डीप न्यूरल नेटवर्क के सैद्धांतिक पहलुओं से जुड़े दिखते हैं।

  • हाल के समय में AI क्षेत्र में बड़े भाषा मॉडलों की प्रगति के प्रति बहुत रुचि देखी गई है। GPT-3 जैसे मॉडल ने विभिन्न भाषा-आधारित कार्यों में बेहद प्रभावशाली परिणाम दिखाने के बाद NLP तकनीक सैद्धांतिक शोध और व्यावहारिक उपयोग दोनों में एक प्रमुख विषय बन गई है। Large Language Model का उपयोग translation, summarization, question answering, generative writing जैसे कई NLP tasks में किया जा सकता है, और इन मॉडलों को समझने तथा बेहतर बनाने पर शोध काफी सक्रिय है।

  • इसी तरह, "neural network trainability" और "World Model" जैसी अवधारणाएँ संकेत देती हैं कि डीप न्यूरल नेटवर्क को अधिक प्रभावी तरीके से train करने और अधिक जटिल environments को मॉडल करने वाली नई तकनीकों पर काम चल रहा है। रिइंफोर्समेंट लर्निंग में भी यह फोकस है कि बेहतर environment model के जरिए एजेंट्स को अधिक कठिन समस्याओं को हल करने की क्षमता मिले, जो आधुनिक AI शोध में भी एक महत्वपूर्ण ट्रेंड है।

  • यह लेख GPT मॉडल के आधार पर तैयार किया गया है, इसलिए इसमें त्रुटियाँ हो सकती हैं; इसलिए नीचे दिए गए मूल टेक्स्ट को भी साथ में देखें। अगर पढ़ते समय कोई असहज या गलत हिस्सा दिखे तो कृपया टिप्पणी में जरूर बता दें।


OpenAI की Sora

पेपर परिचय

  • टेक्स्ट निर्देश दिए जाने पर यह एक text-to-video AI मॉडल है जो टेक्स्ट निर्देशों के आधार पर अधिकतम एक मिनट की लंबी वास्तविक और कल्पनाशील दृश्य वाली वीडियो बना सकता है; इसमें कई characters, अलग-अलग motion types और backgrounds वाला जटिल दृश्य तैयार करने और उनके आपसी संबंध समझने की क्षमता है। इसमें अन्य क्षमताएँ भी हैं, जैसे single video के अंदर multiple shots बनाते समय characters और visual style को स्थिर बनाए रखना।

    A text-to-video ai model that can create videos of up to a minute of realistic and imaginative scenes given text instructions; it can generate complex scenes with multiple characters, different motion types, and backgrounds, and understand how they relate to each other; other capabilities include creating multiple shots within a single video with persistence across characters and visual style.

पेपर लिंक

https://openai.com/research/…

और पढ़ें

https://discuss.pytorch.kr/t/gn-openai-sora-ai/3519

https://x.com/OpenAI/status/1758192957386342435


Gemini 1.5 / Gemini 1.5

पेपर परिचय

  • लंबी-फॉर्म सामग्री को recall और reasoning करने जैसी क्षमताओं पर केंद्रित, compute-efficient multimodal mixture-of-experts मॉडल, जो घंटे-भर वीडियो और ऑडियो सहित संभावित रूप से लाखों tokens वाले लंबी दस्तावेज़ों पर reasoning कर सकता है; यह लंबी-दस्तावेज़ QA, लंबी वीडियो QA और लंबे संदर्भ ASR में state-of-the-art प्रदर्शन बेहतर बनाता है। Gemini 1.5 pro मानक benchmarks पर Gemini 1.0 ultra के बराबर या उससे बेहतर प्रदर्शन दिखाता है और अन्य long-context LLMs की तुलना में कम से कम 10 million tokens तक लगभग पूर्ण retrieval (>99%) हासिल करता है, जो एक बड़ा सुधार है।

    A compute-efficient multimodal mixture-of-experts model that focuses on capabilities such as recalling and reasoning over long-form content; it can reason over long documents potentially containing millions of tokens, including hours of video and audio; improves the state-of-the-art performance in long-document qa, long-video qa, and long-context asr. gemini 1.5 pro matches or outperforms gemini 1.0 ultra across standard benchmarks and achieves near-perfect retrieval (>99%) up to at least 10 million tokens, a significant advancement compared to other long-context llms.

पेपर लिंक

https://storage.googleapis.com/deepmind-media/gemini/…

और पढ़ें

https://discuss.pytorch.kr/t/gn-gemini-1-5/3518

https://x.com/omarsar0/status/1758151923612483839


V-JEPA

पेपर परिचय

  • 2 million वीडियो पर feature prediction objective से प्रशिक्षित vision मॉडलों का संग्रह, जो self-supervised learning पर निर्भर करता है और pretrained image encoders, text, negative examples, reconstruction या अन्य supervision sources का उपयोग नहीं करता; यह दावा करता है कि बिना मॉडल के parameters बदले ही motion और appearance दोनों प्रकार के tasks पर अच्छे परिणाम देने वाली बहुउद्देशीय visual representations हासिल की जा सकती हैं।

    A collection of vision models trained on a feature prediction objective using 2 million videos; relies on self-supervised learning and doesn’t use pretrained image encoders, text, negative examples, reconstruction, or other supervision sources; claims to achieve versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters.

शोध सार (Abstract)

इस शोध पत्र में वीडियो से unsupervised learning के लिए फीचर प्रेडिक्शन को एक standalone objective के रूप में explore किया गया है और V-JEPA को प्रस्तुत किया गया है, जो केवल फीचर प्रेडिक्शन objective का उपयोग करके train किए गए vision मॉडलों का संग्रह है, बिना किसी pretrained image encoder, text, negative उदाहरण, reconstruction या अन्य supervision स्रोत के। यह मॉडल सार्वजनिक datasets से एकत्रित 2 million वीडियो पर train किए गए हैं और downstream image तथा video tasks पर evaluate किए गए हैं। परिणाम दर्शाते हैं कि वीडियो फीचर्स की prediction से सीखने पर, मॉडल के parameters को बदलें बिना ही motion और appearance-based दोनों प्रकार की tasks पर अच्छे परिणाम देने वाली versatile visual representations प्राप्त हो सकती हैं। उदाहरण के लिए, केवल वीडियो पर प्रशिक्षित हमारा सबसे बड़ा मॉडल ViT-H/16, frozen backbone के साथ, Kinetics-400 पर 81.9%, Something-Something-v2 पर 72.2% और ImageNet1K पर 77.9% accuracy देता है।

This paper explores feature prediction as a stand-alone objective for unsupervised learning from video and introduces V-JEPA, a collection of vision models trained solely using a feature prediction objective, without the use of pretrained image encoders, text, negative examples, reconstruction, or other sources of supervision. The models are trained on 2 million videos collected from public datasets and are evaluated on downstream image and video tasks. Our results show that learning by predicting video features leads to versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters; e.g., using a frozen backbone, our largest model, a ViT-H/16 trained only on videos, obtains 81.9% on Kinetics-400, 72.2% on Something-Something-v2, and 77.9% on ImageNet1K.

शोध पत्र लिंक

https://ai.meta.com/research/publications/…

और पढ़ें

https://ai.meta.com/blog/…

https://github.com/facebookresearch/jepa

https://x.com/AIatMeta/status/1758176023588577326


LWM(Large World Model): रिंगअटेंशन के साथ मिलियन-लंबाई वाले वीडियो और भाषा का उपयोग करने वाला मॉडल / World Model on Million-Length Video And Language With RingAttention

पेपर परिचय

  • रिंगअटेंशन का उपयोग करके लंबी वीडियो और किताबों पर प्रशिक्षित एक general-purpose 1M context multimodal मॉडल, कठिन retrieval tasks और लंबी वीडियो understanding में नए benchmarks सेट करने वाला, विविध sequence lengths, loss weighting तथा model-generated QA dataset को मिश्रित करने के लिए masked sequence packing का उपयोग करके लंबी sequence chat को संभालने वाला, और 1M से अधिक लंबी टेक्स्ट तथा वीडियो को प्रोसेस कर सकने वाले 7B parameter मॉडल परिवार को open-source करता है।

    A general-purpose 1m context multimodal model trained on long videos and books using ringattention; sets new benchmarks in difficult retrieval tasks and long video understanding; uses masked sequence packing for mixing different sequence lengths, loss weighting, and model-generated qa dataset for long sequence chat; open-sources a family of 7b parameter models that can process long text and videos of over 1m tokens.

पेपर का सारांश (Abstract)

  • वर्तमान language models शब्दों में आसानी से व्यक्त न किए जा सकने वाले दुनिया के पहलुओं को समझने में सीमित हैं और जटिल, लंबी-फॉर्म tasks में कठिनाई महसूस करते हैं। वीडियो सीक्वेंस भाषा और स्थिर images में उपलब्ध नहीं होने वाली कीमती temporal जानकारी प्रदान करते हैं, इसलिए इन्हें भाषा के साथ संयुक्त मॉडलिंग के लिए आकर्षक विकल्प माना जा सकता है। ऐसे मॉडल मानव के textual ज्ञान और physical world की समझ दोनों को बेहतर करके मनुष्यों की सहायता के लिए अधिक व्यापक AI capabilities विकसित कर सकते हैं। हालाँकि लाखों वीडियो और भाषा sequences से learning करना memory constraints, computational complexity और सीमित datasets के कारण कठिनाई पैदा करता है। इन चुनौतियों के समाधान के लिए विविध वीडियो और किताबों का एक विशाल dataset curate किया गया, लंबी sequences पर स्केलेबल तरीके से train करने के लिए RingAttention तकनीक अपनाई, और context size को 4K से क्रमशः 1M tokens तक बढ़ाया। यह paper निम्न योगदान देता है: (a) सबसे बड़ा context-size neural network: लंबी वीडियो और language sequences के लिए सबसे बड़े context-size transformers में से एक train करके कठिन retrieval tasks और long video understanding में नए benchmark सेट किए। (b) अलग-अलग sequence लंबाइयों को mix करने के लिए masked sequence packing का उपयोग, language और vision के संतुलन हेतु loss weighting, और लंबी sequence chat के लिए model-generated QA dataset—vision-language training की चुनौतियों के समाधान के रूप में। (c) multimodal sequences के लाखों लंबाई पर प्रशिक्षण के लिए RingAttention, masked sequence packing और अन्य key features के साथ अत्यधिक optimized implementation। (d) 1M से अधिक tokens वाले लंबी टेक्स्ट दस्तावेज़ (LWM-Text, LWM-Text-Chat) और वीडियो (LWM, LWM-Chat) को process करने में सक्षम 7B parameter मॉडल परिवार को पूरी तरह खुला स्रोत बनाया। यह work लंबी वीडियो और भाषा के विशाल datasets पर train करके human knowledge और multimodal world की समझ तथा व्यापक क्षमताओं के विकास के लिए रास्ता खोलता है।

    Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop an understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.

शोधपत्र लिंक

https://arxiv.org/abs/2402.08268

और पढ़ें

https://largeworldmodel.github.io/

https://huggingface.co/LargeWorldModel

https://x.com/haoliuhl/status/1757828392362389999


न्यूरल नेटवर्क की ट्रेनएबिलिटी की सीमा फ्रैक्टल है / The boundary of neural network trainability is fractal

शोधपत्र परिचय

  • यह खोजा गया है कि trainable और untrainable neural network hyperparameter configurations के बीच की सीमा fractal है; सभी neural network configurations और deep linear networks के लिए fractal hyperparameter landscapes देखे गए; और सबसे अच्छे-performing hyperparameters को stability के अंतिम बिंदु पर पाया गया।

    Finds that the boundary between trainable and untrainable neural network hyperparameter configurations is fractal; observes fractal hyperparameter landscapes for every neural network configuration and deep linear networks; also observes that the best-performing hyperparameters are at the end of stability.

शोधपत्र सार (Abstract)

  • उदाहरण के लिए, मेंडलब्रॉट और क्वाड्रैटिक Julia सेट से संबंधित कुछ फ्रैक्टल इस तरह गणना किए जाते हैं कि किसी फ़ंक्शन को बार-बार दोहराकर यह सीमा पहचानी जाती है कि कौन-से हाइपरपैरामीटर पर परिणामस्वरूप अनुक्रम diverge करता है या bounded रहता है। न्यूरल नेटवर्क प्रशिक्षण भी इसी तरह update फ़ंक्शन को बार-बार लागू करने पर आधारित है (जैसे gradient descent के चरणों की पुनरावृत्ति), जिसमें convergent या divergent व्यवहार उत्पन्न हो सकता है और हाइपरपैरामीटर में छोटे बदलावों के प्रति बहुत संवेदनशीलता देखी जा सकती है। इसी समानता से प्रेरित होकर हमने उन हाइपरपैरामीटर सीमाओं का प्रयोगात्मक अध्ययन किया जो स्थिर प्रशिक्षण और divergent प्रशिक्षण को अलग करती हैं। सभी परीक्षण की गई सभी कॉन्फ़िगरेशन में हमने पाया कि यह सीमा दस से अधिक दशकों (order) के पैमाने पर फ्रैक्टल रूप में मौजूद है।

    Some fractals -- for instance those associated with the Mandelbrot and quadratic Julia sets -- are computed by iterating a function, and identifying the boundary between hyperparameters for which the resulting series diverges or remains bounded. Neural network training similarly involves iterating an update function (e.g. repeated steps of gradient descent), can result in convergent or divergent behavior, and can be extremely sensitive to small changes in hyperparameters. Motivated by these similarities, we experimentally examine the boundary between neural network hyperparameters that lead to stable and divergent training. We find that this boundary is fractal over more than ten decades of scale in all tested configurations.

शोध-पत्र लिंक

https://arxiv.org/abs/2402.06184

और पढ़ें

https://x.com/jaschasd/status/1756930242965606582


OS-Copilot: स्वयं-सुधार के साथ Generalist कंप्यूटर एजेंट्स की ओर / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

पेपर परिचय

  • यह एक फ्रेमवर्क है जो Linux या macOS जैसे ऑपरेटिंग सिस्टम के key elements के साथ इंटरफेस करने वाले generalist computer agents बनाता है; यह सामान्य कंप्यूटर कार्यों को ऑटोमेट करने के लिए स्वयं-सुधार करने वाला embodied agent प्रस्तावित करता है; यह एजेंट General AI Assistants (GAIA) benchmark पर पिछले तरीकों की तुलना में 35% बेहतर प्रदर्शन करता है।

a framework to build generalist computer agents that interface with key elements of an operating system like linux or macos; it also proposes a self-improving embodied agent for automating general computer tasks; this agent outperforms the previous methods by 35% on the general ai assistants (gaia) benchmark.

पेपर सार (Abstract)

  • कंप्यूटर के साथ स्वायत्त इंटरैक्शन एक लंबे समय से मौजूद और बहुत संभावना वाला चुनौतीपूर्ण क्षेत्र रहा है, और हाल ही में large language models (LLMs) के व्यापक प्रसार से digital agents निर्माण में तेजी से प्रगति हुई है। हालांकि, ऐसे अधिकांश agents को किसी खास software या वेबसाइट जैसे सीमित डोमेन के साथ इंटरैक्ट करने के लिए डिज़ाइन किया गया है। यह सीमित फोकस सामान्य कंप्यूटर टास्क्स पर इनकी लागू करने की क्षमता को सीमित करता है। इसी उद्देश्य से, हम OS-Copilot पेश करते हैं, जो operating system (OS) के व्यापक तत्वों—वेब, code terminals, फाइलें, multimedia और विभिन्न third-party applications—से इंटरफ़ेस करने में सक्षम generalist agents बनाने का फ्रेमवर्क है। हम OS-Copilot का उपयोग करके FRIDAY नाम का एक self-improving embodied agent बनाते हैं जो सामान्य कंप्यूटर टास्क्स को स्वचालित करने के लिए तैयार किया गया है। GAIA, जो कि एक general AI assistants benchmark है, उसमें FRIDAY ने पहले के methods की तुलना में 35% बेहतर performance दिखाया और पिछले टास्क्स से जमा की गई skills के जरिए unseen applications पर मजबूत generalization क्षमता प्रदर्शित की। हम यह भी संख्यात्मक और मात्रात्मक प्रमाण देते हैं कि FRIDAY न्यूनतम supervision के साथ Excel और Powerpoint को नियंत्रित करना तथा खुद को सुधारना सीखता है। हमारा OS-Copilot फ्रेमवर्क और empirical findings भविष्य के शोध के लिए अधिक सक्षम और अधिक general-purpose कंप्यूटर एजेंट्स की ओर बढ़ने हेतु infrastructure और insights प्रदान करते हैं।

    Autonomous interaction with the computer has been a longstanding challenge with great potential, and the recent proliferation of large language models (LLMs) has markedly accelerated progress in building digital agents. However, most of these agents are designed to interact with a narrow domain, such as a specific software or website. This narrow focus constrains their applicability for general computer tasks. To this end, we introduce OS-Copilot, a framework to build generalist agents capable of interfacing with comprehensive elements in an operating system (OS), including the web, code terminals, files, multimedia, and various third-party applications. We use OS-Copilot to create FRIDAY, a self-improving embodied agent for automating general computer tasks. On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods by 35%, showcasing strong generalization to unseen applications via accumulated skills from previous tasks. We also present numerical and quantitative evidence that FRIDAY learns to control and self-improve on Excel and Powerpoint with minimal supervision. Our OS-Copilot framework and empirical findings provide infrastructure and insights for future research toward more capable and general-purpose computer agents.

शोध-पत्र लिंक

https://arxiv.org/abs/2402.07456

और पढ़ें

https://x.com/omarsar0/status/1757443594976206885


TestGen-LLM: मेटा में Large Language Models का उपयोग करके Automated Unit Test Improvement / Automated Unit Test Improvement using Large Language Models at Meta

पेपर परिचय

  • इंस्टाग्राम के Reels और Stories प्रोडक्ट्स पर की गई evaluation के बाद, TestGen-LLM के टेस्ट केस में से 75% सही तरीके से बनाए गए पाए गए, 57% विश्वसनीय रूप से पास हुए, और coverage में 25% वृद्धि हुई।

    Uses llms to automatically improve existing human-written tests; reports that after an evaluation on reels and stories products for instagram, 75% of testgen-llm's test cases were built correctly, 57% passed reliably, and 25% increased coverage.

पेपर सार (Abstract)

  • यह शोधपत्र Meta के TestGen-LLM टूल के बारे में बताता है, जो पहले से मौजूद मानव द्वारा लिखे गए टेस्ट को स्वचालित रूप से बेहतर बनाने के लिए LLM का उपयोग करता है। TestGen-LLM यह सुनिश्चित करता है कि उसके द्वारा जेनरेट किए गए टेस्ट क्लासेस मूल टेस्ट सूट की तुलना में मापनीय सुधार देने वाले कई फिल्टर सफलतापूर्वक पास करते हैं, ताकि LLM हैलुसिनेशन से उत्पन्न समस्याएँ हटाई जा सकें। यह बताता है कि Instagram और Facebook प्लेटफॉर्म के लिए Meta test-a-thons में TestGen-LLM को कैसे deploy किया गया। Instagram के Reels और Stories प्रोडक्ट पर मूल्यांकन में TestGen-LLM के टेस्ट केसों में से 75% सही तरीके से build हुए, 57% reliably पास हुए, और 25% में coverage बढ़ी। Meta के Instagram और Facebook test-a-thons में इस समाधान ने लागू किए गए सभी क्लासों में से 11.5% को सुधारा, और Meta के सॉफ्टवेयर इंजीनियरों द्वारा सुझाई गई 73% recommendations को production deployment के लिए स्वीकार कर लिया गया। यह हमारी राय में code improvement के लिए ऐसे आश्वासन के साथ LLM से जेनरेटेड कोड का औद्योगिक पैमाने पर deployment पर पहली रिपोर्ट है।

    This paper describes Meta's TestGen-LLM tool, which uses LLMs to automatically improve existing human-written tests. TestGen-LLM verifies that its generated test classes successfully clear a set of filters that assure measurable improvement over the original test suite, thereby eliminating problems due to LLM hallucination. We describe the deployment of TestGen-LLM at Meta test-a-thons for the Instagram and Facebook platforms. In an evaluation on Reels and Stories products for Instagram, 75% of TestGen-LLM's test cases built correctly, 57% passed reliably, and 25% increased coverage. During Meta's Instagram and Facebook test-a-thons, it improved 11.5% of all classes to which it was applied, with 73% of its recommendations being accepted for production deployment by Meta software engineers. We believe this is the first report on industrial scale deployment of LLM-generated code backed by such assurances of code improvement.

शोध-पत्र लिंक

https://arxiv.org/abs/2402.09171

और पढ़ें

https://x.com/nathanbenaich/status/1758036247115608317


ChemLLM: रसायन विज्ञान के लिए बड़ा भाषा मॉडल / ChemLLM: A Chemical Large Language Model

शोध-पत्र परिचय

  • नाम परिवर्तन, molecular caption और reaction prediction जैसे मुख्य कार्यों में यह GPT-3.5 से बेहतर प्रदर्शन करने का दावा करता है, और इनमें से दो कार्यों में यह GPT-4 को भी पीछे छोड़ता है; यह रसायन विज्ञान से संबंधित कामों के लिए प्रशिक्षित एक dedicated LLM है।

    A dedicated llm trained for chemistry-related tasks; claims to outperform gpt-3.5 on principal tasks such as name conversion, molecular caption, and reaction prediction; it also surpasses gpt-4 on two of these tasks.

शोध-पत्र सारांश (Abstract)

  • बड़े भाषा मॉडल (LLM) ने अणु गुण भविष्यवाणी, अणु निर्माण, प्रयोगात्मक प्रोटोकॉल डिज़ाइन आदि सहित रसायन विज्ञान में उल्लेखनीय प्रगति की है। फिर भी समुदाय के पास अभी तक रसायन के लिए विशेष रूप से डिज़ाइन किया गया कोई संवाद-आधारित मॉडल नहीं है। यह समस्या इसलिए सामने आती है क्योंकि अधिकांश रासायनिक डेटा और वैज्ञानिक ज्ञान मुख्य रूप से संरचित डेटाबेसों में संग्रहीत होता है, और इन संरचित डेटा का सीधे उपयोग करने से मॉडल की वह क्षमता घट जाती है जो उसे सुसंगत संवाद बनाए रखने में मदद करती है। इस समस्या को हल करने के लिए हमने एक नया टेम्पलेट-आधारित निर्देश निर्माण तरीका विकसित किया, जो संरचित ज्ञान को सामान्य संवाद में बदलकर उसे भाषा मॉडल प्रशिक्षण के लिए उपयुक्त बनाता है। इसी दृष्टिकोण का उपयोग करके हमने ChemLLM विकसित किया, जो रसायन विज्ञान के विभिन्न क्षेत्रों में अलग-अलग कार्यों को सहज संवाद इंटरैक्शन के साथ करने वाला पहला रासायनिक-विशेष बड़ा भाषा मॉडल है। ChemLLM नाम परिवर्तन, molecular caption और reaction prediction सहित रसायन के तीन प्रमुख कामों में GPT-3.5 से बेहतर है, और उनमें से दो कामों में GPT-4 को भी पीछे छोड़ता है। उल्लेखनीय है कि ChemLLM मुख्यतः chemical-centric कॉर्पस पर प्रशिक्षित होने के बावजूद संबंधित गणितीय और भौतिक कार्यों के लिए उत्कृष्ट अनुकूलन क्षमता दिखाता है। इसके अलावा, ChemLLM रसायन में विशेषज्ञ NLP कार्यों—जैसे कि साहित्य अनुवाद और cheminformatic programming—में भी दक्षता प्रदर्शित करता है। ChemLLM रसायन शोध में खोज का एक नया रास्ता खोलता है, और संरचित रासायनिक ज्ञान को संवाद प्रणालियों में एकीकृत करने की हमारी विधि विभिन्न वैज्ञानिक क्षेत्रों में LLM विकसित करने के लिए नई दिशा दिखाती है। कोड, डेटासेट और मॉडल वेट्स सार्वजनिक रूप से hf.co/AI4Chem/ChemLLM-7B-Chat पर उपलब्ध हैं।

    Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.

शोधपत्र लिंक

https://arxiv.org/abs/2402.06852

और पढ़ें

https://hf.co/AI4Chem/ChemLLM-7B-Chat

https://x.com/omarsar0/status/1757246740539773165


बड़े भाषा मॉडल: सर्वेक्षण शोधपत्र / Large Language Models: A Survey

शोधपत्र परिचय

  • तीन लोकप्रिय LLM परिवारों (GPT, Llama, PaLM), उनके गुण, योगदान और सीमाओं की समीक्षा की गई है। इसमें LLM को बनाने और सुदृढ़ करने के लिए विकसित क्षमताओं और तकनीकों का सारांश दिया गया है। यह LLM प्रशिक्षण, फाइन-ट्यूनिंग और मूल्यांकन के लिए व्यापक रूप से प्रयुक्त डेटासेट तथा LLM evaluation metrics पर भी चर्चा करता है, और अंत में खुली चुनौतियों तथा भविष्य के शोध दिशा-निर्देशों के साथ निष्कर्ष निकालता है।

    Reviews three popular families of llms (gpt, llama, palm), their characteristics, contributions, and limitations; includes a summary of capabilities and techniques developed to build and augment llm; it also discusses popular datasets for llm training, fine-tuning, and evaluation, and llm evaluation metrics; concludes with open challenges and future research directions.

शोधपत्र सार (Abstract)

  • बड़े भाषा मॉडल (LLM) ने नवंबर 2022 में ChatGPT के लॉन्च के बाद कई प्राकृतिक भाषा कार्यों में मजबूत प्रदर्शन के कारण काफी ध्यान आकर्षित किया है। LLM की सामान्य उद्देश्य वाली भाषा समझ और निर्माण क्षमता विशाल मात्रा में टेक्स्ट डेटा पर अरबों मॉडल पैरामीटर प्रशिक्षण करके हासिल की जाती है, जैसा कि स्केलिंग लॉज़ \cite{kaplan2020scaling,hoffmann2022training} में अनुमानित है। LLM शोध क्षेत्र भले ही बहुत नया हो, लेकिन यह कई अलग-अलग दिशाओं में तेजी से विकसित हो रहा है। इस शोध-पत्र में हम तीन लोकप्रिय LLM परिवारों (GPT, LLaMA, PaLM) सहित कुछ प्रमुख LLM की समीक्षा करते हैं और उनकी विशेषताओं, योगदानों तथा सीमाओं पर चर्चा करते हैं। हम यह भी बताते हैं कि LLM को बनाने और मजबूत करने के लिए कौन-सी तकनीकें विकसित की गई हैं। इसके बाद LLM प्रशिक्षण, फाइन-ट्यूनिंग और मूल्यांकन के लिए तैयार लोकप्रिय डेटासेट्स की जाँच की जाती है, व्यापक रूप से उपयोग किए जाने वाले LLM मूल्यांकन मीट्रिक्स की समीक्षा की जाती है, और प्रतिनिधि बेंचमार्क सेट पर कुछ लोकप्रिय LLM के प्रदर्शन की तुलना की जाती है। अंत में, हम अनसुलझी चुनौतियों और भविष्य के शोध दिशा-निर्देशों पर चर्चा करके शोध-पत्र का निष्कर्ष निकालते हैं।

    Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.

शोध-पत्र लिंक

https://arxiv.org/abs/2402.06196

और पढ़ें

https://x.com/omarsar0/status/1757049645119799804


LLM एजेंट वेबसाइटों को स्वायत्त रूप से हैक कर सकते हैं / LLM Agents can Autonomously Hack Websites

शोध-पत्र परिचय

  • बिना किसी मानव फीडबैक या कमजोरियों के बारे में पहले से स्पष्ट जानकारी के, वे स्वचालित रूप से वेबसाइटों को हैक कर SQL Injection जैसे कार्य भी कर सकते हैं। यह संभव होता है LLM की टूल-उपयोग और लंबे संदर्भ हैंडल करने की क्षमता के कारण; शोध में यह दिखाया गया कि GPT-4 वास्तविक दुनिया की वेबसाइटों में कमजोरियों की खोज करके ऐसे हैकिंग हमले कर सकता है, जबकि ओपन-सोर्स मॉडल ऐसा वही क्षमता नहीं दिखाते।

    Shows that llm agents can automatically hack websites and perform tasks like sql injections without human feedback or explicit knowledge about the vulnerability beforehand; this is enabled by an llm’s tool usage and long context capabilities; shows that gpt-4 is capable of such hacks, including finding vulnerabilities in websites in the wild; open-source models did not show the same capabilities.

शोध-पत्र सार (Abstract)

  • पिछले कुछ वर्षों में, बड़े भाषा मॉडल (LLM) लगातार अधिक सक्षम होते गए हैं और अब ये टूल से इंटरैक्ट कर सकते हैं (यानी फंक्शन कॉल), दस्तावेज़ पढ़ सकते हैं, और खुद को पुनः कॉल कर सकते हैं। परिणामस्वरूप, ये LLM अब एजेंट के रूप में स्वायत्तता से काम कर सकते हैं। इन एजेंटों की क्षमताओं में वृद्धि के साथ, हालिया शोध यह अनुमान लगा रहा है कि LLM एजेंट साइबर सुरक्षा पर क्या प्रभाव डालेंगे। हालाँकि, LLM एजेंटों की आक्रामक क्षमताओं के बारे में अभी बहुत कम जानकारी है। इस अध्ययन में, हम दिखाते हैं कि LLM एजेंट बिना मानव फीडबैक के वेबसाइटों को स्वायत्तता से हैक कर सकते हैं और ब्लाइंड डेटाबेस स्कीमा एक्सट्रैक्शन तथा SQL injection जैसे जटिल काम कर सकते हैं। महत्वपूर्ण यह है कि एजेंट को पहले से कोई कमजोरी जानने की जरूरत नहीं है। यह क्षमता केवल उन फ्रंटियर मॉडल्स से संभव होती है जो टूल का प्रभावी उपयोग और विस्तारित संदर्भ को leverage करने में अत्यधिक सक्षम हैं। यानी, हम दिखाते हैं कि GPT-4 में ऐसे हमले करने की क्षमता मौजूद है, लेकिन मौजूदा ओपन-सोर्स मॉडल में नहीं। अंत में, हम दिखाते हैं कि GPT-4 वास्तविक दुनिया की वेबसाइटों में कमजोरियाँ स्वतः खोज सकता है। हमारे निष्कर्ष LLM के व्यापक तैनाती को लेकर कई सवाल खड़े करते हैं।

    In recent years, large language models (LLMs) have become increasingly capable and can now interact with tools (i.e., call functions), read documents, and recursively call themselves. As a result, these LLMs can now function autonomously as agents. With the rise in capabilities of these agents, recent work has speculated on how LLM agents would affect cybersecurity. However, not much is known about the offensive capabilities of LLM agents. In this work, we show that LLM agents can autonomously hack websites, performing tasks as complex as blind database schema extraction and SQL injections without human feedback. Importantly, the agent does not need to know the vulnerability beforehand. This capability is uniquely enabled by frontier models that are highly capable of tool use and leveraging extended context. Namely, we show that GPT-4 is capable of such hacks, but existing open-source models are not. Finally, we show that GPT-4 is capable of autonomously finding vulnerabilities in websites in the wild. Our findings raise questions about the widespread deployment of LLMs.

शोध-पत्र लिंक

https://arxiv.org/abs/2402.06664v1

और पढ़ें

https://x.com/emollick/status/1757937829340967240


मूल स्रोत

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-325


⚠️विज्ञापन⚠️: PyTorch Korea User Group द्वारा तैयार किया गया यह लेख आपके लिए मददगार रहा? सदस्य के रूप में रजिस्टर करें तो हम आपको प्रमुख पोस्ट ईमेल से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly होता है, लेकिन इसे Daily के रूप में बदलना भी संभव है।)

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.