[2023/12/25 ~ 12/31] इस सप्ताह के प्रमुख ML पेपर (Top ML Papers of the Week)
(discuss.pytorch.kr)अवलोकन
-
DAIR.AI द्वारा हर हफ्ते प्रकाशित ML पेपरों पर आधारित इस लेख का स्वचालित अनुवाद किया गया है।
-
इस सप्ताह चुने गए पेपरों को देखें तो कुल मिलाकर GPT-4 जैसे बड़े भाषा मॉडल (Large Language Models, LLMs) केंद्रित शोध मुख्यधारा में दिखाई देता है। खास तौर पर ये शोध GPT-4 के नए API के उपयोग, LLMs में factual recall क्षमता, और LLMs को बेहतर व अधिक सघन retrieval क्षमता वाला बनाने के तरीकों पर फोकस करते हैं। इसके अलावा, language model आधारित गणितीय problem solving और ये मॉडल किस तरह reasoning कर सकते हैं, जैसे विषय भी शामिल हैं।
-
यह रुझान शायद इसलिए दिख रहा है क्योंकि LLMs अब भी AI क्षेत्र में प्रमुख शोध विषय बने हुए हैं। GPT-4 जैसे मॉडल अपनी उत्कृष्ट language understanding और generation क्षमता के आधार पर कई application क्षेत्रों में उपयोग की संभावनाएँ बढ़ा रहे हैं, और इन क्षमताओं को बेहतर बनाने तथा नए तरीकों से इस्तेमाल करने पर लगातार शोध हो रहा है। वास्तविक performance improvement के लिए ठोस methodology research और application case analysis अब महत्वपूर्ण शोध क्षेत्र के रूप में उभर रहे हैं, और इस सप्ताह चुने गए पेपर इसी रुझान को दर्शाते हैं।
-
दूसरी ओर, LLMs की understanding और reasoning क्षमता का मूल्यांकन और उसे बेहतर बनाने वाला शोध भी एक लोकप्रिय विषय दिखता है। इसके माध्यम से यह तलाशना कि intelligent agents इंसानों के साथ अधिक स्वाभाविक और प्रभावी तरीके से कैसे interact कर सकते हैं, AI क्षेत्र की एक बहुत महत्वपूर्ण चुनौती है। इससे बेहतर efficiency और वास्तविक जीवन में applicability की संभावनाओं की पड़ताल करना भविष्य के शोध रुझानों में महत्वपूर्ण स्थान रखेगा।
CogAgent: GUI एजेंटों के लिए एक visual language model / CogAgent: A Visual Language Model for GUI Agents
पेपर परिचय
- GUI understanding और navigation में विशेषज्ञता वाला 18 अरब पैरामीटर का visual language model प्रस्तुत किया गया है, जो high-resolution input (1120x1120) को support करता है, और visual Q&A, visual grounding, तथा GUI agent जैसे कार्यों में क्षमता दिखाता है; इसने text-rich 5 benchmarks और general VQA के 4 benchmarks पर state-of-the-art हासिल किया है।
> Presents an 18 billion parameter visual language model specializing in gui understanding and navigation; supports high-resolution inputs (1120x1120) and shows abilities in tasks such as visual q&a, visual grounding, and gui agent; achieves state of the art on 5 text-rich and 4 general vqa benchmarks.
पेपर सारांश (Abstract)
- लोग graphical user interfaces (GUI), जैसे कंप्यूटर या smartphone स्क्रीन, के माध्यम से digital devices पर बहुत अधिक समय बिताते हैं। ChatGPT जैसे large language models (LLMs) ईमेल लिखने जैसे कामों में लोगों की मदद कर सकते हैं, लेकिन GUI को समझने और उसके साथ interact करने में कठिनाई के कारण automation स्तर बढ़ाने की उनकी क्षमता सीमित हो जाती है। इस पेपर में हम CogAgent नामक 18 अरब पैरामीटर वाला एक visual language model (VLM) प्रस्तुत करते हैं, जो GUI understanding और navigation में विशेषज्ञता रखता है। low-resolution और high-resolution image encoders दोनों का उपयोग करके यह 11201120 resolution input को support करता है, जिससे यह छोटे page elements और text को भी पहचान सकता है। एक generalist visual language model के रूप में, CogAgent ने text-rich 5 benchmarks और general VQA के 4 benchmarks (VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, POPE) पर state-of-the-art प्रदर्शन हासिल किया है। केवल screenshots को input के रूप में इस्तेमाल करने वाला CogAgent, PC और Android GUI navigation tasks दोनों में extracted HTML text का उपयोग करने वाले LLM-आधारित तरीकों — Mind2Web और AITW — से बेहतर प्रदर्शन करता है, और state of the art को आगे बढ़ाता है। मॉडल और code https://github.com/THUDM/CogVLM पर उपलब्ध हैं।
> People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 11201120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM .
पेपर लिंक
https://arxiv.org/abs/2312.08914
आगे पढ़ें
https://x.com/cenyk1230/status/1739916469272789222
Google Gemini से OpenAI Q* (Q-Star) तक: generative artificial intelligence (AI) research landscape के पुनर्गठन पर एक सर्वे / From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape
पेपर परिचय
- 300 से अधिक पेपरों का सर्वे करने और generative AI क्षेत्र में ध्यान देने योग्य research developments का सार प्रस्तुत करने वाली यह रिपोर्ट computational challenges, scalability, real-world implications, और healthcare, finance, education जैसे क्षेत्रों में प्रगति को आगे बढ़ाने की generative AI की क्षमता पर चर्चा करती है।
> Surveys 300+ papers and summarizes research developments to look at in the space of generative ai; it covers computational challenges, scalability, real-world implications, and the potential for gen ai to drive progress in fields like healthcare, finance, and education.
पेपर सारांश (Abstract)
- इस व्यापक सर्वेक्षण ने जनरेटिव Artificial Intelligence (AI) के विकसित होते परिदृश्य का अध्ययन किया, जिसमें विशेष रूप से Mixture of Experts (MoE), multimodal learning, और Artificial General Intelligence (AGI) की दिशा में अनुमानित प्रगति के परिवर्तनकारी प्रभावों पर ध्यान दिया गया। इस रिपोर्ट ने जनरेटिव AI की वर्तमान स्थिति और भविष्य की दिशा की आलोचनात्मक समीक्षा की, और यह देखा कि Google के Gemini और प्रत्याशित OpenAI Q* प्रोजेक्ट जैसी नवाचारें विभिन्न क्षेत्रों में शोध प्राथमिकताओं और अनुप्रयोगों को कैसे नया रूप दे रही हैं; इसमें generative AI research taxonomy पर प्रभाव का विश्लेषण भी शामिल था। रिपोर्ट ने इन तकनीकों की computational चुनौतियों, scalability, और real-world प्रभावों का आकलन किया, साथ ही healthcare, finance, और education जैसे क्षेत्रों में महत्वपूर्ण प्रगति को आगे बढ़ाने की उनकी क्षमता को भी रेखांकित किया। इसके अलावा, AI-विषयक और AI-जनित दोनों प्रकार के preprints के प्रसार से उत्पन्न हो रही नई शैक्षणिक चुनौतियों पर चर्चा की गई और peer-review process तथा scholarly communication पर उनके प्रभाव की जांच की गई। अध्ययन ने इस बात पर जोर दिया कि AI development में ethical और human-centric तरीकों को शामिल करना आवश्यक है, ताकि यह सामाजिक मानकों और कल्याण के अनुरूप रहे, और generative AI में MoE, multimodality, तथा AGI के संतुलित और जिम्मेदार उपयोग पर केंद्रित भविष्य की AI research strategy भी प्रस्तुत की।
> This comprehensive survey explored the evolving landscape of generative Artificial Intelligence (AI), with a specific focus on the transformative impacts of Mixture of Experts (MoE), multimodal learning, and the speculated advancements towards Artificial General Intelligence (AGI). It critically examined the current state and future trajectory of generative Artificial Intelligence (AI), exploring how innovations like Google's Gemini and the anticipated OpenAI Q* project are reshaping research priorities and applications across various domains, including an impact analysis on the generative AI research taxonomy. It assessed the computational challenges, scalability, and real-world implications of these technologies while highlighting their potential in driving significant progress in fields like healthcare, finance, and education. It also addressed the emerging academic challenges posed by the proliferation of both AI-themed and AI-generated preprints, examining their impact on the peer-review process and scholarly communication. The study highlighted the importance of incorporating ethical and human-centric methods in AI development, ensuring alignment with societal norms and welfare, and outlined a strategy for future AI research that focuses on a balanced and conscientious use of MoE, multimodality, and AGI in generative AI.
शोधपत्र लिंक
https://arxiv.org/abs/2312.10868
आगे पढ़ें
https://x.com/omarsar0/status/1740119485011390558
PromptBench: बड़े भाषा मॉडल के मूल्यांकन के लिए एकीकृत लाइब्रेरी / PromptBench: A Unified Library for Evaluation of Large Language Models
शोधपत्र परिचय
- prompt construction, prompt engineering, dataset और model loading, adversarial prompt attack, dynamic evaluation protocols, और analysis tools जैसी कार्यक्षमताओं से बनी एक unified library, जो LLMs के व्यापक मूल्यांकन और विश्लेषण का समर्थन करती है।
> A unified library that supports comprehensive evaluation and analysis of llms; it consists of functionalities for prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools.
शोधपत्र सारांश (Abstract)
- बड़े भाषा मॉडल (LLM) का मूल्यांकन उनके प्रदर्शन का आकलन करने और संभावित सुरक्षा जोखिमों को कम करने के लिए अत्यंत महत्वपूर्ण है। इस शोधपत्र में LLMs के मूल्यांकन के लिए एक unified library, PromptBench, प्रस्तुत की गई है। यह कई प्रमुख components से मिलकर बनी है, जिन्हें शोधकर्ता आसानी से उपयोग और विस्तारित कर सकते हैं: prompt construction, prompt engineering, dataset और model loading, adversarial prompt attack, dynamic evaluation protocols, और analysis tools। PromptBench को research purposes के लिए एक open, general, और flexible codebase के रूप में डिजाइन किया गया है, जो नए benchmarks बनाने, downstream applications को deploy करने, और नए evaluation protocols डिजाइन करने में मौलिक शोध को सक्षम बना सकता है। इसका code https://github.com/microsoft/promptbench पर उपलब्ध है और इसे लगातार support किया जाएगा।
> The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: https://github.com/microsoft/promptbench and will be continuously supported.
शोधपत्र लिंक
https://arxiv.org/abs/2312.07910v1
आगे पढ़ें
https://x.com/omarsar0/status/1739360426134028631
नए GPT-4 API का उपयोग कर लाभ उठाना / Exploiting Novel GPT-4 APIs
शोधपत्र परिचय
- GPT-4 APIs में उपलब्ध तीन फीचर्स—fine-tuning, function calling, और knowledge retrieval—पर red-teaming किया गया और मुख्य निष्कर्ष निकाले गए: 1) 15 हानिकारक उदाहरणों या 100 benign उदाहरणों पर fine-tuning करके GPT-4 के मुख्य safety guardrails हटाए जा सकते हैं, 2) GPT-4 assistants से function calling schema उजागर कराया जा सकता है और उनसे arbitrary function calls चलवाए जा सकते हैं, 3) retrieval documents में निर्देश inject करके knowledge retrieval को hijack किया जा सकता है।
> Performs red-teaming on three functionalities exposed in the gpt-4 apis: fine-tuning, function calling, and knowledge retrieval; main findings: 1) fine-tuning on as few as 15 harmful examples or 100 benign examples can remove core safeguards from gpt-4, 2) gpt-4 assistants divulge the function call schema and can be made to execute arbitrary function calls, and 3) knowledge retrieval can be hijacked by injecting instructions into retrieval documents.
पेपर सार(Abstract)
- language model attacks आमतौर पर दो चरम threat models में से किसी एक को मानकर चलती हैं: model weights तक पूरा white-box access, या text generation API तक सीमित black-box access। लेकिन वास्तविक दुनिया के APIs अक्सर सिर्फ text generation से अधिक flexible होते हैं; ऐसे APIs
gray-box'' access उपलब्ध कराते हैं, जिससे नए threat vectors पैदा हो सकते हैं। इसे परखने के लिए हमने GPT-4 APIs में उपलब्ध तीन नए फीचर्स—fine-tuning, function calling, और knowledge retrieval—का red-team विश्लेषण किया। हमने पाया कि केवल 15 हानिकारक उदाहरणों या 100 benign उदाहरणों पर मॉडल को fine-tune करने से GPT-4 के मुख्य safety guardrails हटाए जा सकते हैं, जिससे कई तरह के हानिकारक outputs संभव हो जाते हैं। इसके अलावा, हमने पाया कि GPT-4 Assistants आसानी से function call schema उजागर कर देते हैं और उनसे arbitrary function calls भी करवाए जा सकते हैं। अंत में, हमने पाया कि retrieval documents में instructions डालकर knowledge retrieval को hijack किया जा सकता है। ये कमजोरियाँ इस बात को रेखांकित करती हैं कि API द्वारा expose की जाने वाली functionality में कोई भी बढ़ोतरी नई vulnerabilities पैदा कर सकती है। > Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs exposegray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.
पेपर लिंक
https://arxiv.org/abs/2312.14302
और पढ़ें
https://x.com/omarsar0/status/1739677995747450964
LLMs में तथ्य recall / Fact Recalling in LLMs
पेपर परिचय
- यह अध्ययन जाँचता है कि MLP layers तथ्यात्मक recall के लिए lookup table को कैसे लागू करती हैं; pythia 2.8b के शुरुआती MLPs किस तरह विभिन्न खिलाड़ियों के लिए यह lookup करते हैं कि वे 3 अलग-अलग खेलों में से कौन-सा खेल खेलते हैं, इस पर अध्ययन का दायरा बढ़ाता है; यह प्रस्तावित करता है कि शुरुआती MLP layers lookup table की तरह काम करती हैं और सुझाव देता है कि मॉडल में factual knowledge के recall को multi-token embeddings के रूप में समझना चाहिए।
> Investigates how mlp layers implement a lookup table for factual recall; scopes the study on how early mlps in pythia 2.8b look up which of 3 different sports various athletes play; suggests that early mlp layers act as a lookup table and recommends thinking about the recall of factual knowledge in the model as multi-token embeddings.
पेपर लिंक
https://www.alignmentforum.org/s/hpWHhjvjn67LJ4xXX/p/iGuwZTHWb6DFY3sKB
और पढ़ें
https://x.com/NeelNanda5/status/1738559368361349122
गणित के लिए Generative AI: भाग 1 - MathPile: गणित के लिए 1 अरब-token-scale pretraining corpus / Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math
पेपर परिचय
- foundation models को train करने के लिए लगभग 9.5 billion tokens वाला विविध और उच्च-गुणवत्ता का math-centric corpus प्रस्तुत करता है।
> Presents a diverse and high-quality math-centric corpus comprising of ~9.5 billion tokens to train foundation models.
पेपर सार(Abstract)
- उच्च-गुणवत्ता वाले बड़े पैमाने के corpus foundation models के निर्माण की आधारशिला हैं। इस काम में हम ${MathPile}$ प्रस्तुत करते हैं, जो लगभग 9.5 billion tokens से बना एक विविध और उच्च-गुणवत्ता वाला गणित-केंद्रित corpus है। इसे बनाते समय हमने
'कम ही ज़्यादा है'के सिद्धांत का पालन किया और pre-training चरण में भी डेटा की मात्रा पर गुणवत्ता की श्रेष्ठता में दृढ़ विश्वास रखा। preprocessing, prefiltering, language identification, cleaning, filtering और deduplication जैसी जटिल preprocessing प्रक्रियाओं से होकर हमने corpus की उच्च गुणवत्ता सुनिश्चित करने के लिए सावधानीपूर्वक डेटा संग्रह और प्रोसेसिंग की। इसके अलावा, downstream benchmark test sets पर data contamination detection करके duplicates हटाए गए। हमें उम्मीद है कि text-आधारित mathematical reasoning language models की गणितीय reasoning क्षमता को बेहतर बनाने में मदद करेगा। भविष्य में इस क्षेत्र की प्रगति को बढ़ावा देने के लिए हम processing में उपयोग की गई scripts के साथ $MathPile$ के विभिन्न versions को open source करने की योजना रखते हैं।
> High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce ${MathPile}$, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of{less is more}, firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our ${MathPile}$ can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.
पेपर लिंक
https://arxiv.org/abs/2312.17120
और पढ़ें
https://x.com/arankomatsuzaki/status/1740564961032556942
केवल सिद्धांत-आधारित निर्देशों के साथ LLaMA-1/2, GPT-3.5/4 से प्रश्न पूछे जा सकते हैं / Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4
पेपर परिचय
- बड़े भाषा मॉडल्स को query और prompt करने की प्रक्रिया को सरल बनाने के लिए तैयार किए गए 26 निर्देश सिद्धांतों का परिचय देता है, और इन सिद्धांतों को लागू करके llama-1/2(7b, 13b, 70b), gpt-3.5/4 पर व्यापक प्रयोग करता है ताकि instruction और prompt design पर उनकी प्रभावशीलता की पुष्टि की जा सके।
> Introduces 26 guiding principles designed to streamline the process of querying and prompting large language models; applies these principles to conduct extensive experiments on llama-1/2 (7b, 13b and 70b), gpt-3.5/4 to verify their effectiveness on instructions and prompts design.
पेपर सार(Abstract)
- यह पेपर बड़े भाषा मॉडल्स को query और prompt करने की प्रक्रिया को सरल बनाने के लिए डिज़ाइन किए गए 26 मूलभूत सिद्धांतों का परिचय देता है। हमारा लक्ष्य विभिन्न scales के बड़े भाषा मॉडल्स के लिए प्रश्न तैयार करने, उनकी क्षमताओं की जाँच करने, और अलग-अलग prompts दिए जाने पर विभिन्न scales के बड़े भाषा मॉडल्स के व्यवहार के प्रति उपयोगकर्ताओं की समझ को बेहतर बनाने वाले मूलभूत विचारों को सरल करना है। निर्देशों और prompt design पर प्रस्तावित सिद्धांतों की प्रभावशीलता की पुष्टि करने के लिए LLaMA-1/2(7B, 13B, 70B), GPT-3.5/4 पर व्यापक प्रयोग किए गए। हमें आशा है कि यह कार्य बड़े भाषा मॉडल्स के prompting पर काम करने वाले शोधकर्ताओं को बेहतर मार्गदर्शन प्रदान करेगा। प्रोजेक्ट पेज https://github.com/VILA-Lab/ATLAS पर उपलब्ध है।
> This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the underlying concepts of formulating questions for various scales of large language models, examining their abilities, and enhancing user comprehension on the behaviors of different scales of large language models when feeding into different prompts. Extensive experiments are conducted on LLaMA-1/2 (7B, 13B and 70B), GPT-3.5/4 to verify the effectiveness of the proposed principles on instructions and prompts design. We hope that this work provides a better guide for researchers working on the prompting of large language models. Project page is available at https://github.com/VILA-Lab/ATLAS.
पेपर लिंक
https://arxiv.org/abs/2312.16171v1
और पढ़ें
https://x.com/_akhaliq/status/1739857456161759455
foundation models के साथ reasoning पर एक सर्वेक्षण / A Survey of Reasoning with Foundation Models
पेपर परिचय
- reasoning के लिए महत्वपूर्ण foundation models पर एक व्यापक सर्वेक्षण प्रस्तुत करता है, जिसमें विभिन्न reasoning tasks, methods, benchmarks और संभावित future directions में नवीनतम प्रगति को रेखांकित किया गया है; साथ ही यह भी चर्चा करता है कि multimodal learning, autonomous agents और super alignment जैसे अन्य विकास reasoning research को कैसे तेज़ और विस्तारित करते हैं।
> Provides a comprehensive survey of seminal foundational models for reasoning, highlighting the latest advancements in various reasoning tasks, methods, benchmarks, and potential future directions; also discusses how other developments like multimodal learning, autonomous agents, and super alignment accelerate and extend reasoning research.
पेपर सार(Abstract)
- जटिल समस्याओं के समाधान के लिए एक महत्वपूर्ण क्षमता, reasoning, वार्ता, मेडिकल diagnosis और आपराधिक जांच जैसे विभिन्न वास्तविक परिदृश्यों में केंद्रीय भूमिका निभाती है। यह Artificial General Intelligence (AGI) क्षेत्र में एक बुनियादी methodology के रूप में काम करती है। foundation models के निरंतर विकास के साथ, reasoning tasks में foundation models की क्षमताओं को तलाशने में रुचि बढ़ रही है। इस पेपर में reasoning के लिए प्रस्तावित या अनुकूलित किए जा सकने वाले महत्वपूर्ण foundation models का परिचय दिया गया है और विभिन्न reasoning tasks, methods और benchmarks में नवीनतम प्रगति को रेखांकित किया गया है। इसके बाद foundation models के भीतर reasoning क्षमता के उभरने के पीछे संभावित भविष्य की दिशाओं का विश्लेषण किया गया है। साथ ही reasoning के संदर्भ में multimodal learning, autonomous agents और super alignment की प्रासंगिकता पर भी चर्चा की गई है। इन भविष्य की शोध दिशाओं पर चर्चा करके, लेखक आशा करते हैं कि शोधकर्ताओं को इस क्षेत्र की खोज के लिए प्रेरणा मिलेगी, foundation models के साथ reasoning में आगे की प्रगति को बढ़ावा मिलेगा, और AGI के विकास में योगदान होगा।
> जटिल समस्याओं के समाधान के लिए एक महत्वपूर्ण क्षमता, reasoning, वार्ता, मेडिकल diagnosis और आपराधिक जांच जैसे विभिन्न वास्तविक परिदृश्यों में केंद्रीय भूमिका निभाती है। यह Artificial General Intelligence (AGI) क्षेत्र में एक बुनियादी methodology के रूप में काम करती है। foundation models के निरंतर विकास के साथ, reasoning tasks में उनकी क्षमताओं को तलाशने में रुचि बढ़ रही है। इस पेपर में reasoning के लिए प्रस्तावित या अनुकूलित किए जा सकने वाले प्रमुख foundation models का परिचय दिया गया है, और विभिन्न reasoning tasks, methods तथा benchmarks में नवीनतम प्रगति को उजागर किया गया है। इसके बाद foundation models के भीतर reasoning क्षमताओं के उभरने के पीछे संभावित भविष्य की दिशाओं पर चर्चा की गई है। reasoning के संदर्भ में multimodal learning, autonomous agents और super alignment की प्रासंगिकता पर भी विचार किया गया है। इन भविष्य की शोध दिशाओं पर चर्चा करके, लेखक आशा करते हैं कि वे शोधकर्ताओं को इस क्षेत्र की खोज के लिए प्रेरित करेंगे, foundation models के साथ reasoning में आगे की प्रगति को प्रोत्साहित करेंगे, और AGI के विकास में योगदान देंगे.
पेपर लिंक
https://arxiv.org/abs/2312.11562v4
आगे पढ़ें
https://x.com/omarsar0/status/1740729489661874632
Dense retrieval के लिए Large Language Models को एक बेहतर foundation बनाना / Making Large Language Models A Better Foundation For Dense Retrieval
पेपर परिचय
- Dense retrieval के लिए LLM को अनुकूलित करने वाली LLaRA का प्रस्ताव किया गया है। यह दो pretext tasks, EBAE (embedding-based auto-encoding) और EBAR (embedding-based auto-regression), से मिलकर बनी है। इनमें LLM के text embeddings का उपयोग क्रमशः इनपुट वाक्य के tokens को पुनर्निर्मित करने और अगले वाक्य के tokens की भविष्यवाणी करने के लिए किया जाता है। इससे llama-2-7b में MSMARCO और BEIR जैसे benchmarks पर सुधार देखा गया।
> llara का प्रस्ताव किया गया है, जो dense retrieval के लिए एक llm को अनुकूलित करता है; यह दो pretext tasks से मिलकर बना है: ebae (embedding-based auto-encoding) और ebar (embedding-based auto-regression), जिनमें llm के text embeddings का उपयोग क्रमशः इनपुट वाक्य के tokens को पुनर्निर्मित करने और अगले वाक्य के tokens की भविष्यवाणी करने के लिए किया जाता है; llama-2-7b में msmarco और beir जैसे benchmarks पर सुधार किया गया।
पेपर सारांश(Abstract)
- Dense retrieval में query और document के बीच semantic संबंध को व्यक्त करने के लिए discriminative text embeddings सीखना आवश्यक होता है। semantic understanding में मजबूत क्षमता रखने वाले LLMs (Large Language Models) का उपयोग इससे लाभकारी हो सकता है। हालांकि, LLMs को text generation tasks पर pre-train किया जाता है, जिनका कार्य-पैटर्न texts को embeddings के रूप में प्रस्तुत करने से पूरी तरह अलग होता है। इसलिए यह अध्ययन करना आवश्यक है कि LLMs को उचित रूप से कैसे अनुकूलित किया जाए ताकि dense retrieval के लिए backbone encoder के रूप में उन्हें प्रभावी ढंग से initialize किया जा सके। इस पेपर में dense retrieval applications के लिए LLM के post-hoc adaptation के रूप में एक नया दृष्टिकोण, LLaRA (LLM adapted for dense RetrievAl), प्रस्तावित किया गया है। LLaRA दो pretext tasks से बना है: EBAE (Embedding-Based Auto-Encoding) और EBAR (Embedding-Based Auto-Regression)। इनमें LLM के text embeddings का उपयोग क्रमशः इनपुट वाक्य के tokens को पुनर्निर्मित करने और अगले वाक्य के tokens की भविष्यवाणी करने के लिए किया जाता है। LLaRA सरल, lightweight और अत्यंत प्रभावी साबित होता है। इसे Wikipedia corpus पर LLaMA-2-7B (base) को अनुकूलित करने के लिए लागू किया गया, जहाँ इसने MSMARCO और BEIR जैसे विभिन्न dense retrieval benchmarks पर मॉडल के fine-tuned प्रदर्शन में उल्लेखनीय सुधार किया। मॉडल और code को BGE repository में सार्वजनिक रूप से उपलब्ध कराया जाएगा।
> Dense retrieval में query और document के बीच semantic संबंध को दर्शाने के लिए discriminative text embeddings सीखने की आवश्यकता होती है। semantic understanding में LLMs की मजबूत क्षमता को देखते हुए, उनका उपयोग लाभकारी हो सकता है। हालांकि, LLMs को text generation tasks पर pre-train किया जाता है, जिनका कार्य-पैटर्न texts को embeddings के रूप में प्रस्तुत करने से पूरी तरह अलग होता है। परिणामस्वरूप, यह अध्ययन करना आवश्यक है कि LLMs को सही ढंग से कैसे अनुकूलित किया जाए ताकि dense retrieval के लिए backbone encoder के रूप में उन्हें प्रभावी तरीके से initialize किया जा सके। इस पेपर में हम LLaRA (LLM adapted for dense RetrievAl) नामक एक नया दृष्टिकोण प्रस्तावित करते हैं, जो dense retrieval application के लिए LLM का post-hoc adaptation है। LLaRA दो pretext tasks से बना है: EBAE (Embedding-Based Auto-Encoding) और EBAR (Embedding-Based Auto-Regression), जिनमें LLM के text embeddings का उपयोग क्रमशः इनपुट वाक्य के tokens को पुनर्निर्मित करने और अगले वाक्य के tokens की भविष्यवाणी करने के लिए किया जाता है। LLaRA सरल, lightweight और अत्यंत प्रभावी साबित होता है। इसे Wikipedia corpus पर LLaMA-2-7B (base) को अनुकूलित करने के लिए लागू किया गया, जहाँ इसने MSMARCO और BEIR जैसे विभिन्न dense retrieval benchmarks पर मॉडल के fine-tuned प्रदर्शन में उल्लेखनीय सुधार किया। हमारा मॉडल और code BGE repository पर सार्वजनिक रूप से उपलब्ध कराया जाएगा।
पेपर लिंक
https://arxiv.org/abs/2312.15503v1
Gemini और GPT-4V: गुणात्मक उदाहरणों के माध्यम से Vision-Language Models की प्रारंभिक तुलना और संयोजन / Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases
पेपर परिचय
- कुछ गुणात्मक उदाहरणों के माध्यम से Gemini और GPT-4V जैसे vision-language models की व्यापक प्रारंभिक तुलना और संयोजन किया गया, और पाया गया कि GPT-4V सटीक और संक्षिप्त उत्तर देने में बेहतर है, जबकि Gemini संबंधित इमेज और लिंक के साथ विस्तृत और व्यापक उत्तर देने में उत्कृष्ट है।
> Provides a comprehensive preliminary comparison and combination of vision-language models like gemini and gpt-4v through several qualitative cases; finds that gpt-4v is precise and succinct in responses, while gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links.
पेपर सारांश(Abstract)
- तेज़ी से विकसित हो रहा Multi-modal Large Language Models (MLLMs) क्षेत्र, artificial intelligence में भाषाई और दृश्य प्रोसेसिंग को एकीकृत करने में अग्रणी है। यह पेपर दो अग्रणी मॉडलों का गहन तुलनात्मक अध्ययन प्रस्तुत करता है: Google का Gemini और OpenAI का GPT-4V(ision)। इस अध्ययन में vision-language क्षमता, मनुष्यों के साथ इंटरैक्शन, temporal understanding, तथा intelligence और emotional quotient के आकलन जैसे प्रमुख आयामों पर दोनों मॉडलों का बहुआयामी मूल्यांकन शामिल है। हमारे विश्लेषण का केंद्र प्रत्येक मॉडल की विशिष्ट visual comprehension क्षमताओं की पड़ताल करना है। विभिन्न औद्योगिक application scenarios में उनके प्रदर्शन का मूल्यांकन करने के लिए हमने संरचित प्रयोगों की एक श्रृंखला चलाई, जिससे उनकी व्यावहारिक उपयोगिता पर एक व्यापक दृष्टिकोण मिला। हमने केवल प्रत्यक्ष performance comparison ही नहीं किया, बल्कि संतुलित और निष्पक्ष विश्लेषण सुनिश्चित करने के लिए prompts और scenarios में समायोजन भी शामिल किए। हमारे निष्कर्ष दोनों मॉडलों की विशिष्ट ताकतों और niche को उजागर करते हैं। GPT-4V अपने सटीक और संक्षिप्त उत्तरों के कारण अलग पहचान बनाता है, जबकि Gemini संबंधित इमेज और लिंक के साथ विस्तृत और व्यापक उत्तर देने में उत्कृष्ट है। ये समझ न केवल Gemini और GPT-4V की तुलनात्मक खूबियों को स्पष्ट करती है, बल्कि multimodal foundation models के विकसित होते परिदृश्य को भी रेखांकित करती है, जिससे इस क्षेत्र में भविष्य की प्रगति का मार्ग प्रशस्त होता है। तुलना के बाद, हमने बेहतर परिणाम पाने के लिए दोनों मॉडलों को संयोजित करने का प्रयास किया। अंत में, हम इस क्षेत्र में अग्रणी योगदान देने वाली GPT-4V और Gemini की टीमों के प्रति अपनी गहरी कृतज्ञता व्यक्त करते हैं। साथ ही, Yang आदि के 'Dawn' में प्रस्तुत व्यापक गुणात्मक विश्लेषण के प्रति भी हम आभार व्यक्त करते हैं। इमेज नमूनों, prompts और GPT-4V-संबंधित परिणामों का उसका विस्तृत संग्रह हमारे विश्लेषण के लिए एक बुनियादी आधार प्रदान करता है।
> The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is at the forefront of integrating linguistic and visual processing in artificial intelligence. This paper presents an in-depth comparative study of two pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study involves a multi-faceted evaluation of both models across key dimensions such as Vision-Language Capability, Interaction with Humans, Temporal Understanding, and assessments in both Intelligence and Emotional Quotients. The core of our analysis delves into the distinct visual comprehension abilities of each model. We conducted a series of structured experiments to evaluate their performance in various industrial application scenarios, offering a comprehensive perspective on their practical utility. We not only involve direct performance comparisons but also include adjustments in prompts and scenarios to ensure a balanced and fair analysis. Our findings illuminate the unique strengths and niches of both models. GPT-4V distinguishes itself with its precision and succinctness in responses, while Gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links. These understandings not only shed light on the comparative merits of Gemini and GPT-4V but also underscore the evolving landscape of multimodal foundation models, paving the way for future advancements in this area. After the comparison, we attempted to achieve better results by combining the two models. Finally, We would like to express our profound gratitude to the teams behind GPT-4V and Gemini for their pioneering contributions to the field. Our acknowledgments are also extended to the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This work, with its extensive collection of image samples, prompts, and GPT-4V-related results, provided a foundational basis for our analysis.
पेपर लिंक
https://arxiv.org/abs/2312.15011v1
आगे पढ़ें
https://x.com/omarsar0/status/1741177994377330895
मूल लेख
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-1d3
अभी कोई टिप्पणी नहीं है.