अवलोकन

DAIR.AI द्वारा हर हफ्ते प्रकाशित ML पेपरों पर आधारित इस लेख का स्वचालित अनुवाद किया गया है।
इस बार के पेपरों में मुख्य रूप से Transformer और Reinforcement Learning केंद्रित AI तकनीकों पर शोध अधिक दिखाई देता है।

Support Vector Machine के रूप में Transformer / Transformers as Support Vector Machines

पेपर परिचय

  • यह पाया गया है कि Transformer में self-attention की optimization geometry का hard-margin SVM समस्या से संबंध है, और early stopping के बिना लागू gradient descent self-attention की implicit regularization और convergence की ओर ले जाता है। यह शोध language models की समझ को और गहरा करने की क्षमता रखता है।
    > Finds that the optimization geometry of self-attention in transformers exhibits a connection to hard-margin svm problems; also finds that gradient descent applied without early-stopping leads to implicit regularization and convergence of self-attention; this work has the potential to deepen the understanding of language models.

पेपर सारांश

  • "Attention Is All You Need" के बाद से Transformer architecture ने NLP में क्रांतिकारी प्रगति का नेतृत्व किया है। Transformer के भीतर attention layer इनपुट टोकनों के एक अनुक्रम $X$ को स्वीकार करती है और $(K,Q)$ जैसे trainable key-query parameters के साथ softmax $(XQK^\top X^\top)$ के रूप में गणना की गई pairwise similarities के जरिए उन्हें परस्पर इंटरैक्ट करने देती है। इस शोध में self-attention की optimization geometry और token pairs के outer-product पर linear constraints का उपयोग करके optimal input tokens और non-optimal tokens को अलग करने वाली hard-margin SVM समस्या के बीच एक औपचारिक समतुल्यता स्थापित की गई है। यह formalism हमें gradient descent से optimize किए गए 1-layer Transformer के implicit bias को वर्णित करने की अनुमति देता है। (1) $(K,Q)$ द्वारा parameterized attention layer को vanishing regularization के साथ optimize करने पर दिशा के स्तर पर ऐसा SVM solution मिलता है जो संयुक्त parameter $W=KQ^\top$ के nuclear norm को minimize करता है। इसके विपरीत, यदि सीधे $W$ से parameterization किया जाए तो यह Frobenius norm objective को minimize करता है। हम इस convergence का वर्णन करते हैं और दिखाते हैं कि यह global direction के बजाय locally optimal directions की ओर भी हो सकता है। (2) इसके पूरक के रूप में, हम उपयुक्त geometric conditions के तहत gradient descent की local/global directional convergence को सिद्ध करते हैं। महत्वपूर्ण रूप से, हम दिखाते हैं कि over-parameterization SVM समस्या की feasibility सुनिश्चित करके और stationary points से रहित एक benign optimization landscape की गारंटी देकर global convergence को बढ़ावा देता है। (3) हमारी theory मुख्य रूप से linear prediction heads पर लागू होती है, लेकिन nonlinear heads के साथ implicit bias का पूर्वानुमान करने वाली एक अधिक सामान्य SVM equivalence भी प्रस्तावित करती है। हमारे निष्कर्ष arbitrary datasets पर लागू होते हैं और प्रयोगों के जरिए उनकी वैधता सत्यापित की गई है। हम कई open problems और research directions भी प्रस्तुत करते हैं। हमारा मानना है कि ये निष्कर्ष Transformers को ऐसे SVMs की hierarchy के रूप में समझने की प्रेरणा देते हैं जो optimal tokens को अलग और चुनते हैं।
    > Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax $(XQK^\top X^\top)$ , where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem that separates optimal input tokens from non-optimal tokens using linear constraints on the outer-products of token pairs. This formalism allows us to characterize the implicit bias of 1-layer transformers optimized with gradient descent: (1) Optimizing the attention layer with vanishing regularization, parameterized by $(K,Q)$, converges in direction to an SVM solution minimizing the nuclear norm of the combined parameter $W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm objective. We characterize this convergence, highlighting that it can occur toward locally-optimal directions rather than global ones. (2) Complementing this, we prove the local/global directional convergence of gradient descent under suitable geometric conditions. Importantly, we show that over-parameterization catalyzes global convergence by ensuring the feasibility of the SVM problem and by guaranteeing a benign optimization landscape devoid of stationary points. (3) While our theory applies primarily to linear prediction heads, we propose a more general SVM equivalence that predicts the implicit bias with nonlinear heads. Our findings are applicable to arbitrary datasets and their validity is verified via experiments. We also introduce several open problems and research directions. We believe these findings inspire the interpretation of transformers as a hierarchy of SVMs that separates and selects optimal tokens.

पेपर लिंक

https://arxiv.org/abs/2308.16898

RLAIF: Human Feedback से Reinforcement Learning को AI Feedback के साथ स्केल करना / RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

पेपर परिचय

  • मानव और AI feedback की प्रभावशीलता की तुलना करके यह परखा गया है कि क्या RLAIF, RLHF का एक उपयुक्त विकल्प है। इसमें AI labels बनाने के लिए विभिन्न तकनीकों का उपयोग किया गया है और scaling studies के जरिए aligned preferences उत्पन्न करने के लिए सर्वोत्तम settings की रिपोर्ट दी गई है। मुख्य निष्कर्ष यह है कि summarization task में मानव evaluators लगभग 70% मामलों में baseline SFT model की तुलना में RLAIF और RLHF दोनों की generations को अधिक पसंद करते हैं। #rlhf
    > Tests whether rlaif is a suitable alternative to rlhf by comparing the efficacy of human vs. ai feedback; uses different techniques to generate ai labels and conduct scaling studies to report optimal settings for generating aligned preferences; the main finding is that on the task of summarization, human evaluators prefer generations from both rlaif and rlhf over a baseline sft model in ∼70% of cases.

पेपर सारांश

  • मानव फीडबैक से reinforcement learning (RLHF) बड़े language models (LLMs) को मानव प्राथमिकताओं के अनुरूप बनाने में प्रभावी है, लेकिन उच्च-गुणवत्ता वाले मानव preference labels इकट्ठा करना एक प्रमुख bottleneck है। हमने RLHF और RLAIF (RL from AI Feedback) — एक ऐसी तकनीक जिसमें मानवों की जगह एक off-the-shelf LLM preference labels देता है — की सीधे तुलना की, और पाया कि दोनों तकनीकें लगभग समान सुधार लाती हैं। summarization task में, मानव evaluators ने लगभग 70% मामलों में baseline supervised fine-tuned model की तुलना में RLAIF और RLHF, दोनों की generations को अधिक पसंद किया। इसके अलावा, जब RLAIF और RLHF summaries को rate करने के लिए कहा गया, तो लोगों ने दोनों को समान दर से पसंद किया। ये परिणाम संकेत देते हैं कि RLAIF मानव-स्तरीय performance दे सकता है और RLHF की scalability limitations के लिए एक संभावित समाधान प्रदान कर सकता है।
    > Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.

पेपर लिंक

https://arxiv.org/abs/2309.00267

और पढ़ें

https://twitter.com/omarsar0/status/1699102486928265530

कैलकुलेटर के बिना भी गणित की समस्याएँ हल कर सकता है GPT / GPT Can Solve Mathematical Problems Without a Calculator

पेपर परिचय

  • यह दिखाता है कि पर्याप्त training data होने पर 2b language model data leakage के बिना 100% accuracy के साथ multi-digit arithmetic operations कर सकता है; और multi-step arithmetic operations तथा विस्तृत math problems वाले dataset पर GLM-10b से fine-tune करने पर, यह 5 हज़ार sample वाले Chinese math problem test set पर GPT-4 के साथ प्रतिस्पर्धा कर सकता है। #mathematical-reasoning #wizardmath
    > Shows that with sufficient training data, a 2b language model can perform multi-digit arithmetic operations with 100% accuracy and without data leakage; it’s also competitive with gpt-4 on 5k samples chinese math problem test set when fine-tuned from glm-10b on a dataset containing additional multi-step arithmetic operations and detailed math problems.

पेपर सारांश

  • पिछले अध्ययनों में आम तौर पर यह माना गया है कि बड़े language models calculator tools का उपयोग किए बिना arithmetic operations, खासकर 8 अंकों से अधिक के multiplication और decimals तथा fractions वाले operations, को सटीक रूप से नहीं कर सकते। यह पेपर इस गलतफहमी को चुनौती देने का लक्ष्य रखता है। पर्याप्त training data होने पर, 2 billion-parameter language model data leakage के बिना लगभग 100% accuracy के साथ multi-digit arithmetic operations को सटीक रूप से कर सकता है, जो GPT-4 से काफी बेहतर है (जिसकी multi-digit multiplication accuracy केवल 4.3% है)। हम यह भी दिखाते हैं that GLM-10B से fine-tune किया गया हमारा MathGLM, multi-step arithmetic operations और text में वर्णित math problems वाले अतिरिक्त dataset पर प्रशिक्षित होकर, 5,000-sample Chinese math problem test set पर GPT-4 के समान प्रदर्शन हासिल करता है।
    > Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set.

पेपर लिंक

https://arxiv.org/abs/2309.03241

और पढ़ें

https://twitter.com/_akhaliq/status/1699951105927512399

optimizer के रूप में बड़े language models / Large Language Models as Optimizers

पेपर परिचय

  • यह एक ऐसा approach है जिसमें optimization problem को natural language में वर्णित किया जाता है, फिर LLM को परिभाषित समस्या और पहले मिले solutions के आधार पर बार-बार नए solutions उत्पन्न करने का निर्देश दिया जाता है; हर optimization step पर, पहले से generated prompts की trajectory के आधार पर test accuracy बढ़ाने वाले नए prompts बनाए जाते हैं; और optimized prompts, GSM8K तथा BIG-Bench Hard पर मानव-डिज़ाइन किए गए prompts से कभी-कभी 50% से भी अधिक बेहतर प्रदर्शन करते हैं। #optimizing
    > An approach where the optimization problem is described in natural language; an llm is then instructed to iteratively generate new solutions based on the defined problem and previously found solutions; at each optimization step, the goal is to generate new prompts that increase test accuracy based on the trajectory of previously generated prompts; the optimized prompts outperform human-designed prompts on gsm8k and big-bench hard, sometimes by over 50%

पेपर सारांश

  • ऑप्टिमाइज़ेशन हर जगह मौजूद है। derivative-based algorithms विभिन्न समस्याओं के लिए शक्तिशाली टूल रहे हैं, लेकिन gradient की अनुपस्थिति कई real-world applications में चुनौतियाँ पैदा करती है। इस शोध में लेखक OPRO (Optimization by PROmpting) प्रस्तावित करते हैं, जो एक सरल और प्रभावी तरीका है जिसमें natural language में वर्णित optimization task के लिए large language models (LLMs) को optimizer की तरह उपयोग किया जाता है। हर optimization step में LLM उस prompt से नए solutions बनाता है जिसमें पहले से generated solutions और उनके values शामिल होते हैं; फिर इन नए solutions का evaluation किया जाता है और उन्हें अगले optimization step के लिए prompt में जोड़ दिया जाता है। पहले OPRO को linear regression और traveling salesman problem पर दिखाया गया है, और फिर prompt optimization की ओर बढ़ा गया है, जहाँ लक्ष्य ऐसे instructions खोजना है जो task accuracy को अधिकतम करें। विभिन्न LLMs के साथ लेखक दिखाते हैं कि OPRO से optimized सबसे अच्छे prompts, GSM8K पर मानव-डिज़ाइन किए गए prompts से 8% तक और Big-Bench Hard tasks पर 50% तक बेहतर प्रदर्शन करते हैं।
    > Optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose Optimization by PROmpting (OPRO), a simple and effective approach to leverage large language models (LLMs) as optimizers, where the optimization task is described in natural language. In each optimization step, the LLM generates new solutions from the prompt that contains previously generated solutions with their values, then the new solutions are evaluated and added to the prompt for the next optimization step. We first showcase OPRO on linear regression and traveling salesman problems, then move on to prompt optimization where the goal is to find instructions that maximize the task accuracy. With a variety of LLMs, we demonstrate that the best prompts optimized by OPRO outperform human-designed prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.

पेपर लिंक

https://arxiv.org/abs/2309.03409

और पढ़ें

https://twitter.com/omarsar0/status/1700249035456598391

ImageBind-LLM: मल्टी-मोडैलिटी इंस्ट्रक्शन ट्यूनिंग / ImageBind-LLM: Multi-modality Instruction Tuning

पेपर परिचय

  • ImageBind के जरिए LLM की मल्टीमॉडल instruction tuning विधि ImageBind-LLM प्रस्तुत की गई है। यह मॉडल audio, 3D point cloud, video जैसी विविध modalities के instructions का जवाब दे सकता है और साथ ही उच्च-गुणवत्ता वाली language generation भी बनाए रखता है। यह learnable bind network के माध्यम से ImageBind के visual encoder को LLM के साथ align करके हासिल किया जाता है। #imagebind
    > Presents imagebind-llm, a multimodality instruction tuning method of llms via imagebind; this model can respond to instructions of diverse modalities such as audio, 3d point clouds, and video, including high language generation quality; this is achieved by aligning imagebind’s visual encoder with an llm via learnable bind network.

पेपर सारांश

  • ImageBind के जरिए बड़े language models (LLM) के लिए multi-modality instruction tuning विधि ImageBind-LLM पेश की गई है। जहाँ मौजूदा शोध मुख्य रूप से language और image instruction tuning पर केंद्रित रहे हैं, वहीं ImageBind-LLM केवल image-text alignment training के जरिए audio, 3D point clouds, video, और embedding space arithmetic सहित multi-modality conditions को संभाल सकता है। training के दौरान, LLaMA और ImageBind के image encoder के बीच embedding space को align करने के लिए एक learnable bind network अपनाया जाता है। इसके बाद, bind network द्वारा परिवर्तित image features को LLaMA की सभी layers में word tokens में जोड़ा जाता है, और attention-free तथा zero-initialized gating mechanism के जरिए visual instructions को क्रमिक रूप से inject किया जाता है। ImageBind की joint embedding की मदद से, साधारण image-text training मॉडल को बेहतरीन multi-modality instruction-following क्षमता देती है। inference के दौरान, multi-modality inputs को संबंधित ImageBind encoders में feed किया जाता है और अतिरिक्त cross-modal embedding enhancement के लिए प्रस्तावित visual cache model द्वारा process किया जाता है। यह training-free cache model ImageBind से निकाले गए 30 लाख image features में retrieval करता है, जिससे training-inference modality mismatch प्रभावी रूप से कम होता है। खास तौर पर, इस approach के जरिए ImageBind-LLM विभिन्न modalities के instructions का जवाब दे सकता है और उल्लेखनीय language generation quality दिखा सकता है। कोड https://github.com/OpenGVLab/LLaMA-Adapter पर उपलब्ध है।
    > हम ImageBind-LLM प्रस्तुत करते हैं, जो ImageBind के माध्यम से बड़े language models (LLMs) के लिए एक multi-modality instruction tuning विधि है। मौजूदा कार्य मुख्य रूप से language और image instruction tuning पर केंद्रित हैं, जबकि हमारा ImageBind-LLM केवल image-text alignment training के जरिए audio, 3D point clouds, video, और उनके embedding-space arithmetic सहित multi-modality conditions का जवाब दे सकता है। training के दौरान, हम LLaMA और ImageBind के image encoder के बीच embedding space को align करने के लिए एक learnable bind network अपनाते हैं। फिर, bind network द्वारा रूपांतरित image features को LLaMA की सभी layers के word tokens में जोड़ा जाता है, जो attention-free और zero-initialized gating mechanism के जरिए visual instructions को क्रमिक रूप से inject करता है। ImageBind की joint embedding की मदद से, यह सरल image-text training हमारे मॉडल को श्रेष्ठ multi-modality instruction-following capabilities प्रदर्शित करने में सक्षम बनाती है। inference के दौरान, multi-modality inputs को संबंधित ImageBind encoders में feed किया जाता है, और आगे के cross-modal embedding enhancement के लिए एक प्रस्तावित visual cache model द्वारा process किया जाता है। training-free cache model ImageBind द्वारा निकाले गए 30 लाख image features से retrieval करता है, जो training-inference modality discrepancy को प्रभावी रूप से कम करता है। विशेष रूप से, हमारे approach के साथ, ImageBind-LLM विविध modalities के instructions का जवाब दे सकता है और महत्वपूर्ण language generation quality प्रदर्शित कर सकता है। कोड https://github.com/OpenGVLab/LLaMA-Adapter पर जारी किया गया है।

पेपर लिंक

https://arxiv.org/abs/2309.03905

आगे पढ़ें

https://twitter.com/arankomatsuzaki/status/1699947731333345750

सर्किट दक्षता के माध्यम से grokking की व्याख्या / Explaining grokking through circuit efficiency

पेपर परिचय

  • इसका उद्देश्य neural networks में grokking behavior को समझाना है, और विशेष रूप से यह दो नए behaviors की भविष्यवाणी और प्रस्तुति करता है। पहला है ungrokking, जिसमें critical threshold से छोटे dataset पर आगे training करने पर मॉडल perfect generalization से memorization की ओर चला जाता है; दूसरा है semi-grokking, जिसमें critical dataset size पर randomly initialized network को train करने पर network grokking-जैसा transition दिखाता है। #grokking
    > neural networks में grokking behavior को समझाने का लक्ष्य; विशेष रूप से, यह दो नए behaviors की भविष्यवाणी और प्रदर्शन करता है: पहला ungrokking है, जहाँ critical threshold से छोटे dataset पर आगे training करने पर मॉडल perfect generalization से memorization की ओर चला जाता है; दूसरा semi-grokking है, जहाँ critical dataset size पर randomly initialized network को train करने पर network grokking-जैसा transition दिखाता है।

पेपर सारांश

  • neural network generalisation में सबसे हैरान करने वाली पहेलियों में से एक है 'grokking', जिसमें perfect training accuracy लेकिन कमजोर generalisation वाला network आगे training के बाद perfect generalisation में बदल जाता है। हम प्रस्तावित करते हैं कि grokking तब होता है जब किसी task के लिए एक generalising solution और एक memorising solution दोनों मौजूद हों, जहाँ generalising solution सीखने में धीमा होता है लेकिन अधिक efficient होता है, और समान parameter norm पर बड़े logits उत्पन्न करता है। हम यह परिकल्पना करते हैं कि training dataset बड़ा होने पर memorising circuits अधिक inefficient हो जाते हैं, जबकि generalising circuits के साथ ऐसा नहीं होता, जिससे यह संकेत मिलता है कि एक critical dataset size होता है जहाँ memorisation और generalisation समान रूप से efficient होते हैं। हम grokking के बारे में चार नई predictions प्रस्तुत करते हैं और उनकी पुष्टि करके अपनी व्याख्या के पक्ष में महत्वपूर्ण evidence देते हैं। सबसे उल्लेखनीय रूप से, हम दो नए और चौंकाने वाले behaviors दिखाते हैं: ungrokking, जिसमें एक network perfect test accuracy से घटकर low test accuracy पर आ जाता है, और semi-grokking, जिसमें network perfect test accuracy के बजाय partial test accuracy तक delayed generalisation दिखाता है.
    > One of the most surprising puzzles in neural network generalisation is grokking: a network with perfect training accuracy but poor generalisation will, upon further training, transition to perfect generalisation. We propose that grokking occurs when the task admits a generalising solution and a memorising solution, where the generalising solution is slower to learn but more efficient, producing larger logits with the same parameter norm. We hypothesise that memorising circuits become more inefficient with larger training datasets while generalising circuits do not, suggesting there is a critical dataset size at which memorisation and generalisation are equally efficient. We make and confirm four novel predictions about grokking, providing significant evidence in favour of our explanation. Most strikingly, we demonstrate two novel and surprising behaviours: ungrokking, in which a network regresses from perfect to low test accuracy, and semi-grokking, in which a network shows delayed generalisation to partial rather than perfect test accuracy.

पेपर लिंक

https://arxiv.org/abs/2309.02390

और पढ़ें

https://twitter.com/VikrantVarma_/status/1699823229307699305

AI धोखा: उदाहरणों, जोखिमों और संभावित समाधानों का सर्वे / AI Deception: A Survey of Examples, Risks, and Potential Solutions

पेपर परिचय

  • artificial intelligence deception के empirical examples पर एक survey प्रस्तुत करता है। #surveyNonmun
    > Provides a survey of empirical examples of ai deception.

पेपर सारांश

  • यह पेपर तर्क देता है कि वर्तमान के विभिन्न AI systems ने इंसानों को धोखा देना सीख लिया है। हम deception को सत्य के अलावा किसी अन्य परिणाम को हासिल करने के लिए व्यवस्थित रूप से गलत विश्वास उत्पन्न करने के रूप में परिभाषित करते हैं। पहले, हम AI deception के empirical examples का survey करते हैं, जिसमें खास competitive situations के लिए बनाए गए special-use AI systems (Meta के CICERO सहित) और general-purpose AI systems (जैसे large language models) दोनों पर चर्चा की गई है। इसके बाद, हम AI deception से उत्पन्न कई जोखिमों का विस्तार से वर्णन करते हैं, जैसे fraud, election tampering, और AI systems पर नियंत्रण खो देना। अंत में, हम AI deception से पैदा होने वाली समस्याओं के कुछ संभावित समाधानों की रूपरेखा प्रस्तुत करते हैं। पहला, regulatory frameworks को deception करने में सक्षम AI systems पर मजबूत risk-assessment requirements लागू करनी चाहिए; दूसरा, policymakers को bot-or-not laws लागू करने चाहिए; और अंत में, policymakers को संबंधित research की funding को प्राथमिकता देनी चाहिए, जिसमें AI deception का पता लगाने और AI systems को कम deceptive बनाने वाले tools शामिल हों। policymakers, researchers, और आम जनता को सक्रिय रूप से काम करना चाहिए ताकि AI deception हमारे समाज की साझा बुनियादों को अस्थिर न कर दे।
    > This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta's CICERO) built for specific competitive situations, and general-purpose AI systems (such as large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI systems. Finally, we outline several potential solutions to the problems posed by AI deception: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.

पेपर लिंक

https://arxiv.org/abs/2308.14752

और पढ़ें

https://twitter.com/DanHendrycks/status/1699437800301752332

FLM-101B: Open LLM और $100K बजट के साथ इसे कैसे train करें / FLM-101B: An Open LLM and How to Train It with $100K Budget

पेपर परिचय

  • 101 पैरामीटर और 0.31TB टोकन वाले नए open LLM FLM-101B के मामले में, जिसे $100k के बजट में train किया जा सकता है, लेखक विभिन्न growth strategies का विश्लेषण करते हैं और छोटे आकार से बड़े आकार तक पैरामीटरों की संख्या बढ़ाते हुए अंततः एक aggressive strategy अपनाते हैं, जो लागत को 50% से अधिक घटाती है। यानी, 3 मॉडलों को क्रमिक रूप से train किया जाता है, और हर मॉडल अपने उससे छोटे पिछले मॉडल (16b -> 51b -> 101b) का knowledge inherit करते हुए competitive performance हासिल करता है।

    101B parameters और 0.31TB tokens वाला FLM-101B एक नया open LLM है, जिसे $100k के बजट में train किया जा सकता है; लेखक अलग-अलग growth strategies का विश्लेषण करते हैं और छोटे sizes से बड़े sizes तक parameters बढ़ाते हैं। अंततः वे एक aggressive strategy अपनाते हैं, जो लागत को 50% से अधिक कम करती है। दूसरे शब्दों में, तीन मॉडलों को क्रमिक रूप से train किया जाता है, और हर मॉडल अपने छोटे predecessor (16b -> 51b -> 101b) से knowledge inherit करते हुए competitive performance हासिल करता है.

पेपर सारांश

  • बड़े भाषा मॉडल (LLM) ने NLP और multimodal tasks में उल्लेखनीय सफलता हासिल की है। इन सफलताओं के बावजूद, बड़े भाषा मॉडलों के विकास के सामने दो मुख्य चुनौतियाँ हैं: (i) उच्च computational cost, और (ii) निष्पक्ष और objective evaluation करना कठिन होना। LLM इतने महंगे हैं कि केवल कुछ बड़ी कंपनियाँ ही उन्हें train कर सकती हैं, जिससे research और application, दोनों के अवसर सीमित हो जाते हैं। यह cost-effective LLM training के महत्व को रेखांकित करता है। इस पेपर में, लेखक LLM training cost को काफी घटाने के लिए growth strategy का उपयोग करते हैं। वे दिखाते हैं कि 101B parameters और 0.31TB tokens वाले LLM को $100K के बजट में train किया जा सकता है। साथ ही, knowledge-oriented abilities पर अधिक केंद्रित मौजूदा evaluations को complement करने के लिए वे LLM के IQ evaluation हेतु एक systematic evaluation paradigm अपनाते हैं। वे एक benchmark पेश करते हैं, जिसमें intelligence के महत्वपूर्ण पहलुओं—जैसे symbolic mapping, rule understanding, pattern mining, और anti-interference—पर evaluations शामिल हैं। ऐसे evaluations memorization के संभावित प्रभाव को न्यूनतम करते हैं। प्रयोगात्मक परिणाम दिखाते हैं कि $100K के बजट में train किया गया उनका मॉडल FLM-101B, खासकर training data में न देखे गए context वाले IQ benchmark evaluations में, GPT-3 और GLM-130B जैसे शक्तिशाली और प्रसिद्ध मॉडलों के तुलनीय performance हासिल करता है। FLM-101B का checkpoint https://huggingface.co/CofeAI/FLM-101B पर open-source किया जाएगा।

    Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.

पेपर लिंक

https://arxiv.org/abs/2309.03852

आगे पढ़ें

https://twitter.com/omarsar0/status/1700156132700963053

भाषा एजेंटों के लिए संज्ञानात्मक आर्किटेक्चर / Cognitive Architectures for Language Agents

पेपर परिचय

  • production systems और cognitive architectures से समानताएँ निकालते हुए, पूर्ण विकसित language agents को समझने और बनाने के लिए एक systematic framework प्रस्तावित किया गया है, और इस framework में language agents के instance के रूप में LLM-based reasoning, grounding, learning, और decision making के विभिन्न तरीकों को व्यवस्थित किया गया है।

    Proposes a systematic framework for understanding and building fully-fledged language agents drawing parallels from production systems and cognitive architectures; it systematizes diverse methods for llm-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework.

पेपर सारांश

  • हाल की कोशिशों में grounding या reasoning की ज़रूरत वाले कार्यों के लिए बड़े language models (LLMs) को बाहरी resources (जैसे Internet) या आंतरिक control flows (जैसे prompt chaining) के साथ जोड़ा गया है। हालांकि, ये प्रयास ज़्यादातर बिखरे हुए रहे हैं और एक पूर्ण विकसित language agent बनाने के लिए एक व्यवस्थित framework की कमी रही है। इस चुनौती को हल करने के लिए, हम symbolic artificial intelligence में agent design के समृद्ध इतिहास के आधार पर cognitive language agents की नई लहर के लिए एक blueprint विकसित करते हैं। पहले, हम दिखाते हैं कि LLMs में production systems जैसी कई समान विशेषताएँ हैं, और उनके grounding या reasoning को बेहतर बनाने के हालिया प्रयास production systems के इर्द-गिर्द बने cognitive architectures के विकास को प्रतिबिंबित करते हैं। इसके बाद, हम language agents के लिए cognitive architecture (Cognitive Architectures for Language Agents, CoALA) प्रस्तावित करते हैं, जो एक conceptual framework है और framework में language agents के instantiation के रूप में LLM-आधारित reasoning, grounding, learning और decision making के विविध तरीकों को व्यवस्थित करता है। अंत में, हम CoALA framework का उपयोग करके कमियों को उजागर करते हैं और भविष्य में अधिक सक्षम language agents की दिशा में व्यावहारिक दिशाएँ प्रस्तावित करते हैं।
    > Recent efforts have incorporated large language models (LLMs) with external resources (e.g., the Internet) or internal control flows (e.g., prompt chaining) for tasks requiring grounding or reasoning. However, these efforts have largely been piecemeal, lacking a systematic framework for constructing a fully-fledged language agent. To address this challenge, we draw on the rich history of agent design in symbolic artificial intelligence to develop a blueprint for a new wave of cognitive language agents. We first show that LLMs have many of the same properties as production systems, and recent efforts to improve their grounding or reasoning mirror the development of cognitive architectures built around production systems. We then propose Cognitive Architectures for Language Agents (CoALA), a conceptual framework to systematize diverse methods for LLM-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework. Finally, we use the CoALA framework to highlight gaps and propose actionable directions toward more capable language agents in the future.

पेपर लिंक

https://arxiv.org/abs/2309.02427

और पढ़ें

https://twitter.com/ShunyuYao12/status/1699396834983362690

Q-Transformer

पेपर परिचय

  • यह एक scalable RL method है जो बड़े offline datasets से multi-task policies को train करता है, जिसमें human demonstrations और autonomously collected data का उपयोग किया जाता है; और यह वास्तविक दुनिया के विविध robotic manipulation tasks के बड़े suite पर अच्छा प्रदर्शन दिखाता है।
    > A scalable rl method for training multi-task policies from large offline datasets leveraging human demonstrations and autonomously collected data; shows good performance on a large diverse real-world robotic manipulation task suite.

पेपर लिंक

https://q-transformer.github.io/

और पढ़ें

https://twitter.com/YevgenChebotar/status/1699909244743815677

मूल लेख

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b88


  • यह लेख GPT मॉडल द्वारा स्वचालित रूप से संक्षेपित विवरण है, इसलिए इसमें कुछ गलतियाँ हो सकती हैं; कृपया मूल लेख देखें!
  • पढ़ते समय यदि आपको कोई अटपटी या गलत बात दिखे, तो कृपया टिप्पणी में बताएं!

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.