[2024/01/22 ~ 01/28] इस हफ्ते के प्रमुख ML पेपर्स (Top ML Papers of the Week)
(discuss.pytorch.kr)अवलोकन
-
DAIR.AI द्वारा हर हफ्ते प्रकाशित ML पेपर्स पर आधारित इस लेख का स्वचालित अनुवाद किया गया है.
-
इस हफ्ते चुने गए पेपर्स को देखने पर यह साफ़ दिखाई देता है कि Large Language Models (LLMs), Multimodal Models, और Visual Language Models जैसे क्षेत्रों में रुचि विशेष रूप से उभरकर सामने आ रही है। "Knowledge Fusion of LLMs", "Resource-efficient LLMs & Multimodal Models", और "Red Teaming Visual Language Models" जैसे पेपर्स इन प्रमुख रुझानों को दर्शाते हैं, और बड़े मॉडलों, उनकी दक्षता, multimodal learning, तथा visual data processing क्षमता को बेहतर बनाने पर शोध और विकास प्रस्तुत करते हैं।
-
यह रुझान पिछले कुछ वर्षों में AI तकनीक, खासकर Natural Language Processing (NLP) और Computer Vision के क्षेत्रों में, जटिल डेटा को समझने और प्रोसेस करने की क्षमता के बढ़ते महत्व के साथ उभरा है। Large Language Models विभिन्न language understanding tasks में उच्च प्रदर्शन दिखा रहे हैं, जबकि Multimodal Models अलग-अलग प्रकार के डेटा (text, image, audio आदि) को मिलाकर मानव-समान समझ विकसित करने वाले शोध में एक अनिवार्य तत्व बन गए हैं। इसके अलावा, Visual Language Models इमेज और visual content के प्रति भाषाई पहुंच को संभव बनाते हैं, जिससे अधिक समृद्ध और इंटरैक्टिव AI सिस्टम बनाने में उनकी महत्वपूर्ण भूमिका है।
-
शीर्षक और परिचय से समझ में आने वाले ये रुझान संकेत देते हैं कि अब केवल उन्नत AI मॉडलों का प्रदर्शन बढ़ाना ही लक्ष्य नहीं है, बल्कि productivity और efficiency के नए मानक स्थापित करने वाले शोध भी तेज़ी से बढ़ रहे हैं। बड़े मॉडलों की resource efficiency सुधारने वाले पेपर्स ऊर्जा खपत और computation cost के संदर्भ में sustainable AI development की वर्तमान शोध-धारा को प्रतिबिंबित करते हैं। यह उन समस्याओं को भी उजागर करता है जिन्हें AI के वास्तविक औद्योगिक और सामाजिक अनुप्रयोगों में व्यापक अपनाने के लिए अवश्य हल करना होगा, और इस दिशा में academia तथा industry दोनों के प्रयासों को रेखांकित करता है.
Depth Anything: बड़े पैमाने के बिना-लेबल डेटा की शक्ति का उपयोग / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
पेपर परिचय
- एक मज़बूत monocular depth estimation solution, जो किसी भी परिस्थिति में किसी भी इमेज को संभाल सकता है; बड़े पैमाने के unlabeled data (अधिकतम 6,200 लाख) पर स्वचालित रूप से एनोटेशन करके generalization error को कम करता है, और बड़े पैमाने के बिना-लेबल डेटा की शक्ति का उपयोग करने के लिए प्रभावी रणनीतियाँ प्रस्तावित करता है; generalization ability के अलावा, fine-tuning के माध्यम से नए state-of-the-art स्थापित किए गए हैं और एक उन्नत depth-conditioned controlnet तक लागू किया गया है।
A robust monocular depth estimation solution that can deal with any images under any circumstance; automatically annotates large-scale unlabeled data (~62m) which helps to reduce generalization error; proposes effective strategies to leverage the power of the large-scale unlabeled data; besides generalization ability, it established new state-of-the-art through fine-tuning and even results in an enhanced depth-conditioned controlnet.
पेपर सारांश (Abstract)
- इस शोध में robust monocular depth estimation के लिए एक अत्यंत व्यावहारिक समाधान, Depth Anything, प्रस्तुत किया गया है। नए technical modules का पीछा करने के बजाय, इसका लक्ष्य एक सरल लेकिन शक्तिशाली foundation model बनाना है, जो किसी भी परिस्थिति में किसी भी इमेज को संभाल सके। इसके लिए, बड़े पैमाने के unlabeled data (लगभग 6.2 करोड़) को एकत्र करने और उन पर स्वचालित annotation करने के लिए एक data engine डिज़ाइन किया गया, जिससे dataset को scale up किया जा सके, data coverage काफ़ी बढ़े, और generalization error कम हो। शोध में दो सरल लेकिन प्रभावी strategies की जाँच की गई है, जो data scaling-up को अधिक आशाजनक बनाती हैं। पहली, data augmentation tools का उपयोग करके अधिक चुनौतीपूर्ण optimization target बनाया गया। इससे model को अतिरिक्त visual knowledge सक्रिय रूप से खोजने और robust representations हासिल करने के लिए प्रेरित किया जाता है। दूसरी, एक auxiliary supervision विकसित की गई, ताकि model pre-trained encoders से समृद्ध semantic priors विरासत में ले सके। इसके zero-shot capabilities का व्यापक मूल्यांकन किया गया, जिसमें छह public datasets और random तरीके से ली गई तस्वीरें शामिल हैं। परिणामों ने प्रभावशाली generalization ability दिखाई। आगे, NYUv2 और KITTI से metric depth information के साथ fine-tuning करके नए SOTA स्थापित किए गए। बेहतर depth model, बेहतर depth-conditioned ControlNet भी देता है। अधिक जानकारी के लिए https://github.com/LiheYoung/Depth-Anything देखें।
This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.
पेपर लिंक
https://arxiv.org/abs/2401.10891v1
और पढ़ें
https://x.com/_akhaliq/status/1749284669936275463
बड़े भाषा मॉडलों का ज्ञान संलयन / Knowledge Fusion of Large Language Models
पेपर परिचय
- कई learning organizations के ज्ञान को externalize करके उनकी क्षमताओं को target learning organization में transfer करने के मुख्य विचार पर आधारित FuseLLM प्रस्तावित किया गया है। यह source learning organizations के generative distributions का उपयोग करके सामूहिक ज्ञान और व्यक्तिगत strengths दोनों को externalize करता है, continual training के जरिए उन्हें target learning organization में transfer करता है, और पाया गया है कि FuseLLM reasoning, commonsense और code generation जैसी विभिन्न क्षमताओं में target model के प्रदर्शन को बेहतर बना सकता है।
> कई LLMs से ज्ञान को externalize करके उनकी क्षमताओं को एक target LLM में transfer करने के मुख्य विचार के साथ FuseLLM प्रस्तावित करता है; source LLMs के generative distributions का उपयोग करके उनके collective knowledge और unique strengths दोनों को externalize करता है और continual training के माध्यम से उन्हें target LLM में transfer करता है; और पाता है कि FuseLLM reasoning, commonsense और code generation जैसी क्षमताओं की एक विस्तृत रेंज में target model के प्रदर्शन को बेहतर बना सकता है.
पेपर सारांश(Abstract)
- बड़े भाषा मॉडल (LLM) को शुरुआत से train करने पर अलग-अलग functionalities और strengths वाले मॉडल बनाए जा सकते हैं, लेकिन इसमें बहुत अधिक लागत आती है और capabilities में overlap भी हो सकता है। इसके विकल्प के रूप में, पहले से train किए गए मौजूदा LLMs को मिलाकर एक अधिक शक्तिशाली मॉडल बनाना cost-effective और आकर्षक तरीका है। लेकिन इन LLMs की architectures अलग-अलग होने के कारण उनके weights को सीधे blend करना व्यावहारिक नहीं है। इस पेपर में हम LLMs के लिए knowledge fusion की अवधारणा पेश करते हैं, जिसका लक्ष्य मौजूदा LLMs की क्षमताओं को मिलाकर उन्हें एक single LLM में transfer करना है। Source LLMs के generative distributions का उपयोग करके हम उनके collective knowledge और unique strengths को externalize करते हैं, जिससे target model की capabilities संभावित रूप से किसी भी individual source LLM से आगे बढ़ सकती हैं। Unity ने विभिन्न benchmarks और tasks पर अलग-अलग architectures वाले तीन लोकप्रिय LLMs—Llama-2, MPT, और OpenLLaMA—का उपयोग करके इस approach को validate किया है। परिणामों से पुष्टि हुई कि LLM fusion target model के प्रदर्शन को reasoning, commonsense और code generation जैसी कई क्षमताओं में सुधार सकता है। कोड, model weights और data \url{https://github.com/fanqiwan/FuseLLM} पर सार्वजनिक रूप से उपलब्ध हैं।
> जबकि large language models (LLMs) को scratch से train करने पर distinct functionalities और strengths वाले models बन सकते हैं, इसमें significant cost आती है और redundant capabilities भी हो सकती हैं। वैकल्पिक रूप से, मौजूदा pre-trained LLMs को मिलाकर एक अधिक potent model बनाना cost-effective और compelling approach है। हालांकि, इन LLMs की अलग-अलग architectures के कारण उनके weights को सीधे blend करना impractical है। इस पेपर में हम LLMs के लिए knowledge fusion की अवधारणा पेश करते हैं, जिसका उद्देश्य मौजूदा LLMs की capabilities को combine करके उन्हें एक single LLM में transfer करना है। Source LLMs के generative distributions का उपयोग करके हम उनके collective knowledge और unique strengths को externalize करते हैं, जिससे target model की capabilities किसी भी individual source LLM से संभावित रूप से आगे जा सकती हैं। हम अपने approach को विभिन्न benchmarks और tasks पर अलग-अलग architectures वाले तीन लोकप्रिय LLMs—Llama-2, MPT, और OpenLLaMA—के साथ validate करते हैं। हमारे निष्कर्ष पुष्टि करते हैं कि LLMs का fusion target model के प्रदर्शन को reasoning, commonsense और code generation जैसी कई क्षमताओं में बेहतर बना सकता है। हमारा code, model weights, और data \url{https://github.com/fanqiwan/FuseLLM} पर सार्वजनिक हैं.
पेपर लिंक
https://arxiv.org/abs/2401.10491
आगे पढ़ें
https://github.com/fanqiwan/FuseLLM
https://x.com/omarsar0/status/1749267663900057620
MambaByte: Token-free Selective State Space Model
पेपर परिचय
- Mamba SSM को raw bytes से सीधे सीखने के लिए अनुकूलित किया गया है। Bytes लंबी sequences तक ले जाते हैं, जिन पर autoregressive transformers अच्छी तरह scale नहीं कर पाते। यह काम तेज inference से जुड़े बड़े फायदे दिखाता है और subword transformers से भी बेहतर प्रदर्शन करता है।
> Mamba SSM को raw bytes से सीधे सीखने के लिए adapt करता है; bytes लंबी sequences तक ले जाते हैं जिन पर autoregressive transformers खराब तरीके से scale करते हैं; यह काम faster inference से जुड़े बड़े लाभ दिखाता है और subword transformers से भी बेहतर प्रदर्शन करता है.
पेपर सारांश(Abstract)
- Token-free language models raw bytes से सीधे सीखते हैं और subword tokenization के bias को हटाते हैं। लेकिन bytes पर काम करने से sequences काफी लंबी हो जाती हैं, और standard autoregressive Transformers ऐसी settings में अच्छी तरह scale नहीं करते। हमने MambaByte का प्रयोग किया, जो Mamba state space model का token-free adaptation है और जिसे byte sequences पर autoregressively train किया गया है। हमारे experiments से पता चलता है कि दूसरे byte-level models की तुलना में MambaByte की computational efficiency कहीं अधिक है। हमने यह भी पाया कि MambaByte state-of-the-art subword Transformers के बराबर प्रतिस्पर्धा करता है और कई मामलों में उन्हें पीछे भी छोड़ देता है। साथ ही, length के साथ linear scaling होने के कारण MambaByte को Transformers की तुलना में तेज inference का लाभ मिलता है। हमारे निष्कर्ष token-free language modeling को सक्षम बनाने में MambaByte की व्यवहार्यता स्थापित करते हैं।
> Token-free language models raw bytes से सीधे सीखते हैं और subword tokenization के bias को हटा देते हैं। हालांकि, bytes पर operate करने से sequences काफी लंबी हो जाती हैं, और standard autoregressive Transformers ऐसी settings में खराब scale करते हैं। हम MambaByte के साथ प्रयोग करते हैं, जो Mamba state space model का एक token-free adaptation है, जिसे byte sequences पर autoregressively train किया गया है। हमारे experiments अन्य byte-level models की तुलना में MambaByte की computational efficiency को दर्शाते हैं। हम यह भी पाते हैं कि MambaByte state-of-the-art subword Transformers के साथ competitive है और कई बार उनसे बेहतर भी प्रदर्शन करता है। इसके अलावा, length में linear scaling के कारण MambaByte को Transformers की तुलना में fast inference का लाभ मिलता है। हमारे निष्कर्ष token-free language modeling को संभव बनाने में MambaByte की viability स्थापित करते हैं.
पेपर लिंक
https://arxiv.org/abs/2401.13660
आगे पढ़ें
https://x.com/omarsar0/status/1750366964759859633
Diffuse to Choose: वर्चुअल Try-All के लिए Latent Diffusion Models में Image-Conditioned Inpainting को समृद्ध बनाना / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All
पेपर परिचय
- यह एक diffusion-आधारित image-conditioned inpainting मॉडल है, जो किसी दिए गए scene content में सटीक semantic manipulation संभव बनाते हुए तेज inference और high-fidelity के बीच संतुलन बनाता है, और मौजूदा zero-shot diffusion inpainting तरीकों तथा DreamPaint जैसे few-shot diffusion personalization algorithms से भी बेहतर प्रदर्शन करता है।
> A diffusion-based image-conditioned inpainting model to balance fast inference with high-fidelity while enabling accurate semantic manipulations in a given scene content; outperforms existing zero-shot diffusion inpainting methods and even few-shot diffusion personalization algorithms such as dreampaint.
पेपर सारांश (Abstract)
- जैसे-जैसे online shopping बढ़ रही है, खरीदारों के लिए अपने परिवेश में उत्पादों को वर्चुअली देख पाने की क्षमता, जिसे लेखक 'Virtual Try-All' कहते हैं, अत्यंत महत्वपूर्ण हो गई है। हाल के diffusion models में स्वाभाविक रूप से world model शामिल होता है, इसलिए वे inpainting context में इस कार्य के लिए उपयुक्त हैं। हालांकि, पारंपरिक image-conditioned diffusion models अक्सर उत्पादों के सूक्ष्म विवरणों को पकड़ने में विफल रहते हैं। दूसरी ओर, DreamPaint जैसे personalization-आधारित मॉडल वस्तु के विवरणों को अच्छी तरह सुरक्षित रखते हैं, लेकिन वे real-time applications के लिए optimized नहीं हैं। Unity ने 'Diffuse to Choose' नामक एक नया diffusion-आधारित image-conditioned inpainting मॉडल प्रस्तुत किया है, जो दिए गए reference item के high-fidelity details को बनाए रखते हुए तेज inference और दिए गए scene content में सटीक semantic manipulations के बीच प्रभावी संतुलन बनाता है। Unity का दृष्टिकोण reference image की fine-grained features को मुख्य diffusion मॉडल के latent feature maps में सीधे शामिल करने पर आधारित है, साथ ही reference item के विवरणों को और बेहतर सुरक्षित रखने के लिए perceptual loss भी लागू किया गया है। Unity ने in-house और publicly available datasets दोनों पर व्यापक परीक्षण किए, और परिणामों से दिखाया कि Diffuse to Choose मौजूदा zero-shot diffusion inpainting methods के साथ-साथ DreamPaint जैसे few-shot diffusion personalization algorithms से भी बेहतर है।
> As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.
पेपर लिंक
https://arxiv.org/abs/2401.13795
आगे पढ़ें
https://x.com/_akhaliq/status/1750737690553692570
WARM: Weight Averaged Reward Models के फ़ायदों पर / WARM: On the Benefits of Weight Averaged Reward Models
पेपर परिचय
- यह weighted averaged reward models (WARM) पेश करता है, जिसमें कई reward models को fine-tune करने के बाद weight space में उनका औसत लिया जाता है; यह पारंपरिक prediction ensembling की तुलना में efficiency में सुधार करता है और LLM predictions की quality तथा alignment को बेहतर बनाता है।
> Introduces weighted averaged rewards models (warm) that involve fine-tuning multiple rewards models and then averaging them in the weight space; average weighting improves efficiency compared to traditional prediction ensembling; it improves the quality and alignment of llm predictions.
पेपर सारांश (Abstract)
- reinforcement learning (RLHF) के जरिए large language models (LLM) को इंसानी preferences के अनुसार align करना reward hacking तक ले जा सकता है, जहाँ LLM reward model (RM) की विफलताओं का फायदा उठाकर मूल उद्देश्य पूरा किए बिना ऊपर-ऊपर उच्च reward हासिल कर लेते हैं। Unity reward hacking को कम करने के लिए RM डिज़ाइन करते समय दो प्रमुख चुनौतियों की पहचान करता है: RL process के दौरान distribution shift और मानव preferences में असंगति। इसके समाधान के रूप में, पहले कई RM को fine-tune करके फिर weight space में उनका औसत लेने वाला Weight Averaged Reward Models (WARM) प्रस्तावित किया गया है। यह रणनीति इस अवलोकन पर आधारित है कि जब समान pre-training साझा की जाती है, तो fine-tuned weights रैखिक रूप से जुड़े रहते हैं। Weights का average लेकर WARM, पारंपरिक prediction ensembling की तुलना में efficiency बेहतर करता है, साथ ही distribution shift के तहत reliability और preference inconsistency के प्रति robustness भी बढ़ाता है। summarization tasks पर best-of-N और RL methods का उपयोग करते हुए किए गए प्रयोगों के नतीजे दिखाते हैं कि WARM, LLM predictions की overall quality और alignment में सुधार करता है। उदाहरण के लिए, WARM के साथ fine-tune किया गया policy RL, single RM के साथ fine-tune किए गए policy RL की तुलना में 79.4% win rate दिखाता है。
> reinforcement learning (RLHF) के माध्यम से large language models (LLMs) को मानव preferences के साथ align करना reward hacking तक ले जा सकता है, जहाँ LLMs reward model (RM) की विफलताओं का फायदा उठाकर मूल उद्देश्यों को पूरा किए बिना दिखने में उच्च reward हासिल करते हैं। reward hacking को कम करने के लिए RMs डिज़ाइन करते समय हम दो मुख्य चुनौतियों की पहचान करते हैं: RL process के दौरान distribution shifts और मानव preferences में असंगति। समाधान के रूप में, हम Weight Averaged Reward Models (WARM) प्रस्तावित करते हैं, जिसमें पहले कई RMs को fine-tune किया जाता है, फिर उन्हें weight space में average किया जाता है। यह रणनीति इस अवलोकन का अनुसरण करती है कि एक ही pre-training साझा करने पर fine-tuned weights linearly mode connected बने रहते हैं। Weights का average लेकर WARM, predictions के पारंपरिक ensembling की तुलना में efficiency सुधारता है, साथ ही distribution shifts के तहत reliability और preference inconsistencies के प्रति robustness भी बेहतर बनाता है। summarization tasks पर हमारे experiments, जिनमें best-of-N और RL methods का उपयोग किया गया, दिखाते हैं कि WARM, LLM predictions की overall quality और alignment में सुधार करता है; उदाहरण के लिए, WARM के साथ fine-tune किया गया policy RL, single RM के साथ fine-tune किए गए policy RL के मुकाबले 79.4% win rate हासिल करता है।
पेपर लिंक
https://arxiv.org/abs/2401.12187
आगे पढ़ें
https://x.com/ramealexandre/status/1749719471806157304
resource-efficient LLM और multimodal foundation models पर survey / A Survey of Resource-efficient LLM and Multimodal Foundation Models
पेपर परिचय
- resource-efficient ML और multimodal foundation models पर एक survey, जो architectures, algorithms, और practical system design व implementation सहित ML efficiency research पर व्यापक analysis और insights प्रदान करता है।
> resource-efficient llms और multimodal foundation models पर एक survey; यह architectures, algorithms, और practical system designs व implementations सहित ml efficiency research पर व्यापक analysis और insights प्रदान करता है।
पेपर सारांश
- large foundation models, जिनमें large language models (LLM), vision transformers (ViT), diffusion, और LLM-based multimodal models शामिल हैं, training से deployment तक पूरे machine learning lifecycle में क्रांति ला रहे हैं। लेकिन इन मॉडलों द्वारा दी गई versatility और performance में बड़ा सुधार hardware resources के लिहाज़ से भारी लागत के साथ आता है। इन बड़े मॉडलों की growth को scalable और environmentally sustainable तरीके से support करने के लिए resource-efficient strategies विकसित करने पर काफी ध्यान दिया गया है। यह survey algorithms और systems, दोनों पहलुओं की जाँच करते हुए ऐसे research के महत्वपूर्ण महत्व को गहराई से देखता है। यह existing literature से प्राप्त व्यापक analysis और मूल्यवान insights प्रदान करता है, जिसमें state-of-the-art model architectures और training/serving algorithms से लेकर practical system designs और implementations तक के विषय शामिल हैं। इस survey का लक्ष्य यह समग्र समझ देना है कि वर्तमान approaches बड़े foundation models द्वारा उत्पन्न resource challenges को कैसे संबोधित कर रहे हैं, और संभावित रूप से इस क्षेत्र में भविष्य की breakthroughs को प्रेरित करना है।
> large foundation models, जिनमें large language models (LLMs), vision transformers (ViTs), diffusion, और LLM-based multimodal models शामिल हैं, training से deployment तक पूरे machine learning lifecycle में क्रांति ला रहे हैं। हालांकि, इन मॉडलों द्वारा दी जाने वाली versatility और performance में उल्लेखनीय प्रगति hardware resources के संदर्भ में बड़ी लागत के साथ आती है। इन बड़े मॉडलों की वृद्धि को scalable और पर्यावरणीय रूप से sustainable तरीके से support करने के लिए resource-efficient strategies विकसित करने पर काफी ध्यान केंद्रित किया गया है। यह survey algorithmic और systemic दोनों पहलुओं की जाँच करते हुए ऐसे research के महत्वपूर्ण महत्व पर गहराई से प्रकाश डालता है। यह existing literature से प्राप्त व्यापक analysis और मूल्यवान insights प्रदान करता है, जिसमें cutting-edge model architectures और training/serving algorithms से लेकर practical system designs और implementations तक के विस्तृत विषय शामिल हैं। इस survey का उद्देश्य यह समग्र समझ प्रदान करना है कि वर्तमान approaches बड़े foundation models से उत्पन्न resource challenges का कैसे सामना कर रहे हैं, और संभावित रूप से इस क्षेत्र में भविष्य की breakthroughs को प्रेरित करना है।
पेपर लिंक
https://arxiv.org/abs/2401.08092v1
आगे पढ़ें
https://x.com/omarsar0/status/1749208653926654010
visual language models की red teaming / Red Teaming Visual Language Models
पेपर परिचय
- सबसे पहले 10 उप-कार्यों (जैसे image misleading, multi-modal jailbreaking, face fairness आदि) से बना एक red teaming dataset प्रस्तुत किया गया है, और पाया गया कि 10 प्रमुख open-source VLMs (Vision-Language Models) red teaming में अलग-अलग स्तर पर कठिनाई झेलते हैं तथा GPT-4V की तुलना में अधिकतम 31% का performance gap दिखाते हैं। साथ ही, प्रस्तावित red teaming dataset का उपयोग करते हुए SFT (Supervised Fine-tuning) के साथ llava-v1.5 पर red teaming alignment लागू किया गया, जिससे test set में model performance 10% बेहतर हुई।
> सबसे पहले 10 उप-कार्यों (जैसे image misleading, multi-modal jailbreaking, face fairness आदि) वाला एक red teaming dataset प्रस्तुत किया गया है; इसमें पाया गया कि 10 प्रमुख open-source VLMs red teaming में अलग-अलग स्तर पर संघर्ष करते हैं और GPT-4V की तुलना में अधिकतम 31% का performance gap रखते हैं; साथ ही, प्रस्तावित red teaming dataset का उपयोग करते हुए SFT के साथ llava-v1.5 पर red teaming alignment लागू किया गया, जिससे test set में model performance 10% सुधरी.
शोधपत्र सार(Abstract)
- VLM (Vision-Language Models), LLM (Large Language Models) की क्षमताओं का विस्तार करते हैं ताकि वे multimodal inputs स्वीकार कर सकें। चूंकि यह सत्यापित हो चुका है कि LLMs को विशिष्ट test cases (जिन्हें Red Teaming कहा जाता है) के माध्यम से हानिकारक या गलत content उत्पन्न करने के लिए प्रेरित किया जा सकता है, इसलिए समान परिदृश्यों में, खासकर जब text और visual inputs साथ हों, VLMs कैसा प्रदर्शन करते हैं यह अब भी एक खुला प्रश्न है। इस समस्या की जांच के लिए, 4 प्रमुख पहलुओं (faithfulness, privacy, safety, fairness) के अंतर्गत 10 उप-कार्यों (जैसे image misleading, multi-modal jail-breaking, face fairness आदि) को समाहित करने वाला नया red teaming dataset RTVLM प्रस्तुत किया गया है। Criteo का RTVLM इन 4 अलग-अलग पहलुओं के संदर्भ में मौजूदा VLMs को benchmark करने वाला पहला red-teaming dataset है। विस्तृत विश्लेषण से पता चलता है कि 10 प्रमुख open-source VLMs red teaming में अलग-अलग स्तर पर संघर्ष करते हैं और GPT-4V की तुलना में अधिकतम 31% का performance gap दिखाते हैं। इसके अतिरिक्त, RTVLM का उपयोग कर Supervised Fine-tuning (SFT) के माध्यम से LLaVA-v1.5 पर सरल रूप से red teaming alignment लागू करने पर, RTVLM test set में 10%, MM-Hal में 13% तक model performance बेहतर हुई, जबकि MM-Bench में कोई उल्लेखनीय गिरावट नहीं दिखी, और इसने regular alignment data का उपयोग करने वाले अन्य LLaVA-आधारित models को पीछे छोड़ दिया। इससे स्पष्ट होता है कि मौजूदा open-source VLMs में अभी भी red teaming alignment की कमी है। उनका code और dataset open-source किए जाएंगे।
> VLMs (Vision-Language Models), LLMs (Large Language Models) की क्षमताओं को बढ़ाकर multimodal inputs स्वीकार करते हैं। चूंकि यह सत्यापित हो चुका है कि LLMs को विशिष्ट test cases (जिन्हें Red Teaming कहा जाता है) के जरिए हानिकारक या गलत content उत्पन्न करने के लिए प्रेरित किया जा सकता है, इसलिए समान परिस्थितियों में, खासकर text और visual inputs के संयोजन के साथ, VLMs कैसे perform करते हैं यह अब भी एक प्रश्न है। इस समस्या को समझने के लिए, हम RTVLM नामक एक नया red teaming dataset प्रस्तुत करते हैं, जिसमें 4 प्रमुख पहलुओं (faithfulness, privacy, safety, fairness) के अंतर्गत 10 उप-कार्य (जैसे image misleading, multi-modal jail-breaking, face fairness आदि) शामिल हैं। हमारा RTVLM इन 4 विभिन्न पहलुओं के संदर्भ में वर्तमान VLMs को benchmark करने वाला पहला red-teaming dataset है। विस्तृत विश्लेषण से पता चलता है कि 10 प्रमुख open-source VLMs red teaming में अलग-अलग स्तर पर संघर्ष करते हैं और GPT-4V की तुलना में अधिकतम 31% का performance gap रखते हैं। इसके अतिरिक्त, RTVLM का उपयोग करते हुए Supervised Fine-tuning (SFT) के साथ LLaVA-v1.5 पर red teaming alignment सरल रूप से लागू किया गया, और इससे RTVLM test set में 10%, MM-Hal में 13% तक performance बेहतर हुई, जबकि MM-Bench में कोई उल्लेखनीय गिरावट नहीं आई; इसने regular alignment data वाले अन्य LLaVA-based models को पीछे छोड़ दिया। इससे पता चलता है कि वर्तमान open-source VLMs में अभी भी red teaming alignment की कमी है। हमारा code और datasets open-source किए जाएंगे.
शोधपत्र सार(Abstract)
https://arxiv.org/abs/2401.12915
और पढ़ें
https://x.com/omarsar0/status/1750170361843384790
Lumiere: वीडियो जनरेशन के लिए एक space-time diffusion model / Lumiere: A Space-Time Diffusion Model for Video Generation
शोधपत्र परिचय
- वास्तविक और सुसंगत motion वाले videos को synthesize करने के लिए एक text-to-video space-time diffusion model; यह एक space-time U-Net architecture पेश करता है जो single pass में वीडियो की पूरी temporal duration को एक साथ generate करता है; यह state-of-the-art text-to-video generation परिणाम हासिल करता है और image-to-video, video inpainting, तथा stylized generation सहित content creation tasks और video editing applications की एक विस्तृत श्रृंखला को support करता है।
> वास्तविक और सुसंगत motion वाले videos को synthesize करने के लिए एक text-to-video space-time diffusion model; यह एक space-time U-Net architecture प्रस्तुत करता है जो single pass के जरिए वीडियो की पूरी temporal duration को एक बार में generate करता है; यह state-of-the-art text-to-video generation परिणाम प्राप्त करता है और image-to-video, video inpainting, और stylized generation सहित content creation tasks तथा video editing applications की एक विस्तृत श्रृंखला को support करता है.
शोधपत्र सार(Abstract)
- वीडियो सिंथेसिस की एक प्रमुख चुनौती, यानी यथार्थवादी, विविध और सुसंगत motion दिखाने वाले वीडियो बनाने के लिए डिज़ाइन किया गया text-to-video diffusion model Lumiere पेश किया गया है। इसके लिए यूनिटी ने Space-Time U-Net आर्किटेक्चर पेश किया, जो मॉडल के single pass के ज़रिए वीडियो की पूरी temporal duration को एक बार में जनरेट करता है। यह मौजूदा वीडियो मॉडलों से अलग है, जो पहले दूर-दूर के keyframe synthesize करते हैं और फिर temporal super-resolution लागू करते हैं—ऐसा तरीका जिसमें वैश्विक temporal consistency हासिल करना स्वाभाविक रूप से कठिन होता है। spatial और (महत्वपूर्ण रूप से) temporal down-sampling तथा up-sampling, दोनों का उपयोग करते हुए और pre-trained text-to-image diffusion model का लाभ उठाकर, यह मॉडल कई space-time scales पर प्रोसेसिंग के माध्यम से full-frame-rate low-resolution वीडियो को सीधे जनरेट करना सीखता है। यह state-of-the-art text-to-video generation परिणाम दिखाता है, और यह भी प्रदर्शित करता है कि इसका डिज़ाइन image-to-video, video inpainting और stylized generation सहित, विभिन्न content creation tasks और video editing applications को आसानी से सपोर्ट करता है。
> हम Lumiere पेश करते हैं — एक text-to-video diffusion model, जिसे ऐसे वीडियो synthesize करने के लिए डिज़ाइन किया गया है जो यथार्थवादी, विविध और सुसंगत motion दिखाते हैं — जो वीडियो सिंथेसिस की एक केंद्रीय चुनौती है। इसके लिए हम एक Space-Time U-Net आर्किटेक्चर पेश करते हैं, जो मॉडल के single pass के माध्यम से वीडियो की पूरी temporal duration को एक साथ जनरेट करता है। यह मौजूदा वीडियो मॉडलों से अलग है, जो दूरस्थ keyframes को synthesize करने के बाद temporal super-resolution करते हैं — ऐसा तरीका जिसमें स्वाभाविक रूप से global temporal consistency हासिल करना कठिन होता है। spatial और (महत्वपूर्ण रूप से) temporal down- और up-sampling, दोनों को लागू करके और एक pre-trained text-to-image diffusion model का उपयोग करके, हमारा मॉडल कई space-time scales पर प्रोसेसिंग करते हुए सीधे full-frame-rate, low-resolution वीडियो जनरेट करना सीखता है। हम state-of-the-art text-to-video generation परिणाम प्रदर्शित करते हैं, और दिखाते हैं कि हमारा डिज़ाइन image-to-video, video inpainting और stylized generation सहित, content creation tasks और video editing applications की विस्तृत श्रृंखला को आसानी से संभव बनाता है.
पेपर लिंक
https://arxiv.org/abs/2401.12945
आगे पढ़ें
https://discuss.pytorch.kr/t/lumiere-google/3357
https://x.com/GoogleAI/status/1751003814931689487
Medusa: multiple decoding heads के साथ सरल LLM inference acceleration framework / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads
पेपर परिचय
- यह LLM inference acceleration के लिए एक सरल framework है, जो कई decoding heads का उपयोग करता है और कई अगले tokens को parallel में predict करता है; parallelization decoding steps की संख्या को काफी घटा देती है; generation quality से समझौता किए बिना यह 2.2x से अधिक speedup हासिल कर सकता है, जबकि Medusa-2 इस speedup को आगे बढ़ाकर 2.3~3.6x तक ले जाता है।
> कई decoding heads का उपयोग करते हुए LLM inference acceleration के लिए एक सरल framework, जो कई subsequent tokens को parallel में predict करता है; parallelization decoding steps की संख्या को काफी कम कर देती है; यह generation quality से समझौता किए बिना 2.2x से अधिक speedup हासिल कर सकता है, जबकि Medusa-2 speedup को और बढ़ाकर 2.3-3.6x तक ले जाता है।
पेपर सार (Abstract)
- बड़े भाषा मॉडल (LLM) में inference process अक्सर auto-regressive decoding process में parallelism की कमी के कारण सीमित हो जाती है, जिसके चलते अधिकांश operations accelerators की memory bandwidth से बंधे रहते हैं। इस समस्या को हल करने के लिए speculative decoding जैसी विधियाँ प्रस्तावित की गई हैं, लेकिन अलग draft model को हासिल करने और बनाए रखने की चुनौती के कारण उनका implementation कठिन हो जाता है। इस पेपर में LLM inference को बेहतर बनाने के लिए Medusa पेश किया गया है, जो एक efficient तरीका है और कई अगले tokens को parallel में predict करने के लिए अतिरिक्त decoding heads जोड़ता है। Medusa tree-based attention mechanism का उपयोग करके कई candidate continuations बनाता है और हर decoding step में उन्हें एक साथ verify करता है। Parallel processing का लाभ उठाकर Medusa single-step latency के लिहाज़ से केवल बहुत कम overhead जोड़ता है, जबकि आवश्यक decoding steps की संख्या को काफ़ी कम कर देता है। विभिन्न use cases की ज़रूरतों को पूरा करने के लिए Medusa में fine-tuning procedures के दो स्तर हैं: Medusa-1: Medusa को frozen backbone LLM के ऊपर सीधे fine-tune किया जाता है, जिससे बिना किसी loss के inference acceleration संभव होता है। Medusa-2: Medusa को backbone LLM के साथ मिलाकर fine-tune किया जाता है, जिससे Medusa heads की prediction accuracy बढ़ती है और speedup अधिक मिलता है, लेकिन backbone model की capabilities को सुरक्षित रखने के लिए एक विशेष training recipe की आवश्यकता होती है। इसके अलावा, हम Medusa की उपयोगिता को बेहतर या विस्तारित करने के लिए कई extensions भी प्रस्तावित करते हैं, जिनमें training data उपलब्ध न होने की स्थिति को संभालने के लिए self-distillation और generation quality बनाए रखते हुए acceptance rate बढ़ाने के लिए एक सामान्य acceptance scheme शामिल है। हम विभिन्न sizes और training procedures वाले models पर Medusa का मूल्यांकन करते हैं। प्रयोगों से पता चलता है कि Medusa-1 generation quality से समझौता किए बिना 2.2x से अधिक speedup हासिल कर सकता है, जबकि Medusa-2 इसे आगे बढ़ाकर 2.3-3.6x तक ले जाता है。
> Large Language Models (LLMs) में inference process अक्सर auto-regressive decoding process में parallelism की अनुपस्थिति के कारण सीमित हो जाती है, जिससे अधिकांश operations accelerators की memory bandwidth तक सीमित रहते हैं। हालांकि speculative decoding जैसी विधियाँ इस समस्या के समाधान के लिए सुझाई गई हैं, लेकिन अलग draft model को प्राप्त करने और बनाए रखने से जुड़ी चुनौतियाँ उनके implementation में बाधा डालती हैं। इस पेपर में हम Medusa प्रस्तुत करते हैं, जो एक efficient method है और कई subsequent tokens को parallel में predict करने के लिए अतिरिक्त decoding heads जोड़कर LLM inference को augment करता है। Tree-based attention mechanism का उपयोग करते हुए, Medusa कई candidate continuations बनाता है और हर decoding step में उन्हें एक साथ verify करता है। Parallel processing का उपयोग करके Medusa single-step latency के संदर्भ में केवल न्यूनतम overhead जोड़ता है, जबकि आवश्यक decoding steps की संख्या को काफ़ी हद तक कम कर देता है। अलग-अलग use cases की ज़रूरतों को पूरा करने के लिए हम Medusa के लिए fine-tuning procedures के दो स्तर प्रस्तुत करते हैं: Medusa-1: Medusa को frozen backbone LLM के ऊपर सीधे fine-tune किया जाता है, जिससे lossless inference acceleration संभव होता है। Medusa-2: Medusa को backbone LLM के साथ fine-tune किया जाता है, जिससे Medusa heads की prediction accuracy बेहतर होती है और speedup अधिक मिलता है, लेकिन backbone model की capabilities को सुरक्षित रखने वाली एक विशेष training recipe की आवश्यकता होती है। इसके अलावा, हम कई extensions प्रस्तावित करते हैं जो Medusa की utility को बेहतर या विस्तारित करते हैं, जिनमें training data उपलब्ध न होने की स्थितियों को संभालने के लिए self-distillation और generation quality बनाए रखते हुए acceptance rate बढ़ाने के लिए एक सामान्य acceptance scheme शामिल है। हम विभिन्न sizes और training procedures वाले models पर Medusa का मूल्यांकन करते हैं। हमारे experiments दिखाते हैं कि Medusa-1 generation quality से समझौता किए बिना 2.2x से अधिक speedup हासिल कर सकता है, जबकि Medusa-2 speedup को आगे बढ़ाकर 2.3-3.6x तक ले जाता है।
पेपर लिंक
https://arxiv.org/abs/2401.10774v1
और पढ़ें
https://discuss.pytorch.kr/t/…
https://x.com/jiayq/status/1749461664393810350
एजेंटबोर्ड: मल्टीटर्न LLM एजेंटों के लिए विश्लेषणात्मक मूल्यांकन बोर्ड / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
पेपर परिचय
- open source evaluation framework के साथ एक comprehensive benchmark के जरिए LLM agents का analytical evaluation किया जाता है; यह LLM agents की capabilities और limitations का आकलन करने में मदद करता है और agent behaviors को अधिक स्पष्ट बनाता है, जिससे अधिक मजबूत और robust LLM agents बनाए जा सकते हैं।
> open-source evaluation framework के साथ एक comprehensive benchmark, जो llm agents का analytical evaluation करने के लिए बनाया गया है; यह llm agents की capabilities और limitations का आकलन करने में मदद करता है और agent behaviors को स्पष्ट करता है, जिससे अधिक मजबूत और robust llm agents बनाए जा सकते हैं।
पेपर सारांश (Abstract)
- सामान्य-उद्देश्य एजेंट के रूप में large language models (LLM) का मूल्यांकन करना उनकी क्षमताओं को समझने और उन्हें वास्तविक applications में आसानी से एकीकृत करने के लिए आवश्यक है। लेकिन मूल्यांकन प्रक्रिया में काफ़ी बड़ी चुनौतियाँ आती हैं। खास तौर पर, एक एकीकृत framework के भीतर विविध scenarios में agent performance का benchmarking करना सबसे बड़ी बाधा है, विशेषकर तब जब partially observable environments को बनाए रखना हो और multi-round interactions सुनिश्चित करने हों। इसके अलावा, मौजूदा evaluation frameworks ज़्यादातर final success rate पर केंद्रित हैं, इसलिए प्रक्रिया के दौरान बहुत कम insights मिलते हैं और model capabilities की गहरी समझ नहीं बन पाती। इन चुनौतियों को हल करने के लिए Unity ने LLM agents के analytical evaluation के लिए अनुकूलित एक अग्रणी comprehensive benchmark और open-source evaluation framework, AgentBoard, पेश किया है। AgentBoard granular progress rate metrics और interactive visualization के ज़रिए multi-faceted analysis के लिए agents का आसानी से मूल्यांकन करने वाला एक comprehensive evaluation toolkit प्रदान करता है, जो incremental advancements को भी पकड़ सकता है। इससे न केवल LLM agents की क्षमताओं और सीमाओं को स्पष्ट रूप से समझा जा सकता है, बल्कि उनके performance की interpretability भी बेहतर होती है। अंततः, AgentBoard agent behavior को समझने और अधिक मज़बूत LLM agents के विकास को तेज़ करने में महत्वपूर्ण भूमिका निभाता है।
> Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.
पेपर लिंक
https://arxiv.org/abs/2401.13178v1
और पढ़ें
https://x.com/ma_chang_nlp/status/1750369056539218082
मूल लेख
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-5c8
⚠️विज्ञापन⚠️: PyTorch Korean User Group द्वारा संकलित यह लेख क्या आपको उपयोगी लगा? सदस्य के रूप में जुड़ें और हम आपको प्रमुख लेख ईमेल से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly, लेकिन Daily में बदलना भी संभव है।)
अभी कोई टिप्पणी नहीं है.