• DAIR.AI द्वारा हर हफ्ते प्रकाशित किए जाने वाले ML शोधपत्रों पर आधारित इस लेख का स्वचालित अनुवाद किया गया है।

  • इस सप्ताह प्रस्तुत शोधपत्रों से जो प्रमुख रुझान दिखाई देते हैं, उनमें प्राकृतिक भाषा प्रसंस्करण (NLP) और reinforcement learning (RL) पर केंद्रित कई अध्ययन शामिल हैं। उदाहरण के लिए, "GPT-4o", "Fine-tuning and Hallucinations", और "Zero-shot Tokenizer Transfer" प्राकृतिक भाषा प्रसंस्करण से जुड़ी नवीनतम तकनीकों और कार्यप्रणालियों पर चर्चा करते हैं, और खास तौर पर generative models तथा tokenizer transfer learning जैसे क्षेत्रों में प्रगति की पड़ताल करते हैं। इसके अलावा, "RLHF Workflow" reinforcement learning का उपयोग करते हुए कुशल learning process design पर शोध प्रस्तुत करता है, जिसे RL क्षेत्र के व्यावहारिक अनुप्रयोगों का विस्तार करने के प्रयास के रूप में देखा जा सकता है।

  • ये रुझान इस बात को दर्शाते हैं कि AI तकनीक, विशेषकर machine learning और deep learning के विकास में, प्राकृतिक भाषा प्रसंस्करण और reinforcement learning का महत्व लगातार बढ़ रहा है। पिछले कुछ वर्षों में GPT जैसे language generation models की विस्फोटक वृद्धि के साथ इनके अनुप्रयोगों का दायरा लगातार फैलता गया है, और इसी कारण शोधकर्ताओं के बीच इन मॉडलों को और अधिक परिष्कृत तरीके से tune करने तथा मौजूदा मॉडलों की कमज़ोरियों को दूर करने वाले शोधों में गहरी रुचि बढ़ी है। साथ ही, reinforcement learning decision-making process को optimize करने और जटिल environments में learning capability को बेहतर बनाने की एक महत्वपूर्ण तकनीक के रूप में स्थापित हो चुका है, जो learning efficiency को अधिकतम करने की वर्तमान शोध प्रवृत्ति से भी मेल खाता है।

  • इसलिए, इस सप्ताह प्रस्तुत शोधपत्र अकादमिक और उद्योग जगत में research and development के प्रयास किस दिशा में आगे बढ़ रहे हैं, यह स्पष्ट रूप से दिखाते हैं। प्राकृतिक भाषा प्रसंस्करण, मनुष्य और मशीन के बीच interaction को अधिक स्वाभाविक और कुशल बनाने वाली तकनीकों का केंद्र है, जबकि reinforcement learning ऐसे interactions पर आधारित decision-making process को optimize करने में महत्वपूर्ण भूमिका निभाता है। ये शोध रुझान आगे भी विकसित होती रहने वाली AI तकनीक की भविष्य दिशा को दिखाने वाले महत्वपूर्ण संकेतक साबित होंगे।


GPT-4o

परिचय

यह एक नया मॉडल है जिसमें real-time support के साथ audio, vision, और text पर multimodal reasoning capabilities हैं। यह text, audio, image, और video के किसी भी संयोजन को input के रूप में लेकर text, audio, और image outputs के संयोजन बना सकता है, और रिपोर्ट के अनुसार API के माध्यम से यह GPT-4 Turbo के समान प्रदर्शन देते हुए 50% से भी अधिक तेज़ और सस्ता है।

A new model with multimodal reasoning capabilities with real-time support across audio, vision, and text; it can accept as input any combination of text, audio, image, and video to generate combinations of text, audio, and image outputs; it’s reported to match GPT-4 Turbo performance while being 50% much faster and cheaper via APIs.

संबंधित लिंक

https://openai.com/index/hello-gpt-4o/

आगे पढ़ें

https://discuss.pytorch.kr/t/openai-gpt-4o-gpt-4o/4362

https://x.com/OpenAI/status/1790072174117613963


Gemini 1.5 Flash / Gemini 1.5 Flash

शोधपत्र परिचय

यह multimodal capabilities वाला 2M context window से युक्त एक lightweight transformer decoder model है, जिसे efficiency के लिए डिज़ाइन किया गया है, और कई मूल्यांकित भाषाओं में सभी मॉडलों की तुलना में सबसे तेज़ output generation प्रदान करता है। कुल मिलाकर, Gemini 1.5 Flash, Gemini 1.0 Pro की तुलना में लगातार बेहतर प्रदर्शन दिखाता है और कई benchmarks पर 1.0 Ultra के समान स्तर का प्रदर्शन भी करता है।

A lightweight transformer decoder model with a 2M context window with multimodal capabilities; it is designed for efficiency and yields the fastest output generation of all models on several evaluated languages; overall, Gemini 1.5 Flash performs uniformly better compared to Gemini 1.0 Pro and even performs at a similar level to 1.0 Ultra on several benchmarks.

शोधपत्र सार (Abstract)

यह रिपोर्ट Gemini 1.5 मॉडल परिवार का परिचय देती है, जो अगली पीढ़ी के अत्यधिक compute-efficient multimodal models का प्रतिनिधित्व करता है और कई लंबे दस्तावेज़ों तथा घंटों के वीडियो और ऑडियो सहित लाखों context tokens से सूक्ष्म जानकारी को याद रखने और उस पर reasoning करने में सक्षम है। इस परिवार में दो नए मॉडल शामिल हैं: (1) अपडेटेड Gemini 1.5 Pro, जो अधिकांश क्षमताओं और benchmarks में फरवरी संस्करण से बेहतर है, और (2) Gemini 1.5 Flash, जो गुणवत्ता में न्यूनतम गिरावट के साथ दक्षता के लिए डिज़ाइन किया गया एक अधिक हल्का संस्करण है। Gemini 1.5 मॉडल विभिन्न modalities में long-context retrieval tasks पर लगभग परफेक्ट recall हासिल करते हैं, long-document QA, long-video QA और long-context ASR में state-of-the-art प्रदर्शन को बेहतर बनाते हैं, और benchmarks के व्यापक सेट पर Gemini 1.0 Ultra के state-of-the-art प्रदर्शन की बराबरी करते हैं या उसे पीछे छोड़ते हैं। Gemini 1.5 की long-context क्षमता की सीमाओं का अध्ययन करने पर पाया गया कि next-token prediction और लगभग परफेक्ट retrieval (e99%) में कम-से-कम 10M tokens तक लगातार सुधार बना रहता है, जो Claude 3.0 (200k) और GPT-4 Turbo(128k) जैसे मौजूदा मॉडलों की तुलना में एक पीढ़ी से अधिक की छलांग है। अंत में, हम वास्तविक उपयोग के उदाहरणों पर प्रकाश डालते हैं, जैसे 10 अलग-अलग job categories में 26 से 75% समय की बचत हासिल करते हुए पेशेवरों के साथ Gemini 1.5 का कार्य-सहयोग, साथ ही frontier पर large language models की नई और चौंकाने वाली क्षमताएँ; उदाहरण के लिए, यदि इसे Kalamang जैसी ऐसी भाषा का grammar manual दिया जाए, जिसे दुनिया भर में 200 से भी कम लोग बोलते हैं, तो मॉडल उसी सामग्री से सीखने वाले व्यक्ति के समान स्तर पर English से Kalamang में अनुवाद करना सीख लेता है。

इस रिपोर्ट में, हम Gemini 1.5 मॉडल परिवार का परिचय देते हैं, जो अगली पीढ़ी के अत्यधिक compute-efficient multimodal models का प्रतिनिधित्व करता है और कई लंबे दस्तावेज़ों तथा घंटों के वीडियो और ऑडियो सहित लाखों context tokens से सूक्ष्म जानकारी को याद रखने और उस पर reasoning करने में सक्षम है। इस परिवार में दो नए मॉडल शामिल हैं: (1) अपडेटेड Gemini 1.5 Pro, जो अधिकांश क्षमताओं और benchmarks में फरवरी संस्करण से बेहतर है; (2) Gemini 1.5 Flash, जो गुणवत्ता में न्यूनतम गिरावट के साथ दक्षता के लिए डिज़ाइन किया गया एक अधिक हल्का संस्करण है। Gemini 1.5 मॉडल विभिन्न modalities में long-context retrieval tasks पर लगभग परफेक्ट recall हासिल करते हैं, long-document QA, long-video QA और long-context ASR में state-of-the-art प्रदर्शन को बेहतर बनाते हैं, और benchmarks के व्यापक सेट पर Gemini 1.0 Ultra के state-of-the-art प्रदर्शन की बराबरी करते हैं या उसे पीछे छोड़ते हैं। Gemini 1.5 की long-context क्षमता की सीमाओं का अध्ययन करने पर, हमने पाया कि next-token prediction और लगभग परफेक्ट retrieval (>99%) में कम-से-कम 10M tokens तक लगातार सुधार बना रहता है, जो Claude 3.0 (200k) और GPT-4 Turbo (128k) जैसे मौजूदा मॉडलों की तुलना में एक पीढ़ी की बड़ी छलांग है। अंत में, हम वास्तविक उपयोग के उदाहरणों पर प्रकाश डालते हैं, जैसे Gemini 1.5 का पेशेवरों के साथ उनके कार्य पूरे करने में सहयोग करना, जिससे 10 अलग-अलग job categories में 26 से 75% समय की बचत हुई, साथ ही frontier पर large language models की नई और चौंकाने वाली क्षमताएँ; जब इसे Kalamang जैसी भाषा का grammar manual दिया जाता है, जिसके दुनिया भर में 200 से कम वक्ता हैं, तो मॉडल उसी सामग्री से सीखने वाले व्यक्ति के समान स्तर पर English से Kalamang में अनुवाद करना सीख लेता है.

पेपर लिंक

https://storage.googleapis.com/deepmind-media/gemini/…

और पढ़ें

https://discuss.pytorch.kr/t/gn-google-i-o-2024/4371

https://x.com/OriolVinyalsML/status/1791521517211107515


Veo

परिचय

Google DeepMind का सबसे सक्षम video generation model 1 मिनट से लंबे high-quality, 1080p resolution वाले वीडियो बनाता है; यह वीडियो में masked editing को सपोर्ट करता है और text के साथ input image देकर भी वीडियो बना सकता है; यह मॉडल अपने latent diffusion transformer के साथ consistency बनाए रखते हुए video clips को 60 सेकंड या उससे अधिक तक बढ़ा सकता है.

Google Deepmind का सबसे सक्षम video generation model 1 मिनट से लंबे high-quality, 1080p resolution वाले वीडियो बनाता है; यह वीडियो में masked editing को सपोर्ट करता है और text के साथ input image देकर भी वीडियो बना सकता है; यह मॉडल अपने latent diffusion transformer के साथ consistency बनाए रखते हुए video clips को 60 सेकंड या उससे अधिक तक बढ़ा सकता है.

संबंधित लिंक

https://deepmind.google/technologies/veo/

और पढ़ें

https://discuss.pytorch.kr/t/veo-google-deepmind/4385

https://x.com/GoogleDeepMind/status/1790435824598716704


Chameleon: Mixed-Modal Early-Fusion Foundation Models

पेपर परिचय

छवियों और text को किसी भी मनचाहे क्रम में जनरेट करने के लिए token-based mixed-modal models का एक परिवार; image captioning में state-of-the-art प्रदर्शन की रिपोर्ट करता है, text-only tasks में Llama 2 से बेहतर है और Mixtral 8x7B तथा Gemini-Pro के साथ भी प्रतिस्पर्धी है; नए long-form mixed-modal generation evaluation में Gemini Pro और GPT-4V के प्रदर्शन से आगे निकलता है.

छवियों और text को किसी भी मनचाहे क्रम में जनरेट करने के लिए token-based mixed-modal models का एक परिवार; image captioning में state-of-the-art प्रदर्शन की रिपोर्ट करता है, text-only tasks में Llama 2 से बेहतर है और Mixtral 8x7B तथा Gemini-Pro के साथ भी प्रतिस्पर्धी है; नए long-form mixed-modal generation evaluation में Gemini Pro और GPT-4V के प्रदर्शन से आगे निकलता है.

पेपर सार (Abstract)

हम Chameleon पेश करते हैं, जो early-fusion token-based mixed-modal models का एक परिवार है और किसी भी मनमाने sequence में image और text को समझने और generate करने में सक्षम है। इसमें शुरुआत से स्थिर training approach, alignment recipe, और early-fusion token-based mixed-modal setting के लिए tailored architectural parameterization का वर्णन किया गया है। मॉडलों का मूल्यांकन कार्यों की एक व्यापक श्रृंखला पर किया गया है, जिनमें visual question answering, image captioning, text generation, image generation, और long-form mixed-modal generation शामिल हैं। Chameleon व्यापक और सामान्य क्षमताएँ दिखाता है, जिनमें image captioning tasks में state-of-the-art performance शामिल है; यह text-only tasks में Llama-2 से बेहतर प्रदर्शन करता है, साथ ही Mixtral 8x7B और Gemini-Pro जैसे मॉडलों के साथ प्रतिस्पर्धी भी है, और एक ही मॉडल में non-trivial image generation भी करता है। इसके अलावा, नई long-form mixed-modal generation evaluation में, जहाँ prompt या outputs में image और text दोनों के मिश्रित sequence शामिल होते हैं, मानव मूल्यांकन के अनुसार यह Gemini Pro और GPT-4V सहित इससे कहीं बड़े मॉडलों के प्रदर्शन की बराबरी करता है या उससे आगे निकलता है। Chameleon पूर्ण multimodal documents के unified modeling में एक महत्वपूर्ण प्रगति को दर्शाता है।

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.

शोधपत्र लिंक

https://arxiv.org/abs/2405.09818

और पढ़ें

https://x.com/AIatMeta/status/1791263344714014733


क्या नए ज्ञान पर LLMs को fine-tune करना hallucinations को बढ़ावा देता है? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

शोधपत्र परिचय

यह अध्ययन नए ज्ञान पर fine-tuning का LLMs की hallucination प्रवृत्ति पर प्रभाव देखता है, और नए ज्ञान को शामिल करने वाले fine-tuning examples की एक setup बनाकर यह दिखाता है कि LLMs को fine-tuning के जरिए नया factual knowledge हासिल करने में कठिनाई होती है; साथ ही यह भी पाया गया कि जैसे-जैसे नया ज्ञान सीखा जाता है, मॉडल की hallucination प्रवृत्ति बढ़ती जाती है।

Studies the impact of fine-tuning on new knowledge on the hallucination tendencies of LLMs; the setup includes fine-tuning examples that include new knowledge; shows that LLMs struggle to acquire new factual knowledge via fine-tuning; also finds that as new knowledge is learned it increases the model’s tendency to hallucinate.

शोधपत्र सारांश(Abstract)

जब बड़े language models को supervised fine-tuning के जरिए align किया जाता है, तो वे ऐसी नई factual information से सामना कर सकते हैं जो pre-training के दौरान हासिल नहीं हुई थी। अक्सर यह अनुमान लगाया जाता है कि इससे मॉडल factually incorrect responses की hallucination वाला व्यवहार सीख सकता है, क्योंकि उसे ऐसे facts generate करने के लिए train किया जाता है जो उसके पहले से मौजूद ज्ञान पर आधारित नहीं होते। इस काम में, हम नए ज्ञान के ऐसे exposure का fine-tuned model की अपने पहले से मौजूद ज्ञान का उपयोग करने की क्षमता पर क्या प्रभाव पड़ता है, इसका अध्ययन करते हैं। इसके लिए, हम closed-book QA पर केंद्रित एक controlled setup डिज़ाइन करते हैं, जिसमें हम उन fine-tuning examples के अनुपात को बदलते हैं जो नया ज्ञान प्रस्तुत करते हैं। हम दिखाते हैं कि बड़े language models को fine-tuning के जरिए नया factual knowledge हासिल करने में कठिनाई होती है, क्योंकि नया ज्ञान प्रस्तुत करने वाले fine-tuning examples, मॉडल के ज्ञान के अनुरूप examples की तुलना में कहीं अधिक धीमी गति से सीखे जाते हैं। हालांकि, हम यह भी पाते हैं कि जैसे-जैसे नए ज्ञान वाले examples अंततः सीखे जाते हैं, वे मॉडल की hallucination प्रवृत्ति को रैखिक रूप से बढ़ाते हैं। कुल मिलाकर, ये निष्कर्ष fine-tuning के जरिए नया factual knowledge शामिल करने के जोखिम को उजागर करते हैं, और इस दृष्टिकोण का समर्थन करते हैं कि बड़े language models अधिकांश factual knowledge pre-training के जरिए हासिल करते हैं, जबकि fine-tuning उन्हें उसका अधिक कुशल उपयोग करना सिखाती है।

When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model's tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.

शोधपत्र लिंक

https://arxiv.org/abs/2405.05904

और पढ़ें

https://x.com/arankomatsuzaki/status/1788859706187882960


Zero-Shot Tokenizer Transfer / Zero-Shot Tokenizer Transfer

शोधपत्र परिचय

यह काम एक ऐसे hypernetwork को train करता है जो tokenizer को input के रूप में लेकर उससे संबंधित embeddings की भविष्यवाणी करता है, encoder और decoder LLMs दोनों में नए tokenizers पर generalization दिखाता है, और रिपोर्ट करता है कि यह तरीका cross-lingual और coding tasks में मूल मॉडल के performance के क़रीब पहुंचते हुए tokenized sequence की लंबाई भी कम करता है।

Trains a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings; it demonstrates generalization to new tokenizers both with encoder and decoder LLMs; reports that the method achieves performance close to the original models' performance in cross-lingual and coding tasks while reducing the length of the tokenized sequence.

शोधपत्र सारांश(Abstract)

भाषा मॉडल (LMs) अपने tokenizer से बंधे होते हैं, जो raw text को vocabulary items (tokens) की एक sequence में map करता है। उदाहरण के लिए, मुख्य रूप से English पर train किए गए LMs अन्य प्राकृतिक और programming भाषाओं में भी अच्छा काम कर सकते हैं, लेकिन उनके English-केंद्रित tokenizer की वजह से उनकी efficiency काफ़ी घट सकती है। इसे कम करने के लिए, ideally हमें performance घटाए बिना original LM tokenizer को किसी भी arbitrary tokenizer से on the fly बदल पाने में सक्षम होना चाहिए। इसी कारण यह काम एक नई समस्या परिभाषित करता है: Zero-Shot Tokenizer Transfer (ZeTT)। ZeTT के केंद्र में मौजूद चुनौती नए tokenizer की vocabulary में tokens के लिए embeddings ढूँढना है। चूंकि embeddings initialize करने के लिए पहले के heuristics अक्सर ZeTT setting में chance level पर perform करते हैं, हम एक नया समाधान प्रस्तावित करते हैं: हम एक ऐसे hypernetwork को train करते हैं जो tokenizer को input के रूप में लेता है और उसके अनुरूप embeddings की भविष्यवाणी करता है। हम empirical रूप से दिखाते हैं कि यह hypernetwork encoder (जैसे XLM-R) और decoder LLMs (जैसे Mistral-7B) दोनों के साथ नए tokenizers पर generalize करता है। हमारा तरीका cross-lingual और coding tasks में मूल मॉडलों के performance के क़रीब पहुंचता है, साथ ही tokenized sequence की लंबाई को उल्लेखनीय रूप से कम करता है। हम यह भी पाते हैं कि 1B से कम tokens पर continued training के ज़रिए बचा हुआ gap तेज़ी से कम किया जा सकता है। अंत में, हम दिखाते हैं कि किसी base (L)LM के लिए train किया गया ZeTT hypernetwork बिना अतिरिक्त training के fine-tuned variants पर भी लागू किया जा सकता है। कुल मिलाकर, हमारे परिणाम LMs को उनके tokenizer से अलग करने की दिशा में महत्वपूर्ण प्रगति दिखाते हैं।

Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models' performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.

शोधपत्र लिंक

https://arxiv.org/abs/2405.07883

और पढ़ें

https://x.com/bminixhofer/status/1790267652587258343


WavCraft: बड़े भाषा मॉडलों का उपयोग करके ऑडियो संपादन और निर्माण / WavCraft: Audio Editing and Generation with Large Language Models

शोधपत्र परिचय

यह ऑडियो content creation और editing के लिए task-specific models को जोड़ने में LLMs का उपयोग करता है, user instructions को कई tasks में विभाजित करता है और हर task को संबंधित module के साथ मिलकर संभालता है, और users को बिना explicit commands के भी audio content के साथ interact करने और उसे produce करने में सक्षम बनाता है।

Leverages LLMs to connect task-specific models for audio content creation and editing; decomposes users' instructions into several tasks and tackles each task collaboratively with the particular module; it can enable users to interact and produce audio content without explicit commands

शोधपत्र सारांश(Abstract)

ऑडियो कंटेंट बनाने और एडिट करने के लिए विभिन्न task-specific models को जोड़ने वाली, बड़े भाषा मॉडल (LLM) का उपयोग करने वाली एक समग्र प्रणाली WavCraft पेश की गई है। विशेष रूप से, WavCraft कच्चे ऑडियो सामग्री के कंटेंट को प्राकृतिक भाषा में वर्णित करता है और ऑडियो विवरण तथा उपयोगकर्ता अनुरोधों के आधार पर LLM को prompt करता है। WavCraft, LLM की in-context learning क्षमता का उपयोग करके उपयोगकर्ता के निर्देशों को कई कार्यों में विभाजित करता है और प्रत्येक कार्य को संबंधित module के साथ मिलकर संभालता है। task decomposition और task-specific models की एक श्रृंखला के माध्यम से, WavCraft इनपुट निर्देशों का पालन करते हुए अधिक विवरण और तर्क सहित ऑडियो कंटेंट बनाता या एडिट करता है, जिससे उपयोगकर्ता नियंत्रण आसान होता है। इसके अलावा, WavCraft संवादात्मक इंटरैक्शन के जरिए उपयोगकर्ताओं के साथ सहयोग कर सकता है और स्पष्ट उपयोगकर्ता कमांड के बिना भी ऑडियो कंटेंट तैयार कर सकता है। प्रयोगों से पता चला कि WavCraft मौजूदा तरीकों की तुलना में बेहतर प्रदर्शन करता है, खासकर जब ऑडियो क्लिप के स्थानीय हिस्सों को समायोजित किया जाता है। साथ ही, WavCraft जटिल निर्देशों के अनुसार इनपुट रिकॉर्डिंग के ऊपर ऑडियो कंटेंट को एडिट और निर्मित कर सकता है, जिससे व्यापक अनुप्रयोगों में ऑडियो निर्माताओं को सहायता मिल सकती है। implementation और demo यहाँ (https://github.com/JinhuaLiang/WavCraft) देखे जा सकते हैं।

We introduce WavCraft, a collective system that leverages large language models (LLMs) to connect diverse task-specific models for audio content creation and editing. Specifically, WavCraft describes the content of raw audio materials in natural language and prompts the LLM conditioned on audio descriptions and user requests. WavCraft leverages the in-context learning ability of the LLM to decomposes users' instructions into several tasks and tackle each task collaboratively with the particular module. Through task decomposition along with a set of task-specific models, WavCraft follows the input instruction to create or edit audio content with more details and rationales, facilitating user control. In addition, WavCraft is able to cooperate with users via dialogue interaction and even produce the audio content without explicit user commands. Experiments demonstrate that WavCraft yields a better performance than existing methods, especially when adjusting the local regions of audio clips. Moreover, WavCraft can follow complex instructions to edit and create audio content on the top of input recordings, facilitating audio producers in a broader range of applications. Our implementation and demos are available at this https://github.com/JinhuaLiang/WavCraft.

शोधपत्र लिंक

https://arxiv.org/abs/2403.09527v3

और पढ़ें

https://github.com/JinhuaLiang/WavCraft


RLHF workflow: reward modeling से online RLHF तक / RLHF Workflow: From Reward Modeling to Online RLHF

शोधपत्र परिचय

ऑनलाइन iterative RLHF को आसानी से पुनरुत्पादित किया जा सके, इसके लिए एक recipe प्रदान की गई है, और ऑनलाइन iterative RLHF की सैद्धांतिक अंतर्दृष्टि, algorithmic principles तथा व्यावहारिक implementation की व्याख्या की गई है।

Provides an easily reproducible recipe for online iterative RLHF; discusses theoretical insights and algorithmic principles of online iterative RLHF and practical implementation.

शोधपत्र सार(Abstract)

इस तकनीकी रिपोर्ट में हम Online Iterative Reinforcement Learning from Human Feedback (RLHF) का workflow प्रस्तुत करते हैं, जिसे हालिया large language model (LLM) साहित्य में इसके offline समकक्ष की तुलना में काफ़ी बेहतर प्रदर्शन करने वाला बताया गया है। हालांकि, मौजूदा open-source RLHF प्रोजेक्ट अभी भी बड़े पैमाने पर offline learning setting तक ही सीमित हैं। इस तकनीकी रिपोर्ट में हमारा लक्ष्य इस अंतर को भरना और online iterative RLHF के लिए एक विस्तृत, आसानी से दोहराई जा सकने वाली recipe प्रदान करना है। खास तौर पर, सीमित संसाधनों वाली open-source community में online human feedback आम तौर पर संभव नहीं होता, इसलिए हम विविध open-source datasets का उपयोग करके preference models बनाना शुरू करते हैं और तैयार किए गए proxy preference model से human feedback का approximation करते हैं। इसके बाद हम online iterative RLHF के पीछे की theoretical insights और algorithmic principles पर चर्चा करते हैं, और फिर विस्तृत practical implementation देखते हैं। प्रशिक्षित LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, ने AlpacaEval-2, Arena-Hard, और MT-Bench जैसे LLM chatbot benchmarks के साथ-साथ HumanEval और TruthfulQA जैसे अन्य academic benchmarks पर भी प्रभावशाली प्रदर्शन हासिल किया है। हमने दिखाया है कि supervised fine-tuning (SFT) और iterative RLHF, पूरी तरह open-source datasets के साथ state-of-the-art प्रदर्शन हासिल कर सकते हैं। इसके अलावा, हमने models, curated datasets, और व्यापक step-by-step code guidebooks को सार्वजनिक रूप से उपलब्ध कराया है। अधिक जानकारी के लिए https://github.com/RLHFlow/RLHF-Reward-Modeling और https://github.com/RLHFlow/Online-RLHF देखें。

इस तकनीकी रिपोर्ट में हम Online Iterative Reinforcement Learning from Human Feedback (RLHF) का workflow प्रस्तुत करते हैं, जिसे हालिया large language model (LLM) साहित्य में इसके offline समकक्ष की तुलना में काफ़ी बेहतर प्रदर्शन करने वाला बताया गया है। हालांकि, मौजूदा open-source RLHF प्रोजेक्ट अभी भी बड़े पैमाने पर offline learning setting तक ही सीमित हैं। इस तकनीकी रिपोर्ट में हमारा लक्ष्य इस अंतर को भरना और online iterative RLHF के लिए एक विस्तृत, आसानी से दोहराई जा सकने वाली recipe प्रदान करना है। खास तौर पर, सीमित संसाधनों वाली open-source community में online human feedback आम तौर पर संभव नहीं होता, इसलिए हम विविध open-source datasets का उपयोग करके preference models बनाना शुरू करते हैं और तैयार किए गए proxy preference model से human feedback का approximation करते हैं। इसके बाद हम online iterative RLHF के पीछे की theoretical insights और algorithmic principles पर चर्चा करते हैं, और फिर विस्तृत practical implementation देखते हैं। हमारा प्रशिक्षित LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, AlpacaEval-2, Arena-Hard, और MT-Bench सहित LLM chatbot benchmarks, तथा HumanEval और TruthfulQA जैसे अन्य academic benchmarks पर प्रभावशाली प्रदर्शन हासिल करता है। हमने दिखाया है कि supervised fine-tuning (SFT) और iterative RLHF, पूरी तरह open-source datasets के साथ state-of-the-art प्रदर्शन हासिल कर सकते हैं। इसके अलावा, हमने अपने models, curated datasets, और व्यापक step-by-step code guidebooks को सार्वजनिक रूप से उपलब्ध कराया है। अधिक विस्तृत जानकारी के लिए https://github.com/RLHFlow/RLHF-Reward-Modeling और https://github.com/RLHFlow/Online-RLHF देखें.

पेपर लिंक

https://arxiv.org/abs/2405.07863v1

आगे पढ़ें

https://github.com/RLHFlow/RLHF-Reward-Modeling और https://github.com/RLHFlow/Online-RLHF

https://x.com/CaimingXiong/status/1790379121719361776


केवल एक बार cache करें: language models के लिए decoder-decoder architectures / You Only Cache Once: Decoder-Decoder Architectures for Language Models

पेपर परिचय

key-value pairs को केवल एक बार cache करने वाली decoder-decoder LLM architecture में, एक cross-decoder को self-decoder के ऊपर stack किया जाता है, जो global key-value caches को कुशलतापूर्वक encode करता है, और cross-encoder cross-attention के ज़रिए cache का पुन: उपयोग करता है। इससे capabilities में कमी लाए बिना GPU memory usage में उल्लेखनीय कमी आती है, और model size तथा training tokens की संख्या बढ़ाने वाली विभिन्न settings में Transformer के तुलनीय प्रदर्शन हासिल किया जा सकता है।

एक decoder-decoder LLM architecture जो key-value pairs को केवल एक बार cache करती है; इसमें self-decoder के ऊपर एक cross-decoder stack किया जाता है, जो global key-value caches को कुशलतापूर्वक encode करता है, और cross-encoder cross-attention के माध्यम से cache का पुन: उपयोग करता है; इससे capabilities में कमी किए बिना GPU memory use में महत्वपूर्ण कमी आती है; और model size तथा training tokens की संख्या बढ़ाने वाली विभिन्न settings में Transformer के तुलनीय प्रदर्शन हासिल होते हैं.

पेपर सार (Abstract)

बड़े language models के लिए हम YOCO पेश करते हैं, जो एक decoder-decoder आर्किटेक्चर है और key-value pairs को सिर्फ एक बार cache करता है। यह आर्किटेक्चर दो components से बना है: self-decoder के ऊपर stacked एक cross-decoder। self-decoder global key-value (KV) cache को कुशलता से encode करता है, जिसे cross-decoder cross-attention के जरिए reuse करता है। पूरा मॉडल decoder-only Transformer की तरह काम करता है, लेकिन YOCO cache का उपयोग केवल एक बार करता है। यह डिज़ाइन global attention capability बनाए रखते हुए GPU memory की मांग को काफी कम करता है। इसके अलावा, computation flow final output बदले बिना prefilling से early exit तक की अनुमति देता है, जिससे prefill stage काफी तेज हो जाती है। प्रयोगों के नतीजे दिखाते हैं कि YOCO, model size और training tokens की संख्या बढ़ाने वाली विभिन्न settings में Transformer की तुलना में बेहतर performance हासिल करता है। साथ ही, YOCO को लगभग perfect needle retrieval accuracy के साथ 1M context length तक extend किया गया है। profiling results के अनुसार, YOCO context length और model size के अलग-अलग स्तरों पर inference memory, prefill latency और throughput में orders-of-magnitude सुधार दिखाता है। कोड https://aka.ms/YOCO पर उपलब्ध है।

हम बड़े language models के लिए YOCO नामक एक decoder-decoder आर्किटेक्चर पेश करते हैं, जो key-value pairs को सिर्फ एक बार cache करता है। इसमें दो components होते हैं, यानी self-decoder के ऊपर stacked एक cross-decoder। self-decoder global key-value (KV) cache को कुशलता से encode करता है, जिसे cross-decoder cross-attention के जरिए reuse करता है। कुल मिलाकर मॉडल decoder-only Transformer की तरह व्यवहार करता है, हालांकि YOCO केवल एक बार cache करता है। यह डिज़ाइन GPU memory की मांग को काफी कम करता है, फिर भी global attention capability बनाए रखता है। इसके अतिरिक्त, computation flow final output बदले बिना prefilling से early exit तक सक्षम बनाता है, जिससे prefill stage काफी तेज हो जाती है। experimental results दिखाते हैं कि model size और training tokens की संख्या बढ़ाने वाली विभिन्न settings में YOCO, Transformer की तुलना में बेहतर performance हासिल करता है। हमने YOCO को लगभग perfect needle retrieval accuracy के साथ 1M context length तक भी extend किया है। profiling results दिखाते हैं that YOCO context lengths और model sizes के अलग-अलग स्तरों पर inference memory, prefill latency और throughput में orders of magnitude सुधार करता है। कोड https://aka.ms/YOCO पर उपलब्ध है।

पेपर लिंक

https://arxiv.org/abs/2405.05254

और पढ़ें

https://github.com/microsoft/unilm/tree/master/YOCO

https://x.com/arankomatsuzaki/status/1788435838474355098


CAT3D: Multi-View Diffusion Models के साथ किसी भी चीज़ को 3D में बनाना / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

पेपर परिचय

यह काम multi-view diffusion model का उपयोग करके वास्तविक capture process को simulate कर किसी भी चीज़ को 3D में बनाने की विधि पेश करता है। यह किसी scene के consistent novel views बना सकता है, जिन्हें 3D reconstruction techniques के input के रूप में इस्तेमाल कर real-time rendered 3D representation बनाया जा सकता है। CAT3D के scenes एक मिनट से भी कम समय में generate किए जा सकते हैं, और रिपोर्ट के अनुसार single-image तथा few-view 3D scene creation tasks में यह मौजूदा तरीकों से बेहतर प्रदर्शन करता है।

multi-view diffusion model का उपयोग करके वास्तविक दुनिया के capture process को simulate करते हुए किसी भी चीज़ को 3D में बनाने की एक विधि प्रस्तुत की गई है; यह किसी scene के consistent novel views generate कर सकता है, जिन्हें 3D reconstruction techniques के input के रूप में इस्तेमाल कर real-time में render होने वाली 3D representation तैयार की जा सकती है; CAT3D का scene एक मिनट से कम समय में generate किया जा सकता है और बताया गया है कि single image तथा few-view 3D scene creation tasks पर यह मौजूदा methods से बेहतर है।

पेपर सारांश(Abstract)

3D reconstruction में प्रगति ने high-quality 3D capture को संभव बनाया है, लेकिन 3D scene बनाने के लिए उपयोगकर्ता को सैकड़ों से लेकर हजारों images इकट्ठा करनी पड़ती हैं। Unity ने CAT3D पेश किया है, जो multi-view diffusion model के साथ इस वास्तविक capture process को simulate करके किसी भी चीज़ को 3D में बनाने की एक विधि है। input images की किसी भी संख्या और target novel viewpoints के एक सेट को दिए जाने पर, Unity का मॉडल scene के बेहद consistent novel views generate करता है। इन generated views को मजबूत 3D reconstruction techniques के input के रूप में इस्तेमाल किया जा सकता है, ताकि ऐसे 3D representations तैयार किए जा सकें जिन्हें किसी भी viewpoint से real-time में render किया जा सके। CAT3D सिर्फ 1 मिनट में पूरा 3D scene बना सकता है और single-image तथा few-view 3D scene creation में मौजूदा तरीकों से बेहतर प्रदर्शन करता है। परिणामों और interactive demos के लिए project page (https://cat3d.github.io) देखें।

3D reconstruction में हुई प्रगति ने high-quality 3D capture को संभव बनाया है, लेकिन 3D scene बनाने के लिए उपयोगकर्ता को सैकड़ों से हजारों images इकट्ठा करनी पड़ती हैं। हम CAT3D प्रस्तुत करते हैं, जो multi-view diffusion model के साथ इस वास्तविक capture process को simulate करके किसी भी चीज़ को 3D में बनाने की एक विधि है। input images की किसी भी संख्या और target novel viewpoints के एक सेट को दिए जाने पर, हमारा मॉडल scene के अत्यंत consistent novel views generate करता है। इन generated views को मजबूत 3D reconstruction techniques के input के रूप में इस्तेमाल कर ऐसे 3D representations तैयार किए जा सकते हैं जिन्हें किसी भी viewpoint से real-time में render किया जा सके। CAT3D पूरे 3D scenes को केवल एक मिनट में बना सकता है, और single image तथा few-view 3D scene creation के लिए यह मौजूदा methods से बेहतर प्रदर्शन करता है। परिणामों और interactive demos के लिए हमारा project page देखें: https://cat3d.github.io .

पेपर लिंक

https://arxiv.org/abs/2405.10314

और पढ़ें

https://cat3d.github.io

https://x.com/_akhaliq/status/1791294630614442009


मूल लेख

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ed5


यह लेख GPT मॉडल की मदद से संकलित किया गया है, इसलिए इसमें कुछ त्रुटियाँ हो सकती हैं। कृपया नीचे दिए गए मूल लेख को भी साथ में देखें। पढ़ते समय अगर आपको कोई अटपटी या गलत बात दिखे, तो कृपया टिप्पणी में हमें बताएं! 🤗

⚠️विज्ञापन⚠️: क्या 🔥PyTorch Korea User Group🇰🇷 द्वारा संकलित यह लेख आपको उपयोगी लगा? सदस्य के रूप में जुड़ें और हम आपको प्रमुख लेख ईमेल💌 से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly है, लेकिन इसे Daily में भी बदला जा सकता है।)

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.