[2024/02/26 ~ 03/03] इस सप्ताह के प्रमुख ML पेपर (Top ML Papers of the Week)
(discuss.pytorch.kr)-
DAIR.AI द्वारा हर हफ्ते प्रकाशित ML पेपरों पर आधारित इस लेख का स्वचालित अनुवाद किया गया है।
-
इस सप्ताह चुने गए पेपरों को देखें तो शोध का मुख्य फोकस बड़े भाषा मॉडल (Large Language Models, LLMs) पर दिखाई देता है। "Genie", "Mistral Large", "The Era of 1-bit LLMs", "Dataset for LLMs", "PlanGPT" जैसे शीर्षकों से यह स्पष्ट है कि language modeling, उसे बेहतर बनाने, और नए datasets के उपयोग वाली approaches में काफी रुचि है। इसकी एक वजह यह हो सकती है कि पिछले कुछ वर्षों में language processing तकनीकों ने तेज़ी से प्रगति की है और विशाल language models ने विभिन्न natural language processing कार्यों में उत्कृष्ट प्रदर्शन दिखाया है।
-
भाषा मॉडल, खासकर GPT-4 जैसे बड़े मॉडल, विभिन्न उद्योगों और शोध क्षेत्रों में लागू किए जा रहे हैं। इसके कारण ऐसे नए techniques की मांग बढ़ रही है जो इन मॉडलों को अधिक कुशलता से train कर सकें, अधिक विविध data पर लागू कर सकें, और यहां तक कि कम bits में भी उच्च प्रदर्शन बनाए रख सकें। साथ ही, "On the Societal Impact of Open Foundation Models" जैसे शीर्षक यह संकेत देते हैं कि भाषा मॉडलों के सामाजिक प्रभाव पर भी शोध हो रहा है। इसका मतलब है कि केवल तकनीकी प्रगति ही नहीं, बल्कि उससे होने वाले सामाजिक बदलावों और जिम्मेदारियों के प्रति जागरूकता भी बढ़ रही है।
-
दूसरी ओर, "LearnAct" या "EMO" जैसे अपेक्षाकृत कम विशिष्ट शीर्षक भी ध्यान खींचते हैं। संभव है कि ऐसे पेपर केवल language models तक सीमित न होकर, व्यापक applications या सैद्धांतिक प्रगति पर केंद्रित हों। कुल मिलाकर, इस सप्ताह language modeling के नए approaches और उन पर आधारित विविध application research प्रमुख ट्रेंड के रूप में उभरे हैं। इसे AI क्षेत्र की महत्वपूर्ण चुनौतियों पर हो रहे शोध और विकास के उत्साह का प्रतिबिंब माना जा सकता है।
Genie: जनरेटिव इंटरैक्टिव एनवायरनमेंट्स / Genie: Generative Interactive Environments
पेपर परिचय
- Genie एक foundation model है जिसे इंटरनेट वीडियो पर train किया गया है और image prompt दिए जाने पर यह क्रिया-नियंत्रित विभिन्न 2D दुनियाएँ बना सकता है। इसमें 11B parameters हैं और यह spatiotemporal video tokenizer, autoregressive dynamic model, और scalable latent action model से बना है। latent action space के माध्यम से trained agents, unseen videos के व्यवहार की नकल कर सकते हैं, जिससे अधिक generalist agents बनाने की संभावना दिखती है।
A foundation model trained from internet videos and with the ability to generate a variety of action-controllable 2d worlds given an image prompt; genie has 11b parameters and consists of a spatiotemporal video tokenizer, an autoregressive dynamic model, and a scalable latent action model; the latent action space enables training agents to imitate behaviors from unseen video which is promising for building more generalist agents.
पेपर सारांश(Abstract)
- हम Genie प्रस्तुत करते हैं, जो बिना लेबल वाले इंटरनेट वीडियो से unsupervised तरीके से train किया गया पहला generative interactive environment है। इस मॉडल को text, synthetic images, photographs, और यहाँ तक कि sketches के माध्यम से वर्णित असीमित प्रकार की action-controllable virtual worlds बनाने के लिए prompt किया जा सकता है। 11B parameters के साथ Genie को एक foundation world model माना जा सकता है। यह spatiotemporal video tokenizer, autoregressive dynamics model, और एक सरल व scalable latent action model से बना है। Genie की मदद से उपयोगकर्ता generated environments में frame-by-frame actions ले सकते हैं, जबकि training के दौरान world model literature में सामान्यतः आवश्यक ground-truth action labels या अन्य domain-specific requirements का उपयोग नहीं किया गया। इसके अलावा, सीखा गया latent action space agents को unseen videos के व्यवहार की नकल करने के लिए train करना संभव बनाता है, जिससे भविष्य के generalist agents को train करने का रास्ता खुलता है।
We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.
पेपर लिंक
https://arxiv.org/abs/2402.15391
आगे पढ़ें
https://discuss.pytorch.kr/t/…
https://sites.google.com/view/genie-2024/home
https://x.com/_rockt/status/1762026090262872161
Mistral Large / Mistral Large
पेपर परिचय
- शक्तिशाली multilingual, reasoning, maths, और code generation क्षमताओं वाले इस नए language engine की विशेषताएँ हैं: 1) 32k token context window, 2) native multilingual capabilities, 3) reasoning, knowledge, maths, और coding benchmarks पर मजबूत प्रदर्शन, 4) function calling और JSON format के लिए native support।
A new llm with strong multilingual, reasoning, maths, and code generation capabilities; features include: 1) 32k tokens context window, 2) native multilingual capacities, 3) strong abilities in reasoning, knowledge, maths, and coding benchmarks, and 4) function calling and json format natively supported.
पेपर लिंक
https://mistral.ai/news/mistral-large/
आगे पढ़ें
https://discuss.pytorch.kr/t/…
https://x.com/omarsar0/status/1762140818654064721
1-बिट LLMs का युग: सभी बड़े भाषा मॉडल 1.58 बिट्स में हैं / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
पेपर परिचय
- सभी पैरामीटर त्रिआधारी {-1, 0, 1} वाले BitNet b1.58 नामक एक high-performance और cost-effective 1-bit LLM वेरिएंट का परिचय दिया गया है। समान मॉडल आकार और training tokens दिए जाने पर, BitNet b1.58 full-precision Transformer LLM (यानी, fp16) की perplexity और task performance की बराबरी कर सकता है; इस 1-bit LLM के फायदे हैं कि latency, memory, throughput, और energy consumption में काफी बेहतर सुधार मिलता है।
> Introduces a high-performing and cost-effective 1-bit llm variant called bitnet b1.58 where every parameter is a ternary {-1, 0, 1}; given the same model size and training tokens, bitnet b1.58 can match the perplexity and task performance of a full precision transformer llm (i.e., fp16); the benefits of this 1-bit llm are significantly better latency, memory, throughout, and energy consumption.
पेपर सारांश(Abstract)
- BitNet जैसे हालिया शोध 1-bit Large Language Models (LLMs) के एक नए युग का रास्ता खोल रहे हैं। इस लेख में हम 1-bit LLM वेरिएंट, यानी BitNet b1.58, का परिचय देते हैं, जिसमें LLM का हर एक पैरामीटर (या weight) त्रिआधारी {-1, 0, 1} होता है। यह समान मॉडल आकार और training tokens वाले full-precision (यानी FP16 या BF16) Transformer LLM के बराबर perplexity और end-task performance हासिल करता है, जबकि latency, memory, throughput, और energy consumption के मामले में यह काफी अधिक cost-effective है। और भी महत्वपूर्ण बात यह है कि 1.58-bit LLM उच्च प्रदर्शन और लागत-दक्षता दोनों वाले नई पीढ़ी के LLMs को train करने के लिए एक नया scaling law और recipe परिभाषित करता है। साथ ही, यह एक नए computation paradigm को संभव बनाता है और 1-bit LLMs के लिए optimized विशेष hardware design करने का रास्ता खोलता है।
> Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.
पेपर लिंक
https://arxiv.org/abs/2402.17764
आगे पढ़ें
https://x.com/_akhaliq/status/1762729757454618720
बड़े भाषा मॉडलों के लिए डेटा सेट: एक व्यापक सर्वे पेपर / Datasets for Large Language Models: A Comprehensive Survey
पेपर परिचय
- LLM datasets का 180+ पन्नों का व्यापक overview और analysis।
> A comprehensive overview (180+ pages) and analysis of llm datasets.
पेपर सारांश(Abstract)
- यह पेपर Large Language Model (LLM) datasets की पड़ताल शुरू करता है, जो LLMs की तेज़ प्रगति में बेहद महत्वपूर्ण भूमिका निभाते हैं। datasets उस बुनियादी infrastructure की तरह काम करते हैं जिसे LLMs के विकास को संभालने और पोषित करने वाली root system से तुलना की जा सकती है। इसलिए, इन datasets की जांच शोध का एक महत्वपूर्ण विषय बनकर उभरी है। LLM datasets पर व्यापक overview और गहन analysis की मौजूदा कमी को दूर करने, तथा उनकी वर्तमान स्थिति और भविष्य के रुझानों पर insight पाने के लिए, यह survey LLM datasets के मूल पहलुओं को पाँच दृष्टिकोणों से समेकित और वर्गीकृत करता है: (1) pre-training corpora, (2) instruction fine-tuning datasets, (3) preference datasets, (4) evaluation datasets, (5) पारंपरिक natural language processing (NLP) datasets। यह survey मौजूदा चुनौतियों पर रोशनी डालता है और भविष्य के शोध के लिए संभावित दिशाएँ सुझाता है। इसके अलावा, यह वर्तमान में उपलब्ध dataset resources की व्यापक समीक्षा भी देता है, जिसमें 8 language categories और 32 domains में फैले 444 datasets के statistics शामिल हैं। dataset statistics में 20 dimensions की जानकारी सम्मिलित की गई है। सर्वेक्षित कुल data size pre-training corpora के लिए 774.5TB और अन्य datasets के लिए 70 करोड़ instances से अधिक है। हमारा उद्देश्य LLM text datasets के पूरे परिदृश्य को प्रस्तुत करना है, ताकि यह इस क्षेत्र के शोधकर्ताओं के लिए एक व्यापक reference बन सके और भविष्य के शोध में योगदान दे सके। संबंधित resources यहाँ उपलब्ध हैं: https://github.com/lmmlzn/Awesome-LLMs-Datasets.
> यह पेपर Large Language Model (LLM) datasets की पड़ताल करता है, जो LLMs की उल्लेखनीय प्रगति में महत्वपूर्ण भूमिका निभाते हैं। ये datasets उस बुनियादी infrastructure का काम करते हैं जो LLMs के विकास को बनाए रखने और आगे बढ़ाने वाली root system के समान है। इसलिए, इन datasets की जांच शोध का एक अहम विषय बन जाती है। LLM datasets पर व्यापक overview और गहन analysis की मौजूदा कमी को दूर करने, और उनकी वर्तमान स्थिति व भविष्य के रुझानों को समझने के लिए, यह survey LLM datasets के मूल पहलुओं को पाँच दृष्टिकोणों से समेकित और वर्गीकृत करता है: (1) Pre-training Corpora; (2) Instruction Fine-tuning Datasets; (3) Preference Datasets; (4) Evaluation Datasets; (5) Traditional Natural Language Processing (NLP) Datasets. यह survey मौजूदा चुनौतियों पर प्रकाश डालता है और भविष्य की जांच के लिए संभावित रास्तों की ओर संकेत करता है। साथ ही, यह उपलब्ध dataset resources की व्यापक समीक्षा भी प्रदान करता है, जिसमें 444 datasets के statistics शामिल हैं, जो 8 language categories और 32 domains तक फैले हुए हैं। dataset statistics में 20 dimensions की जानकारी शामिल की गई है। सर्वेक्षित कुल data size pre-training corpora के लिए 774.5 TB और अन्य datasets के लिए 700M instances से अधिक है। हमारा लक्ष्य LLM text datasets के पूरे landscape को प्रस्तुत करना है, ताकि यह इस क्षेत्र के शोधकर्ताओं के लिए एक व्यापक reference के रूप में काम करे और भविष्य के अध्ययनों में योगदान दे। संबंधित resources यहाँ उपलब्ध हैं: https://github.com/lmmlzn/Awesome-LLMs-Datasets.
पेपर लिंक
https://arxiv.org/abs/2402.18041
और पढ़ें
https://github.com/lmmlzn/Awesome-LLMs-Datasets
https://x.com/omarsar0/status/1763233452852134001
Action Learning के माध्यम से Large Language Model Agents को सशक्त बनाना / Empowering Large Language Model Agents through Action Learning
पेपर परिचय
- Python functions का उपयोग करके actions बनाने और सुधारने वाली iterative learning strategy के माध्यम से यह भाषा agents के लिए open-action learning की पड़ताल करता है। प्रस्तावित framework (learnact) हर iteration में execution feedback के आधार पर उपलब्ध actions को संशोधित और अपडेट करता है, जिससे action space का विस्तार होता है और action effectiveness बेहतर होती है। robotic planning और alfworld environments में किए गए परीक्षणों में, alfworld पर react+reflexion की तुलना में agent performance में 32% सुधार देखा गया।
> Python functions का उपयोग करके actions बनाने और सुधारने वाली iterative learning strategy के माध्यम से language agents के लिए open-action learning की पड़ताल करता है; हर iteration में प्रस्तावित framework (learnact) execution feedback के आधार पर उपलब्ध actions को संशोधित और अपडेट करके action space का विस्तार करता है और action effectiveness को बेहतर बनाता है; learnact framework का robotic planning और alfworld environments में परीक्षण किया गया; यह alfworld में react+reflexion की तुलना में agent performance को 32% तक सुधारता है।
पेपर सारांश(Abstract)
- हाल के समय में बड़े language model (LLM) agents में रुचि काफी बढ़ी है, लेकिन बुद्धिमान व्यवहार के एक प्रमुख तत्व, यानी trial-and-error के जरिए सीखने की उनकी क्षमता अभी सीमित है। यह शोध तर्क देता है कि अनुभव से नए actions सीखने की क्षमता, LLM agents में learning को आगे बढ़ाने के लिए अनिवार्य है। जहाँ मनुष्य अनुभव-आधारित learning के माध्यम से स्वाभाविक रूप से अपने action space का विस्तार करते हैं और skills विकसित करते हैं, वहीं LLM agents आमतौर पर fixed action spaces के भीतर काम करते हैं, जिससे उनकी growth potential सीमित हो जाती है। इन चुनौतियों से निपटने के लिए यह शोध language agents के लिए open-action learning की पड़ताल करता है। इसमें LearnAct नामक एक framework पेश किया गया है, जिसमें Python functions के रूप में actions बनाने और सुधारने के लिए iterative learning strategy शामिल है। हर iteration में LLM, असफल training tasks में पहचानी गई errors के आधार पर वर्तमान में उपलब्ध actions को संशोधित और अपडेट करता है, जिससे action effectiveness बेहतर होती है। Robotic Planning और Alfworld environments में किए गए experimental evaluation से पता चला कि कुछ training task instances पर सीखने के बाद open-action learning के लिए यह approach संबंधित task type पर agent performance को उल्लेखनीय रूप से बेहतर बनाती है (उदाहरण के लिए, AlfWord में ReAct+Reflexion की तुलना में 32%)। यह परिणाम अधिक बुद्धिमान LLM agents के विकास में experiential action learning के महत्व को रेखांकित करता है।
> Large Language Model (LLM) Agents have recently garnered increasing interest yet they are limited in their ability to learn from trial and error, a key element of intelligent behavior. In this work, we argue that the capacity to learn new actions from experience is fundamental to the advancement of learning in LLM agents. While humans naturally expand their action spaces and develop skills through experiential learning, LLM agents typically operate within fixed action spaces, limiting their potential for growth. To address these challenges, our study explores open-action learning for language agents. We introduce a framework LearnAct with an iterative learning strategy to create and improve actions in the form of Python functions. In each iteration, LLM revises and updates the currently available actions based on the errors identified in unsuccessful training tasks, thereby enhancing action effectiveness. Our experimental evaluations across Robotic Planning and Alfworld environments reveal that after learning on a few training task instances, our approach to open-action learning markedly improves agent performance for the type of task (by 32 percent in AlfWorld compared to ReAct+Reflexion, for instance) highlighting the importance of experiential action learning in the development of more intelligent LLM agents.
पेपर लिंक
https://arxiv.org/abs/2402.15809
आगे पढ़ें
https://x.com/omarsar0/status/1762533498492010761
EMO: Emote Portrait Alive - कमजोर conditions में Audio2Video diffusion model का उपयोग करके expressive portrait videos बनाना / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
पेपर परिचय
- Audio-to-Video diffusion model का उपयोग करके, बिना किसी intermediate 3D model या facial landmarks की आवश्यकता वाले direct Audio-to-Video synthesis approach पर आधारित expressive videos बनाने के लिए एक नया framework, EMO, पेश किया गया है। यह expressiveness और realism के मामले में मौजूदा तरीकों से बेहतर प्रदर्शन करता है और विभिन्न styles में भरोसेमंद speaking videos और singing videos बना सकता है।
> A new framework for generating expressive video by utilizing a direct audio-to-video synthesis approach; by leveraging an audio2video diffusion model it bypasses the need for intermediate 3d models or facial landmarks; emo can produce convincing speaking videos and singing videos in various styles while outperforming existing methods in terms of expressiveness and realism.
पेपर सारांश(Abstract)
- यह शोध audio cues और facial movements के बीच के dynamic और सूक्ष्म संबंध पर ध्यान केंद्रित करते हुए talking head video generation में realism और expressiveness को बेहतर बनाने की चुनौती पर काम करता है। इसमें उन पारंपरिक तकनीकों की सीमाओं की पहचान की गई है जो अक्सर मानवीय expressions की पूरी range और व्यक्तिगत facial styles की विशिष्टता को पकड़ने में विफल रहती हैं। इन समस्याओं के समाधान के लिए शोध में EMO नामक एक नया framework प्रस्तावित किया गया है, जो intermediate 3D models या facial landmarks की आवश्यकता को दरकिनार करते हुए direct audio-to-video synthesis approach का उपयोग करता है। यह तरीका पूरे वीडियो में seamless frame transitions और identity की consistent preservation सुनिश्चित करता है, जिससे अत्यधिक expressive और जीवंत animations तैयार होते हैं। प्रयोगों के नतीजे दिखाते हैं कि EMO न केवल भरोसेमंद speaking videos बल्कि विभिन्न styles के singing videos भी बना सकता है, और expressiveness तथा realism के मामले में मौजूदा state-of-the-art methods से उल्लेखनीय रूप से बेहतर है।
> In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism.
पेपर लिंक
https://arxiv.org/abs/2402.17485
आगे पढ़ें
https://x.com/_akhaliq/status/1762686465777999932
ओपन फाउंडेशन मॉडल का सामाजिक प्रभाव / On the Societal Impact of Open Foundation Models
पेपर परिचय
- ओपन फाउंडेशन मॉडल, उनके प्रभाव, लाभ और जोखिम पर केंद्रित यह position paper जोखिम विश्लेषण के लिए एक risk assessment framework प्रस्तावित करता है, कुछ मामलों में यह समझाता है कि ओपन फाउंडेशन मॉडल का सीमांत जोखिम कम क्यों होता है, और ओपन फाउंडेशन मॉडल के सामाजिक प्रभाव का अधिक आधारपूर्ण आकलन प्रस्तुत करता है।
> A position paper with a focus on open foundation models and their impact, benefits, and risks; proposes a risk assessment framework for analyzing risk and explains why the marginal risk of open foundation models is low in some cases; it also offers a more grounded assessment of the societal impact of open foundation models.
पेपर लिंक
https://crfm.stanford.edu/open-fms/
आगे पढ़ें
https://x.com/sayashk/status/1762508812370551207
StarCoder 2 / StarCoder 2
पेपर परिचय
- कोड के लिए open machine learning मॉडलों का एक परिवार, जो तीन आकारों (3b, 7b, 15b) में उपलब्ध है; 15b मॉडल को 14 ट्रिलियन tokens और 600+ programming languages पर train किया गया है, इसमें 16k token context window और fill-in-the-middle objective का उपयोग किया गया है, और यह code completion, code reasoning, तथा PAL-सहायित math reasoning जैसे कई evaluations में 33b+ मॉडलों के बराबर प्रदर्शन करता है।
> A family of open llms for code with three different sizes (3b, 7b, and 15b); the 15b model was trained on 14 trillion tokens and 600+ programming languages with a context window of 16k token and employing a fill-in-the-middle objective; it matches 33b+ models on many evaluation like code completion, code reasoning, and math reasoning aided through pal.
पेपर लिंक
https://huggingface.co/blog/starcoder2
आगे पढ़ें
https://x.com/_philschmid/status/1762843489220296881
सारणीबद्ध डेटा पर बड़े भाषा मॉडल (LLMs): Prediction, Generation, and Understanding - A Survey / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey
पेपर परिचय
- यह tabular data tasks के लिए LLMs का एक overview प्रस्तुत करता है, जिसमें प्रमुख techniques, metrics, datasets, models, और optimization approaches शामिल हैं; साथ ही यह सीमाओं, अब तक कम खोजे गए विचारों, और भविष्य के research directions पर insights भी देता है।
> An overview of llms for tabular data tasks including key techniques, metrics, datasets, models, and optimization approaches; it covers limitations and unexplored ideas with insights for future research directions.
पेपर सार(Abstract)
- बड़े भाषा मॉडलिंग में हालिया breakthroughs ने prediction, tabular data synthesis, question answering, और table understanding जैसे tabular data modeling से जुड़े विविध कार्यों में इनके उपयोग की गहन पड़ताल को संभव बनाया है। प्रत्येक कार्य अपनी अलग चुनौतियाँ और अवसर प्रस्तुत करता है। हालांकि, इस शोध क्षेत्र में प्रमुख techniques, metrics, datasets, models, और optimization approaches का सारांश और तुलना करने वाली व्यापक समीक्षा फिलहाल उपलब्ध नहीं है। यह survey हालिया प्रगति को समेकित करके इस कमी को दूर करने का लक्ष्य रखता है, और उपयोग किए गए datasets, metrics, तथा methodologies का विस्तृत survey और taxonomy प्रदान करता है। यह मौजूदा साहित्य की strengths, limitations, कम खोजे गए क्षेत्रों, और gaps की पहचान करता है, साथ ही इस महत्वपूर्ण और तेजी से विकसित हो रहे क्षेत्र में भविष्य के research directions के लिए कुछ insights भी देता है। यह संबंधित code और datasets references भी प्रदान करता है। इस व्यापक समीक्षा के माध्यम से, हमें आशा है कि रुचि रखने वाले पाठकों को उपयुक्त references और उपयोगी perspectives मिलेंगे, जिससे वे इस क्षेत्र की वर्तमान चुनौतियों को प्रभावी ढंग से समझने और सुलझाने के लिए आवश्यक tools और knowledge से सशक्त हो सकेंगे।
> Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.
पेपर लिंक
https://arxiv.org/abs/2402.17944
आगे पढ़ें
https://x.com/omarsar0/status/1763187964501254492
PlanGPT: अनुकूलित भाषा मॉडल और कुशल retrieval के साथ urban planning को बेहतर बनाना / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval
पेपर परिचय
- यह दिखाता है कि retrieval augmentation, fine-tuning, tool usage आदि जैसे कई approaches को LLMs के साथ कैसे उपयोग और संयोजित किया जा सकता है। प्रस्तावित framework को urban और spatial planning में लागू किया गया है, लेकिन इसमें ऐसे कई insights और practical tips हैं जो अन्य domains पर भी लागू होते हैं।
> Shows how to leverage llms and combine multiple approaches like retrieval augmentation, fine-tuning, tool usage, and more; the proposed framework is applied to urban and spatial planning but there are a lot of insights and practical tips that apply to other domains.
पेपर सार(Abstract)
- शहरी नियोजन के क्षेत्र में सामान्य-उद्देश्य वाले बड़े language model अक्सर योजनाकारों की विशिष्ट ज़रूरतों को पूरा करने में संघर्ष करते हैं। शहरी नियोजन टेक्स्ट जनरेशन, संबंधित जानकारी की retrieval, और planning documents का evaluation जैसे कार्य अपनी अलग चुनौतियाँ रखते हैं। शहरी विशेषज्ञों की दक्षता बढ़ाने और इन बाधाओं को दूर करने के लिए, हम PlanGPT प्रस्तुत करते हैं, जो urban and spatial planning के लिए अनुकूलित पहला विशेष large language model है। Chinese Academy of Urban Planning जैसी संस्थाओं के सहयोग से विकसित PlanGPT, customized local database retrieval framework, domain-specific base model fine-tuning, और advanced tooling capabilities का उपयोग करता है। अनुभवजन्य परीक्षणों से पता चलता है कि PlanGPT ने उन्नत प्रदर्शन हासिल किया है और शहरी नियोजन की जटिलताओं के अनुरूप बेहतर गुणवत्ता वाले उत्तर प्रदान किए हैं।
> शहरी नियोजन के क्षेत्र में, general-purpose large language models अक्सर योजनाकारों की विशिष्ट आवश्यकताओं को पूरा करने में कठिनाई महसूस करते हैं। urban planning texts तैयार करना, संबंधित जानकारी प्राप्त करना, और planning documents का मूल्यांकन करना जैसे कार्य विशिष्ट चुनौतियाँ पेश करते हैं। शहरी पेशेवरों की दक्षता बढ़ाने और इन बाधाओं को दूर करने के लिए, हम PlanGPT प्रस्तुत करते हैं, जो urban and spatial planning के लिए अनुकूलित पहला specialized Large Language Model है। Chinese Academy of Urban Planning जैसी संस्थाओं के साथ सहयोगात्मक प्रयासों के माध्यम से विकसित PlanGPT, customized local database retrieval framework, base models के domain-specific fine-tuning, और advanced tooling capabilities का लाभ उठाता है। अनुभवजन्य परीक्षण दिखाते हैं कि PlanGPT ने उन्नत प्रदर्शन हासिल किया है और शहरी नियोजन की बारीकियों के अनुरूप उत्कृष्ट गुणवत्ता वाले उत्तर दिए हैं।
पेपर लिंक
https://arxiv.org/abs/2402.19273
और पढ़ें
https://x.com/omarsar0/status/1763424166890377691
मूल लेख
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-983
यह लेख GPT मॉडल की मदद से संकलित किया गया है, इसलिए इसमें कुछ त्रुटियाँ हो सकती हैं; कृपया नीचे दिए गए मूल लेख को भी साथ में देखें! पढ़ते समय यदि आपको कोई अटपटी या गलत बात दिखे, तो कृपया टिप्पणी में हमें बताएं.
⚠️विज्ञापन⚠️: PyTorch Korean User Group द्वारा संकलित यह लेख क्या आपके लिए उपयोगी रहा? यदि आप सदस्य के रूप में जुड़ते हैं, तो हम प्रमुख लेख आपको ईमेल से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly, लेकिन Daily में बदलना भी संभव है.)
अभी कोई टिप्पणी नहीं है.