Meta FAIR ने नए शोध परिणाम, मॉडल और डेटासेट जारी किए

xguru · 2024-06-21T09:46:01+09:00

Meta Fundamental AI Research (FAIR) ने नए शोध परिणाम जारी किए इसमें 6 शोध परिणाम शामिल हैं, जो innovation, creativity, efficiency और responsibility जैसे मुख्य थीम्स पर केंद्रित हैं Meta Chameleon एक unified architecture model जो text और image को input के रूप में लेकर text और image के संयोजन को output कर सकता है Diffusion-आधारित training के बजाय tokenization का उपयोग करके text और image को प्रोसेस करता है, जिससे integrated approach संभव होती है और design, maintenance तथा expansion आसान हो जाते हैं Chameleon 7B और 34B मॉडल के मुख्य components को research-only license के तहत जारी किया गया image generation model अभी जारी नहीं किया गया है Multi-Token Prediction एक नई approach का प्रस्ताव, जो शब्दों को एक-एक करके predict करने के पारंपरिक तरीके के बजाय कई शब्दों को एक साथ predict करती है मॉडल performance और training efficiency बेहतर होती है और speed भी बढ़ती है code completion के लिए pre-trained model को non-commercial/research-only license के तहत जारी किया गया है JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation) एक text-to-music generation model जो text prompt को music clip में बदलता है यह specific chord या beat जैसे विभिन्न inputs लेकर generated music output को बेहतर तरीके से control कर सकता है specific control से संबंधित information निकालने के लिए information bottleneck layer और temporal blurring लागू किया गया है evaluation results में generation quality baseline model के समान रही, लेकिन कहीं अधिक विविध controls संभव हुए research paper और sample page जारी किए गए हैं, और आगे inference code तथा pre-trained model भी जारी किए जाएंगे AudioSeal AI-generated speech का पता लगाने के लिए एक audio watermarking technique लंबे audio clip के भीतर AI-generated हिस्सों को सटीक रूप से पहचान सकता है मौजूदा जटिल decoding algorithms के बजाय local detection approach का उपयोग करके speed और efficiency में सुधार किया गया है इसे commercial license के तहत जारी किया जा रहा है, और यह विभिन्न generative AI tools के दुरुपयोग को रोकने के लिए किए जा रहे शोध का हिस्सा है PRISM डेटासेट रिलीज़ समर्थन LLM को बेहतर बनाने के लिए विविध लोगों से feedback प्राप्त करना महत्वपूर्ण है research community ने feedback process की methods, domains और goals को लेकर प्रश्न उठाए हैं Meta 75 देशों के 1,500 विविध प्रतिभागियों की socio-demographics और preferences को मैप करने वाले PRISM डेटासेट की सार्वजनिक रिलीज़ का समर्थन कर रहा है यह डेटासेट 21 LLMs के साथ 8,011 real-time conversations पर प्रत्येक व्यक्ति की preferences और granular feedback को मैप करता है उम्मीद है कि इससे AI development में व्यापक भागीदारी बढ़ेगी और inclusive technology design approach को प्रोत्साहन मिलेगा text-to-image generation systems में geographic gaps का मापन और सुधार यह महत्वपूर्ण है कि text-to-image models सभी लोगों के लिए अच्छी तरह काम करें और दुनिया की भौगोलिक तथा सांस्कृतिक विविधता को प्रतिबिंबित करें "DIG In" नामक एक automated metric विकसित किया गया है, जो संभावित geographic gaps का आकलन करता है 65,000 से अधिक annotations और 20 से अधिक survey responses इकट्ठा करके यह अध्ययन किया गया कि लोग geographic representation को कैसे पहचानते हैं यह पता चला कि लोग पूरी image की बजाय image के भीतर specific components के आधार पर geographic representation को पहचानते हैं इसके आधार पर text-to-image models के output diversity को बेहतर बनाने के तरीकों की खोज की गई Contextualized Vendi Score guidance पेश किया गया, जिससे image quality और prompt-generation consistency बनाए रखते हुए generated samples की representational diversity बढ़ाई जा सके

(ai.meta.com)

3 पॉइंट द्वारा xguru 2024-06-21 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Meta Fundamental AI Research (FAIR) ने नए शोध परिणाम जारी किए
इसमें 6 शोध परिणाम शामिल हैं, जो innovation, creativity, efficiency और responsibility जैसे मुख्य थीम्स पर केंद्रित हैं

Meta Chameleon

एक unified architecture model जो text और image को input के रूप में लेकर text और image के संयोजन को output कर सकता है
- Diffusion-आधारित training के बजाय tokenization का उपयोग करके text और image को प्रोसेस करता है, जिससे integrated approach संभव होती है और design, maintenance तथा expansion आसान हो जाते हैं
- Chameleon 7B और 34B मॉडल के मुख्य components को research-only license के तहत जारी किया गया
- image generation model अभी जारी नहीं किया गया है

Multi-Token Prediction

एक नई approach का प्रस्ताव, जो शब्दों को एक-एक करके predict करने के पारंपरिक तरीके के बजाय कई शब्दों को एक साथ predict करती है
- मॉडल performance और training efficiency बेहतर होती है और speed भी बढ़ती है
- code completion के लिए pre-trained model को non-commercial/research-only license के तहत जारी किया गया है

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

एक text-to-music generation model जो text prompt को music clip में बदलता है
- यह specific chord या beat जैसे विभिन्न inputs लेकर generated music output को बेहतर तरीके से control कर सकता है
- specific control से संबंधित information निकालने के लिए information bottleneck layer और temporal blurring लागू किया गया है
- evaluation results में generation quality baseline model के समान रही, लेकिन कहीं अधिक विविध controls संभव हुए
- research paper और sample page जारी किए गए हैं, और आगे inference code तथा pre-trained model भी जारी किए जाएंगे

AudioSeal

AI-generated speech का पता लगाने के लिए एक audio watermarking technique
- लंबे audio clip के भीतर AI-generated हिस्सों को सटीक रूप से पहचान सकता है
- मौजूदा जटिल decoding algorithms के बजाय local detection approach का उपयोग करके speed और efficiency में सुधार किया गया है
- इसे commercial license के तहत जारी किया जा रहा है, और यह विभिन्न generative AI tools के दुरुपयोग को रोकने के लिए किए जा रहे शोध का हिस्सा है

PRISM डेटासेट रिलीज़ समर्थन

LLM को बेहतर बनाने के लिए विविध लोगों से feedback प्राप्त करना महत्वपूर्ण है
- research community ने feedback process की methods, domains और goals को लेकर प्रश्न उठाए हैं
- Meta 75 देशों के 1,500 विविध प्रतिभागियों की socio-demographics और preferences को मैप करने वाले PRISM डेटासेट की सार्वजनिक रिलीज़ का समर्थन कर रहा है
- यह डेटासेट 21 LLMs के साथ 8,011 real-time conversations पर प्रत्येक व्यक्ति की preferences और granular feedback को मैप करता है
- उम्मीद है कि इससे AI development में व्यापक भागीदारी बढ़ेगी और inclusive technology design approach को प्रोत्साहन मिलेगा

text-to-image generation systems में geographic gaps का मापन और सुधार

यह महत्वपूर्ण है कि text-to-image models सभी लोगों के लिए अच्छी तरह काम करें और दुनिया की भौगोलिक तथा सांस्कृतिक विविधता को प्रतिबिंबित करें
- "DIG In" नामक एक automated metric विकसित किया गया है, जो संभावित geographic gaps का आकलन करता है
- 65,000 से अधिक annotations और 20 से अधिक survey responses इकट्ठा करके यह अध्ययन किया गया कि लोग geographic representation को कैसे पहचानते हैं
- यह पता चला कि लोग पूरी image की बजाय image के भीतर specific components के आधार पर geographic representation को पहचानते हैं
- इसके आधार पर text-to-image models के output diversity को बेहतर बनाने के तरीकों की खोज की गई
- Contextualized Vendi Score guidance पेश किया गया, जिससे image quality और prompt-generation consistency बनाए रखते हुए generated samples की representational diversity बढ़ाई जा सके