Meta FAIR ने 9 नए रिसर्च, मॉडल और datasets जारी किए

(ai.meta.com)

1 पॉइंट द्वारा GN⁺ 2024-12-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Meta FAIR ने उन्नत machine intelligence research के लिए agents, robustness·safety, और model architecture पर केंद्रित 9 outputs को code, model, dataset, और demo के रूप में जारी किया
मुख्य रिलीज़ में virtual humanoid control के लिए Meta Motivo, video watermarking के लिए Meta Video Seal, Flow Matching codebase, Explore Theory-of-Mind, और Large Concept Model शामिल हैं
Meta Motivo बिना label वाले motion data और नए algorithm की मदद से state, motion, और reward को एक ही latent space में रखता है, जिससे अतिरिक्त training या planning के बिना whole-body control tasks किए जा सकते हैं
Meta Video Seal वीडियो में अदृश्य watermark और वैकल्पिक hidden message जोड़ता है, और blur, crop, तथा online sharing compression जैसे सामान्य edits के बाद भी टिके रहने के लिए डिज़ाइन किया गया है
शोधकर्ता जारी किए गए outputs को डाउनलोड करके experiment, integration, और extension कर सकते हैं, और Meta reproducible open science तथा open ecosystem पर ज़ोर देता है

Meta FAIR की सार्वजनिक रिलीज़ का दायरा

Meta FAIR ने नवीनतम research, code, model, dataset research community के लिए जारी किए हैं
यह रिलीज़ तीन मुख्य क्षेत्रों पर केंद्रित है
- अधिक सक्षम agents बनाना
- robustness और safety
- architecture innovation जिससे models नई जानकारी को अधिक प्रभावी ढंग से सीख सकें और मौजूदा सीमाओं से आगे बढ़ सकें
कुल 9 projects और outputs तुरंत डाउनलोड और उपयोग के लिए उपलब्ध हैं
शुरुआती research release के जरिए दोहराव वाले शोध को बढ़ावा देना और AI प्रगति को ज़िम्मेदारी से आगे बढ़ाना इसका उद्देश्य है

Meta Motivo: virtual humanoid behavior control foundation model

Meta Motivo एक behavior-based model है जो virtual embodied humanoid agents की movement को नियंत्रित करके complex tasks कराता है
मौजूदा unsupervised reinforcement learning को अक्सर curated interaction datasets की ज़रूरत होती है, या वह ऐसे unsupervised losses पर निर्भर करता है जो target task से अच्छी तरह मेल नहीं खाते
Meta Motivo को एक नए algorithm से train किया गया है जो unlabeled motion dataset का उपयोग करता है
- यह state, motion, और reward को एक ही latent space में embed करने वाला representation सीखता है
- यह अतिरिक्त training या planning के बिना motion tracking, target pose reaching, और reward optimization जैसे whole-body control tasks हल करता है
इसका performance task-specific methods के बराबर प्रतिस्पर्धी है, और यह आधुनिक unsupervised reinforcement learning तथा model-based baselines से बेहतर है
यह untrained gravity, wind, और direct perturbations जैसे environment changes पर भी उच्च robustness दिखाता है
यह research Metaverse में fully embodied agents, अधिक जीवंत NPCs, character animation के लोकतंत्रीकरण, और नए immersive experiences की ओर ले जा सकता है
पेपर पढ़ें
डेमो आज़माएं
कोड और मॉडल डाउनलोड करें

Meta Video Seal: open source video watermarking

Meta Video Seal neural network आधारित video watermarking के लिए एक state-of-the-art framework है
यह वीडियो में दिखाई न देने वाला watermark embed करता है, और वैकल्पिक रूप से hidden message भी शामिल कर सकता है
embedded watermark को बाद में निकालकर वीडियो के स्रोत सत्यापन में इस्तेमाल किया जा सकता है
इसे सामान्य video editing और sharing process को सहने के लिए डिज़ाइन किया गया है
- blur
- crop
- online content sharing में आम तौर पर उपयोग होने वाले compression algorithms
Video Seal models permissive license के तहत जारी किए गए हैं, और paper, training code, inference code, तथा demo भी साथ दिए गए हैं
संबंधित watermarking outputs भी साथ जारी किए गए हैं
- Meta Omni Seal Bench: कई modalities में neural watermarking को कवर करने वाला leaderboard
- Meta Watermark Anything: permissive license के तहत फिर से जारी
- 2025 ICLR watermarking workshop
Watermark Anything, Video Seal, और Audio Seal डाउनलोड और integration के लिए उपलब्ध हैं
पेपर पढ़ें
डेमो आज़माएं
Video Seal कोड और मॉडल डाउनलोड करें
Watermark Anything कोड और मॉडल डाउनलोड करें
Omni Seal Bench लीडरबोर्ड देखें

Flow Matching guide और codebase

Flow Matching एक generative paradigm है जिसका उपयोग image, video, audio, music, और protein जैसी 3D structures सहित कई modalities में होता है
Meta के भीतर यह कई generative applications में पारंपरिक diffusion approach की जगह ले चुका है
- Meta Movie Gen
- Meta Audiobox
- Meta Melody Flow
उद्योग में Stable-Diffusion-3, Flux, Fold-Flow, और Physical Intelligence Pi_0 जैसे उदाहरण मौजूद हैं
Flow Matching एक सरल लेकिन लचीला generative AI framework है, जो performance और efficiency में सुधार करता है और complex data पर generalization को आसान बनाता है
रिलीज़ में paper, continuous और discrete Flow Matching की core implementations, और नवीनतम training scripts शामिल हैं
पेपर पढ़ें
कोड डाउनलोड करें

Explore Theory-of-Mind: Theory-of-Mind reasoning data generation

Meta Explore Theory-of-Mind Theory-of-Mind reasoning के लिए program-guided adversarial data generation framework है
मौजूदा Theory-of-Mind datasets अक्सर केवल evaluation पर केंद्रित होते हैं और interaction की सीमित range को कवर करते हैं
यह framework training और evaluation दोनों के लिए विविध, कठिन, और scalable ToM reasoning data तैयार करता है
यह बड़े language models की सीमाओं को परखने के लिए robust और विश्वसनीय stories बना सकता है
Llama-3.1 7B को fine-tune करने पर इसने व्यापक रूप से उपयोग होने वाले ToMi benchmark पर 27-point accuracy improvement हासिल किया
इसके उपयोगों में LLM improvement के लिए dataset generation, goal-oriented scenario enhancement, interaction dataset collection, और LLM performance evaluation benchmarks शामिल हैं
पेपर पढ़ें
कोड डाउनलोड करें
डेटासेट डाउनलोड करें

Large Concept Model: token की जगह concept की भविष्यवाणी

Large Concept Model(LCM) language modeling के लिए एक अलग training paradigm है
मौजूदा mainstream language models आमतौर पर token level पर काम करते हैं और hierarchical तरीके से स्पष्ट reasoning नहीं करते
LCM का मुख्य विचार reasoning और language expression को अलग करना है
- इसकी प्रेरणा इस विचार से आती है कि कोई व्यक्ति प्रस्तुति देते समय एक ही idea sequence बनाए रख सकता है, लेकिन हर बार शब्द अलग चुन सकता है
LCM को अगले token की नहीं, बल्कि अगले concept या high-level idea की भविष्यवाणी करने के लिए train किया जाता है
concepts को multimodal·multilingual embedding space में पूरे sentence के रूप में दर्शाया जाता है
summary जैसे pure generation tasks में यह हालिया LLMs के बराबर या उनसे बेहतर प्रदर्शन दिखाता है, और unseen languages पर भी मजबूत zero-shot generalization देता है
input context जितना लंबा होता है, इसकी computational efficiency भी उतनी बढ़ती है
पेपर पढ़ें
कोड डाउनलोड करें

Dynamic Byte Latent Transformer: tokenizer रहित byte-level model

Dynamic Byte Latent Transformer dynamic patching approach का उपयोग करने वाला hierarchical byte-level model है
पारंपरिक language models heuristic preprocessing step में text को tokenize करते हैं, जो end-to-end learning को सीमित करता है, real-world optimization को कठिन बनाता है, और rare text sequences पर performance को नुकसान पहुँचा सकता है
यह model tokenization heuristics के बिना सीधे byte पर काम करता है
यह training और inference दोनों में long-sequence processing efficiency में सुधार करता है
यह tokenizer-based models की तुलना में robustness में औसतन 7 points बेहतर है
यह unseen symbols के long tail और rare sequences को संभालने में मजबूत है
यह approach low-resource languages, coding, और factuality जैसे क्षेत्रों में reasoning सुधारने में मदद कर सकता है
पेपर पढ़ें
कोड डाउनलोड करें

Meta Memory Layers: factual knowledge के लिए sparse memory scaling

Meta Memory Layers at Scale memory layer scaling के जरिए सामान्य factuality benchmarks पर तथ्यपरकता बढ़ाने की विधि है
parametric memory वह factual information store है जो pretraining के दौरान neural network weights में संग्रहित होती है, और LLMs को complex concepts तथा linguistic nuances समझने में मदद करती है
जैसे-जैसे मौजूदा scaling methods efficient expansion की सीमा के करीब पहुँच रहे हैं, जानकारी को अधिक प्रभावी ढंग से सीखने वाली नई architecture की आवश्यकता बढ़ रही है
Memory Layers एक trainable key-value lookup mechanism के जरिए FLOPs बढ़ाए बिना model में अतिरिक्त parameters जोड़ते हैं
sparse activation memory layers, computation-heavy dense feedforward layers को complement करते हैं और जानकारी को कम लागत पर store तथा retrieve करने की dedicated capacity देते हैं
सुधरे हुए memory layers वाले language models downstream tasks में इनसे बेहतर प्रदर्शन करते हैं
- dense models जिनका compute budget 2x से अधिक है
- compute और parameters से matched MoE models
sparse memory architectures के competitively scale न कर पाने की आम धारणा के विपरीत, इसे 128B parameters और 8B base model तक efficiently scale किया गया, और सामान्य factuality benchmarks पर समान compute के मुकाबले बेहतर परिणाम मिले
पेपर पढ़ें
कोड डाउनलोड करें

Image Diversity Modeling और EvalGIM

FAIR image generation models के सुरक्षित विकास को समझने और नई methods बनाने के लिए research कर रहा है
research प्रक्रिया में विकसित image generation model, generative model architecture और loss function पर पहले के शोध पर आधारित है
यह model state-of-the-art models के प्रतिस्पर्धी image quality को बनाए रखते हुए physical world का प्रतिनिधित्व करने वाली image generation को प्राथमिकता देता है
बाहरी विशेषज्ञ इस model का उपयोग image diversity modeling में safety और responsibility सुधारने वाले क्षेत्रों के study के लिए कर सकते हैं
text-to-image generation models के लिए एक comprehensive evaluation toolbox भी open source के रूप में जारी किया जाएगा
- image generation benchmarking को आसान और reproducible बनाता है
- responsible text-to-image research के लिए उपयोगी interpretable results को बढ़ावा देता है
पेपर पढ़ें
कोड डाउनलोड करें

Meta CLIP 1.2: vision-language encoder और data curation

Meta CLIP 1.2 high-performance vision-language encoder विकसित करने के लिए एक release है
Meta ने large-scale image-text data को प्रभावी ढंग से curate और align करने वाले algorithms विकसित किए हैं ताकि models दुनिया के बारे में मानव ज्ञान सीख सकें
बड़े, उच्च-गुणवत्ता वाले और विविध datasets दुनिया को समझने वाले foundation models बनाने के लिए आवश्यक हैं
Meta CLIP ऐसे datasets और foundation models बनाने के लिए Meta का प्रयास है
high-quality और safe vision-language encoder foundation models के लिए data curation और alignment algorithms विकसित किए गए हैं, और integrity तथा privacy protection measures लागू किए गए हैं
जारी किए गए outputs का उपयोग researchers और developers vision-language understanding को आगे बढ़ाने में कर सकते हैं
- data algorithms
- training recipes
- curated dataset पर trained foundation models
उपयोग के उदाहरणों में MLLM के लिए vision encoding, search के लिए multimodal embeddings, zero-shot classification, और data quality research की शुरुआत शामिल हैं
algorithms और training methods का उपयोग high-quality large-scale CLIP-like datasets को शुरुआत से बनाने के लिए भी किया जा सकता है
पेपर पढ़ें
डेटासेट डाउनलोड करें
कोड डाउनलोड करें
मॉडल डाउनलोड करें

1 टिप्पणियां

GN⁺ 2024-12-14

Hacker News राय

यहाँ वाकई बहुत सारी दिलचस्प चीज़ें हैं, खासकर LLM से जुड़े आइडिया ध्यान खींचते हैं
token नहीं बल्कि concepts को संभालने और predict करने वाला Large Concept Model, standard tokenization का byte-level विकल्प Dynamic Byte Latent Transformer, और computation requirements बढ़ाए बिना key-value memory hierarchy को scale करने वाली sparse memory layer—ये सब quality या efficiency बेहतर करने के अलग-अलग तरीकों के रूप में पेश किए गए हैं
सोचता हूँ कि इन तरीकों को सब साथ मिला दें तो quality और efficiency कितनी बढ़ेगी, और शायद वही Llama 4 भी हो सकता है
- अच्छा होगा अगर Llama 4 या 5 का architecture अलग हो
  अब तक release हुए Llama models की inference structure लगभग समान रही है, बस training pipeline और बेहतर हुई है
  downside यह है कि llamacpp नए model को चला न पाए, और बड़ा rewrite भी ज़रूरी हो सकता है, जिससे नए C, C++, Go, Rust programs की ज़रूरत पड़ सकती है
- सोच रहा हूँ कि इस तरह के content को बेहतर तरीके से दिखाने का कोई तरीका है या नहीं
  मैं इसी तरह के documents या demos बना रहा हूँ; अगर यह documentation page हो, तो हर section को title, content, code link, paper link के साथ consistent ढंग से बनाया जा सकता है
  लेकिन यह page खुद एक blog post है, इसलिए अगले साल इसे फिर ढूँढना मुश्किल होगा
  क्या ऐसी दूसरी examples हैं जहाँ companies ने technical summaries अच्छी तरह organize करके रखी हों और homepage से भी लगातार मिलती रहें?
- यह थोड़ा ironic है कि Meta आखिरकार सबसे बड़ा open AI organization बन गया
  बेशक यह “open source” नहीं है, लेकिन उसे इस्तेमाल के लिए खुला रखता है और research भी publicly publish करता है
सच में शानदार
पहला demo आज़माना बहुत मज़ेदार है, और यह ऐसा game लगता है जिसमें model से moonwalk करवाने वाला जीतता है
मेरी best कोशिश शायद (body_speed_forward < -0.3) * (head_height > 1.0) * (stay_still > 0.2) * (body_speed_vertical < 0.1) * (stay_upright > 0.9) जैसी थी
https://i.imgur.com/O5hGMo5.gif
और “Meta Explore Theory of Mind” और भी दिलचस्प है
करीब एक महीने पहले भी एक thread था जहाँ “belief” जैसी concepts और उसके हिसाब से world model update करने पर बात हुई थी
https://news.ycombinator.com/item?id=42035985
उम्मीद है Dynamic Byte Latent Transformer अच्छा चलेगा
अब tokenizers खत्म हो जाने चाहिए
यह भी दिलचस्प है कि यह hierarchical structure है, लेकिन hierarchy में सिर्फ दो levels हैं; और ज़्यादा levels stack करना आगे की research के लिए natural direction लगता है
- मैं author हूँ :)
  मुझे लगता है यह research की अच्छी दिशा है
  हालांकि एक ही बार में करने के लिए यह थोड़ा ज्यादा भी है, और पूरी hierarchy में FLOP budget कैसे बाँटना है, इस पर भी सावधानी चाहिए
  दो levels हों तो एक side को byte/local encoder के रूप में FLOP-efficient बनाया जा सकता है, और दूसरी side को patch/global encoder के रूप में ज्यादा FLOP खर्च करने दिया जा सकता है
  patches को और बड़े units में group करने का तरीका भी ढूँढना होगा, लेकिन यहाँ से आगे जाने के कई रास्ते हैं
Meta के यह काम करने की business background सोचें तो, उसके पास 70 अरब डॉलर cash है, इसलिए AI experts को सैकड़ों मिलियन डॉलर देना छोटी रकम जैसा लगता है
- कल्पना कीजिए कि AI research की दुनिया में कोई fundamental बदलाव आ जाता है
  AI अचानक programmers की productivity बहुत बढ़ा दे, या vulnerability detection में बहुत अच्छा हो जाए, या AI chat नया बड़ा entertainment बन जाए, या AI images Instagram पर व्यापक रूप से share होने वाला content बन जाएँ
  इनमें से कुछ भी हो, तो Facebook अपने internal developers या tools, और in-app embeddings के लिए state-of-the-art models तक access लेकर उन्हें customize करना चाहेगा
  लेकिन अगर access का तरीका केवल OpenAI जैसे model vendor के साथ 7–9 digit का contract करना हो, तो यह भयानक होगा
  इससे भी बुरा यह कि advertising में कोई बड़ा competitor advertisers को अलग-अलग formats के लिए creatives adjust करने हेतु powerful AI tools देना शुरू कर सकता है
  तब Facebook बहुत पीछे रह जाएगा, और OpenAI जैसी company को millions of dollars देने के बावजूद हर quarter अरबों डॉलर के ad share खो सकता है
  अगर यह worst-case scenario आता है तो Facebook बेवकूफ दिखेगा, और अगर इनमें से कोई एक भी संभावना है तो investment समझ में आता है
  open source या Meta को काम करने के लिए cool जगह बनाने का असर अतिरिक्त strategic bonus है
- इसे “complements को commoditize करो” वाले नजरिए से देखना ठीक रहेगा
  अगर OpenAI बहुत सफल होकर इकलौता option बन जाता है, तो उसकी service इस्तेमाल करने वाले हर किसी से भारी monopoly rent मांग सकता है
  इसलिए दूसरी companies या AI इस्तेमाल करना चाहने वाले किसी भी व्यक्ति के लिए बेहतर है कि AI ecosystem में बहुत सारे competitors हों और prices कम बनी रहें
- top researchers को पर्याप्त संख्या में लाना हो तो papers publish करने की अनुमति देनी ही पड़ेगी
- उन्हीं AI experts ने शुरुआत में Meta को 70 अरब डॉलर कमाने में अहम भूमिका निभाई थी
- मुझे लगता है अब तक जवाब देने वाले सभी लोग भोलेपन में गलत हैं
  Facebook अपनी कई apps में ad space बेचता है, और उस ad space की value तभी है जब लोग apps में मौजूद हों
  लोग apps में रहें, इसके लिए उन्हें खींचने वाला content चाहिए
  इसलिए बात सरल है: individual हों या companies, किसी को भी कम लागत पर bulk content बनाने और उसे apps में share करने लायक बना दो
हाल में AI Engineer London meetup में former Meta Ross Taylor की presentation सुनने का मौका मिला
पूरी presentation का video भी upload हो चुका है
https://www.youtube.com/watch?v=S5l5OvJ01ws
मुझे पता ही नहीं था कि Meta ने reasoning और theory of mind पर इतना ज्यादा काम किया है
- अच्छा video है
  यह o1 को context में रखकर देखने में मदद करता है
  OpenAI, Google, Meta की public release speed इतनी तेज़ है कि अब अगली बारी Anthropic की लगती है
जब भी text clean करना होता है, मैं सोचता हूँ कि क्यों न सीधे byte-level denoising autoencoder train करके उससे यह काम करवाया जाए
- मज़ेदार idea है
  vision में global और local context को efficiently capture किया जाता है, इसलिए मैं हमेशा सोचता रहा हूँ कि text data पर U-Net या hourglass net आज़माया जाए तो कैसा रहेगा, लेकिन खुद करके नहीं देखा
क्या कोई समझा सकता है कि AI वीडियो में स्वेच्छा से watermark डालना AI को ज़्यादा सुरक्षित बनाने में कैसे मदद करता है?
- AI वीडियो जनरेशन सेवाएँ देने वालों को यह सुविधा देता है कि वे अपने बनाए सभी वीडियो में watermark डाल सकें
  इसलिए इरादा इसे स्वैच्छिक रखने का नहीं, बल्कि service layer पर लागू करने का है
  आखिर में सिर्फ़ वे सेवाएँ बच सकती हैं जो मौजूदा Big Tech नियमों का पालन नहीं करतीं
  जैसे Grok/X.ai की quality कम थी, फिर भी Trump समर्थक images बनाने के लिए लोगों ने Grok/X.ai का इस्तेमाल किया था
  https://arstechnica.com/information-technology/2024/08/musks...
- इस समय मॉडल training की लागत कितनी होगी?
  लगता है अगले कुछ वर्षों में यह बड़े देशों या ज़्यादातर oligarchs के बस में आ जाएगी, और शायद अभी भी हो
  इसलिए सबसे realistic यही लगता है कि हर कोई watermarking को स्वैच्छिक ही माने
  फिलहाल images और videos किसी ख़ास तथ्य के evidence के तौर पर उनके bit values जितने भी मूल्यवान नहीं हैं
ये बातें हद से ज़्यादा दिलचस्प हैं
सब लोग बता रहे हैं कि ये कितनी exciting हैं, खासकर LCM और बिना tokenize करने वाले tokenizer की बात, लेकिन अगर किसी ने देखा हो तो पूछना चाहूँगा
“advanced machine intelligence” शब्द का इस्तेमाल क्यों कर रहे हैं?
मेरा पहला विचार था कि क्या यह doomer लोगों को शांत करने या उनका ध्यान भटकाने के लिए है, लेकिन शायद मैं ही ज़्यादा self-conscious हो रहा हूँ
- यह शब्द Yann LeCun के 2022 paper से आया है
  AMI AGI से अलग एक शब्द था
  हालांकि पिछले कुछ वर्षों में context के हिसाब से A autonomous, advanced, augmented में बदलता रहा है
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
- लगता है LeCun को AGI शब्द पसंद नहीं है
- उस दिन का इंतज़ार है जब इन्हें Minds कहा जाने लगेगा :)
- लगता है यह हाल की market research के जवाब में है, जिसमें पाया गया कि आम लोग “AI” लगे हुए चीज़ों को आम तौर पर scam जैसा और भरोसा करने में मुश्किल मानते हैं
Meta की image निश्चित रूप से बेहतर हुई है, और वह AI को बिना moat वाली technology बनाने में मदद कर रहा है
- Meta IaaS या PaaS नहीं बेचता, लेकिन अगर AI सिर्फ़ Google और OpenAI के बजाय ज़्यादा players के हाथ में जाता है, तो Meta की fit बेहतर होती है
  AI को commoditize करने से तरह-तरह के businesses बनते हैं, और वे businesses Meta platforms के ज़रिए customers तक पहुँचते हैं
- LLM से चाहे जितना अच्छा काम कर लें, वे अब भी Facebook के ज़रिए समाज को बर्बाद कर रहे हैं
- अगर मूल पाप करते ही जा रहे हैं, तो यह redemption नहीं है
ऐसा लग रहा है जैसे एक साथ करीब 10 नई architectures सीख रहा हूँ

Meta FAIR ने 9 नए रिसर्च, मॉडल और datasets जारी किए

Meta FAIR की सार्वजनिक रिलीज़ का दायरा

Meta Motivo: virtual humanoid behavior control foundation model

Meta Video Seal: open source video watermarking

Flow Matching guide और codebase

Explore Theory-of-Mind: Theory-of-Mind reasoning data generation

Large Concept Model: token की जगह concept की भविष्यवाणी

Dynamic Byte Latent Transformer: tokenizer रहित byte-level model

Meta Memory Layers: factual knowledge के लिए sparse memory scaling

Image Diversity Modeling और EvalGIM

Meta CLIP 1.2: vision-language encoder और data curation

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय