LANISTR: संरचित और असंरचित डेटा से सीखने के लिए एक नया framework
(research.google)• LANISTR एक नया framework है जो असंरचित (image, text) और संरचित (time series, table) डेटा को ingest करता है, उन्हें align और fuse करता है, और अंततः prediction तैयार करके multimodal learning को संभव बनाता है.
• विशेष रूप से, यह सीमित आकार के dataset पर training के दौरान overfitting और कमजोर generalization जैसी समस्याओं के साथ-साथ दो या अधिक modalities वाले multimodal data में कुछ modalities के missing होने की समस्या को हल करता है.
• LANISTR की architecture modality-विशिष्ट encoders और fusion mechanism की भूमिका निभाने वाले multimodal encoder-decoder module से बनी है, और यह cross-attention का उपयोग करके cross-modal संबंधों को capture करती है.
• LANISTR methodology का केंद्र masking-based training पर आधारित है, जिसे unimodal और multimodal दोनों स्तरों पर लागू किया जाता है, और इसमें pre-training objectives के दो प्रकार हैं: unimodal masking objective और similarity-based multimodal masking loss.
• LANISTR कई चुनौतीपूर्ण tasks पर state-of-the-art परिणाम हासिल करता है और MIMIC-IV medical dataset तथा Amazon review data दोनों में प्रतिस्पर्धी baselines से बेहतर प्रदर्शन करता है.
• यह unlabelled और labelled data को साथ उपयोग करके structured data और unstructured data को सीखने के महत्व को दिखाता है, साथ ही सभी modalities को यथावत सक्रिय रूप से ingest करने, unsupervised pre-training के दौरान बड़ी मात्रा में unlabelled data का उपयोग करने, और missing modalities को सहज रूप से संभालने की क्षमता भी प्रदर्शित करता है.
• LANISTR के healthcare diagnosis और retail demand forecasting सहित विभिन्न क्षेत्रों में संभावित applications हैं.
अभी कोई टिप्पणी नहीं है.