Magma - मल्टीमॉडल AI एजेंट्स के लिए एक foundation model
(microsoft.github.io)- Magma पहला foundation model है जो मल्टीमॉडल इनपुट को समझकर उन्हें environment के भीतर जोड़ सकता है, और virtual तथा real world में जटिल interactions को संभाल सकता है
- यह केवल image·video understanding तक सीमित नहीं है, बल्कि goal-oriented visual planning और execution जनरेट करके विभिन्न AI agent tasks कर सकता है
- UI navigation, robot manipulation, image·video understanding (खासकर spatial understanding और reasoning) सहित कई मल्टीमॉडल tasks में state-of-the-art performance हासिल की
- scalable pretraining approach: unlabeled video data को existing agent data के साथ सीखकर मजबूत generalization performance देता है, इसलिए वास्तविक applications के लिए उपयुक्त है
- code, model, और UI navigation demo को MSR Forum (2025.02.25) में सार्वजनिक करने की योजना है.
Magma का लक्ष्य
- language और spatio-temporal intelligence:
- image और video को सटीक रूप से समझना, और उसके आधार पर goals को action planning और execution में बदलने की क्षमता
- digital और physical environments में काम करना:
- web navigation (UI manipulation) और robot manipulation दोनों कर सकता है
- इंसानों की तरह digital·physical environments के बीच स्वतंत्र रूप से आने-जाने वाला AI
- इसके लिए, unlabeled video data और existing agent data का उपयोग करने वाला एक नया training dataset और text·image·action को एकीकृत रूप से सीखने वाला pretraining framework विकसित करके Magma को train किया गया
Magma का pretraining तरीका
- Magma को दो मुख्य approaches के जरिए train किया गया है.
- 1️⃣ बड़े पैमाने के heterogeneous training data का उपयोग
- existing multimodal data, UI navigation data, robot manipulation data के साथ-साथ बड़ी मात्रा में unlabeled video data इकट्ठा करके train किया गया.
- camera movement को हटाकर, वास्तविक action data निकाला जाता है ताकि model long-term action prediction और planning सीख सके.
- 2️⃣ integrated pretraining objectives सेट करना
- text और action मूल रूप से अलग हैं, और उन्हें प्रभावी ढंग से जोड़ना एक चुनौती है
- Set-of-Mark, Trace-of-Mark जैसी नई training techniques को अपनाकर text·image·action के बीच मजबूत alignment structure बनाया गया
- Set-of-Mark (SoM): image में प्रभावी action grounding को संभव बनाता है, और UI screenshots, robot manipulation तथा human videos में clickable buttons या robot arm के लिए numbered marks का prediction करता है.
- Trace-of-Mark (ToM): robot manipulation और human actions के लिए supervision प्रदान करता है, ताकि model temporal video dynamics को समझे और action लेने से पहले future states का prediction करे.
model का उपयोग
सीधे उपयोग (Fine-tuning के बिना भी उपयोग संभव)
Magma को research use के लिए design किया गया है, और इसे निम्नलिखित तरीकों से उपयोग किया जा सकता है.
- image/video-based text generation: input image·text के आधार पर description और answers जनरेट किए जा सकते हैं.
- visual planning: object movement जैसे goal achievement के लिए future action path का prediction कर सकता है.
- agent capabilities:
- UI navigation: उदाहरण के लिए, "search button क्लिक करें" जैसी UI manipulation का prediction
- robot manipulation: robot की 7 degrees of freedom (7 DoF) manipulation का prediction
downstream tasks (Fine-tuning का उपयोग)
Magma को specific tasks के अनुसार further training दिया जा सकता है.
- image captioning और QA: existing multimodal large language model (LLM) approaches से train करके spatial understanding और reasoning क्षमता को मजबूत किया जा सकता है.
- video captioning और QA: video data के लिए temporal understanding और reasoning क्षमता को मजबूत किया जा सकता है.
- UI navigation: web और mobile UI navigation tasks के लिए optimize करके उच्च performance हासिल की जा सकती है.
- robot manipulation: robot control के लिए अतिरिक्त training के माध्यम से, OpenVLA जैसे existing robot manipulation models से बेहतर performance दिखाता है.
bias, risks, limitations
- यह model सभी downstream tasks के लिए design नहीं किया गया है.
- किसी specific use case पर लागू करने से पहले, accuracy, safety, और fairness का evaluation और adjustment करना चाहिए.
- खासकर high-risk scenarios में लागू होने वाले laws और regulations का पालन करना चाहिए.
1 टिप्पणियां
Hacker News राय