- बड़े भाषा मॉडल जटिल कार्य कर सकते हैं, लेकिन रोबोटिक्स जैसी समस्याओं में वास्तविक दुनिया में सामान्य तर्क संभव बनाने के लिए उन्हें grounding की आवश्यकता होती है
- वास्तविक दुनिया के सतत sensor modalities को सीधे language model में एकीकृत करके, शब्दों और percepts के बीच संबंध बनाने के लिए EMLM का प्रस्ताव
- visual, continuous state estimation, और text input encoding को मिलाकर बने multimodal sentences को इनपुट के रूप में लेकर प्रोसेस करता है
- "दराज़ से rice chips लाकर दो" : यह जाकर दराज़ खोलना, ढूँढना, उठाना, फिर दराज़ बंद करके लाना—यह पूरा कार्य कर सकता है. बीच में कोई व्यक्ति हल्का हस्तक्षेप करे तब भी दोबारा प्रयास करता है
- सबसे बड़ा भाषा मॉडल PaLM-E 562B + OK-VQA (visual question answering के लिए dataset)
1 टिप्पणियां
Embodied AI क्या है?