PaLM-E : Embodied Multimodal Language Model

xguru · 2023-03-08T12:11:57+09:00

बड़े भाषा मॉडल जटिल कार्य कर सकते हैं, लेकिन रोबोटिक्स जैसी समस्याओं में वास्तविक दुनिया में सामान्य तर्क संभव बनाने के लिए उन्हें grounding की आवश्यकता होती है वास्तविक दुनिया के सतत sensor modalities को सीधे language model में एकीकृत करके, शब्दों और percepts के बीच संबंध बनाने के लिए EMLM का प्रस्ताव visual, continuous state estimation, और text input encoding को मिलाकर बने multimodal sentences को इनपुट के रूप में लेकर प्रोसेस करता है "दराज़ से rice chips लाकर दो" : यह जाकर दराज़ खोलना, ढूँढना, उठाना, फिर दराज़ बंद करके लाना—यह पूरा कार्य कर सकता है. बीच में कोई व्यक्ति हल्का हस्तक्षेप करे तब भी दोबारा प्रयास करता है सबसे बड़ा भाषा मॉडल PaLM-E 562B + OK-VQA (visual question answering के लिए dataset)

(palm-e.github.io)

15 पॉइंट द्वारा xguru 2023-03-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े भाषा मॉडल जटिल कार्य कर सकते हैं, लेकिन रोबोटिक्स जैसी समस्याओं में वास्तविक दुनिया में सामान्य तर्क संभव बनाने के लिए उन्हें grounding की आवश्यकता होती है
वास्तविक दुनिया के सतत sensor modalities को सीधे language model में एकीकृत करके, शब्दों और percepts के बीच संबंध बनाने के लिए EMLM का प्रस्ताव
visual, continuous state estimation, और text input encoding को मिलाकर बने multimodal sentences को इनपुट के रूप में लेकर प्रोसेस करता है
- "दराज़ से rice chips लाकर दो" : यह जाकर दराज़ खोलना, ढूँढना, उठाना, फिर दराज़ बंद करके लाना—यह पूरा कार्य कर सकता है. बीच में कोई व्यक्ति हल्का हस्तक्षेप करे तब भी दोबारा प्रयास करता है
सबसे बड़ा भाषा मॉडल PaLM-E 562B + OK-VQA (visual question answering के लिए dataset)

1 टिप्पणियां

xguru 2023-03-08

Embodied AI क्या है?

यह वह क्षेत्र है जिसमें Simulator नामक 3D virtual environment में एक agent बनाकर उसे विभिन्न task करवाकर train किया जाता है, फिर उसे वास्तविक robot जैसी मशीनों में transfer (Sim2Real) किया जाता है ताकि वह वास्तविक दुनिया में भी विशेष task अच्छी तरह कर सके।

PaLM-E : Embodied Multimodal Language Model

संबंधित पढ़ाई

1 टिप्पणियां