RT-2: Vision-Language-Action Models

xguru · 2023-08-02T11:05:01+09:00

"Robotics-Transformer 2": वेब के ज्ञान को रोबोट नियंत्रण तक पहुँचाना इंटरनेट-स्तर के डेटा पर प्रशिक्षित vision-language model को सीधे E2E रोबोट नियंत्रण में एकीकृत करना रोबोट की गतियों को text token में बदलकर उन्हें vision-language data model के साथ इस्तेमाल किए जा सकने वाली एक अलग भाषा की तरह व्यवस्थित करना, और कार्य निर्देशों को action में बदलना रोबोट के सामने पूरी तरह नई वस्तुएँ रखी जाएँ, जिन पर पहले प्रशिक्षण नहीं हुआ हो, तब भी वह उन्हें अच्छी तरह समझकर कार्य करता है "put strawberry into the correct bowl" "place orange in matching bowl"

(robotics-transformer2.github.io)

7 पॉइंट द्वारा xguru 2023-08-02 | 2 टिप्पणियां | WhatsApp पर शेयर करें

"Robotics-Transformer 2": वेब के ज्ञान को रोबोट नियंत्रण तक पहुँचाना
इंटरनेट-स्तर के डेटा पर प्रशिक्षित vision-language model को सीधे E2E रोबोट नियंत्रण में एकीकृत करना
रोबोट की गतियों को text token में बदलकर उन्हें vision-language data model के साथ इस्तेमाल किए जा सकने वाली एक अलग भाषा की तरह व्यवस्थित करना, और कार्य निर्देशों को action में बदलना
रोबोट के सामने पूरी तरह नई वस्तुएँ रखी जाएँ, जिन पर पहले प्रशिक्षण नहीं हुआ हो, तब भी वह उन्हें अच्छी तरह समझकर कार्य करता है
- "put strawberry into the correct bowl"
- "place orange in matching bowl"

2 टिप्पणियां

xguru 2023-08-02

Google’s RT-2 AI model brings us one step closer to WALL-E

Arstechnica के article का title इसे समझाना थोड़ा आसान बनाता है। लगता है कि LLM की प्रगति robot control के लिए एक नई क्रांति बन सकती है

xguru 2023-08-02

Google, ऐसे रोबोट का परीक्षण कर रहा है जो खुद को प्रोग्राम कर सकते हैं
Robotics के लिए ChatGPT : डिज़ाइन सिद्धांत और मॉडल क्षमताएँ

RT-2: Vision-Language-Action Models

संबंधित पढ़ाई

2 टिप्पणियां