5 पॉइंट द्वारा xguru 2022-07-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • 2D इमेज से बने Lego के visual assembly मैन्युअल को इस तरह अनुवादित करना कि मशीन उसे समझ सके
  • इसे लगातार prediction कार्यों के रूप में देखते हुए, मॉडल हर चरण में मैन्युअल पढ़ता है, मौजूदा आकार में जोड़े जाने वाले component को ढूंढता है, और फिर 3D आकार का अनुमान लगाता है
  • इसके लिए मैन्युअल की 2D इमेज और वास्तविक 3D object के बीच 2D-3D matching समस्या, तथा पहले कभी न देखे गए (Unseen) 3D object के आकार का अनुमान लगाने जैसे कार्यों की आवश्यकता होती है
  • इसे हल करने के लिए learning-based framework MEPNet (Manual-to-Executable-Plan Network) प्रस्तुत किया गया है
  • मुख्य विचार हैं 2D keypoint detection module, high-precision prediction के लिए 2D-3D projection algorithm, और Unseen component के लिए मजबूत generalization