- 2D इमेज से बने Lego के visual assembly मैन्युअल को इस तरह अनुवादित करना कि मशीन उसे समझ सके
- इसे लगातार prediction कार्यों के रूप में देखते हुए, मॉडल हर चरण में मैन्युअल पढ़ता है, मौजूदा आकार में जोड़े जाने वाले component को ढूंढता है, और फिर 3D आकार का अनुमान लगाता है
- इसके लिए मैन्युअल की 2D इमेज और वास्तविक 3D object के बीच 2D-3D matching समस्या, तथा पहले कभी न देखे गए (Unseen) 3D object के आकार का अनुमान लगाने जैसे कार्यों की आवश्यकता होती है
- इसे हल करने के लिए learning-based framework MEPNet (Manual-to-Executable-Plan Network) प्रस्तुत किया गया है
- मुख्य विचार हैं 2D keypoint detection module, high-precision prediction के लिए 2D-3D projection algorithm, और Unseen component के लिए मजबूत generalization
1 टिप्पणियां
brickit नाम का एक startup, जहाँ अगर आप Lego के ढेर की फोटो लेते हैं तो AI parts को classify करके उससे बनाए जा सकने वाले Lego मॉडल सुझाता है, उसकी याद आ गई।