• Apple द्वारा प्रस्तुत SHARP एक ऐसी तकनीक है जो एकल फोटो से 3D Gaussian representation का अनुमान लगाकर फोटोरियलिस्टिक नए viewpoints सिंथेसाइज़ करती है
  • यह standard GPU पर 1 सेकंड से कम के single neural network feedforward pass में प्रोसेस होती है, और real-time rendering संभव बनाती है
  • उत्पन्न 3D representation absolute scale वाली metric representation है, जो वास्तविक camera movement को support करती है
  • कई datasets पर यह zero-shot generalization प्रदर्शन दिखाती है, और मौजूदा मॉडलों की तुलना में LPIPS 25–34%, DISTS 21–43% कम करती है
  • यह पहले की तुलना में synthesis speed को 1000 गुना बढ़ाकर single-image आधारित 3D view synthesis के लिए नया मानक प्रस्तुत करती है

SHARP का अवलोकन

  • SHARP(Sharp Monocular View Synthesis) एक ऐसा approach है जो एकल इमेज से फोटोरियलिस्टिक 3D view synthesis करता है
    • इनपुट के रूप में दी गई एक फोटो से scene के 3D Gaussian representation parameters को regression तरीके से अनुमानित करता है
    • यह प्रक्रिया standard GPU पर 1 सेकंड से कम में पूरी हो जाती है
  • उत्पन्न 3D Gaussian representation real-time rendering को support करती है और पास के viewpoints से high-resolution images बनाती है
    • प्रति सेकंड 100 frames से अधिक की rendering speed हासिल करती है
    • सूक्ष्म संरचना और तेज़ details को बनाए रखती है

तकनीकी विशेषताएँ

  • SHARP की 3D representation absolute scale सहित metric representation है, जो वास्तविक camera movement को प्रतिबिंबित करती है
  • यह केवल single feedforward neural network pass से प्रोसेस होती है, इसलिए जटिल optimization प्रक्रिया के बिना तेज़ परिणाम देती है
  • zero-shot generalization के माध्यम से यह untrained datasets पर भी स्थिर प्रदर्शन बनाए रखती है

प्रदर्शन और तुलना के परिणाम

  • कई datasets पर state of the art प्रदर्शन हासिल किया
    • LPIPS metric में 25–34% और DISTS metric में 21–43% सुधार
    • मौजूदा सर्वश्रेष्ठ मॉडलों की तुलना में synthesis time 1000 गुना कम
  • यह प्रदर्शन सुधार single-image आधारित 3D view synthesis की efficiency और quality दोनों को एक साथ बेहतर बनाता है

दृश्य परिणाम

  • SHARP ने Unsplash की तस्वीरों को उदाहरण के रूप में लेकर, एकल input image से उत्पन्न 3D representation को विज़ुअलाइज़ किया
    • पास के viewpoints से rendering results तेज़ details और सूक्ष्म संरचना को बनाए रखते हैं
    • real-time rendering के ज़रिए स्वाभाविक viewpoint movement लागू होता है

शोध स्रोत

  • शोध पत्र arXiv:2512.10685 पर प्रकाशित है
    • शीर्षक: Sharp Monocular View Synthesis in Less Than a Second
    • शोधकर्ता: Lars Mescheder सहित 12 अन्य
    • संबद्धता: Apple

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.