- Apple द्वारा प्रस्तुत SHARP एक ऐसी तकनीक है जो एकल फोटो से 3D Gaussian representation का अनुमान लगाकर फोटोरियलिस्टिक नए viewpoints सिंथेसाइज़ करती है
- यह standard GPU पर 1 सेकंड से कम के single neural network feedforward pass में प्रोसेस होती है, और real-time rendering संभव बनाती है
- उत्पन्न 3D representation absolute scale वाली metric representation है, जो वास्तविक camera movement को support करती है
- कई datasets पर यह zero-shot generalization प्रदर्शन दिखाती है, और मौजूदा मॉडलों की तुलना में LPIPS 25–34%, DISTS 21–43% कम करती है
- यह पहले की तुलना में synthesis speed को 1000 गुना बढ़ाकर single-image आधारित 3D view synthesis के लिए नया मानक प्रस्तुत करती है
SHARP का अवलोकन
- SHARP(Sharp Monocular View Synthesis) एक ऐसा approach है जो एकल इमेज से फोटोरियलिस्टिक 3D view synthesis करता है
- इनपुट के रूप में दी गई एक फोटो से scene के 3D Gaussian representation parameters को regression तरीके से अनुमानित करता है
- यह प्रक्रिया standard GPU पर 1 सेकंड से कम में पूरी हो जाती है
- उत्पन्न 3D Gaussian representation real-time rendering को support करती है और पास के viewpoints से high-resolution images बनाती है
- प्रति सेकंड 100 frames से अधिक की rendering speed हासिल करती है
- सूक्ष्म संरचना और तेज़ details को बनाए रखती है
तकनीकी विशेषताएँ
- SHARP की 3D representation absolute scale सहित metric representation है, जो वास्तविक camera movement को प्रतिबिंबित करती है
- यह केवल single feedforward neural network pass से प्रोसेस होती है, इसलिए जटिल optimization प्रक्रिया के बिना तेज़ परिणाम देती है
- zero-shot generalization के माध्यम से यह untrained datasets पर भी स्थिर प्रदर्शन बनाए रखती है
प्रदर्शन और तुलना के परिणाम
- कई datasets पर state of the art प्रदर्शन हासिल किया
- LPIPS metric में 25–34% और DISTS metric में 21–43% सुधार
- मौजूदा सर्वश्रेष्ठ मॉडलों की तुलना में synthesis time 1000 गुना कम
- यह प्रदर्शन सुधार single-image आधारित 3D view synthesis की efficiency और quality दोनों को एक साथ बेहतर बनाता है
दृश्य परिणाम
- SHARP ने Unsplash की तस्वीरों को उदाहरण के रूप में लेकर, एकल input image से उत्पन्न 3D representation को विज़ुअलाइज़ किया
- पास के viewpoints से rendering results तेज़ details और सूक्ष्म संरचना को बनाए रखते हैं
- real-time rendering के ज़रिए स्वाभाविक viewpoint movement लागू होता है
शोध स्रोत
- शोध पत्र arXiv:2512.10685 पर प्रकाशित है
- शीर्षक: Sharp Monocular View Synthesis in Less Than a Second
- शोधकर्ता: Lars Mescheder सहित 12 अन्य
- संबद्धता: Apple
अभी कोई टिप्पणी नहीं है.