Apple ने 2D फ़ोटो को तुरंत 3D view में बदलने वाला open source मॉडल जारी किया

(github.com/apple)

6 पॉइंट द्वारा GN⁺ 2025-12-28 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

SHARP एक ऐसा मॉडल है जो single image को input लेकर उसे 3D Gaussian representation में बदलता है और यथार्थवादी 3D view बनाता है
standard GPU पर 1 सेकंड से कम समय में single neural network inference से 3D scene parameters का अनुमान लगाता है
तैयार की गई 3D representation real-time rendering के लिए सक्षम है और absolute scale सहित metric camera movement को support करती है
कई datasets पर LPIPS 25–34% और DISTS 21–43% सुधार के साथ, मौजूदा मॉडलों की तुलना में तीन अंकों तक तेज synthesis speed हासिल की
open source के रूप में जारी होने से developers CLI-आधारित prediction·rendering को सीधे चला सकते हैं और अलग-अलग 3D renderers के साथ integrate कर सकते हैं

SHARP परिचय

SHARP(Sharp Monocular View Synthesis) single photo से photorealistic 3D view बनाने का एक approach है
- input image के आधार पर 3D Gaussian representation के parameters को regression तरीके से अनुमानित करता है
- standard GPU पर सिर्फ single feedforward pass से 1 सेकंड से कम processing speed हासिल करता है
तैयार की गई 3D Gaussian representation real-time rendering में सक्षम है और आसपास के viewpoints से high-resolution images देती है
यह representation absolute scale सहित metric structure रखती है, इसलिए वास्तविक camera movement को support करती है

प्रयोगों के नतीजों में SHARP ने कई datasets पर zero-shot generalization प्रदर्शन दिखाया
मौजूदा सर्वश्रेष्ठ मॉडलों की तुलना में LPIPS 25–34% और DISTS 21–43% की कमी
synthesis time में तीन अंकों की कमी, यानी पहले की तुलना में लगभग 1000 गुना तेज processing speed

Python 3.13 environment में चलाया जा सकता है, और pip install -r requirements.txt से dependencies install की जा सकती हैं
command-line interface (CLI) में prediction इस तरह चलाया जा सकता है
- sharp predict -i 입력경로 -o 출력경로
- पहली बार चलाने पर model checkpoint अपने-आप download होकर local cache में save हो जाता है
- manual download की स्थिति में -c option से path दिया जा सकता है
output result 3D Gaussian Splat(3DGS) format की .ply file के रूप में save होता है और public 3DGS renderers के साथ compatible है

CUDA GPU environment में camera trajectory के अनुसार video rendering संभव है
- --render option का उपयोग करके prediction और rendering साथ में किया जा सकता है
- या intermediate result (.ply) का उपयोग करके अलग rendering चलाई जा सकती है
यह OpenCV coordinate system (x दाएँ, y नीचे, z आगे) का पालन करता है, इसलिए external renderer इस्तेमाल करते समय scale और rotation correction की आवश्यकता होती है

code और model का उपयोग क्रमशः LICENSE और LICENSE_MODEL files की शर्तों के अनुसार किया जा सकता है
research citation के लिए arXiv paper “Sharp Monocular View Synthesis in Less Than a Second (2025)” देखें
codebase कई open source contributions के आधार पर बनाया गया है