- SHARP एक ऐसा मॉडल है जो single image को input लेकर उसे 3D Gaussian representation में बदलता है और यथार्थवादी 3D view बनाता है
- standard GPU पर 1 सेकंड से कम समय में single neural network inference से 3D scene parameters का अनुमान लगाता है
- तैयार की गई 3D representation real-time rendering के लिए सक्षम है और absolute scale सहित metric camera movement को support करती है
- कई datasets पर LPIPS 25–34% और DISTS 21–43% सुधार के साथ, मौजूदा मॉडलों की तुलना में तीन अंकों तक तेज synthesis speed हासिल की
- open source के रूप में जारी होने से developers CLI-आधारित prediction·rendering को सीधे चला सकते हैं और अलग-अलग 3D renderers के साथ integrate कर सकते हैं
SHARP परिचय
- SHARP(Sharp Monocular View Synthesis) single photo से photorealistic 3D view बनाने का एक approach है
- input image के आधार पर 3D Gaussian representation के parameters को regression तरीके से अनुमानित करता है
- standard GPU पर सिर्फ single feedforward pass से 1 सेकंड से कम processing speed हासिल करता है
- तैयार की गई 3D Gaussian representation real-time rendering में सक्षम है और आसपास के viewpoints से high-resolution images देती है
- यह representation absolute scale सहित metric structure रखती है, इसलिए वास्तविक camera movement को support करती है
प्रदर्शन और generalization
- प्रयोगों के नतीजों में SHARP ने कई datasets पर zero-shot generalization प्रदर्शन दिखाया
- मौजूदा सर्वश्रेष्ठ मॉडलों की तुलना में LPIPS 25–34% और DISTS 21–43% की कमी
- synthesis time में तीन अंकों की कमी, यानी पहले की तुलना में लगभग 1000 गुना तेज processing speed
इंस्टॉलेशन और उपयोग
- Python 3.13 environment में चलाया जा सकता है, और
pip install -r requirements.txt से dependencies install की जा सकती हैं
- command-line interface (CLI) में prediction इस तरह चलाया जा सकता है
sharp predict -i 입력경로 -o 출력경로
- पहली बार चलाने पर model checkpoint अपने-आप download होकर local cache में save हो जाता है
- manual download की स्थिति में
-c option से path दिया जा सकता है
- output result 3D Gaussian Splat(3DGS) format की
.ply file के रूप में save होता है और public 3DGS renderers के साथ compatible है
rendering फीचर्स
- CUDA GPU environment में camera trajectory के अनुसार video rendering संभव है
--render option का उपयोग करके prediction और rendering साथ में किया जा सकता है
- या intermediate result (
.ply) का उपयोग करके अलग rendering चलाई जा सकती है
- यह OpenCV coordinate system (x दाएँ, y नीचे, z आगे) का पालन करता है, इसलिए external renderer इस्तेमाल करते समय scale और rotation correction की आवश्यकता होती है
मूल्यांकन और संदर्भ सामग्री
- quantitative और qualitative evaluation results paper में शामिल हैं
- project page पर comparison video examples देखे जा सकते हैं
लाइसेंस और citation
- code और model का उपयोग क्रमशः LICENSE और LICENSE_MODEL files की शर्तों के अनुसार किया जा सकता है
- research citation के लिए arXiv paper “Sharp Monocular View Synthesis in Less Than a Second (2025)” देखें
- codebase कई open source contributions के आधार पर बनाया गया है
अभी कोई टिप्पणी नहीं है.