• SHARP एक ऐसा मॉडल है जो single image को input लेकर उसे 3D Gaussian representation में बदलता है और यथार्थवादी 3D view बनाता है
  • standard GPU पर 1 सेकंड से कम समय में single neural network inference से 3D scene parameters का अनुमान लगाता है
  • तैयार की गई 3D representation real-time rendering के लिए सक्षम है और absolute scale सहित metric camera movement को support करती है
  • कई datasets पर LPIPS 25–34% और DISTS 21–43% सुधार के साथ, मौजूदा मॉडलों की तुलना में तीन अंकों तक तेज synthesis speed हासिल की
  • open source के रूप में जारी होने से developers CLI-आधारित prediction·rendering को सीधे चला सकते हैं और अलग-अलग 3D renderers के साथ integrate कर सकते हैं

SHARP परिचय

  • SHARP(Sharp Monocular View Synthesis) single photo से photorealistic 3D view बनाने का एक approach है
    • input image के आधार पर 3D Gaussian representation के parameters को regression तरीके से अनुमानित करता है
    • standard GPU पर सिर्फ single feedforward pass से 1 सेकंड से कम processing speed हासिल करता है
  • तैयार की गई 3D Gaussian representation real-time rendering में सक्षम है और आसपास के viewpoints से high-resolution images देती है
  • यह representation absolute scale सहित metric structure रखती है, इसलिए वास्तविक camera movement को support करती है

प्रदर्शन और generalization

  • प्रयोगों के नतीजों में SHARP ने कई datasets पर zero-shot generalization प्रदर्शन दिखाया
  • मौजूदा सर्वश्रेष्ठ मॉडलों की तुलना में LPIPS 25–34% और DISTS 21–43% की कमी
  • synthesis time में तीन अंकों की कमी, यानी पहले की तुलना में लगभग 1000 गुना तेज processing speed

इंस्टॉलेशन और उपयोग

  • Python 3.13 environment में चलाया जा सकता है, और pip install -r requirements.txt से dependencies install की जा सकती हैं
  • command-line interface (CLI) में prediction इस तरह चलाया जा सकता है
    • sharp predict -i 입력경로 -o 출력경로
    • पहली बार चलाने पर model checkpoint अपने-आप download होकर local cache में save हो जाता है
    • manual download की स्थिति में -c option से path दिया जा सकता है
  • output result 3D Gaussian Splat(3DGS) format की .ply file के रूप में save होता है और public 3DGS renderers के साथ compatible है

rendering फीचर्स

  • CUDA GPU environment में camera trajectory के अनुसार video rendering संभव है
    • --render option का उपयोग करके prediction और rendering साथ में किया जा सकता है
    • या intermediate result (.ply) का उपयोग करके अलग rendering चलाई जा सकती है
  • यह OpenCV coordinate system (x दाएँ, y नीचे, z आगे) का पालन करता है, इसलिए external renderer इस्तेमाल करते समय scale और rotation correction की आवश्यकता होती है

मूल्यांकन और संदर्भ सामग्री

  • quantitative और qualitative evaluation results paper में शामिल हैं
  • project page पर comparison video examples देखे जा सकते हैं

लाइसेंस और citation

  • code और model का उपयोग क्रमशः LICENSE और LICENSE_MODEL files की शर्तों के अनुसार किया जा सकता है
  • research citation के लिए arXiv paper “Sharp Monocular View Synthesis in Less Than a Second (2025)” देखें
  • codebase कई open source contributions के आधार पर बनाया गया है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.