Apple ने 2D फ़ोटो को तुरंत 3D view में बदलने वाला open source मॉडल जारी किया
(github.com/apple)- SHARP एक ऐसा मॉडल है जो single image को input लेकर उसे 3D Gaussian representation में बदलता है और यथार्थवादी 3D view बनाता है
- standard GPU पर 1 सेकंड से कम समय में single neural network inference से 3D scene parameters का अनुमान लगाता है
- तैयार की गई 3D representation real-time rendering के लिए सक्षम है और absolute scale सहित metric camera movement को support करती है
- कई datasets पर LPIPS 25–34% और DISTS 21–43% सुधार के साथ, मौजूदा मॉडलों की तुलना में तीन अंकों तक तेज synthesis speed हासिल की
- open source के रूप में जारी होने से developers CLI-आधारित prediction·rendering को सीधे चला सकते हैं और अलग-अलग 3D renderers के साथ integrate कर सकते हैं
SHARP परिचय
- SHARP(Sharp Monocular View Synthesis) single photo से photorealistic 3D view बनाने का एक approach है
- input image के आधार पर 3D Gaussian representation के parameters को regression तरीके से अनुमानित करता है
- standard GPU पर सिर्फ single feedforward pass से 1 सेकंड से कम processing speed हासिल करता है
- तैयार की गई 3D Gaussian representation real-time rendering में सक्षम है और आसपास के viewpoints से high-resolution images देती है
- यह representation absolute scale सहित metric structure रखती है, इसलिए वास्तविक camera movement को support करती है
प्रदर्शन और generalization
- प्रयोगों के नतीजों में SHARP ने कई datasets पर zero-shot generalization प्रदर्शन दिखाया
- मौजूदा सर्वश्रेष्ठ मॉडलों की तुलना में LPIPS 25–34% और DISTS 21–43% की कमी
- synthesis time में तीन अंकों की कमी, यानी पहले की तुलना में लगभग 1000 गुना तेज processing speed
इंस्टॉलेशन और उपयोग
- Python 3.13 environment में चलाया जा सकता है, और
pip install -r requirements.txtसे dependencies install की जा सकती हैं - command-line interface (CLI) में prediction इस तरह चलाया जा सकता है
sharp predict -i 입력경로 -o 출력경로- पहली बार चलाने पर model checkpoint अपने-आप download होकर local cache में save हो जाता है
- manual download की स्थिति में
-coption से path दिया जा सकता है
- output result 3D Gaussian Splat(3DGS) format की
.plyfile के रूप में save होता है और public 3DGS renderers के साथ compatible है
rendering फीचर्स
- CUDA GPU environment में camera trajectory के अनुसार video rendering संभव है
--renderoption का उपयोग करके prediction और rendering साथ में किया जा सकता है- या intermediate result (
.ply) का उपयोग करके अलग rendering चलाई जा सकती है
- यह OpenCV coordinate system (x दाएँ, y नीचे, z आगे) का पालन करता है, इसलिए external renderer इस्तेमाल करते समय scale और rotation correction की आवश्यकता होती है
मूल्यांकन और संदर्भ सामग्री
- quantitative और qualitative evaluation results paper में शामिल हैं
- project page पर comparison video examples देखे जा सकते हैं
लाइसेंस और citation
- code और model का उपयोग क्रमशः LICENSE और LICENSE_MODEL files की शर्तों के अनुसार किया जा सकता है
- research citation के लिए arXiv paper “Sharp Monocular View Synthesis in Less Than a Second (2025)” देखें
- codebase कई open source contributions के आधार पर बनाया गया है
1 टिप्पणियां
Hacker News की राय
HN पर Apple के SHARP प्रोजेक्ट की फिर से चर्चा हुई
इस पर संबंधित चर्चा पिछले थ्रेड में भी हुई थी
SHARP की आधिकारिक सामग्री प्रोजेक्ट पेज और पेपर(arXiv) पर देखी जा सकती है
मॉडल लाइसेंस में साफ़ लिखा है कि यह “केवल research purposes” के लिए है, इसलिए यह वास्तव में open source नहीं है
एक यूज़र ने कहा कि उसने पहले ही प्रोजेक्ट को MPS पर render होने लायक fork कर लिया है, और अपना GitHub रिपॉज़िटरी साझा किया
किसी ने मज़ाक में इसे “VR पोर्न के लिए बड़ा दिन” कहा
मॉडल सिर्फ़ एक axis पर inference करता है, resolution भी 768px + 2-layer तक सीमित है, और real-time processing भी संभव नहीं है
उसने यह भी जोड़ा कि इस साल असली बड़े innovations image editing और video models में हुए हैं
यह भी कहा गया कि “जब भी कोई बड़ी कंपनी मॉडल जारी करती है, open source की परिभाषा पर बहस फिर शुरू हो जाती है”, और AI मॉडल में ‘source’ की अवधारणा software से अलग है
विश्लेषण यह था कि Apple शायद अकादमिक विश्वसनीयता पाना चाहता है, जबकि commercial विकल्प भी अपने पास रखना चाहता है
और जोड़ा कि पुरानी तस्वीरों को VR में अनुभव कराने की क्षमता ही Apple की असली ताकत है
यह भी कहा गया कि “लोग अक्सर एक ही subject की कई तस्वीरें लेते हैं, इसलिए वे असल में stereo image data ही दे रहे होते हैं”
एक यूज़र ने कहा कि वह Conda पसंद नहीं करता, इसलिए इसे टेस्ट करने में हिचक रहा है
uvसे काम चल सकता है, साथ में कुछ ठोस install commands भी साझा किएएक यूज़र ने कहा कि वह छुट्टियों के दौरान StereoCrafter और GeometryCrafter जैसे संबंधित प्रोजेक्ट्स के साथ प्रयोग कर रहा है,
और अगर इसे वीडियो पर लागू किया जाए तो temporal consistency की वजह से यह कहीं ज़्यादा कठिन और computationally expensive हो जाता है,
लेकिन जब उसने कोरियाई युद्ध के दौर के पुराने home videos को spatialize करके देखा, तो नतीजे हैरान करने वाले रूप से अच्छे थे
StereoCrafter लिंक, GeometryCrafter लिंक