SHARP - एकल इमेज से फोटोरियलिस्टिक व्यू सिंथेसाइज़ करने का तरीका
(apple.github.io)- Apple द्वारा प्रस्तुत SHARP एक ऐसी तकनीक है जो एकल फोटो से 3D Gaussian representation का अनुमान लगाकर फोटोरियलिस्टिक नए viewpoints सिंथेसाइज़ करती है
- यह standard GPU पर 1 सेकंड से कम के single neural network feedforward pass में प्रोसेस होती है, और real-time rendering संभव बनाती है
- उत्पन्न 3D representation absolute scale वाली metric representation है, जो वास्तविक camera movement को support करती है
- कई datasets पर यह zero-shot generalization प्रदर्शन दिखाती है, और मौजूदा मॉडलों की तुलना में LPIPS 25–34%, DISTS 21–43% कम करती है
- यह पहले की तुलना में synthesis speed को 1000 गुना बढ़ाकर single-image आधारित 3D view synthesis के लिए नया मानक प्रस्तुत करती है
SHARP का अवलोकन
- SHARP(Sharp Monocular View Synthesis) एक ऐसा approach है जो एकल इमेज से फोटोरियलिस्टिक 3D view synthesis करता है
- इनपुट के रूप में दी गई एक फोटो से scene के 3D Gaussian representation parameters को regression तरीके से अनुमानित करता है
- यह प्रक्रिया standard GPU पर 1 सेकंड से कम में पूरी हो जाती है
- उत्पन्न 3D Gaussian representation real-time rendering को support करती है और पास के viewpoints से high-resolution images बनाती है
- प्रति सेकंड 100 frames से अधिक की rendering speed हासिल करती है
- सूक्ष्म संरचना और तेज़ details को बनाए रखती है
तकनीकी विशेषताएँ
- SHARP की 3D representation absolute scale सहित metric representation है, जो वास्तविक camera movement को प्रतिबिंबित करती है
- यह केवल single feedforward neural network pass से प्रोसेस होती है, इसलिए जटिल optimization प्रक्रिया के बिना तेज़ परिणाम देती है
- zero-shot generalization के माध्यम से यह untrained datasets पर भी स्थिर प्रदर्शन बनाए रखती है
प्रदर्शन और तुलना के परिणाम
- कई datasets पर state of the art प्रदर्शन हासिल किया
- LPIPS metric में 25–34% और DISTS metric में 21–43% सुधार
- मौजूदा सर्वश्रेष्ठ मॉडलों की तुलना में synthesis time 1000 गुना कम
- यह प्रदर्शन सुधार single-image आधारित 3D view synthesis की efficiency और quality दोनों को एक साथ बेहतर बनाता है
दृश्य परिणाम
- SHARP ने Unsplash की तस्वीरों को उदाहरण के रूप में लेकर, एकल input image से उत्पन्न 3D representation को विज़ुअलाइज़ किया
- पास के viewpoints से rendering results तेज़ details और सूक्ष्म संरचना को बनाए रखते हैं
- real-time rendering के ज़रिए स्वाभाविक viewpoint movement लागू होता है
शोध स्रोत
- शोध पत्र arXiv:2512.10685 पर प्रकाशित है
- शीर्षक: Sharp Monocular View Synthesis in Less Than a Second
- शोधकर्ता: Lars Mescheder सहित 12 अन्य
- संबद्धता: Apple
1 टिप्पणियां
Hacker News की राय
“Unsplash > Gen3C > The fly video” सच में दुःस्वप्न जैसा वीडियो है
अगर आप इसे खुद देखना चाहते हैं, तो यह लिंक देख सकते हैं
आख़िरकार लोग वास्तविक रिश्ते खोकर वर्चुअल एंटरटेनमेंट सूट से चिपक जाएंगे
अगर किस्मत अच्छी रही, तो शायद augmented reality में ‘असली’ लोगों से मिलने की कोशिश भर बची रहे, लेकिन हम पहले ही तकनीक पर बहुत ज़्यादा निर्भर हो चुके हैं
तकनीक आगे बढ़ने पर भी इंसानों के लिए उसका नतीजा अच्छा होगा या नहीं, इस पर संदेह है
मैंने इसे Apple Silicon पर किसी तरह चलाया
ml-sharp GitHub repository में एक छोटा demo GIF भी है
मैं Gaussian splat को दोबारा implement किए बिना उसका approximation करने की कोशिश कर रहा हूँ, लेकिन सच कहूँ तो यह काफ़ी भारी पड़ रहा है
यह देखकर प्रभावशाली लगा कि AI ने तस्वीर के भीतर तस्वीर की संरचना पहचानी और आग वाले हिस्से को ही 2D में रखा
“यह आख़िर करता क्या है?”
यह सॉफ़्टवेयर 1 सेकंड से कम समय में यह प्रोसेस करके 3D model बना देता है
Gaussian splashing ख़ास तौर पर काफ़ी शानदार है
लोगों को अलग करने में भी अच्छा है, और कई subjects वाले scenes भी संभाल सकता है
इसका सिद्धांत portrait mode effect जैसा है
“Photorealistic” का मतलब है कि असली texture और lighting बनी रहती है
यह Apple Photos app के Spatial Scene feature जैसा है — demo video
फिर हर plane को हिलाकर parallax लागू करता है — बिल्कुल 2D side-scrolling game के background depth effect जैसा
यह बात ध्यान खींचती है कि उदाहरणों में लोगों के चेहरे लगभग नहीं हैं
अब तक के अनुभव में ऐसे models को 3D में देखने पर लोग 2D काग़ज़ी कटआउट जैसे लगते हैं
पता नहीं यह model सच में गहराई के साथ दिखा पाएगा या नहीं, लेकिन इंसानी चेहरों का ग़ायब होना कुछ संकेत देता है
Depth Pro GitHub / LearnOpenCV विवरण
यह Apple ने बनाया है, लेकिन सिर्फ CUDA GPU पर चलता है संबंधित दस्तावेज़
लगता है इसके लिए कुछ साल इंतज़ार करना पड़ेगा
अब तक मैंने जितने AI repositories चलाई हैं, उनमें यह सबसे आसान में से एक थी
model ख़ुद GPU, CPU, और MPS तीनों पर चलता है
output में .ply file मिलती है, जिसे SparkJS viewer में डाल सकते हैं
CUDA सिर्फ side-scrolling video render करने के लिए चाहिए
“एक single photo से 1 सेकंड के भीतर यथार्थवादी 3D representation बनाना” ही इसकी असली खासियत है
Apple Photos app का Spatial Scene feature भी कुछ ऐसा ही काम करता है
demo video
कभी-कभी तो Photoshop का content-aware fill इससे बेहतर लगता था
क्या Gaussian splat की कोई sample file है?
हालांकि उदाहरण सिर्फ एक है, इसलिए सामान्य निष्कर्ष निकालना मुश्किल है
नतीजे प्रभावशाली हैं, लेकिन उनमें बहुत ज़्यादा sharp और artificial feel है
बस TMPI हमेशा ज़्यादा उजला दिखता है, और कौन-सा ज़्यादा सही है यह कहना मुश्किल है