SHARP - एकल इमेज से फोटोरियलिस्टिक व्यू सिंथेसाइज़ करने का तरीका

(apple.github.io)

5 पॉइंट द्वारा GN⁺ 2025-12-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Apple द्वारा प्रस्तुत SHARP एक ऐसी तकनीक है जो एकल फोटो से 3D Gaussian representation का अनुमान लगाकर फोटोरियलिस्टिक नए viewpoints सिंथेसाइज़ करती है
यह standard GPU पर 1 सेकंड से कम के single neural network feedforward pass में प्रोसेस होती है, और real-time rendering संभव बनाती है
उत्पन्न 3D representation absolute scale वाली metric representation है, जो वास्तविक camera movement को support करती है
कई datasets पर यह zero-shot generalization प्रदर्शन दिखाती है, और मौजूदा मॉडलों की तुलना में LPIPS 25–34%, DISTS 21–43% कम करती है
यह पहले की तुलना में synthesis speed को 1000 गुना बढ़ाकर single-image आधारित 3D view synthesis के लिए नया मानक प्रस्तुत करती है

SHARP का अवलोकन

SHARP(Sharp Monocular View Synthesis) एक ऐसा approach है जो एकल इमेज से फोटोरियलिस्टिक 3D view synthesis करता है
- इनपुट के रूप में दी गई एक फोटो से scene के 3D Gaussian representation parameters को regression तरीके से अनुमानित करता है
- यह प्रक्रिया standard GPU पर 1 सेकंड से कम में पूरी हो जाती है
उत्पन्न 3D Gaussian representation real-time rendering को support करती है और पास के viewpoints से high-resolution images बनाती है
- प्रति सेकंड 100 frames से अधिक की rendering speed हासिल करती है
- सूक्ष्म संरचना और तेज़ details को बनाए रखती है

तकनीकी विशेषताएँ

SHARP की 3D representation absolute scale सहित metric representation है, जो वास्तविक camera movement को प्रतिबिंबित करती है
यह केवल single feedforward neural network pass से प्रोसेस होती है, इसलिए जटिल optimization प्रक्रिया के बिना तेज़ परिणाम देती है
zero-shot generalization के माध्यम से यह untrained datasets पर भी स्थिर प्रदर्शन बनाए रखती है

प्रदर्शन और तुलना के परिणाम

कई datasets पर state of the art प्रदर्शन हासिल किया
- LPIPS metric में 25–34% और DISTS metric में 21–43% सुधार
- मौजूदा सर्वश्रेष्ठ मॉडलों की तुलना में synthesis time 1000 गुना कम
यह प्रदर्शन सुधार single-image आधारित 3D view synthesis की efficiency और quality दोनों को एक साथ बेहतर बनाता है

दृश्य परिणाम

SHARP ने Unsplash की तस्वीरों को उदाहरण के रूप में लेकर, एकल input image से उत्पन्न 3D representation को विज़ुअलाइज़ किया
- पास के viewpoints से rendering results तेज़ details और सूक्ष्म संरचना को बनाए रखते हैं
- real-time rendering के ज़रिए स्वाभाविक viewpoint movement लागू होता है

शोध स्रोत

शोध पत्र arXiv:2512.10685 पर प्रकाशित है
- शीर्षक: Sharp Monocular View Synthesis in Less Than a Second
- शोधकर्ता: Lars Mescheder सहित 12 अन्य
- संबद्धता: Apple

1 टिप्पणियां

GN⁺ 2025-12-17

Hacker News की राय

“Unsplash > Gen3C > The fly video” सच में दुःस्वप्न जैसा वीडियो है
अगर आप इसे खुद देखना चाहते हैं, तो यह लिंक देख सकते हैं
- कंपनियाँ शायद ऐसे भयानक नतीजे देखकर इसे और तेज़ी से आगे बढ़ाने की कोशिश करेंगी, लेकिन मैं अब भी चाहता हूँ कि कुछ वास्तविक वीडियो बचे रहें
  आख़िरकार लोग वास्तविक रिश्ते खोकर वर्चुअल एंटरटेनमेंट सूट से चिपक जाएंगे
  अगर किस्मत अच्छी रही, तो शायद augmented reality में ‘असली’ लोगों से मिलने की कोशिश भर बची रहे, लेकिन हम पहले ही तकनीक पर बहुत ज़्यादा निर्भर हो चुके हैं
  तकनीक आगे बढ़ने पर भी इंसानों के लिए उसका नतीजा अच्छा होगा या नहीं, इस पर संदेह है
- इससे पुराने AI के उस दौर की याद आती है जब “सब कुछ कुत्ते के सिर में बदल जाता था”, और उसी वजह से यह अजीब तरह से सुंदर लगता है
- “san check, 1d10” — horror game meme की तरह मज़ाक कि यह वीडियो इतना डरावना है कि mental check की ज़रूरत पड़े
- “Seth Brundle has entered the chat.” — फ़िल्म The Fly के नायक का ज़िक्र करते हुए बदले हुए वीडियो के माहौल की तुलना
मैंने इसे Apple Silicon पर किसी तरह चलाया
ml-sharp GitHub repository में एक छोटा demo GIF भी है
मैं Gaussian splat को दोबारा implement किए बिना उसका approximation करने की कोशिश कर रहा हूँ, लेकिन सच कहूँ तो यह काफ़ी भारी पड़ रहा है
- GIF के banding artifacts की वजह से आग सच में टिमटिमाती हुई लगी, जो दिलचस्प था
  यह देखकर प्रभावशाली लगा कि AI ने तस्वीर के भीतर तस्वीर की संरचना पहचानी और आग वाले हिस्से को ही 2D में रखा
- उदाहरण वाले नतीजे ईमानदारी से कहूँ तो बहुत प्रभावशाली नहीं हैं। नीचे के 20% हिस्से में quality गिर जाती है
“यह आख़िर करता क्या है?”
- यह ऐसी तकनीक है जो पुराने फ़ोटो को, जैसे किसी historical documentary में, बैकग्राउंड से अलग करके लोगों या वस्तुओं को त्रि-आयामी मूवमेंट देती है
  यह सॉफ़्टवेयर 1 सेकंड से कम समय में यह प्रोसेस करके 3D model बना देता है
  Gaussian splashing ख़ास तौर पर काफ़ी शानदार है
- यह एक 2D image से कैमरे का एंगल बदलने जैसा parallax effect simulate करता है
  लोगों को अलग करने में भी अच्छा है, और कई subjects वाले scenes भी संभाल सकता है
  इसका सिद्धांत portrait mode effect जैसा है
- यह एक single photo को एक मोटे 3D scene में बदल देता है, ताकि कैमरे को थोड़ा हिलाने पर नया viewpoint दिख सके
  “Photorealistic” का मतलब है कि असली texture और lighting बनी रहती है
  यह Apple Photos app के Spatial Scene feature जैसा है — demo video
- यह एक तस्वीर से छिपी हुई 3D representation infer करके थोड़ा अलग viewpoint से यथार्थवादी image बनाता है
- मूल रूप से यह depth estimation से scene को कई planes में बाँटता है, और छिपे हुए हिस्सों को inpainting से भरता है
  फिर हर plane को हिलाकर parallax लागू करता है — बिल्कुल 2D side-scrolling game के background depth effect जैसा
यह बात ध्यान खींचती है कि उदाहरणों में लोगों के चेहरे लगभग नहीं हैं
अब तक के अनुभव में ऐसे models को 3D में देखने पर लोग 2D काग़ज़ी कटआउट जैसे लगते हैं
पता नहीं यह model सच में गहराई के साथ दिखा पाएगा या नहीं, लेकिन इंसानी चेहरों का ग़ायब होना कुछ संकेत देता है
- Apple depth estimation के लिए Depth Pro model इस्तेमाल कर रहा है, और कहा जाता है कि चेहरों की representation काफ़ी अच्छी है
  Depth Pro GitHub / LearnOpenCV विवरण
यह Apple ने बनाया है, लेकिन सिर्फ CUDA GPU पर चलता है संबंधित दस्तावेज़
- दिलचस्प बात यह है कि Apple का अपना model MPS पर नहीं चलता
  लगता है इसके लिए कुछ साल इंतज़ार करना पड़ेगा
- Gaussian splat output CPU पर भी generate किया जा सकता है
  अब तक मैंने जितने AI repositories चलाई हैं, उनमें यह सबसे आसान में से एक थी
- संशोधित version यहाँ है
- यह सीमा सिर्फ video rendering पर लागू होती है
  model ख़ुद GPU, CPU, और MPS तीनों पर चलता है
- model CUDA के बिना भी चलता है
  output में .ply file मिलती है, जिसे SparkJS viewer में डाल सकते हैं
  CUDA सिर्फ side-scrolling video render करने के लिए चाहिए
“एक single photo से 1 सेकंड के भीतर यथार्थवादी 3D representation बनाना” ही इसकी असली खासियत है
Apple Photos app का Spatial Scene feature भी कुछ ऐसा ही काम करता है
demo video
- लेकिन नतीजे अक्सर धुंधली और अप्राकृतिक जगह बना देते हैं
  कभी-कभी तो Photoshop का content-aware fill इससे बेहतर लगता था
क्या Gaussian splat की कोई sample file है?
- मैंने खुद टेस्ट किए हुए नतीजे इस repository में डाल दिए हैं
  हालांकि उदाहरण सिर्फ एक है, इसलिए सामान्य निष्कर्ष निकालना मुश्किल है
नतीजे प्रभावशाली हैं, लेकिन उनमें बहुत ज़्यादा sharp और artificial feel है
- मुझे व्यक्तिगत रूप से TMPI और SHARP, दोनों के नतीजे पसंद हैं
  बस TMPI हमेशा ज़्यादा उजला दिखता है, और कौन-सा ज़्यादा सही है यह कहना मुश्किल है

SHARP - एकल इमेज से फोटोरियलिस्टिक व्यू सिंथेसाइज़ करने का तरीका

SHARP का अवलोकन

तकनीकी विशेषताएँ

प्रदर्शन और तुलना के परिणाम

दृश्य परिणाम

शोध स्रोत

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय