6 पॉइंट द्वारा GN⁺ 2025-12-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • SHARP एक ऐसा मॉडल है जो single image को input लेकर उसे 3D Gaussian representation में बदलता है और यथार्थवादी 3D view बनाता है
  • standard GPU पर 1 सेकंड से कम समय में single neural network inference से 3D scene parameters का अनुमान लगाता है
  • तैयार की गई 3D representation real-time rendering के लिए सक्षम है और absolute scale सहित metric camera movement को support करती है
  • कई datasets पर LPIPS 25–34% और DISTS 21–43% सुधार के साथ, मौजूदा मॉडलों की तुलना में तीन अंकों तक तेज synthesis speed हासिल की
  • open source के रूप में जारी होने से developers CLI-आधारित prediction·rendering को सीधे चला सकते हैं और अलग-अलग 3D renderers के साथ integrate कर सकते हैं

SHARP परिचय

  • SHARP(Sharp Monocular View Synthesis) single photo से photorealistic 3D view बनाने का एक approach है
    • input image के आधार पर 3D Gaussian representation के parameters को regression तरीके से अनुमानित करता है
    • standard GPU पर सिर्फ single feedforward pass से 1 सेकंड से कम processing speed हासिल करता है
  • तैयार की गई 3D Gaussian representation real-time rendering में सक्षम है और आसपास के viewpoints से high-resolution images देती है
  • यह representation absolute scale सहित metric structure रखती है, इसलिए वास्तविक camera movement को support करती है

प्रदर्शन और generalization

  • प्रयोगों के नतीजों में SHARP ने कई datasets पर zero-shot generalization प्रदर्शन दिखाया
  • मौजूदा सर्वश्रेष्ठ मॉडलों की तुलना में LPIPS 25–34% और DISTS 21–43% की कमी
  • synthesis time में तीन अंकों की कमी, यानी पहले की तुलना में लगभग 1000 गुना तेज processing speed

इंस्टॉलेशन और उपयोग

  • Python 3.13 environment में चलाया जा सकता है, और pip install -r requirements.txt से dependencies install की जा सकती हैं
  • command-line interface (CLI) में prediction इस तरह चलाया जा सकता है
    • sharp predict -i 입력경로 -o 출력경로
    • पहली बार चलाने पर model checkpoint अपने-आप download होकर local cache में save हो जाता है
    • manual download की स्थिति में -c option से path दिया जा सकता है
  • output result 3D Gaussian Splat(3DGS) format की .ply file के रूप में save होता है और public 3DGS renderers के साथ compatible है

rendering फीचर्स

  • CUDA GPU environment में camera trajectory के अनुसार video rendering संभव है
    • --render option का उपयोग करके prediction और rendering साथ में किया जा सकता है
    • या intermediate result (.ply) का उपयोग करके अलग rendering चलाई जा सकती है
  • यह OpenCV coordinate system (x दाएँ, y नीचे, z आगे) का पालन करता है, इसलिए external renderer इस्तेमाल करते समय scale और rotation correction की आवश्यकता होती है

मूल्यांकन और संदर्भ सामग्री

  • quantitative और qualitative evaluation results paper में शामिल हैं
  • project page पर comparison video examples देखे जा सकते हैं

लाइसेंस और citation

  • code और model का उपयोग क्रमशः LICENSE और LICENSE_MODEL files की शर्तों के अनुसार किया जा सकता है
  • research citation के लिए arXiv paper “Sharp Monocular View Synthesis in Less Than a Second (2025)” देखें
  • codebase कई open source contributions के आधार पर बनाया गया है

1 टिप्पणियां

 
GN⁺ 2025-12-28
Hacker News की राय
  • HN पर Apple के SHARP प्रोजेक्ट की फिर से चर्चा हुई
    इस पर संबंधित चर्चा पिछले थ्रेड में भी हुई थी

    • “SHARP, an approach to photorealistic view synthesis from a single image” शीर्षक से पेश की गई पोस्ट को फिर साझा किया गया
    • यह बताया गया कि AI से जुड़ी GitHub इंस्टॉलेशन गाइड ठीक से काम नहीं करती। उनमें ज़्यादातर यह मान लिया जाता है कि डेवलपमेंट environment पहले से सेट है, इसलिए शुरुआती लोगों के लिए प्रवेश बाधा काफ़ी ऊँची है
  • SHARP की आधिकारिक सामग्री प्रोजेक्ट पेज और पेपर(arXiv) पर देखी जा सकती है

    • एक यूज़र ने कहा कि आधिकारिक पेज की तुलना में Bradley का डेमो वीडियो कहीं ज़्यादा प्रभावशाली है
    • एक अन्य यूज़र ने कहा कि सभी लेखक विदेशी पृष्ठभूमि के लगते हैं, और STEM workforce की बदलती संरचना को लेकर जिज्ञासा जताई
  • मॉडल लाइसेंस में साफ़ लिखा है कि यह “केवल research purposes” के लिए है, इसलिए यह वास्तव में open source नहीं है

    • README में भी इसे open source नहीं कहा गया है, बस इतना कहा गया है कि यह open source आधार पर बनाया गया है
    • यह भी कहा गया कि Meta ने “open source” के अर्थ को धुंधला कर दिया है, जिसके कारण अब weights public = open source जैसी धारणा बनती जा रही है
    • एक यूज़र ने कहा कि “weights शायद copyright के दायरे में न आते हों”, इसलिए असली मुद्दा यह है कि Apple की कानूनी enforceability कितनी है
    • मुख्य लाइसेंस में कोई प्रतिबंध साफ़ नहीं लिखा है, शायद इसी वजह से भ्रम पैदा हुआ
    • एक यूज़र ने कहा, “मैं देखूँगा कि क्या इससे कोई profitable product बनाया जा सकता है”
  • एक यूज़र ने कहा कि उसने पहले ही प्रोजेक्ट को MPS पर render होने लायक fork कर लिया है, और अपना GitHub रिपॉज़िटरी साझा किया

    • दूसरे यूज़र ने “अच्छा लग रहा है” कहते हुए धन्यवाद दिया
  • किसी ने मज़ाक में इसे “VR पोर्न के लिए बड़ा दिन” कहा

    • इसके जवाब में एक अन्य यूज़र ने समझाया कि वास्तव में VR content quality की सीमाएँ काफ़ी स्पष्ट हैं।
      मॉडल सिर्फ़ एक axis पर inference करता है, resolution भी 768px + 2-layer तक सीमित है, और real-time processing भी संभव नहीं है
      उसने यह भी जोड़ा कि इस साल असली बड़े innovations image editing और video models में हुए हैं
    • एक और यूज़र ने मज़ाक किया कि “Gaussian splat” शब्द का उसे बिल्कुल अलग मतलब सुनाई देता है
  • यह भी कहा गया कि “जब भी कोई बड़ी कंपनी मॉडल जारी करती है, open source की परिभाषा पर बहस फिर शुरू हो जाती है”, और AI मॉडल में ‘source’ की अवधारणा software से अलग है
    विश्लेषण यह था कि Apple शायद अकादमिक विश्वसनीयता पाना चाहता है, जबकि commercial विकल्प भी अपने पास रखना चाहता है

    • एक दूसरे यूज़र ने कहा, “तकनीक खुद इतनी चौंकाने वाली है, फिर भी ऊपर लाइसेंस की बहस देखना थोड़ा अफ़सोसजनक है”,
      और जोड़ा कि पुरानी तस्वीरों को VR में अनुभव कराने की क्षमता ही Apple की असली ताकत है
    • एक और यूज़र ने मज़ाक किया कि “which isn’t unsurprising” जैसा वाक्यांश ज़रूरत से ज़्यादा उलझा हुआ है
    • इसके बाद “हैरान न होना ही हैरान करने वाली बात है” जैसे मज़ाक भी चले
  • यह भी कहा गया कि “लोग अक्सर एक ही subject की कई तस्वीरें लेते हैं, इसलिए वे असल में stereo image data ही दे रहे होते हैं”

    • दूसरे यूज़र ने जोड़ा कि “Live Photo के frames भी इस्तेमाल किए जा सकते हैं”
  • एक यूज़र ने कहा कि वह Conda पसंद नहीं करता, इसलिए इसे टेस्ट करने में हिचक रहा है

    • दूसरे यूज़र ने pixi सुझाया, और बताया कि वास्तव में Conda के बिना भी सिर्फ़ Python 3.13 और uv से काम चल सकता है, साथ में कुछ ठोस install commands भी साझा किए
    • एक और यूज़र ने सहमति जताते हुए कहा, “वह नापसंदगी बिल्कुल irrational नहीं है”
  • एक यूज़र ने कहा कि वह छुट्टियों के दौरान StereoCrafter और GeometryCrafter जैसे संबंधित प्रोजेक्ट्स के साथ प्रयोग कर रहा है,
    और अगर इसे वीडियो पर लागू किया जाए तो temporal consistency की वजह से यह कहीं ज़्यादा कठिन और computationally expensive हो जाता है,
    लेकिन जब उसने कोरियाई युद्ध के दौर के पुराने home videos को spatialize करके देखा, तो नतीजे हैरान करने वाले रूप से अच्छे थे
    StereoCrafter लिंक, GeometryCrafter लिंक

    • दूसरे यूज़र ने जवाब दिया, “वह उदाहरण मैं ज़रूर देखना चाहूँगा”