HN चर्चा: प्रतिबिंबों को चित्रों में बदलने वाला दीवार पर टांगने योग्य Diffusion Mirror
(matthieulc.com)-
PabloNet
-
मेरा मानना है कि इंटरनेट से जुड़े AI के रचनात्मक हो सकने पर बहस मूल प्रश्न से काफी दूर है। कला भीतर की दुनिया को प्रकट करने का माध्यम है, और तकनीक उसका केवल एक हिस्सा है। यह दुखद है कि कला के लिए तकनीक की इतनी अधिक आवश्यकता पड़ती है। ऐसा लगता है कि इन दोनों तत्वों को अलग करना संभव हो सकता है। 8 अरब गैर-कलाकारों द्वारा इस्तेमाल की जाने वाली सस्ती interpolative creativity नई विश्व-दृष्टियों को उजागर कर सकती है।
-
इसी वजह से, कला में विशेष प्रतिभा न रखने वाला मैं AI-आधारित विभिन्न कला रूपों में बहुत रुचि रखता हूँ। कुछ महीने पहले मैंने StreamDiffusion का उपयोग करके webcam feed को real time में diffuse करने पर काम शुरू किया। मेरा उद्देश्य सुंदर visual effects बनाना और नई भावनाएँ जगाना है। लेकिन laptop का रूप इस भ्रम को तोड़ देता है। इसलिए हाल ही में मैंने दीवार पर टांगा जा सकने वाला एक LCD frame बनाया, ताकि illusion को तोड़ने वाले तत्व न्यूनतम रहें। इस setup का सबसे बड़ा लाभ यह है कि यह सिर्फ़ एक साधारण screen नहीं, बल्कि एक स्थायी object के रूप में interaction का नया channel खोलता है।
-
मौजूदा setup की मुख्य समस्या कम frame rate है। TensorRT का उपयोग किया और image compression के माध्यम से गति बढ़ाई, लेकिन अभी भी सुधार की काफी गुंजाइश है।
-
रुचि रखने वालों के लिए मैं इसे बनाने और योगदान देने का तरीका साझा कर रहा हूँ:
- client और server code उपलब्ध
- server hosting के लिए RunPod का उपयोग
- client, Raspberry Pi 5 पर चलता है
- 10.1-inch Pi screen का उपयोग
- infrared lighting का उपयोग
- सामान्य frame का उपयोग
- infrared Pi camera का उपयोग
- camera के लिए छेद बनाने में puncher का उपयोग (drill काम नहीं करती)
- विभिन्न preprocessing filters के साथ प्रयोग किया; केवल साधारण prompt काफ़ी नहीं है। img2img, preprocessing के बिना बहुत यथार्थवादी दिखता है। इस पोस्ट में दिख रहे नीले Picasso style को पाने के लिए Canny edge detection, blue tinting और blurring का मिश्रण इस्तेमाल किया गया।
GN⁺ का सार
- AI-आधारित कला यह संभावना दिखाती है कि तकनीक और रचनात्मकता को अलग करके नया दृष्टिकोण दिया जा सकता है।
- StreamDiffusion का उपयोग कर real-time webcam feed diffusion नई भावनाएँ और visual experience प्रदान करता है।
- LCD frame पर आधारित यह installation सिर्फ़ screen से आगे बढ़कर एक स्थायी artwork के रूप में संभावनाएँ खोलता है।
- कम frame rate जैसी तकनीकी समस्याओं में अभी भी सुधार की गुंजाइश है।
- समान कार्यक्षमता वाले प्रोजेक्ट्स में DeepArt.io और RunwayML की सिफारिश की जाती है।
1 टिप्पणियां
Hacker News राय
JPEG bytes को Base64 में encode करने से payload size लगभग 30% बढ़ जाता है और client तथा server के CPU cycles खर्च होते हैं। Websocket protocol binary payload भेज सकता है, इसलिए इसे text में बदलने की ज़रूरत नहीं है
कला भीतर की दुनिया को उजागर करती है, और तकनीक उसका सिर्फ एक हिस्सा है। इस विचार पर सवाल उठाया गया कि skill gap केवल एक असुविधा भर है
कलात्मक मूल्य पर बात नहीं की गई, लेकिन tool collector के नज़रिए से इसमें दिलचस्प बात है
अगर camera frame के बजाय किसी और जगह हो तो यह और दिलचस्प होगा। artistic mirror को देखना थोड़ा उबाऊ लगता है
हमेशा से यह सोचा गया कि कला भावनाओं को संजोने और पैदा करने की चीज़ है। दीवार पर लगा banana भी कला है, और pop music भी अब भी कला है
पूछा गया कि images के बीच high frame-rate morphing effect पर विचार किया गया है या नहीं। इससे effective frame rate बढ़ेगा और यह शानदार दिखेगा
मौजूदा setup की मुख्य समस्या low frame rate है। इसे एक feature माना गया, और images को process करने का समय होना बुरा नहीं है
सबसे ज़्यादा power खपत करने वाले mirror के लिए पुरस्कार दिया गया। यह पाया गया कि input में छोटे बदलावों पर painting स्थिर नहीं रहती
पूछा गया कि क्या कुछ images को pin करने का कोई तरीका है। कुछ images को बनाए रखना अच्छा लगेगा (जैसे profile photo या lock screen photo)