2 पॉइंट द्वारा GN⁺ 2024-05-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Sir, there's a cat in your mirror dimension

  • पहले frequency domain के बारे में बात की गई थी।

    • यह रोज़मर्रा के signals को उनके constituent waveforms के amplitude में बदलने की तकनीक है।
    • इसका सबसे सामान्य आधार बढ़ती frequency वाली sine waves हैं।
    • कई अन्य waveforms भी अलग-अलग frequency domains बना सकते हैं।
  • frequency domain transform की दो महत्वपूर्ण विशेषताएँ:

    • reversibility: frequency image से मूल data को वापस reconstruct किया जा सकता है।
    • input-output symmetry: वही mathematical operation इस्तेमाल करके दोनों दिशाओं में transform किया जा सकता है।
  • व्यवहार में यह भेद महत्वपूर्ण है।

    • खासकर compression में यह बहुत मायने रखता है।
    • image को frequency domain में बदलकर और high-frequency components की precision घटाकर data की मात्रा कम की जा सकती है।
    • फिर भी result image देखने में लगभग वैसी ही लगती है।

MS Paint को अत्याधुनिक compression tool की तरह इस्तेमाल करना

  • frequency domain की image फैले हुए noise जैसी दिखती है।

    • इसका अधिकांश हिस्सा दृश्य रूप से महत्वपूर्ण नहीं होता।
    • यह transform दो कार्यात्मक रूप से समान dimensions के बीच आने-जाने का एक lever है।
    • तब यह जिज्ञासा हुई कि क्या इस दर्पण आयाम को घर बनाकर कुछ data वहाँ शिफ्ट किया जा सकता है।
  • इसे जाँचने के लिए एक बिल्ली की फोटो ली गई और discrete cosine transform (DCT) से उसका frequency-domain रूप निकाला गया।

    • time cat, frequency cat
  • पहले वाले उदाहरण की महिला की फोटो इस्तेमाल की गई, और mirror dimension के "cat noise" pattern को उसके ऊपर कम opacity के साथ overlay किया गया।

    • time woman and frequency cat
  • यह compositing स्वाभाविक रूप से lossy है।

    • सिद्धांततः composite image पर DCT चलाकर उसका frequency-domain representation निकाला जाए, तो महिला की फोटो uniform noise में टूट जानी चाहिए।
    • डाला गया "cat noise" एक पहचानी जा सकने वाली बिल्ली की image में इकट्ठा हो जाना चाहिए।
  • व्यवहार में ऐसा ही होता है।

    • frequency cat and time woman
  • खुद देखना हो तो composite image डाउनलोड करें और MATLAB में यह चलाएँ:

    woman = imread("woman-with-cat.png");  
    colormap('gray');  
    imagesc(woman, [0 255]);  
    pause(1);  
    cat = dct2(woman);  
    imagesc(imgaussfilt(cat, 1), [-4 4]);  
    
  • दिलचस्प बात यह है कि host document का आकार बदलने पर भी बिल्ली बची रहती है।

    • upscaling image को tile कर देता है।
    • downscaling image को crop कर देता है।
  • यह भी जिज्ञासा थी कि lossy compression बिल्ली को कितना नुकसान पहुँचाती है।

    • असर उम्मीद से कम था।
    • JPEG की high quality settings पर image काफ़ी ठीक दिखती है।
    • quality setting कम होने पर निचला-दायाँ quadrant बुरी तरह quantize हो जाता है।
    • frequency domain में दिखने वाली JPEG compression की अराजकता
  • यह visualization दिखाती है कि JPEG algorithm कितनी जानकारी नष्ट कर देता है।

    • इसका अधिकांश हिस्सा हम नोटिस भी नहीं करते।
  • छिपे हुए संदेशों के लिए audio spectrogram का इस्तेमाल पहले भी कई बार हुआ है।

    • JPEG DCT coefficients का उपयोग करके text steganography पर भी चर्चा मौजूद है।
    • बात यह नहीं कि यह तकनीक विशेष रूप से उपयोगी है, बल्कि यह कि frequency domain और time domain का संबंध काफ़ी दिलचस्प है।

GN⁺ की राय

  1. frequency domain transform को समझना: frequency domain transform data compression और signal processing में अहम भूमिका निभाता है। इसे समझने से image या audio data को अधिक दक्षता से process किया जा सकता है।
  2. MATLAB का उपयोग: MATLAB data analysis और visualization के लिए एक शक्तिशाली tool है। इस लेख के ज़रिए MATLAB के practical उपयोग का एक उदाहरण देखा जा सकता है।
  3. JPEG compression की सीमाएँ: JPEG compression की सीमाओं को दृश्य रूप से समझा जा सकता है। इससे image quality बनाए रखते हुए file size घटाने के तरीके खोजने में मदद मिलती है।
  4. steganography: frequency domain का उपयोग करने वाली steganography data security से जुड़ा एक दिलचस्प विषय है। इसके ज़रिए छिपे संदेश पहुँचाने के तरीके सीखे जा सकते हैं।
  5. तकनीक का मज़ेदार उपयोग: यह लेख दिखाता है कि तकनीक का उपयोग मज़ेदार और रचनात्मक तरीकों से कैसे किया जा सकता है। इससे तकनीक में रुचि बढ़ती है और नए ideas आते हैं।

1 टिप्पणियां

 
GN⁺ 2024-05-15
Hacker News की राय

Hacker News टिप्पणियों का संक्षिप्त सार

  • फ़ोटो का विषय और spectral energy:

    • ज़्यादातर फ़ोटो में पहचाने जा सकने वाले विषय की spectral energy origin (ऊपर बाएँ) पर केंद्रित होती है.
    • फ़ोटो का विषय आम तौर पर फ़्रेम के बीच में होता है, जिससे spatial और frequency domain डेटा के बीच interference कम होता है.
  • digital watermarking की बुनियाद:

    • यह तकनीक image या audio जैसे signals के लिए मज़बूत digital watermarking की बुनियाद बनती है.
    • इसका मुख्य उपयोग यह है कि signal पर बहुत processing होने के बाद भी copyrighted material का पता लगाया जा सके.
  • Fourier transform की time-frequency duality:

    • Fourier transform का गणितीय सिद्धांत transform की दिशा चाहे जो हो, एक जैसा ही काम करता है.
    • अगर बिल्ली के frequency plot को महिला के spatial plot में डाला जाए, तो महिला का Fourier transform बिल्ली को दिखाएगा.
  • प्रक्रिया की पुष्टि का अनुरोध:

    • एक फ़ोटो ली जाती है, बिल्ली को frequency domain में बदला जाता है, फिर उसे महिला की दृश्य image में composit किया जाता है.
    • composited image पर फिर से DCT करने पर बिल्ली दिखाई देती है.
  • steganography का उपयोग:

    • अवैध images छिपाने के लिए steganography का एक दिलचस्प उपयोग.
    • frequency domain में बदलकर उसे दूसरी image में मिलाने पर, केवल वही व्यक्ति image देख सकता है जिसे इसे उलटने का तरीका पता हो.
  • Aphex Twin का audio spectrogram trick:

    • यह Aphex Twin के उस मज़ेदार trick जैसा है जिसमें उसने एक track के audio spectrogram में अजीब चेहरा दिखाया था.
  • DCT में स्थिति का महत्व:

    • अगर बिल्ली ऊपर बाएँ हिस्से में ज़्यादा केंद्रित होती, तो यह demo शायद ठीक से काम नहीं करता.
    • DCT में high-frequency components बहुत होते हैं, इसलिए बिल्ली को ऊपर बाएँ रखने पर उसके दब जाने की संभावना ज़्यादा होती.
  • image compression की समझ:

    • यह समझ आता है कि frequency domain का उपयोग image compression में किया जा सकता है.
    • यह जिज्ञासा भी है कि क्या ज़्यादातर image compression algorithms frequency domain के शांत हिस्सों को हटाकर काम करते हैं.
  • DCT की विशिष्ट विधि:

    • लगता है कि DCT, JPEG में इस्तेमाल होने वाले 8x8 tiles के बजाय किसी और तरीके से लागू किया गया है.
    • इस मामले में 2D DCT basis functions शायद इस्तेमाल नहीं किए गए.
  • music और image encoding:

    • यह Aphex Twin और Venetian Snares द्वारा sound में image encode करने जैसा है.
    • कुछ विशेष tools के साथ देखा जा सकता है कि frequencies बिल्ली की image दिखाती हैं.