कान Fourier transform नहीं करता (2024)

(dissonances.blog)

4 पॉइंट द्वारा GN⁺ 2025-10-31 | 1 टिप्पणियां | WhatsApp पर शेयर करें

कोक्लिया (cochlea) वायु-दाब में बदलाव से पैदा हुई कंपन को ग्रहण करता है और आवृत्ति के अनुसार अलग करने वाली भौतिक संरचना के माध्यम से ध्वनि को प्रोसेस करता है
बेसिलर मेम्ब्रेन (basilar membrane) का हर स्थान एक विशेष आवृत्ति पर अनुनाद करता है; उच्च आवृत्तियाँ कठोर आधार भाग पर और निम्न आवृत्तियाँ लचीले सिरे पर प्रतिक्रिया देती हैं
इस प्रक्रिया में हेयर सेल (hair cell) कंपन के अनुसार आयन चैनलों को खोलते और बंद करते हैं, उन्हें विद्युत संकेतों में बदलते हैं, और तंत्रिका रेशे समय व आवृत्ति की जानकारी को फ़िल्टर करते हैं
लेकिन ये फ़िल्टर Fourier transform के विपरीत समय-रिज़ॉल्यूशन बनाए रखते हैं, और व्यवहार में wavelet तथा Gabor के बीच के रूप में काम करते हैं
यह संरचना natural sound की redundancy को कम करने वाली efficient coding रणनीति है, और मानव भाषा एक विशिष्ट समय-आवृत्ति स्थान घेरती है

कोक्लिया की आवृत्ति-विभाजन संरचना

टायम्पैनिक मेम्ब्रेन (tympanic membrane) वायु-दाब के बदलाव के अनुसार कंपन करता है, और मध्यकर्ण की हड्डियाँ इसे बढ़ाकर कोक्लिया के द्रव तक पहुंचाती हैं
- कंपन बेसिलर मेम्ब्रेन (basilar membrane) के साथ आगे बढ़ता है, और हर स्थान अपने भौतिक गुणों के अनुसार एक विशेष आवृत्ति पर अनुनाद करता है
- आधार भाग कठोर और हल्का होने के कारण उच्च आवृत्ति पर, जबकि सिरा लचीला और भारी होने के कारण निम्न आवृत्ति पर प्रतिक्रिया देता है
बेसिलर मेम्ब्रेन की अनुनाद आवृत्ति स्थानिक रूप से logarithmic रूप में घटती है
- यह मनुष्यों की pitch धारणा के logarithmic बदलने वाले गुण से मेल खाती है

हेयर सेल का यांत्रिक-विद्युत रूपांतरण

बेसिलर मेम्ब्रेन के ऊपर स्थित हेयर सेल (hair cell) उस स्थान की आवृत्ति के अनुरूप कंपन करते हैं, और यह गति आयन चैनलों के खुलने-बंद होने को प्रेरित करती है
- हेयर सेल के सिरे पर मौजूद स्प्रिंग संरचना “trapdoor” की तरह काम करती है और कंपन की आवृत्ति के अनुसार neurotransmitter छोड़ती है
इस प्रक्रिया के जरिए यांत्रिक कंपन विद्युत संकेत में बदलकर श्रवण तंत्रिका तक पहुंचता है

श्रवण फ़िल्टर और समय-आवृत्ति रिज़ॉल्यूशन

श्रवण तंत्रिका के रेशे समय और आवृत्ति की जानकारी निकालने वाले फ़िल्टर की तरह काम करते हैं
- कम समय पर केंद्रित फ़िल्टर में समय रिज़ॉल्यूशन अधिक होता है, लेकिन आवृत्ति वितरण असमान होता है
- लंबे समय तक फैले फ़िल्टर में आवृत्ति रिज़ॉल्यूशन अधिक होता है, लेकिन समय संबंधी जानकारी धुंधली हो जाती है
Fourier transform में समय की जानकारी नहीं होती और दाईं ओर के चित्र की तरह समान आवृत्ति वितरण मिलता है, लेकिन यह वास्तविक कान के फ़िल्टर से अलग है
कोक्लिया के फ़िल्टर wavelet और Gabor फ़िल्टर के बीच के मध्य रूप हैं, जिनमें
- उच्च आवृत्ति क्षेत्र में समय रिज़ॉल्यूशन बढ़ाया जाता है
- निम्न आवृत्ति क्षेत्र में आवृत्ति रिज़ॉल्यूशन बढ़ाया जाता है; इस तरह परस्पर संतुलित संरचना बनती है

efficient coding और natural sound विश्लेषण

Lewicki(2002) के अध्ययन में सुझाव दिया गया कि यह फ़िल्टर संरचना natural sound की redundancy कम करने की रणनीति है
- स्वतंत्रता को अधिकतम करने के लिए ICA(Independent Component Analysis) का उपयोग कर पर्यावरणीय ध्वनि, पशु स्वर और मानव आवाज़ की तुलना की गई
- पर्यावरणीय ध्वनि और मानव आवाज़ के लिए wavelet-प्रकार फ़िल्टर, जबकि पशु स्वरों के लिए Fourier-प्रकार फ़िल्टर के नज़दीक परिणाम मिले
मानव भाषा एक विशिष्ट समय-आवृत्ति स्थान घेरती है, और
- कुछ शोधकर्ताओं ने कहा है कि संभव है भाषा इस तरह विकसित हुई हो कि वह उस क्षेत्र को भरे जिसे मौजूदा natural sound ने नहीं घेरा था

पारिस्थितिक coding और संवेदन प्रसंस्करण

संवेदी तंत्र पर्यावरण के अनुकूल coding के तरीके बनाते हैं, और श्रवण को इसका एक उदाहरण बताया गया है
- ऐसी ecologically-relevant representation व्यवहार और पर्यावरण की परस्पर क्रिया पर आधारित होती है
लेख के अंत में कहा गया है कि आगे के व्याख्यानों में फोकस न्यूरॉन-स्तर की biophysical computation पर जाएगा
कुल मिलाकर, कान Fourier transform नहीं बल्कि एक efficient और adaptive filtering system की तरह काम करता है

1 टिप्पणियां

GN⁺ 2025-10-31

Hacker News राय

संक्षेप में, कान Fourier Transform नहीं करता, बल्कि wavelet और Gabor transform के बीच कहीं आने वाला एक समय-स्थानीयकृत frequency transform करता है
ऐसा इसलिए है क्योंकि ध्वनि समय के हिसाब से localized होती है
साथ ही एक सिद्धांत कि मानव भाषा frequency–envelope duration space के उस खाली क्षेत्र को भरने के लिए विकसित हुई भी प्रस्तुत किया गया है
संभव है कि मानव cochlea मानव वाणी के लिए optimized हो
- यह लेख कुछ ज़्यादा ही straw man logic खड़ा करता हुआ लगता है
  signal processing जानने वाला कोई भी व्यक्ति यह दावा नहीं करता कि कान अनंत समय पर फैला Fourier transform करता है
  कान असल में FFT (Fast Fourier Transform) जैसी processing करता है, यानी हर frequency पर intensity की गणना
  wavelet या Gabor transform गणितीय रूप से अलग हैं, लेकिन नतीजे में 95~99% तक वही परिणाम देते हैं
  इसलिए सरल शब्दों में कहें तो कान windowed discrete Fourier transform करता है
- ऊँची frequency पर time resolution बढ़ाने के लिए frequency resolution छोड़ी जाती है, और नीची frequency पर इसका उल्टा
  इसे time-frequency uncertainty principle से समझाया जा सकता है
  कान के filterbank को physiological परिणामों पर आधारित मनमाने filters के समूह की तरह देखना समझने में आसान है
  जानवर का आकार भी असर डालता है — छोटे जानवर ultrasound range में ध्वनि निकाल और सुन सकते हैं
- अगर मानव cochlea की विशेषताएँ मानव वाणी के अनुरूप हैं, तो शायद इसे फिल्म या TV dialog sound mastering में इस्तेमाल करके संवादों को अधिक स्पष्ट बनाया जा सकता है
- सचमुच अगर कान Fourier transform करता, तो क्या हमें पूरी ज़िंदगी इंतज़ार नहीं करना पड़ता? हम real-time में ध्वनि सुनते हैं, इसलिए साफ़ है कि ऐसा नहीं है
- इस विचार को आगे बढ़ाएँ तो, कुछ खास शब्द और phoneme frequency–time tradeoff space के खास हिस्सों पर कब्ज़ा करते होंगे
  उदाहरण के लिए, ‘बाघ हमला कर रहा है’ जैसी चेतावनी ध्वनि और ‘बच्चे को शांत करने की आवाज़’ अलग-अलग क्षेत्रों में होंगी
शीर्षक थोड़ा clickbait है, और सामग्री भी सख़्ती से देखें तो गलत है
Gabor या wavelet transform, Fourier transform के generalized रूप हैं, जो समय के अनुसार spectral analysis देते हैं
कान वास्तव में काफ़ी Fourier-y काम कर रहा होता है
- यह clickbait है, इस बात से सहमत हूँ, लेकिन सख़्ती से देखें तो यह गलत नहीं है
  Fourier transform अनंत और continuous होता है, जबकि DFT सीमित और discrete होता है
  मानव श्रवण को इनके बीच की चीज़, यानी Fourier Series के अधिक करीब माना जा सकता है
  wavelet एक अलग तरीका है, जिसमें sine wave की जगह modified waveform इस्तेमाल होती है
  कुल मिलाकर, रोज़मर्रा की भाषा में कहें तो कान “Fourier-जैसी” processing करता है
- यह लेख एक graduate student द्वारा Lewicki 2002 paper का परिचय कराने वाली journal club post है
  paper के abstract में साफ़ लिखा है कि “यदि animal vocalization के लिए optimized हो तो यह Fourier transform जैसा है, और यदि निर्जीव environmental sound के लिए optimized हो तो wavelet transform जैसा”
अगर और गहराई से जानना हो, तो Richard Lyon का CARFAC model (Cascade of Asymmetric Resonators with Fast-Acting Compression) देखने लायक है
इसे मानव श्रवण का सबसे सटीक digital model माना जाता है
उनकी पुस्तक का PDF यहाँ देखा जा सकता है
- बेहतरीन सामग्री है। धन्यवाद
यह तर्क कि मानव वाणी कम भीड़ वाले spectrum क्षेत्र पर कब्ज़ा करती है, 『The Great Animal Orchestra』 पुस्तक से भी मेल खाता है
पुस्तक लिंक
इसमें बताया गया है कि अलग-अलग species अपने-अपने acoustic niche पर कब्ज़ा करने के लिए विकसित हुईं
लेकिन habitat destruction की वजह से यह प्रवृत्ति कमज़ोर पड़ रही है, जो कुछ उदास करने वाली बात है
- पक्षी भी ऐसे समय चुनने के लिए विकसित हुए हैं जब उन्हें बेहतर सुना जा सके
  शहरों में वे traffic noise शुरू होने से पहले बहुत सुबह चहचहाते हैं, और जंगलों में तब जब कीड़ों का शोर कम हो जाता है
- जब प्रकृति में प्रतिस्पर्धात्मक बढ़त देने वाली evolutionary विशेषताएँ गायब हो जाती हैं, तो उनकी जगह शहरी वातावरण के अनुकूल विशेषताएँ ले लेती हैं
  spatial diversity की जगह temporal diversity की दिशा में भी विकास हो सकता है
शब्दावली को लेकर कुछ भ्रम है, लेकिन Fourier transform अनंत समय अंतराल मानकर चलता है
सीमित समय अंतराल में Fourier Series अधिक सटीक अभिव्यक्ति है
कान की वास्तविक क्रिया समय-भारित function लागू करने जैसी है, इसलिए यह Fourier series और transform के बीच कहीं आती है
यह लेख उस बिंदु को अच्छी तरह पकड़ता है
- अंततः कान एक Fourier transform नहीं, बल्कि time–frequency resolution के बीच tradeoff वाले कई transforms करता है
  यह भी संभव है कि मानव वाणी और श्रवण संरचना co-evolution से विकसित हुए हों
- शीर्षक थोड़ा उत्तेजक है, लेकिन मानव श्रवण के सूक्ष्म physiological implementation, जैसे cochlear hair cell के transduction mechanism, को अच्छी तरह छूने के कारण यह दिलचस्प है
कान अनंत समय का Fourier transform नहीं करता
इसके बजाय वह discrete और windowed transform करता है, जो समय और frequency resolution के बीच uncertainty principle जैसा संबंध रखता है
लंबी window frequency resolution बढ़ाती है और time resolution घटाती है, जबकि छोटी window इसका उल्टा करती है
मानव cochlea low frequency पर formant अलग करने के लिए frequency resolution बढ़ाता है, और high frequency पर plosive पहचानने के लिए time resolution बढ़ाता है
- मेरा ख़याल है कि यहाँ ‘Pauli exclusion principle’ नहीं, बल्कि Heisenberg uncertainty principle कहना था
- कान data samples नहीं लेता, बल्कि continuous mechanical process के रूप में काम करता है
- इसे समझने के लिए STFT (Short-Time Fourier Transform) याद करना आसान है
basilar membrane एक अद्भुत जैविक संरचना है
कंप्यूटर audio processing में FFT उपयोगी है, लेकिन मानव के time perception आधारित auditory modeling में इसकी सीमाएँ हैं
hair cell tip links और ion channels दिखाने वाला वीडियो दिलचस्प है
संबंधित वीडियो
इस संरचना के क्षतिग्रस्त होने पर tinnitus हो सकता है
साथ ही कान में active amplification की क्षमता भी होती है, इसलिए विद्युत संकेतों से कोशिकाओं को कंपन कराया जा सकता है
ऊपर दिया गया वीडियो अंत में बहुत ऊँचे pitch tone पर खत्म होता है, इसलिए अगर आप headphone लगाए हुए हैं तो सावधानी रखें
parietal lobe का auditory association cortex frequency को अलग-अलग पहचानता है, इसलिए कान और मस्तिष्क के बीच एक time-frequency transform मौजूद है
चूँकि neurons की firing discrete होती है, इसलिए यह सीमित समय के भीतर होने वाला एक discrete transform है
किसी finite signal को infinite signal में बढ़ाने का एक सरल तरीका यह मानना है कि वह signal अतीत और भविष्य में अनंत बार दोहराया जाता है

कान Fourier transform नहीं करता (2024)

कोक्लिया की आवृत्ति-विभाजन संरचना

हेयर सेल का यांत्रिक-विद्युत रूपांतरण

श्रवण फ़िल्टर और समय-आवृत्ति रिज़ॉल्यूशन

efficient coding और natural sound विश्लेषण

पारिस्थितिक coding और संवेदन प्रसंस्करण

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय