- कोक्लिया (cochlea) वायु-दाब में बदलाव से पैदा हुई कंपन को ग्रहण करता है और आवृत्ति के अनुसार अलग करने वाली भौतिक संरचना के माध्यम से ध्वनि को प्रोसेस करता है
- बेसिलर मेम्ब्रेन (basilar membrane) का हर स्थान एक विशेष आवृत्ति पर अनुनाद करता है; उच्च आवृत्तियाँ कठोर आधार भाग पर और निम्न आवृत्तियाँ लचीले सिरे पर प्रतिक्रिया देती हैं
- इस प्रक्रिया में हेयर सेल (hair cell) कंपन के अनुसार आयन चैनलों को खोलते और बंद करते हैं, उन्हें विद्युत संकेतों में बदलते हैं, और तंत्रिका रेशे समय व आवृत्ति की जानकारी को फ़िल्टर करते हैं
- लेकिन ये फ़िल्टर Fourier transform के विपरीत समय-रिज़ॉल्यूशन बनाए रखते हैं, और व्यवहार में wavelet तथा Gabor के बीच के रूप में काम करते हैं
- यह संरचना natural sound की redundancy को कम करने वाली efficient coding रणनीति है, और मानव भाषा एक विशिष्ट समय-आवृत्ति स्थान घेरती है
कोक्लिया की आवृत्ति-विभाजन संरचना
- टायम्पैनिक मेम्ब्रेन (tympanic membrane) वायु-दाब के बदलाव के अनुसार कंपन करता है, और मध्यकर्ण की हड्डियाँ इसे बढ़ाकर कोक्लिया के द्रव तक पहुंचाती हैं
- कंपन बेसिलर मेम्ब्रेन (basilar membrane) के साथ आगे बढ़ता है, और हर स्थान अपने भौतिक गुणों के अनुसार एक विशेष आवृत्ति पर अनुनाद करता है
- आधार भाग कठोर और हल्का होने के कारण उच्च आवृत्ति पर, जबकि सिरा लचीला और भारी होने के कारण निम्न आवृत्ति पर प्रतिक्रिया देता है
- बेसिलर मेम्ब्रेन की अनुनाद आवृत्ति स्थानिक रूप से logarithmic रूप में घटती है
- यह मनुष्यों की pitch धारणा के logarithmic बदलने वाले गुण से मेल खाती है
हेयर सेल का यांत्रिक-विद्युत रूपांतरण
- बेसिलर मेम्ब्रेन के ऊपर स्थित हेयर सेल (hair cell) उस स्थान की आवृत्ति के अनुरूप कंपन करते हैं, और यह गति आयन चैनलों के खुलने-बंद होने को प्रेरित करती है
- हेयर सेल के सिरे पर मौजूद स्प्रिंग संरचना “trapdoor” की तरह काम करती है और कंपन की आवृत्ति के अनुसार neurotransmitter छोड़ती है
- इस प्रक्रिया के जरिए यांत्रिक कंपन विद्युत संकेत में बदलकर श्रवण तंत्रिका तक पहुंचता है
श्रवण फ़िल्टर और समय-आवृत्ति रिज़ॉल्यूशन
- श्रवण तंत्रिका के रेशे समय और आवृत्ति की जानकारी निकालने वाले फ़िल्टर की तरह काम करते हैं
- कम समय पर केंद्रित फ़िल्टर में समय रिज़ॉल्यूशन अधिक होता है, लेकिन आवृत्ति वितरण असमान होता है
- लंबे समय तक फैले फ़िल्टर में आवृत्ति रिज़ॉल्यूशन अधिक होता है, लेकिन समय संबंधी जानकारी धुंधली हो जाती है
- Fourier transform में समय की जानकारी नहीं होती और दाईं ओर के चित्र की तरह समान आवृत्ति वितरण मिलता है, लेकिन यह वास्तविक कान के फ़िल्टर से अलग है
- कोक्लिया के फ़िल्टर wavelet और Gabor फ़िल्टर के बीच के मध्य रूप हैं, जिनमें
- उच्च आवृत्ति क्षेत्र में समय रिज़ॉल्यूशन बढ़ाया जाता है
- निम्न आवृत्ति क्षेत्र में आवृत्ति रिज़ॉल्यूशन बढ़ाया जाता है; इस तरह परस्पर संतुलित संरचना बनती है
efficient coding और natural sound विश्लेषण
- Lewicki(2002) के अध्ययन में सुझाव दिया गया कि यह फ़िल्टर संरचना natural sound की redundancy कम करने की रणनीति है
- स्वतंत्रता को अधिकतम करने के लिए ICA(Independent Component Analysis) का उपयोग कर पर्यावरणीय ध्वनि, पशु स्वर और मानव आवाज़ की तुलना की गई
- पर्यावरणीय ध्वनि और मानव आवाज़ के लिए wavelet-प्रकार फ़िल्टर, जबकि पशु स्वरों के लिए Fourier-प्रकार फ़िल्टर के नज़दीक परिणाम मिले
- मानव भाषा एक विशिष्ट समय-आवृत्ति स्थान घेरती है, और
- कुछ शोधकर्ताओं ने कहा है कि संभव है भाषा इस तरह विकसित हुई हो कि वह उस क्षेत्र को भरे जिसे मौजूदा natural sound ने नहीं घेरा था
पारिस्थितिक coding और संवेदन प्रसंस्करण
- संवेदी तंत्र पर्यावरण के अनुकूल coding के तरीके बनाते हैं, और श्रवण को इसका एक उदाहरण बताया गया है
- ऐसी ecologically-relevant representation व्यवहार और पर्यावरण की परस्पर क्रिया पर आधारित होती है
- लेख के अंत में कहा गया है कि आगे के व्याख्यानों में फोकस न्यूरॉन-स्तर की biophysical computation पर जाएगा
- कुल मिलाकर, कान Fourier transform नहीं बल्कि एक efficient और adaptive filtering system की तरह काम करता है
1 टिप्पणियां
Hacker News राय
संक्षेप में, कान Fourier Transform नहीं करता, बल्कि wavelet और Gabor transform के बीच कहीं आने वाला एक समय-स्थानीयकृत frequency transform करता है
ऐसा इसलिए है क्योंकि ध्वनि समय के हिसाब से localized होती है
साथ ही एक सिद्धांत कि मानव भाषा frequency–envelope duration space के उस खाली क्षेत्र को भरने के लिए विकसित हुई भी प्रस्तुत किया गया है
संभव है कि मानव cochlea मानव वाणी के लिए optimized हो
signal processing जानने वाला कोई भी व्यक्ति यह दावा नहीं करता कि कान अनंत समय पर फैला Fourier transform करता है
कान असल में FFT (Fast Fourier Transform) जैसी processing करता है, यानी हर frequency पर intensity की गणना
wavelet या Gabor transform गणितीय रूप से अलग हैं, लेकिन नतीजे में 95~99% तक वही परिणाम देते हैं
इसलिए सरल शब्दों में कहें तो कान windowed discrete Fourier transform करता है
इसे time-frequency uncertainty principle से समझाया जा सकता है
कान के filterbank को physiological परिणामों पर आधारित मनमाने filters के समूह की तरह देखना समझने में आसान है
जानवर का आकार भी असर डालता है — छोटे जानवर ultrasound range में ध्वनि निकाल और सुन सकते हैं
उदाहरण के लिए, ‘बाघ हमला कर रहा है’ जैसी चेतावनी ध्वनि और ‘बच्चे को शांत करने की आवाज़’ अलग-अलग क्षेत्रों में होंगी
शीर्षक थोड़ा clickbait है, और सामग्री भी सख़्ती से देखें तो गलत है
Gabor या wavelet transform, Fourier transform के generalized रूप हैं, जो समय के अनुसार spectral analysis देते हैं
कान वास्तव में काफ़ी Fourier-y काम कर रहा होता है
Fourier transform अनंत और continuous होता है, जबकि DFT सीमित और discrete होता है
मानव श्रवण को इनके बीच की चीज़, यानी Fourier Series के अधिक करीब माना जा सकता है
wavelet एक अलग तरीका है, जिसमें sine wave की जगह modified waveform इस्तेमाल होती है
कुल मिलाकर, रोज़मर्रा की भाषा में कहें तो कान “Fourier-जैसी” processing करता है
paper के abstract में साफ़ लिखा है कि “यदि animal vocalization के लिए optimized हो तो यह Fourier transform जैसा है, और यदि निर्जीव environmental sound के लिए optimized हो तो wavelet transform जैसा”
अगर और गहराई से जानना हो, तो Richard Lyon का CARFAC model (Cascade of Asymmetric Resonators with Fast-Acting Compression) देखने लायक है
इसे मानव श्रवण का सबसे सटीक digital model माना जाता है
उनकी पुस्तक का PDF यहाँ देखा जा सकता है
यह तर्क कि मानव वाणी कम भीड़ वाले spectrum क्षेत्र पर कब्ज़ा करती है, 『The Great Animal Orchestra』 पुस्तक से भी मेल खाता है
पुस्तक लिंक
इसमें बताया गया है कि अलग-अलग species अपने-अपने acoustic niche पर कब्ज़ा करने के लिए विकसित हुईं
लेकिन habitat destruction की वजह से यह प्रवृत्ति कमज़ोर पड़ रही है, जो कुछ उदास करने वाली बात है
शहरों में वे traffic noise शुरू होने से पहले बहुत सुबह चहचहाते हैं, और जंगलों में तब जब कीड़ों का शोर कम हो जाता है
spatial diversity की जगह temporal diversity की दिशा में भी विकास हो सकता है
शब्दावली को लेकर कुछ भ्रम है, लेकिन Fourier transform अनंत समय अंतराल मानकर चलता है
सीमित समय अंतराल में Fourier Series अधिक सटीक अभिव्यक्ति है
कान की वास्तविक क्रिया समय-भारित function लागू करने जैसी है, इसलिए यह Fourier series और transform के बीच कहीं आती है
यह लेख उस बिंदु को अच्छी तरह पकड़ता है
यह भी संभव है कि मानव वाणी और श्रवण संरचना co-evolution से विकसित हुए हों
कान अनंत समय का Fourier transform नहीं करता
इसके बजाय वह discrete और windowed transform करता है, जो समय और frequency resolution के बीच uncertainty principle जैसा संबंध रखता है
लंबी window frequency resolution बढ़ाती है और time resolution घटाती है, जबकि छोटी window इसका उल्टा करती है
मानव cochlea low frequency पर formant अलग करने के लिए frequency resolution बढ़ाता है, और high frequency पर plosive पहचानने के लिए time resolution बढ़ाता है
basilar membrane एक अद्भुत जैविक संरचना है
कंप्यूटर audio processing में FFT उपयोगी है, लेकिन मानव के time perception आधारित auditory modeling में इसकी सीमाएँ हैं
hair cell tip links और ion channels दिखाने वाला वीडियो दिलचस्प है
संबंधित वीडियो
इस संरचना के क्षतिग्रस्त होने पर tinnitus हो सकता है
साथ ही कान में active amplification की क्षमता भी होती है, इसलिए विद्युत संकेतों से कोशिकाओं को कंपन कराया जा सकता है
ऊपर दिया गया वीडियो अंत में बहुत ऊँचे pitch tone पर खत्म होता है, इसलिए अगर आप headphone लगाए हुए हैं तो सावधानी रखें
parietal lobe का auditory association cortex frequency को अलग-अलग पहचानता है, इसलिए कान और मस्तिष्क के बीच एक time-frequency transform मौजूद है
चूँकि neurons की firing discrete होती है, इसलिए यह सीमित समय के भीतर होने वाला एक discrete transform है
किसी finite signal को infinite signal में बढ़ाने का एक सरल तरीका यह मानना है कि वह signal अतीत और भविष्य में अनंत बार दोहराया जाता है