聽覺場景分析

在計算機聽覺研究領域裡,聽覺場景分析是由類比計算機視覺研究中的「視覺場景分析」概念而建立的聲音信號處理模型。聽覺場景分析部分藉助於格式塔學派提出的規則來研究聽覺組織的加工過程。 它包括:

  • 初級分析:着重研究序列整合與同時性整合;
  • 圖式加工:涉及到注意與知識的作用以及言語知覺的特殊性等;

場景分析能夠較好地說明簡單音和複合音的知覺組織過程,但目前尚不能很全面地解釋言語加工過程,故其理論仍然存在一定局限性。

研究狀況

人類對於聲音信號的處理依據有哪些規則?對於這個問題,認知心理學很早就有了較為全面的答案。Bergman在1990年對此方面的研究進行了詳盡的整理,總結出了以格式塔規則為基礎的一系列感知結論,首次提出了「聽覺場景分析」的概念。 [1]

而在此之前,Weintraub於1985年就已建立了世界上第一個模擬單耳聲源分離原理的人工聽覺系統,將兩個聲音信號成功分離[2]。這便成為了聽覺場景分析模型的雛形。後續的研究沿着類似的思想,不斷地對模型進行完善[3][4][5]。到2006年,根據人類聽覺信號處理規則和特點建立起來的聽覺場景分析模型已經相當完善,能夠較好地將基頻分布範圍內處於相同頻帶上的多個聲音信號同時進行分離。

參考

  1. ^ A. S. Bregman. Auditory Scene Analysis. MIT Press, Cambridge, MA, 1990.
  2. ^ M. Weintraub. A Theory and Computational Model of Auditory Monaural Sound Separation. PhD thesis, Stanford University, August 1985.
  3. ^ M. P. Cooke. Modelling Auditory Processing and Organization. PhD thesis, University of Sheffield, 1991.
  4. ^ G. Hu and D. L. Wang. Monaural speech segregation based on pitch tracking and amplitude modulation. IEEE Transactions on Neural Networks, 15(5):1135-1150,2004.
  5. ^ Martin Cooke. A glimpsing model of speech perception in noise. J. Acoust. Soc. Am. 119(3), March 2006.