音频信号处理

音频信号处理,又称音频处理音乐信号处理(英语:Audio signal processing)等,用来调整音乐信号的振幅频率波形等信息。利用某些四则运算,升降频,及窗函数,就可以处理出各式各样的声音频号。

透过一些信号处理的技巧,可以从声音频号获取背后所代表的频率高低,做更进一步的分析与应用。

音频的来源

  • 当物体发生震动时,就会产生声音,举例来说:当用力挥动手掌时,就会产生声音,以及蚊子翅膀快速震动时,所发出的扰人声音。
  • 但是,在上述例子中,所听到的声音是来自于空气震动,而不是因为手掌摆动,
  • 原因是人耳可以听到的声音频率介于20Hz到20000Hz之间,所以我们可以听到空气振动产生的声音,却听不到手掌摆动产生的声音,因为摆动的频率不够快。

音频的信息

  • 声音频号是一种力学波,因此在传播过程中是一种模拟连续的信号,然而由于人耳是天然的傅里叶变换器,因此音频经过人耳后会变成数字信号。在这些信号中,有三个特征是处理时经常考虑的部分,可以参考下图:
  1. 音量:从信号来看,音量代表的是信号的振幅,信号振幅越大,所发出的音量也越大。
  2. 音频:信号的频率,就是所谓的音频,也就是声音震动的频率。其代表的是音调的高低,频率越高,音调就越高。除此之外,乐器所产生的声音频号,并非是单一频率的信号,而是有基带泛音(倍频)的存在。
  3. 音色:每一个人或乐器所发出的音色都不一样,从信号上来看,音色就是信号的波形,因此只要利用波形分析,就可以判断出声音的来源,从下图可以看到小提琴跟钢琴的音色差异非常大。
  • 音频的三个特征:音量、音频、音色。
  • 音频的文件

    • 音频的文件存储可以分成压缩和无压缩两种,常见的无压缩包案格式为*.wav,而压缩包案格式为*.mp3,关于这一部分的详细资料可以引用音频档案格式。声音档的访问时,主要有三个需要考虑因素:
    1. 采样率:在信号处理中,采样率所代表的是声音的质量,采样的频率越高,数字信号的波形越接近模拟信号的波形,因此声音的质量也越好。而在做采样时,必须遵守奈奎斯特频率,简单来说,频率在采样时至少要大于原信号频率的2倍,才可以得到有意义的信号,也能还原成原本的信号。
    2. 声音分辨率:访问信号资料点所用的比特数,即代表其分辨率。所使用的比特数越大,每个资料点的数值就越精确,声音的分辨率也越好。比较16bit与8bit两种访问比特,16bit可以访问到较精确的数值,但是也会花比较大的硬件存储空间。
    3. 声道:声道就是声音的来源数,常听到的单声道及双声道,代表的是声音是否有立体感。利用两个喇叭,拨放单声道的声音,左右两个喇叭发出的声音完全相同,因此会感觉声音是来自两个喇叭中间,但若是双声道声音,左右两个喇叭发出的声音会有一定差异,因此会觉得声音听起来有立体感。
    • 举例来说,借由MATLAB输入指令audioinfo(音频档案名称),可以得到音频档案的相关信息如下图:
    1. 因为文件格式是*.wav,所以是无压缩 (uncompressed)。
    2. 声道 (NumChannels): 1
    3. 采样率 (SampleRate): 44100Hz
    4. 声音分辨率 (BitsPerSample): 16
  • 执行MATLAB函数:audioinfo(音频档案名称)
  • 音频的处理

    • 由于声音频号是一段长时间的信号,因此在处理时必须要分段进行,在处理之前会先开一个范围,选择出想要处理的部分,再针对范围内的部分做处理,声音信息主要包含:响度、音色和音高,三个部分,也是最常处理的部分。
    1. 响度控制:音量是一种相对信号,在信号中代表得是振幅,其计算方式是将范围内的信号取平方相加,在以10为底取log,单位是分贝(dB)如下公式:  但是,在对人耳来说,音量是一种主观的感受,根据佛莱彻森曲线(Fletcher-Munson Curve),在不同频率之下,人耳要听到声音的话,对音量有一个最低要求,如下图所示。反过来说,虽然声音频号的振幅相同,但是因为频率高低不同,对人耳的感受大小也会不同,相同声音强度,耳朵对低频的感受度较差,对3000Hz左右的声音感受度最高,越往高频又会慢慢降低。调整音量最简单的方式就是用加减法,首先把要处理的范围框出来,接着计算出振幅大小,最后再减掉想要减少的振幅强度,就可以降低音量,反之用加法就可以增强区域的音量。
  • 在不同频率之下,人耳对声音的敏感度会有所不同。
    1. 音频控制:音频是声音频号处理的核心部分,最常用的简单处理方式是增频和降频。音频代表得是信号的音高,中音Do的频率约在262Hz,在音乐中,有C(Do),#C(#Do,♭Re),D(Re),#D(#Re,♭Mi),E(Mi,♭Fa),F(Fa),#F(#Fa,♭Sol),G(Sol),#G(#Sol,♭La),A(La),#A(#La,♭Si),B(Si),12个特定的音阶,每差12个音阶,频率会变为原来的两倍,其频率设置是以440Hz为标准音频,做进一步数学推算,其频率为440乘上2的n/12次方,其中n是上面列出的第几个音阶。音频的处理最常用的是升频和降频,先选出想要处理的区域,接着做升降频的动作,这其中必须要注意奈奎斯特理论,避免信号失真。 frequency = 2n/12 * 440
    2. 频率分析:透过离散傅里叶变换(Discrete Fourier Transform),通常简称为DFT,可以将一段声音频号变换成其各个频率的正弦波分量,方便做更进一步的分析、运算。下图是将频率为440Hz的正弦波信号,借由MATLAB function: fft,可以得到信号组成频率的分量,从图上可以看到在440Hz的地方有特别大的值。
    1. 音色:每一组声音频号的波形都不一样,其物理意义是音色,因此如果改变波形的变化,就可以产生出音色类似的声音,处理波形最简单的方法就是用窗函数(window function),利用既有或自制的窗函数,将信号做简单的卷积运算就可以改变信号的波形,创造出不同的音色。
    2. 倍频:通常音乐的信号不是单一频率的信号,而是由基带,以及其泛音(基带的整数倍,倍频)所组成,因此若自制电子音乐时,必须注意倍频对声音饱和度产生的影响。下图将音乐信号经过频率分析后,可以看到除了在 左右的基带外,在  的部分也会有较大的分量。
  • 音乐信号会由基带、泛音所组成,经过频率分析后,分量在基带倍数的地方有较大的值。
    1. 端点侦测:端点侦测的目的是使信号处理的范围更精确,方法很简单,只要设置一个音量阈值,若信号小于阈值,则将其视为没信号,但是若噪声过高,则会产生误差。

    MATLAB声音信号处理指令

    • [y, fs] = audioread(文件名):y是声音频号的向量,fs是采样率。
    • audioinfo(文件名):回传各种声音文件的相关信息,像是采样率、通道数量、声音分辨率...等。
    • sound(y, fs):以fs的频率播放声音频号y。
    • wavwrite(y, fs, filename):将y信号,以采样速率fs,写到filename.wav之中。
    • Y = fft(y):将时间轴上的信号y,变换为频率轴上的信号Y。

    参考资料

    [1]http://djj.ee.ntu.edu.tw/ADSP7.pdf页面存档备份,存于互联网档案馆

    1. ^ 丁建均. 高等數位訊號處理 (PDF). [2017-05-27]. (原始内容存档 (PDF)于2021-03-18).