python_speech_features
滤波器与MFCC
- 任何自动语音识别系统的第一步都是提取特征。
- 梅尔频率倒谱系数(MFCC)是广泛用于自动语音和说话者识别的功能。
- 将信号分成短帧。
- 假设音频信号在短时间范围内变化不大(当我们说它不变时,我们指的是统计上的,即统计上是平稳的,显然样本在不断变化。即使是短时间尺度)。这就是为什么我们将信号分成20-40ms帧的原因。
- 对于每个帧,计算功率谱的周期图估计。
- 将梅尔滤波器组应用于功率谱,对每个滤波器的能量求和。
- 梅尔滤波器组:第一个滤波器非常窄,可以指示0赫兹附近存在多少能量。随着频率的升高,我们对滤波器的关注也越来越小,滤波器也变得越来越宽。
- 取所有滤波器组能量的对数。
- 有了滤波器组能量,我们就可以取它们的对数。这也是由人类听力引起的:我们听不到线性范围的响度。通常,要将声音的感知音量加倍,我们需要将8倍的能量投入其中。为什么是对数而不是立方根?对数允许我们使用倒谱均值减法,这是一种通道归一化技术。
- 将信号分成短帧。