音频特征建模:音频特征提取

本文详细介绍了音频特征建模中的梅尔频率倒谱系数(MFCC)提取过程,包括信号分帧、梅尔滤波器组、对数转换、DCT以及微分系数和加速度系数的计算,这些都是自动语音识别系统的重要步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python_speech_features

滤波器与MFCC

  • 任何自动语音识别系统的第一步都是提取特征。
  • 梅尔频率倒谱系数(MFCC)是广泛用于自动语音和说话者识别的功能。
    • 将信号分成短帧。
      • 假设音频信号在短时间范围内变化不大(当我们说它不变时,我们指的是统计上的,即统计上是平稳的,显然样本在不断变化。即使是短时间尺度)。这就是为什么我们将信号分成20-40ms帧的原因。
    • 对于每个帧,计算功率谱的周期图估计。
    • 将梅尔滤波器组应用于功率谱,对每个滤波器的能量求和。
      • 梅尔滤波器组:第一个滤波器非常窄,可以指示0赫兹附近存在多少能量。随着频率的升高,我们对滤波器的关注也越来越小,滤波器也变得越来越宽。
    • 取所有滤波器组能量的对数。
      • 有了滤波器组能量,我们就可以取它们的对数。这也是由人类听力引起的:我们听不到线性范围的响度。通常,要将声音的感知音量加倍,我们需要将8倍的能量投入其中。为什么是对数而不是立方根?对数允许我们使用倒谱均值减法,这是一种通道归一化技术。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI拉呱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值