MFCC C++实现与Python库可视化对比

看不见的罗辑

已于 2024-08-27 23:24:58 修改

阅读量1.7k

点赞数 24

CC 4.0 BY-SA版权

文章标签： MFCC MFCC高层次综合 hls MFCC C++实现 MFCC效果对比

于 2024-08-27 22:40:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a284365/article/details/141614230

MFCC C++实现与Python库对比

MFCC理论基础

在音频、语音信号处理领域，我们需要将信号转换成对应的语谱图(spectrogram)，将语谱图上的数据作为信号的特征。语谱图的横轴x为时间，纵轴y为频率，(x,y)对应的数值代表在时间x时频率y的幅值。通常的语谱图其频率是线性分布的，但是人耳对频率的感受是对数的(logarithmic)，即对低频段的变化敏感，对高频段的变化迟钝，所以线性分布的语谱图显然在特征提取上会出现“特征不够有用的情况”，因此梅尔语谱图应运而生。梅尔语谱图的纵轴频率和原频率经过如下公式互换:

其中f代表原本的频率，m代表转换后的梅尔频率，显然，当f很大时，m的变化趋于平缓。而梅尔倒频系数(MFCCs)是在得到梅尔语谱图之后进行余弦变换(DCT,一种类似于傅里叶变换的线性变换），然后取其中一部分系数即可。

信号预加重(pre-emphasis)

通常来讲语音/音频信号的高频分量强度较小，低频分量强度较大，信号预加重就是让信号通过一个高通滤波器，让信号的高低频分量的强度不至于相差太多。在时域中，对信号x[n]作如下操作：

a通常取一个很接近1的值，typical value为0.97或0.95。从时域公式来看，这是一个高通滤波器，我们从z变换的角度看一下滤波器

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

看不见的罗辑 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。