GFCC

声学特征: GFCC

1. introduction

ASA
CASA

2. Auditory Features

input(signal) -> STFT -> Gammatone filters -> downsampling(改变采样频率到10KHz) -> loudness-compressed (减少 magnitude) -> output(TF decomposition(T-F decomposition是cochleagram图的一部分,cochleagram在低频有更高的频率分辨率,不同于频谱图的线性频率分辨率。))

input(Gammatone feature(cochleagram图的一帧))-> DCT(做这个operation的原因是解决GF的维度大,并且GFs之间相似度太高(帧和帧之间重复部分多))-> output(GFCC)

可以看到GFCC的过程和倒谱分析基本相同,但是没有取log的过程。

低30位几乎保存了所有信息,所以GFCC取30位就好。

GFCC_delta (动态特征)(比较简单的动态特征就是特征之间的微分,可以反应特征的走向)也取30位,加上GFCC一共60位。

3. Evaluation

在这里插入图片描述

参考论文:Shao Yang and De Liang Wang. “Robust speaker identification using auditory features and computational auditory scene analysis”. In: Proc. of ICASSP. 2008.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值