语音合成vocoder(二) 基频参数

本文介绍了基音周期和频率的基本概念,包括其在语音信号处理中的作用及变化范围。此外,还详细探讨了两种常用的基音频率提取方法:自相关方法(如YIN算法)和倒谱方法,并提到了DIO和Harvest等快速可靠的提取技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


基本概念

声带每开启和关闭一次的时间就是基音周期(pitch period),倒数即为音频频率(pitch frequency)[1]。
基音频率取决于声带的大小、厚薄、松紧程度,以及声门上下之间的气压差的效应等。最低可达80Hz,最高可达500Hz,老年男性偏低,小孩女性偏高。它反映了声调的变化。

常用方法

常用的有自相关方法和倒谱方法
Autocorrelation Function(ACF)运算可以用于寻找周期信号的周期。因为周期信号的自相关函数也是周期信号,而且周期一致。比如YIN算法[2]就是使用的自相关方法。
r t ( τ ) = ∑ j = t + 1 t + W x j x j + τ r_t(\tau)=\sum_{j=t+1}^{t+W}x_jx_{j+\tau} rt(τ)=j=t+1t+Wxjxj+τ
W表示相关函数的窗口, τ \tau τ表示相关函数的延时。

DIO

World里面使用DIO[3][4]提取pitch,相比之前的方法速度更快。主要分为三步:

  1. 使用不同截止频率的低通滤波器进行滤波
    如果滤波后的信号只包含一个周期 T 0 T_0 T0的信号,即为pitch。由于pitch未知,会使用多个不同截止频率的滤波器。
  2. 计算F0候选以及置信度
    取四个周期,计算每个周期的zero-crossing/peak/dip intervals应该一致,以此为标准计算置信度。
    这里写图片描述
  3. 选取置信度最高的频率作为最后的pitch

Harvest

参考文献

[1].《语音信号处理》 韩纪庆等 P15
[2].YIN, a fundamental frequency estimator for speech and music
[3].WORLD: a vocoder-based high-quality speech synthesis system for real-time applications
[4].Fast and Reliable F0 Estimation Method Based on the Period Extraction of Vocal Fold Vibration of Singing Voice and Speech

后面的技术分享转移到微信公众号上面更新了,【欢迎扫码关注交流】

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值