ASR极简之述
注意:这里的语言模型和声乐模型都是ASR特有的,不是所有的语言模型和声学模型都是这个功能
-
传统 (有状态和音素)
- 编码
- 声学模型识别状态 (DNN,需要用GMM进行对齐(对齐文本标签和音频))
- 解码(WFST):
- 语言模型(HMM) + 选择路径算法(Viterbi) (状态to音素)
- 字典 (音素to文字)
- 包含:G2P(grapheme-to-phoneme)单元:处理集外词(out of vocabulary,OOV)
-
纯端到端 (不再需要状态、音素或者声韵母)
- DNN + CTC loss 直接输出文本 beam search (集成了简单版本的语言模型)