Kaldi AMI数据集脚本学习2----run_prepare_shared.sh

本文档详细介绍了使用Kaldi处理AMI数据集的步骤,包括下载XML标注文件,创建词汇表,构建语言模型,以及进行语言模型剪枝。重点讲述了数据预处理,如从XML转为文本标注,限制词汇量,并通过validate_dict_dir.pl验证字典。之后,创建了data/lang目录,训练了3阶语言模型,并进行了语言模型的删减操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在学习脚本文件时,重点关注哪些是调用标准函数,哪些是调用特定数据集的数据处理函数;

关注每个阶段处理的输入,输出和控制参数。不要面面俱到,试图理解每行代码。


1. 下载AMI数据集的xml标注文件包;

   从xml格式的标注文件提取得到data/local/annotations文件夹下文本格式的标注文件train.txt,eval.txt,dev.txt.

# Download of annotations, pre-processing,
local/ami_text_prep.sh data/local/downloads

2.  下载cmu dictionary;

      创建silence_phones.txt和optional_silence.txt;

      从cmudict/cmudict.0.7a.symbols提取  nonsilence_phones.txt,扔掉重音(stress);

      将silence phones 加到extra_questions.txt;

      下载wordlist.50k;

       limit the vocabulary to the predefined 50k words,从而得到文件lexicon1_raw_nosil_50k.txt;

       再增加类似laughter,noise等词汇后得到最终的lexicon.txt

     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值