实时指令唤醒

原创已于 2025-06-17 19:07:10 修改 · 1.9k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #FunASR #Pytorch #语音识别 #语音唤醒

于 2023-12-17 15:36:39 首次发布

语音同时被 2 个专栏收录

34 篇文章

订阅专栏

Pytorch

19 篇文章

订阅专栏

前言

本文将介绍一个实时指令唤醒的程序，可以添加任意的指令，实时录音一旦检测到指令语音，激活程序。同时还支持指令微调、提高指令的准确率。

安装项目环境

本项目开发换为：

Anaconda 3
Windows 11
Python 3.11
Pytorch 2.1.0
CUDA 12.1

安装Pytorch，执行下面命令，如果已经安装了其他版本，若能正常运行，请跳过。

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

安装其他依赖包，执行下面命令，安装完成之后，如果还缺失其他库，请对应安装。

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

指令唤醒

infer_pytorch.py可以使用GPU进行推理，如果要使用CPU推理，可以infer_onnx.py，这个使用的是ONNX，在CPU可以有加速。

可以调整的参数有：sec_time为录制时间，单位秒；last_len为上一部分的数据长度，单位秒；。
增加指令，需要在instruct.txt添加指令。

输出日志：

支持指令：['向上', '向下', '向左', '向右', '停止', '开火']
请发出指令...
触发指令：【开火】
触发指令：【停止】

微调指令模型

微调指令模型的代码在finetune目录下，微调前切换到finetune目录，具体的训练过程看下面操作。

制作数据

运行record_data.py代码，启动录音程序，默认录制2秒钟，建议录制完成之后，再录制1秒钟的音频，注意录制1秒钟时间非常短，按下回车之后要立马开始说话。其实自定义数据可以参考生成的dataset目录。

输出日志：

请输入指令内容：向上
请输入录入次数：10
第1次录音，按回车开始说话：
开始录音......
录音已结束!
第2次录音，按回车开始说话：

生成训练数据列表

运行generate_data_list.py代码，生成训练数据列表。

训练模型

执行下面命令训练模型，如果是Windows，需要把参数并接为一行，并删除\。

funasr-train \
++model=../models/paraformer-zh \
++train_data_set_list=dataset/train.jsonl \
++valid_data_set_list=dataset/validation.jsonl \
++dataset_conf.batch_type="token" \
++dataset_conf.batch_size=10000 \
++train_conf.max_epoch=5 \
++train_conf.log_interval=1 
++train_conf.keep_nbest_models=5 \
++train_conf.avg_nbest_model=3 \
++output_dir="./outputs"