课程设计-基于MATLAB的HMM语音信号识别，可以识别0-9十个阿拉伯数字，带有一个丰富的人机交互GUI界面

最新推荐文章于 2024-10-17 11:49:43 发布

白话机器学习

最新推荐文章于 2024-10-17 11:49:43 发布

阅读量951

点赞数 30

CC 4.0 BY-SA版权

分类专栏：计算机课程毕设源码毕业设计文章标签： matlab 人机交互语音识别

本文链接：https://blog.csdn.net/zy_dreamer/article/details/140242514

计算机课程毕设源码同时被 2 个专栏收录

196 篇文章

订阅专栏

毕业设计

182 篇文章

订阅专栏

完整程序获取地址
点击下载

1、资源项目源码均已通过严格测试验证，保证能够正常运行；
2、项目问题、技术讨论，可以给博主私信或留言，博主看到后会第一时间与您进行沟通；
3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用，尤其对于人工智能、计算机科学与技术等相关专业，更为适合；
4、下载使用后，可先查看README.md文件（如有），本项目仅用作交流学习参考，请切勿用于商业用途。

系统使用方式：
1、压缩包解压成文件夹，放桌面，无须放入MATLAB安装目录里；
2、在MATLAB命令行窗口输入guide，回车，选择已有GUI选项卡，浏览；
3、选择文件夹里面的fig结尾的文件，打开；
4、当问及是否改变路径的时候，选择是，这样选择图片的时候才会自动调取文件夹里面的图【有些无此步】；
5、点击运行即可。

基于MATLAB的HMM（隐马尔可夫模型）语音信号识别系统，能够识别0-9十个阿拉伯数字，是一个结合了信号处理和机器学习技术的复杂系统。以下是对该系统的综合概述：

一、系统概述

该系统利用MATLAB平台，通过HMM算法对语音信号进行识别，实现了对0-9十个数字的有效识别。HMM是一种统计模型，它通过描述一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由这些状态生成一个可观测的随机序列（即语音信号），从而进行模式识别。

二、系统流程

语音预处理：
- 数字化：将模拟语音信号转换为数字信号。
- 预加重：加重语音信号的高频部分，去除口唇辐射的影响，提高高频分辨率。
- 端点检测（VAD）：区分语音和非语音区域，去除静音和噪声部分，提取有效语音内容。
- 分帧与加窗：将语音信号分割成短时平稳的帧，每帧一般10-30ms，并使用窗函数（如汉明窗）减少截断效应。
特征提取：
- MFCC（Mel频率倒谱系数）：对分帧后的语音信号进行傅立叶变换，计算Mel频率谱，再取对数并进行离散余弦变换，得到MFCC特征。MFCC特征能够较好地反映语音的频谱特性，适合用于语音识别。
模型训练：
- 使用大量已标注的语音数据，通过Baum-Welch算法（一种EM算法）训练HMM模型。训练过程中，每个数字对应一个HMM模型，模型参数包括初始状态概率、状态转移概率和观测概率（通过GMM表示）。
识别过程：
- 对于输入的语音信号，首先进行预处理和特征提取，得到MFCC特征序列。
- 使用Viterbi算法在已训练的HMM模型集中寻找最可能产生这些特征序列的模型，即识别出对应的数字。

三、系统特点

人机交互界面：系统通常配备一个GUI界面，方便用户进行语音文件的读取、播放、识别以及识别结果的显示。
噪声鲁棒性：系统可以通过添加噪声并对比加噪后的识别准确率，评估系统的噪声鲁棒性。这在实际应用中非常重要，因为语音信号往往受到各种噪声的干扰。
可扩展性：系统支持二次开发，可以进一步扩展为九宫格形式的电话拨号音识别等更复杂的语音识别任务。

四、应用场景

该系统可广泛应用于需要数字识别的场景，如电话拨号、语音识别系统、语音助手等。通过不断优化算法和模型，可以提高系统的识别准确率和鲁棒性，满足更广泛的应用需求。

五、结论

基于MATLAB的HMM语音信号识别系统，通过结合信号处理和机器学习技术，实现了对0-9十个阿拉伯数字的有效识别。该系统具有较高的识别准确率和噪声鲁棒性，并具备良好的可扩展性和广泛的应用前景。

运行界面

在这里插入图片描述

在这里插入图片描述
部分源码：

1、读取语音
global filep  filename
[filename,filepath]=uigetfile('*.wav','选择音频文件');
   filep=strcat(filepath,filename); 
   
[y1,fs1]=wavread(filep);
namen3=filename; 
D = dir(filep);
set(handles.edit1,'string',num2str(namen3));
namen4=['文件路径：',num2str(filep),10, '文件名：',num2str(D.name),10,'采样频率：',num2str(fs1),10,'文件大小：',num2str(D.bytes),'bytes',10]; 
set(handles.listbox1,'string',namen4);
axes(handles.axes1);
plot(y1);
namen='原始语音信号'; 
set(handles.text2,'string',num2str(namen));

2、语音的播放
global filep
[filex,fs]=wavread(filep);
sound(filex,fs);

3、识别
global filep hmm 
 load hmm.mat
[x,fs]=wavread(filep);
 [x1,x2]=vad(x,fs);
    O = mfcc(x);
    O = O(x1:x2-5,:);
    
    for j=1:10
        pout(j) = viterbi(hmm{j}, O);%调用自定义的子函数viterbi.m
    end
    [d,n] = max(pout);
%     delete(d);
    c=num2str(n-1);
   set(handles.edit5,'string',c);
    guidata(hObject, handles);
4、识别率的计算
a=zeros(1,30);b=[zeros(1,3),ones(1,3),2*ones(1,3),3*ones(1,3),4*ones(1,3),5*ones(1,3),6*ones(1,3),7*ones(1,3),8*ones(1,3),9*ones(1,3)];
for i=1:30
    fname = sprintf('test1\\%d.wav',i);
  [k,fs]=wavread(fname);
  M=handles.M;
  y = awgn(k,M,'measured');%此为加噪声函数，第二个参数是噪声值。
  [x1,x2]=vad(y,fs);
    O = mfcc(y);
    O = O(x1:x2-5,:);
    for j=1:10
        pout(j) = viterbi(hmm{j}, O);
        
     end
    [d,n] = max(pout);
    a(1,i)=n-1;
end
z=a-b;
d=sum(z==0);
e=d/30;
% fprintf('识别率为%d\n', e);
 set(handles.edit4,'string',num2str(e));
 guidata(hObject,handles);