
说话人识别
文章平均质量分 63
落雪snowflake
未来的博士!正在努力申请英国Phd!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
关于声纹识别数据集VoxCeleb下载问题
虽然这个数据集是开源的http://www.robots.ox.ac.uk/~vgg/data/voxceleb/,但是需要申请,下面讲一下如何申请以及它所包含的内容;打开网址http://www.robots.ox.ac.uk/~vgg/data/voxceleb/,找到download然后开始点击voxceleb1或者voxceleb2或者Models中的任何一个(j举例:这里点击就...原创 2018-11-12 20:30:02 · 8851 阅读 · 24 评论 -
特征提取I-VECTOR算法源码01
#include <algorithm> #include "ivector/agglomerative-clustering.h" namespace kaldi { void AgglomerativeClusterer::Cluster() { KALDI_VLOG(2) << "Initializing cluster as...原创 2018-11-26 20:04:54 · 2371 阅读 · 5 评论 -
基于原始波形的端到端DNN中避免说话人过拟合的文本无关说话人验证
Avoiding Speaker Overfitting in End-to-End DNNs using Raw Waveform for Text-Independent Speaker Verification 基于原始波形的端到端DNN中避免说话人过拟合的文本无关说话人验证Avoiding Speaker Overfitting in End-to-End DNNs using...翻译 2018-12-04 18:44:37 · 722 阅读 · 1 评论 -
基于条件生成对抗网络的I-向量变换在短说话人验证中的应用
I-vector Transformation Using Conditional Generative Adversarial Networks for Short Utterance Speaker Verification基于条件生成对抗网络的I-向量变换在短说话人验证中的应用用于短话语说话人验证的条件生成对抗网络的I向量变换 摘要 基于I向量的文本无关说话人验证(S...翻译 2018-12-04 20:00:00 · 779 阅读 · 0 评论 -
扬声器嵌入框架中的互补信息源分析
扬声器嵌入框架中的互补信息源分析Analysis of Complementary Information Sources in the Speaker Embeddings FrameworkMahesh Kumar Nandwana,Mitchell McLaren,Diego Castan,Julien van Hout,Aaron Lawson美国加利福尼亚州门洛帕克SRI国际语...翻译 2018-12-01 20:31:29 · 190 阅读 · 0 评论 -
资料参考
https://www.jianshu.com/p/19d34b19517bhttps://www.cnblogs.com/dystopia/p/5786524.html转载 2019-04-18 22:23:56 · 265 阅读 · 0 评论 -
论文需要
https://github.com/philipperemy/deep-speakerhttps://blog.csdn.net/smith24122412/article/details/84837105https://blog.csdn.net/yunxinan/article/details/74857288https://edu.csdn.net/huiyiCourse/de...转载 2019-04-18 22:50:21 · 180 阅读 · 0 评论 -
KALDI中aishell之V1模型后续2
根据run.sh文件中,下一步执行utils中 fix_data_dir.sh的脚本。步骤同上面一样找 fix_data_dir.sh中的eg部分,然后在V1目录下执行:./utils/data/fix_data_dir.sh data/train结果如下根据run.sh文件中,下一步执行sid中 train_diag_ubm.sh的脚本 ./sid/train_diag...原创 2018-11-08 19:04:33 · 1931 阅读 · 1 评论 -
KALDI之aishell之V1模型续4(最终的结果)
成功结束了aishell之V1模型:eer=0.049%sid/extract_ivectors.sh --cmd run.pl --mem 4G --nj 10 exp/extractor_male data/test/enroll exp/ivector_enroll_1024sid/extract_ivectors.sh: extracting iVectorssid/ex...原创 2018-11-11 20:55:18 · 2424 阅读 · 3 评论 -
用于文本相关语音验证的基于注意的模型
摘要基于注意力的模型最近在一系列任务上表现出很好的表现,例如语音识别,机器翻译和图像字幕,因为它们能够汇总在输入序列的整个长度上扩展的相关信息。 在本文中,我们分析了注意机制在端到端文本相关说话人识别系统中对序列汇总问题的使用。 我们探索了注意层的不同拓扑及其变体,并比较了注意力量的不同汇集方法。 最后,我们表明,与我们的非注意力LSTM基线模型相比,基于注意力的模型可以将我们的说话人验证系统的等错误率(EER)提高14%。索引术语 - 基于注意的模型,序列汇总,说话人识别,汇集,LSTM原创 2018-11-06 16:29:33 · 370 阅读 · 0 评论 -
KALDI之aishell之v1模型后续3
#extract ivectorsid/extract_ivectors.sh --cmd "$train_cmd" --nj 10 \ exp/extractor_1024 data/train exp/ivector_train_1024该脚本为一组话语,给定的特征和训练有素的iVector提取器提取iVectors。#开始配置部分。NJ= 30num_threads = 1...原创 2018-11-09 14:56:29 · 2211 阅读 · 2 评论 -
ivector-extractor-testcc文件读书笔记
// ivector/ivector-extractor-test.cc// Copyright 2013 Daniel Povey// See ../../COPYING for clarification regarding multiple authors//// Licensed under the Apache License, Version 2.0 (the "Lic...原创 2018-11-09 21:06:10 · 409 阅读 · 0 评论 -
X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION论文翻译
X-VECTORS:稳健的DNN嵌入式,用于声纹识别摘要 在本文中,我们使用数据增强来提高深层神经网络(DNN)嵌入对于说话人识别的性能。 DNN经过训练以区分说话者,将可变长度的话语映射到我们称为x向量的固定维度嵌入。之前的研究发现,嵌入比i向量更好地利用大规模训练数据集。但是,收集大量用于训练的标记数据可能具有挑战性。我们使用数据增加,包括增加的噪声和回报,作为一种廉价的方法来增加...翻译 2018-11-07 10:35:28 · 3214 阅读 · 0 评论 -
Co-whitening of i-vectors for short and long duration speaker verification用于短期和长期说话者验证的i向量的共同白化
Co-whitening of i-vectors for short and long duration speaker verification论文翻译用于短期和长期说话者验证的i向量的共同白化摘要 I-vector是语音话语的固定长度和低等级表示。它已广泛用于与文本无关的说话人验证。理想情况下,来自同一说话者的语音话语将映射到唯一的i-vectors。但是,由于某些内在和外在...翻译 2018-11-07 14:23:06 · 459 阅读 · 0 评论 -
KALDI之aishell模型说话人识别之V1
1.首先,成功安装kaldi在服务器上,用git clone那种方式安装(和在本地Unbuntu乌班图环境安装没区别)。2数据准备部分然后进入目录cd egs/aishell/V1 2.1首先改cmd的配置:vim cmd.sh1改为:export train_cmd=run.pl #"queue.pl --mem 2G":wq保存后。2...原创 2018-11-07 20:19:51 · 4476 阅读 · 5 评论 -
KALDI之aishell之V1模型续进行VAD检测
上面特征提取貌似没完事了VAD是语音激活检测算法,用于判断什么时候有语音输出,什么时候是静音状态。下面进入/kaldi-trunk/egs/aishell/v1/sidvim compute_vad_decision.sh第22行显示 echo "e.g.: $0 data/train exp/make_vad mfcc" 然后在/kaldi-trunk/egs/ai...原创 2018-11-07 21:21:51 · 2546 阅读 · 0 评论 -
说话人识别进行的加权小波去噪方法笔记
采用改进的小波去噪算法对噪语音进行前端处理,并针对说话人的识别特点,在小波重构之前对各小波系数进行加权处理,识别过程采用gmm识别算法。相比纯粹使用MFCC作为识别特征的说话人识别提出的方法对于含噪声说话认识别有明显的优越性。原创 2018-11-05 10:54:40 · 642 阅读 · 0 评论 -
关于PLDA在kaldi中的基础知识和代码完整版
理论基础知识LDA用来提取线性特征,这种特征的目标在于最大化between-class separation以及最小化within-class sepration。LDA可以给训练数据拟合一个高斯混合模型:用x表示observable sample,用y表示the latent variable,则类条件概率可以表示为 这种混合模型只能表示有限的K类,如果想拓...原创 2018-11-11 20:02:48 · 3455 阅读 · 1 评论 -
KALDI中声纹识别学习流程及资源
KALDI工具包中的例子首先最基础的就是egs/aishell/V1,先跑通它,并理解代码和基础理论知识。egs/sre08 REMAD.TXT系统开发所需的数据(除了所描述的测试数据之外) 在../README.txt)中,由Fisher,过去的NIST SRE和Switchboard组成 蜂窝。 你可以只用Fisher的一部分就可以了。 ...原创 2018-11-11 20:38:30 · 6579 阅读 · 3 评论 -
申明
个人所有文章只是自己学习参考 方便自己的 那些要批评我的 你就别看我文章呀 我又没求你看我文章 我又没收你钱 你没有资格评价我 翻译文章 都是谷歌翻译的 你要是看不惯自己去翻译 别再烦我 杠我的滚蛋...原创 2019-08-19 09:37:30 · 187 阅读 · 1 评论