1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
VOICEFILTER:TargetedVoice Separation by
Speaker-Conditioned Spectrogram Masking
Hiroshi Sekiguchi, Morikawa Lab
書誌情報
• “VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned
Spectrogram Masking” arXiv:1810.04826v3 [eess.AS] 27 Oct 2018
• Author: Quan Wang1, Hannah Muckenhire2, Kevin Wilson1, Prashant
Sridhar1, Zelin Wu1, John Hershey1, Rif A. Saurous1, Ron J. Weiss1, Ye
Jia1, Ignacio Lopez Moreno1
1Google Inc. USA, 2Idiap Research Institute, Switzerland
• 論文選択の理由
• 重畳音声の分離が研究テーマ
• Google製スマートスピーカ”Google Home”の重畳音声分離をレビュー.
2
アジェンダ
• 研究の目的
• 従来の方法
• 提案手法
• 評価結果
• まとめ
3
研究の目的
• 複数話者音声が重畳したモノラル信号から,
– 特定の話者の音声を抽出する
抽出した音声は,その後,音声認識の入力に使用する.
4
従来の方法
5
• 不特定な複数話者の重畳音声を分離する
– テスト時:DNNでMask Rateを推定し
𝑠1
𝑒𝑠𝑡
𝑡 = 𝑀1
𝑒𝑠𝑡
・Y
から目的音声を得る
– 学習時:DNNはMask Rateを教師あり学習
(方法例)
Y=S1+S2
DNN
𝑆1
𝑆2
𝑆1
𝑆2
min
𝑅𝑁𝑁 𝐶𝑜𝑒𝑓
( | 𝑆1 − 𝑆1 |2
+ | 𝑆2 − 𝑆2 |2
)
𝑀1
𝑒𝑠𝑡
=
𝑆1
𝑆1 + 𝑆2
従来手法の問題点
• 何人の話者がいるのかわからない
• 分離した音声がフレーム毎にどの話者に属したものかわからない
(Speaker Permutation問題)
• 分離して得た複数の再構成音の中で、自分の興味ある話者の音声がど
れかがわかない
6
提案内容
• 提案方法:2つのNeural Network
– 話者認識Neural Network
– スペクトログラムマスクベースの音源分離Neural Network (VoiceFilter)
を組み合わせて,特定の話者の音声を抽出.
7
話者認識
Neural Network
スペクトログラム
マスクベースの音源分離
Neural Network
(VoiceFilter)
想定される利用シーン
8
② 話者S1の
Reference発声
(数個のキー単語)
OK Google!
Hey Google!
① 事前に,数百~数千人の話者が発生したReference単語(OKGoogle,
Hey Google)を登録し,話者特性のemdedding表現を学習しておく
④ 話者𝑆1とその
他の話者との重
畳音声を発声
(任意の文章)
③現在Reference発声している話者
S1が,既学習のどの話者に似てい
るかをemdeddingの形式で表現
XX△X〇◆□〇
⑤重畳音声と,Reference発声した話者𝑆1
のEmbeddingを使って, 𝑆1の発声と推定
される音声のみを抽出する.
話者認識Neural Network
スペクトログラムマスクベース
の音源分離Neural Network
この手法で従来の問題を容易化できる
9
• 何人の話者がいるのかわからない
→ Reference発声した話者を指定することで,2クラス識別問題に簡素化.
Reference発声した話者の特性 vs それ以外の話者の集合の特性 の識別
• 分離した音声がフレーム毎にどの話者に属したものかわからない(Speaker
Permutation問題)
→ 既存の別手法で解決する.ex.全文章レベルでの評価関数最小化問題を導入
• 分離して得た複数の再構成音の中で、自分の興味ある話者の音声がどれかが
わかない
→ Reference発声した話者を指定することで,その場に何人いても、
Reference話者のEmbeddingに関連した情報を興味ある対象と決めることがで
きる
話者認識ネットワーク
10
話者認識
Neural Network
スペクトログラム
マスクベースの音源分離
Neural Network
(VoiceFilter)
話者認識ネットワーク
• 話者認識に2通りあり
– Text Dependent-Speaker Verification(TD-SV):
事前登録の単語(“OK Google”)=テスト時の単語(“OK Google”)
– Test Independent-Speaker Verification(TI-SV):
事前登録の単語(“色々な単語”(音韻も単語長も色々)=テスト時の単語(“Hey
Google”)
→今回は,後者のフレームワーク.
• 関連論文:
– Generalized End-to-End Loss for Speaker Verification,
Lin Wan , et.al,Google
– Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale
Acoustic Modeling
Hasim Sak,et.al,Google, USA
11
話者認識ネットワーク
• 話者認識ネットワークの学習手法
– 話者人数N人、各人がM個の発声(M個の単語は異なっても良いが、全話者そのM個の
単語は発生するものとする)を使用
– 𝑥𝑗𝑖 ∈ 𝑅 𝐹∗𝑇:話者jのm個目の発声音声: 1 ≤ 𝑗 ≤ 𝑁, 1 ≤ 𝑚 ≤ 𝑀
• 25msec 音声窓長,10msec 窓シフト=フレーム長
• 𝐹: 40次元のLog-Mel-filterbankの出力エネルギー,𝑇:フレーム数 (140~160フレームmax)
– ネットワーク:(LSTM+Linear Projection)/層x 3層 + Full Connected Layer
– 𝑥𝑗𝑖:ネットワーク入力、𝑒𝑗𝑖:embedding(d-vector):ネットワークの出力
12𝑥𝑗𝑖 𝑒𝑗𝑖
𝑥11
𝑥12
𝑥21
𝑥31
𝑒11
𝑒12
𝑒21
𝑒31
𝑆𝑗𝑖,k
𝑆11,1
𝑆13,1
𝑆21,3
話者認識ネットワーク:LSTM+Projection Network
• Projectionは係数の数は減らすがメモリ数は潤沢に使うため.
13
LSTM+Projection Network/層x3層LSTM+Projection ブロック
σ(・)
σ(・)
σ(・)
話者認識ネットワーク
• 話者認識ネットワークの学習手法(続き)
– 𝑐 𝑘 :話者𝑘のembeddingのセントロイド(平均値)𝑐 𝑘 = 𝐸 𝑒 𝑘𝑚 =
1
𝑀 𝑚=1
𝑀
𝑒 𝑘𝑚
– 𝑆𝑗𝑖,𝑘 :Validation音声𝑥𝑗𝑖の𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔 𝑒𝑗𝑖
と話者𝑘の𝑒𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔セントロイドとの類似度: 𝑆𝑗𝑖,𝑘 = 𝑤 ∙ cos(𝑒𝑗𝑖, 𝑐 𝑘) + 𝑏𝑖
ここで𝑤(> 0)と𝑏𝑖は学習パラメータ
14𝑥𝑗𝑖 𝑒𝑗𝑖
𝑥11
𝑥12
𝑥21
𝑥31
𝑒11
𝑒12
𝑒21
𝑒31
𝑆𝑗𝑖,k
𝑆11,1
𝑆13,1
𝑆21,3
話者認識ネットワーク
– 𝐿 𝑒𝑗𝑖 : 𝑒𝑗𝑖でのネットワークの損失関数は2通りで行った
𝐿 𝑒𝑗𝑖 = 𝑆𝑗𝑖,𝑗 − 𝑙𝑜𝑔 𝑘=1
𝑁
exp 𝑆𝑗𝑖,𝑘 : softmaxタイプ
または 𝐿 𝑒𝑗𝑖 = 1 − σ 𝑆𝑗𝑖,𝑗 + max
1≤𝑘≤𝑁
𝑘≠𝑗
σ(𝑆𝑗𝑖,𝑘) : contrastタイプ
– 𝐿 𝐺 𝑥 :全体ネットワーク損失関数 𝐿 𝐺 𝑥 = 𝐿 𝐺 𝑆 = 𝑗,𝑖 𝐿(𝑒𝑗𝑖) : 1 ≤ 𝑗 ≤ 𝑁, 1 ≤
𝑖 ≤ 𝑀
– 最適化手法:SGDで、全𝐿(𝑒𝑗𝑖)を計算する毎にNetwork係数,𝑤と𝑏𝑖を更新
15
●損失関数がsoftmaxの場合:
学習は,すべての話者jのembedding 𝑒𝑗𝑖が可能な限り,他のす
べての話者のセントロイド𝑐 𝑘 𝑘 ≠ 𝑗よりも話者jのセントロイ
ド𝑐𝑗に類似度が大きくなるように進む
●損失関数がcontrastの場合:
学習は、すべての話者jのembedding𝑒𝑗𝑖が,最も類似度が大き
い他の話者のセントロイドよりも、話者jのセントロイド𝑐𝑗に
類似度が大きくなるように進む
話者認識ネットワーク
16
TI-SVでは発声ごとに長さ
の長短がある.
→ 140~160フレーム
/sliding window lengthに
セグメントし𝑥𝑗𝑖とする.
それ毎にembeddingを計
算し、さらにすべての
windowsでの平均を取っ
て𝑒𝑗𝑖とする.
●TI-SVでの𝑒𝑗𝑖の算出方法
140~160フレーム
(1400~1600msec)
スペクトログラムマスクベースの
音源分離Neural Network (VoiceFilter)
• 話者認識ネットワーク
17
話者認識
Neural Network
スペクトログラム
マスクベースの音源分離
Neural Network
(VoiceFilter)
スペクトログラムマスクベースの
音源分離Neural Network (VoiceFilter)
18
Reference: “OK Google”などのキー
ワード
Clean: 目標話者のクリーンな音声
Interferering: 妨害音声
話者のEmbedding
(d-vectorを
LSTM前で
Concatenation)
18
Y=S1+S2
DNN 𝑆1 𝑆1
min
𝑅𝑁𝑁 𝐶𝑜𝑒𝑓
( | 𝑆1 − 𝑆1 |2
)
𝑀1
𝑒𝑠𝑡
𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔 𝑆1
ここに数式を入力します。
評価結果
• 特定の話者の抽出性能評価指標
– 本提案で特定の音声を抽出したのちに,大規模離散単語音声認識システムでWER
(Word Error Rate(%))を評価
– 本提案で特定の音声を抽出したのち、Signal to Distortion Ratio(SDR)を評価
• 評価に使用した音声コーパス
– 話者認識Neural Networkの学習:138K speakers, 34M発声
– スペクトグラムベースマスクの音源分離Neural Networkの学習:LibriSpeech: 2338
speakers for training, 73 speaker for validation.
19
評価結果
20
• Voice Filterがある方が,Noisyな音声
は急激にWERが低くなっている.
→Voice Filterの効果がある!
• VoiceFilterは、Cleanな音声でも,ほぼ
VoiceFilter無しと同等の認識がある.
→VoiceFilterは、Cleanな音声に悪影響
は少ない
• SDRの評価では、VoiceFilterの効果で
SDRの約8dB改善が出ている.
有意差あり
有意差あり
まとめ
• VoiceFilterは、認識率とSDRの両指標で改善する効果があることが分
かった.
• Bi-Directional LSTM+Proectionが最も良い性能が出ている.
21
END
22

More Related Content

PDF
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
PDF
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
PDF
音情報処理における特徴表現
PDF
Transformer 動向調査 in 画像認識(修正版)
PPTX
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
PDF
統計的係り受け解析入門
PDF
深層学習による非滑らかな関数の推定
PPTX
畳み込みニューラルネットワークの高精度化と高速化
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
音情報処理における特徴表現
Transformer 動向調査 in 画像認識(修正版)
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
統計的係り受け解析入門
深層学習による非滑らかな関数の推定
畳み込みニューラルネットワークの高精度化と高速化

What's hot (20)

PDF
最新の異常検知手法(NIPS 2018)
PDF
深層生成モデルに基づく音声合成技術
PPTX
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
PDF
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
PPTX
近年のHierarchical Vision Transformer
PPTX
音源分離における音響モデリング(Acoustic modeling in audio source separation)
PDF
Optimizer入門&最新動向
PPTX
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
PDF
音声感情認識の分野動向と実用化に向けたNTTの取り組み
PDF
最適輸送入門
PDF
Deep Learningによる超解像の進歩
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
PDF
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
PPTX
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PPTX
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
PDF
ELBO型VAEのダメなところ
PPTX
[DL輪読会]Deep Face Recognition: A Survey
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
機械学習のための数学のおさらい
最新の異常検知手法(NIPS 2018)
深層生成モデルに基づく音声合成技術
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
近年のHierarchical Vision Transformer
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Optimizer入門&最新動向
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
音声感情認識の分野動向と実用化に向けたNTTの取り組み
最適輸送入門
Deep Learningによる超解像の進歩
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
[DL輪読会]Dense Captioning分野のまとめ
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
ELBO型VAEのダメなところ
[DL輪読会]Deep Face Recognition: A Survey
Transformerを多層にする際の勾配消失問題と解決法について
機械学習のための数学のおさらい
Ad

Similar to [DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking (20)

PDF
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
PDF
複数話者WaveNetボコーダに関する調査
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
PDF
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
PPTX
Jacet2014ykondo_final
PDF
WaveNetが音声合成研究に与える影響
PDF
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
PDF
音学シンポジウム2025 招待講演 遠隔会話音声認識のための音声強調フロントエンド:概要と我々の取り組み
PDF
[DL Hacks]“Spiking network optimized for noise robust word recognition approa...
PDF
[DL輪読会]One Model To Learn Them All
PPTX
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
PPTX
Ordered neurons integrating tree structures into recurrent neural networks
PDF
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
PPTX
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
PPTX
Deep Learningについて(改訂版)
PPTX
全体セミナー20180124 final
PPTX
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
PDF
分布あるいはモーメント間距離最小化に基づく統計的音声合成
PDF
Interspeech2022 参加報告
PDF
英語リスニング研究最前線:実験音声学からのアプローチ
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
複数話者WaveNetボコーダに関する調査
短時間発話を用いた話者照合のための音声加工の効果に関する検討
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
Jacet2014ykondo_final
WaveNetが音声合成研究に与える影響
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
音学シンポジウム2025 招待講演 遠隔会話音声認識のための音声強調フロントエンド:概要と我々の取り組み
[DL Hacks]“Spiking network optimized for noise robust word recognition approa...
[DL輪読会]One Model To Learn Them All
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
Ordered neurons integrating tree structures into recurrent neural networks
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Deep Learningについて(改訂版)
全体セミナー20180124 final
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Interspeech2022 参加報告
英語リスニング研究最前線:実験音声学からのアプローチ
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

Recently uploaded (10)

PPTX
Vibe Codingを触って感じた現実について.pptx .
PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PDF
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
PPTX
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
PDF
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
PDF
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
PPTX
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
PDF
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
PDF
20250823_IoTLT_vol126_kitazaki_v1___.pdf
Vibe Codingを触って感じた現実について.pptx .
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
20250823_IoTLT_vol126_kitazaki_v1___.pdf

[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking