Copyright©2018 NTT corp. All Rights Reserved.
2018/12/21 @ ICTイノベーションセミナー, 首都大学東京
1
日本電信電話株式会社
NTTメディアインテリジェンス研究所
小泉 悠馬
【招待講演】
深層学習と音響信号処理
Copyright©2018 NTT corp. All Rights Reserved. 2
 小泉 悠馬(こいずみ ゆうま)
1990年02月01日 東京生まれ, 北名古屋市&稲城市育ち
略歴
 2014年: 法政大学 情報科学研究科 修了
 2014年: NTTメディアインテリジェンス研究所 入所
 2017年: 博士(工学) (電気通信大学)
研究内容
 音響信号処理 × 機械学習の基礎研究と実用化
 音源強調:うるさい中から欲しい音だけ取り出したい!
 異常検知:周囲の異変を音から検知したい!
自己紹介
Copyright©2018 NTT corp. All Rights Reserved. 3
Take home message
何でもかんでも大量データ & end-to-end でいいのか?
現状、音響信号処理に関しては No
1. ネットワーク構造に物理的/信号処理的な工夫が必要
2. 人間を超えるためには、
センサー配置や目的関数の工夫も必要
※ end-to-end がうまくいかない条件は、数学的には証明されていないため、
この結論は将来は変わるかもしれない
現状の到達点
将来への展望
Copyright©2018 NTT corp. All Rights Reserved. 4
実環境での音響信号処理サービス
計算機/通信の発達で音の情報処理技術はどんどん身近に
音声認識
エンターテイメント
異常音検知
音声通信
4
Copyright©2018 NTT corp. All Rights Reserved. 5
音源強調の必要性
雑音が音情報処理性能を低下させる
→ うるさい中から欲しい音を取り出す技術が必須
雑音が大きく
音声認識できない
競技音が埋もれ
臨場感が伝わらない
音声認識 スポーツ中継
Copyright©2018 NTT corp. All Rights Reserved. 6
音響信号処理の例:音源強調
騒音下でも通話や音声認識を可能にします
 100 dB の騒音下で目的音を抽出&音声認識
Copyright©2018 NTT corp. All Rights Reserved. 7
音響信号処理の例:音源強調
サッカースタジアムでキック音だけ強調します
周囲のスピーカーで
競技場の歓声を再現
Copyright©2018 NTT corp. All Rights Reserved. 8
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 9
情報処理とはなんだろうか
Copyright©2018 NTT corp. All Rights Reserved. 10
情報処理とはなんだろうか
与えられた情報を別の情報に変換する処理
なんらかの処理入力 出力
Copyright©2018 NTT corp. All Rights Reserved. 11
情報処理とはなんだろうか
与えられた情報を別の情報に変換する処理
数理モデル入力 出力
計算機で実現するために、情報変換を数式で表す
Copyright©2018 NTT corp. All Rights Reserved. 12
情報処理とはなんだろうか
入力 出力
どんな数理モデルがいい?
 定量的な根拠を元にモデルを立てる方がよい
 レイトレーシング(物理ベース)
物理モデル
⇨ 写真と見間違うような画像を出力できる
 光源位置
 物体位置
 反射率
etc…
[*] Wikipedia, “Ray tracing (graphics)”
URL: https://en.wikipedia.org/wiki/Ray_tracing_(graphics)
[*]
Copyright©2018 NTT corp. All Rights Reserved. 13
情報処理とはなんだろうか
 画像/音声などメディアの認識
 人間の認識処理は未だ解明されていない
 そもそも、対象の定義自体が人間の恣意的なもの
???
入力 出力
Horse
or
(0,0,0,0,0,0,0,1,0,0)
[*] An image from “The CIFAR-10 dataset”
URL: https://www.cs.toronto.edu/~kriz/cifar.html
[*]
根拠に基づくモデルは立てられないことが多い
Copyright©2018 NTT corp. All Rights Reserved. 14
ブラックボックスな
情報変換(写像)を
計算機で再現するには?
Copyright©2018 NTT corp. All Rights Reserved. 15
機械学習
変換関数
入力 目的関数
正解出力
関数形がブラックボックスな写像を
入出力のデータだけから再現する方法
1. 変換関数を決めて
2. 目的関数を決めて
3. 最適化する
和訳
Copyright©2018 NTT corp. All Rights Reserved. 16
(深層)ニューラルネットワーク
微分可能な関数の合成関数でできた変換関数
 沢山の亜種があるが、結局全部、ただの合成関数
 無限個の関数を合成すれば任意の写像が表現可能
[*1] Wikipedia, “Artificial neural network”, https://en.wikipedia.org/wiki/Artificial_neural_network
[*2] Wikipedia, “Long short-term memory”, https://en.wikipedia.org/wiki/Long_short-term_memory
[*3] Wikipedia, “Convolutional neural network”, https://en.wikipedia.org/wiki/Convolutional_neural_network
Shallow LSTM CNN
[*1] [*2] [*3]
Copyright©2018 NTT corp. All Rights Reserved. 17
現状、最有力な変換関数として君臨
画像/音声/自然言語を含む、
多くのメディア処理で SOTA な性能を実現
※ 釈迦に説法ですが…
 画像認識: AlexNet (2012) [*1] などから
 音声認識: DNN-HMM (2011) [*2] などから
※ 当然、これらメディア処理にNNを使うアプローチは大昔からある。
[*1] A. Krizhevsky, et al., “Imagenet classification with deep convolutional neural networks,” in Proc. of NIPS, 2012
[*2] F. Seide, et al., “Conversational speech transcription using context-dependent deep neural networks,” in Proc. of
Interspeech, 2011.
[*3] A. Narayananand, et al., “Ideal ratio mask estimation using deep neural networks for robust speech recognition,” in
Proc. of ICASSP, 2013.
 音源強調: IRM推定 (2013) [*3] などから
Copyright©2018 NTT corp. All Rights Reserved. 18
なぜ end-to-end はうまくいくのか
恣意性の排除、data-driven な特徴量設計
情報処理不等式
 柔軟な回帰関数の下では、恣意的な情報変換は害悪でしかない
 Googleの猫細胞 [*1][*2] はあまりにも有名
[*1] Official Google Blog, “Using large-scale brain simulations for machine learning
and A.I.” (2012).
URL: https://googleblog.blogspot.com/2012/06/using-large-scale-brain-
simulations-for.html
[*2] Q. V. Le, et al., “Building High-level Features Using Large Scale Unsupervised
Learning,” in Proc. Of ICML, 2012.
 教師なし学習をしているのに、猫画像に対して発
火するニューロンが獲得された
Copyright©2018 NTT corp. All Rights Reserved. 19
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 20
観測音から目的音を抽出する信号処理
目的音
雑音 …
観測音
音源強調
出力音
マイク
音響信号処理の例:音源強調
Copyright©2018 NTT corp. All Rights Reserved. 21
情報処理としての音源強調
観測音から目的音を取り出す変換関数の設計問題
音源強調
 ここでは、マイク1本での音源強調を想定
 典型的な劣決定問題
未知変数の数 > 観測変数の数
Copyright©2018 NTT corp. All Rights Reserved. 22
End-to-end 音源強調 using DNN ??
波形を入力し、波形を出力するニューラルネット??
…
……
……
……
……
…
……
End-to-end
S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial
Network,” in Proc of Interspeech, 2017.
 例えば、以下の論文が有名
Copyright©2018 NTT corp. All Rights Reserved. 23
End-to-end 音源強調 using DNN ??
波形を入力し、波形を出力するニューラルネット??
…
……
……
……
……
…
……
End-to-end
S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial
Network,” in Proc of Interspeech, 2017.
 例えば、以下の論文が有名
現状
SOTAではない
Copyright©2018 NTT corp. All Rights Reserved. 24
完全 end-to-end vs. 信号処理-based DNN
波形領域の end-to-end < 信号処理-based
Anonymous, “Phase-Aware Speech Enhancement with Deep Complex U-Net,” open review (submitted to ICLR 2019).
URL: https://openreview.net/forum?id=SkeRTsAcYm
[Deep Complex U-Net の音が聴けるページ]
http://www.deepcomplexunet.tk
[SEGAN の音が聴けるページ]
URL: https://ccrma.stanford.edu/%7Efrancois/SpeechDenoisingWithDeepFeatureLosses/
Copyright©2018 NTT corp. All Rights Reserved. 25
とってもアバウトな”深層複素U-Net”の構成
フィルタリング
DNNによる
複素マスク推定
FFT IFFT
目的音を強調するフィルタをDNNで推定
→ 信号処理の未知パラメータの推定に利用
Copyright©2018 NTT corp. All Rights Reserved. 26
どんなときに end2end はうまくいかないか
その理由を解明した論文はまだない
 学習データが足りない説
 DNN は回帰問題は苦手説
 関数の組み方がダメ、自由度が高すぎる説
 学習データですらうまく強調できないので考えにくい…
 識別に関する理論解析は進むが、回帰は進まない
 解空間の大きさや濃度
 画像処理のCNN、自然言語処理の attention のようなキ
ラー構造が波形領域にはまだ無い?
Copyright©2018 NTT corp. All Rights Reserved. 27
深層複素U-Net の正体
【音響 and/or 機械学習のプロ向けの話】
ここでは
 音声の統計的性質(時間周波数領域でのスパース性)を利用
 非線形フィルタリング(信号処理)をNNで表現
=信号処理の一連の流れを NN とみなし、
未知パラメータだけをNN で推定
 FFT / IFFT を固定な 1-D convolution layer とみなせば、時間周
波数領域を経由しつつも、”end-to-end” な学習ができる
 非線形フィルタリングの一般式
 DNNを となる射影関数して、以下で学習
であり、行列演算で書ける
複素時間周波数マスク(非線形なフィルタのようなもの)
を推定する、複素数のニューラルネットワーク
Copyright©2018 NTT corp. All Rights Reserved. 28
ここまでのまとめ
 音響信号処理では完全な end-to-end はうまく動かない
 end-to-end がうまくいかない条件は、数学的には証明されてい
ないため、この結論は将来は変わるかもしれない
 【現在のトレンド】ネットワーク構造に利用する、物理
的/信号処理的な工夫が模索されている
 音声の統計的性質を利用した信号処理を NN として記述し、そ
の未知パラメータだけを NN で推定 & 波形領域誤差最小化学習
現状の世界最先端
Copyright©2018 NTT corp. All Rights Reserved. 29
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 30
機械の計算能力は人間を超えた
強力な写像関数も手に入れた
では、なぜ(音の)機械学習は
人間を超えてくれないのか
20年後に向け
私たちはどんな研究をすべきだろうか?
Copyright©2018 NTT corp. All Rights Reserved. 31
今、機械学習に何ができていないのか
情報処理の登場人物は主に3人
1. 実世界のセンシング(マイクロホンなど)
2. 情報の変換(DNNなど)
3. 出力の価値判断(コスト関数など)
Copyright©2018 NTT corp. All Rights Reserved. 32
今、機械学習に何ができていないのか
情報処理の登場人物は主に3人
1. 実世界のセンシング(マイクロホンなど)
2. 情報の変換(DNNなど)
 DNNを複雑にすれば、任意の写像を表現可能
→ 人間を超えている
3. 出力の価値判断(コスト関数など)
Copyright©2018 NTT corp. All Rights Reserved. 33
今、機械学習に何ができていないのか
情報処理の登場人物は主に3人
1. 実世界のセンシング(マイクロホンなど)
2. 情報の変換(DNNなど)
 DNNを複雑にすれば、任意の写像を表現可能
→ 人間を超えている
 マイクだけ?画像だけ?一箇所で?
→ 人間と同等以下
3. 出力の価値判断(コスト関数など)
Copyright©2018 NTT corp. All Rights Reserved. 34
今、機械学習に何ができていないのか
情報処理の登場人物は主に3人
1. 実世界のセンシング(マイクロホンなど)
2. 情報の変換(DNNなど)
3. 出力の価値判断(コスト関数など)
 DNNを複雑にすれば、任意の写像を表現可能
→ 人間を超えている
 マイクだけ?画像だけ?一箇所で?
→ 人間と同等以下
 二乗誤差?クロスエントロピー?
→ 人間には遠く及ばない
Copyright©2018 NTT corp. All Rights Reserved. 35
人間を超える情報処理のために
人間を超える (1) センシングと (3) 価値判断
1. 実世界のセンシング(マイクロホンなど)
3. 出力の価値判断(コスト関数など)
Copyright©2018 NTT corp. All Rights Reserved. 36
手前味噌な研究紹介
人間を超える (1) センシングと (3) 価値判断
1. 実世界のセンシング(マイクロホンなど)
3. 出力の価値判断(コスト関数など)
 100m 離れた場所に置いたマイクを連携させるには?
 「音質」を最大化するように DNN を学習するには?
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model
Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound
Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
Copyright©2018 NTT corp. All Rights Reserved.
パラボラマイク
場内アナウンス
(PAスピーカ)
応援団
競技音
37
野球場で歓声を消したい
Copyright©2018 NTT corp. All Rights Reserved. 38
人間の耳の限界を超えるには
バックネットのマイク
だけでは歓声が消せない
Copyright©2018 NTT corp. All Rights Reserved. 39
人間の耳の限界を超えるには
distance
> 100 m
Copyright©2018 NTT corp. All Rights Reserved. 40
人間とは異なる情報処理が必要
100m 離れた外野スタンドのマイクを連携させよう
→ 距離による伝搬遅延や長残響で単純な引き算はダメ
時間周波数
マスク設計
×
Copyright©2018 NTT corp. All Rights Reserved. 41
時間周波数
マスク設計
×
遅延&
残響推定
人間とは異なる情報処理が必要
100m 離れた外野スタンドのマイクを連携させよう
→ 遅延や残響のキャリブレーションを追加
Copyright©2018 NTT corp. All Rights Reserved. 42
Multi-delay noise model
振幅領域での伝搬遅延/長残響のモデル化
Time-frame
delay
Gain
Gain
Gain
……
Multi-delay noise model
Multi-delay
noise model
Multi-delay
noise model
Time-frequency
mask calc.
残響 伝搬遅延
Multi-delay noise model
 Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張
 物理的制約を事前分布におき、残響/遅延パラメータをMAP推定
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,”
in Proc of EUSIPCO, 2018.
Copyright©2018 NTT corp. All Rights Reserved. 43
Modeling
…!
ホームベース付近に
パラボラマイク
外野スタンドに
ショットガンマイク
Time [s]
Freq.[kHz]Freq.[kHz]Freq.[kHz]
パラボラマイク(ホームベース)
ショットガンマイク(外野スタンド)
処理音
ストラーイク!
ミット音
Time [s]
野球場での動作デモ
審判の声や捕球音を強調
Copyright©2018 NTT corp. All Rights Reserved. 44
手前味噌な研究紹介
人間を超える (1) センシング
1. 実世界のセンシング(マイクロホンなど)
 100m 離れた場所に置いたマイクを連携させるには?
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model
Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
 機械であれば、人間では実現不可能なセンシングが可能
 そのセンサーをうまく活用するためには、その物理的性質
に対応した特殊な信号処理+機械学習の使い方が必要
 センサーの選択や配置に関する最適性はまだ未知…
Copyright©2018 NTT corp. All Rights Reserved. 45
手前味噌な研究紹介
1. 実世界のセンシング(マイクロホンなど)
3. 出力の価値判断(コスト関数など)
 100m 離れた場所に置いたマイクを連携させるには?
 「音質」を最大化するように DNN を学習するには?
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model
Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound
Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
人間を超える (1) センシングと (3) 価値判断
Copyright©2018 NTT corp. All Rights Reserved. 46
価値判断(コスト関数)の重要性
DNN にどんな情報を推定してほしいのか?
 自然言語:対話の「満足度」を上げたい
→ 満足度最大化 ≠ クロスエントロピー
 音源強調:人が聞いて「良い」と思える音を出力したい
→ 音質最大化 ≠ 二乗誤差
DNNを学習するコスト関数と、
本当に推定したい情報のミスマッチ…
計算機を人間と同じ感性の元で最適化するには?
1. 人間の感性の計算機による再現
2. ブラックボックスな指標を最大化する学習法の創出
こちらの紹介
Copyright©2018 NTT corp. All Rights Reserved. 47
主観的な音質評価を最大化したい
ブラックボックス関数は微分不可能 (Backprop.が困難)
???
人間は DNN のコスト関数になれるか?
Copyright©2018 NTT corp. All Rights Reserved. 48
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Game
score
Reward func.Action selector
Action
candi-
dates
Action
…
…
…
…
ゲームスコアさえあれば
DNNが学習できる
ビデオゲームや囲碁の学習に成功している!
音源強調に応用できないか?
Copyright©2018 NTT corp. All Rights Reserved. 49
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
スコアを主観評価と
捉えれば最適化できる?
学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい…
Copyright©2018 NTT corp. All Rights Reserved. 50
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
人間の主観評価を模擬した定量
評価指標を利用 (e.g. PESQ)
PC上のシミュレーションで完結
Copyright©2018 NTT corp. All Rights Reserved. 51
DNN音源強調のブラックボックス最適化
DNNを用いて目的関数を定義
サンプリングを用いた勾配の近似計算(policy gradient)
出力音の条件付き分布を
DNNで記述
聴感評点の最大化を
目的関数とする
Copyright©2018 NTT corp. All Rights Reserved.
聴感評点の例
52
音質の定量指標の例
明瞭度(単語の聞き取りやすさ)の定量指標の例
 PESQ: Perceptual Evaluation of Speech Quality
 音声符号化などで使われる音質の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の音質評価(MOS)を模擬した値
⇒ PESQを上げ、出力音の音質向上を狙う
 STOI: Short-Time Objective Intelligibility
 音声強調などで使われる明瞭度の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の単語正解率を模擬した値
⇒ STOIを上げ、出力音の明瞭度向上を狙う
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 1/2(定量評価実験)
53
音質指標
PESQの向上値
【実験1】:学習回数が進むに従い、聴感評点が向上
明瞭度指標
STOIの向上値
学習回数 学習回数
【実験2】:学習に利用した聴感評点が、従来法より優位に向上
SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度)
PSM [Erdogan,2015] 9.40 2.27 83.3
提案法(PESQ) 9.19 2.37 83.4
提案法(STOI) 9.74 2.20 87.3
 学習が進むにつれ、目標としてい
る聴感評点も向上
 学習に用いた聴感評点は従来法より
も優位に向上
(Input SNR: 0dB, Open test)
 聴感評点を向上させるDNN学習に成功
 従来技術と比べ、聴感評点が優位に向上
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 2/2(主観評価実験)
54
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験1 】
出力音の音質を5段階で絶対評価
(PESQが模擬している試験)
良
悪
良
悪
【実験2 】
親密度の低い単語の聞き取り正解率
(STOIが模擬している試験)
従来法
提案法
(PESQ)
提案法
(STOI)
従来法 提案法(PESQ) 従来法 提案法(STOI)
PESQ最大化で
音質が向上
STOI最大化で
明瞭度が向上
 聴感評点に対応する主観品質も、従来法と比べ優位に向上
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 2/2(主観評価実験)
55
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験1 】
出力音の音質を5段階で絶対評価
(PESQが模擬している試験)
良
悪
良
悪
【実験2 】
親密度の低い単語の聞き取り正解率
(STOIが模擬している試験)
従来法
提案法
(PESQ)
提案法
(STOI)
従来法 提案法(PESQ)
 聴感評点に対応する主観品質も、従来法と比べ優位に向上
従来法 提案法(STOI)
正解は「タカドノ」
従来法の正答率:31%, 提案法の正答率:81%
従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が
低下しため、「ハカドノ」などと誤回答
Copyright©2018 NTT corp. All Rights Reserved. 56
手前味噌な研究紹介
人間を超える (1) センシングと (3) 価値判断
3. 出力の価値判断(コスト関数など)
 「音質」を最大化するように DNN を学習するには?
Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound
Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
 DNNの出力の統計的性質はコスト関数依存
 人が本当に欲しい情報を DNN が出力するためには
 人間と同等の価値判断(コスト関数)
 人間を超えるブラックボックス最適化(optimizer)
が必要
 ほとんど未着手かつ、文理融合が必要な研究領域。そろそろ
縦割り研究を超える頃ではないでしょうか?
Copyright©2018 NTT corp. All Rights Reserved. 57
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 58
小規模/安価/中性能な計算機
DNNは音響の世界で実用的か?
 音響の世界では、未だローカル処理が求められることがほとんど
 リアルタイム性:e.g. 音声通話
 ネットワークコスト制約:e.g. 異常音検知
計算機の ”ベースライン” が上がらないと
成り立たないビジネスが多い
 計算機パワーの向上は機械学習のブレイクスルー
 まだ壊して欲しい壁が沢山。特に低レイヤー向けの中性能計算機
Copyright©2018 NTT corp. All Rights Reserved. 59
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 60
まず手を動かそう
未だ、メディア処理には、
言語化しにくいノウハウが沢山
First Step
触ってみないと、できる/できないの直感が働かない
Copyright©2018 NTT corp. All Rights Reserved. 61
技術者 (Scientist/Engineer) であれ
ノウハウがたまると
データ/計算機/DNN があれば推定はできてしまう
No more “やっただけ” 論文!!
やっただけでは問題が “解けた” ことにはならない
問題の本質は?最もエレガントな解法は?
※ 企業としてはそれでいいことも多い
Next Step
Copyright©2018 NTT corp. All Rights Reserved. 62
【再掲】Take home message
何でもかんでも大量データ & end-to-end でいいのか?
現状、音響信号処理に関しては No
1. ネットワーク構造に物理的/信号処理的な工夫が必要
2. 人間を超えるためには、
センサー配置や目的関数の工夫も必要
※ end-to-end がうまくいかない条件は、数学的には証明されていないため、
この結論は将来は変わるかもしれない
現状の到達点
将来への展望
Copyright©2018 NTT corp. All Rights Reserved. 63
Q&A

More Related Content

PDF
深層学習を利用した音声強調
PDF
ICASSP 2019での音響信号処理分野の世界動向
PDF
異常音検知に対する深層学習適用事例
PDF
実環境音響信号処理における収音技術
PDF
Interspeech2022 参加報告
PDF
音響信号に対する異常音検知技術と応用
PPTX
[DL輪読会]Object-Centric Learning with Slot Attention
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
深層学習を利用した音声強調
ICASSP 2019での音響信号処理分野の世界動向
異常音検知に対する深層学習適用事例
実環境音響信号処理における収音技術
Interspeech2022 参加報告
音響信号に対する異常音検知技術と応用
[DL輪読会]Object-Centric Learning with Slot Attention
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)

What's hot (20)

PDF
音情報処理における特徴表現
PDF
Neural text-to-speech and voice conversion
PDF
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
PDF
音声合成のコーパスをつくろう
PDF
統計的手法に基づく異常音検知の理論と応用
PDF
音響システム特論 第11回 実環境における音響信号処理と機械学習
PDF
環境音の特徴を活用した音響イベント検出・シーン分類
ODP
音声生成の基礎と音声学
PPTX
音源分離における音響モデリング(Acoustic modeling in audio source separation)
PDF
距離学習を導入した二値分類モデルによる異常音検知
PDF
Nakai22sp03 presentation
PPTX
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
PDF
音声感情認識の分野動向と実用化に向けたNTTの取り組み
PDF
GAN-based statistical speech synthesis (in Japanese)
PDF
オープンソース SLAM の分類
PPTX
卒論発表
PPTX
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
PDF
End-to-End音声認識ためのMulti-Head Decoderネットワーク
PDF
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
PDF
音声の声質を変換する技術とその応用
音情報処理における特徴表現
Neural text-to-speech and voice conversion
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音声合成のコーパスをつくろう
統計的手法に基づく異常音検知の理論と応用
音響システム特論 第11回 実環境における音響信号処理と機械学習
環境音の特徴を活用した音響イベント検出・シーン分類
音声生成の基礎と音声学
音源分離における音響モデリング(Acoustic modeling in audio source separation)
距離学習を導入した二値分類モデルによる異常音検知
Nakai22sp03 presentation
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
音声感情認識の分野動向と実用化に向けたNTTの取り組み
GAN-based statistical speech synthesis (in Japanese)
オープンソース SLAM の分類
卒論発表
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
End-to-End音声認識ためのMulti-Head Decoderネットワーク
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
音声の声質を変換する技術とその応用
Ad

Similar to 深層学習と音響信号処理 (20)

PDF
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
PDF
音声認識と深層学習
PDF
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
PDF
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
PDF
人工知能はどんな夢を見るか?
PPTX
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
PDF
キーワード推定を内包したオーディオキャプション法
PDF
深層ニューラルネットワークによる聴覚系のモデリング
PDF
人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...
PDF
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
PDF
AIがAIを生み出す?
PPTX
Icml読み会 deep speech2
PDF
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
PDF
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
PPTX
全脳関西編(松尾)
PPTX
令和元年度 実践セミナー - Deep Learning 概論 -
PDF
深層学習入門
PPTX
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
PDF
InfoTalk#126 「人工知能の最先端と音の技術」
PDF
国際会議 interspeech 2020 報告
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
音声認識と深層学習
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
人工知能はどんな夢を見るか?
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
キーワード推定を内包したオーディオキャプション法
深層ニューラルネットワークによる聴覚系のモデリング
人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
AIがAIを生み出す?
Icml読み会 deep speech2
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
全脳関西編(松尾)
令和元年度 実践セミナー - Deep Learning 概論 -
深層学習入門
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
InfoTalk#126 「人工知能の最先端と音の技術」
国際会議 interspeech 2020 報告
Ad

Recently uploaded (12)

PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PPTX
Vibe Codingを触って感じた現実について.pptx .
PPTX
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
PDF
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
PDF
20250823_IoTLT_vol126_kitazaki_v1___.pdf
PDF
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
PPTX
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
PDF
翔泳社 「C++ ゼロからはじめるプログラミング」対応 C++学習教材(三谷純)
PDF
Working as an OSS Developer at Ruby Association Activity Report 2025
PDF
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
PDF
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
Vibe Codingを触って感じた現実について.pptx .
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
20250823_IoTLT_vol126_kitazaki_v1___.pdf
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
翔泳社 「C++ ゼロからはじめるプログラミング」対応 C++学習教材(三谷純)
Working as an OSS Developer at Ruby Association Activity Report 2025
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回

深層学習と音響信号処理

  • 1. Copyright©2018 NTT corp. All Rights Reserved. 2018/12/21 @ ICTイノベーションセミナー, 首都大学東京 1 日本電信電話株式会社 NTTメディアインテリジェンス研究所 小泉 悠馬 【招待講演】 深層学習と音響信号処理
  • 2. Copyright©2018 NTT corp. All Rights Reserved. 2  小泉 悠馬(こいずみ ゆうま) 1990年02月01日 東京生まれ, 北名古屋市&稲城市育ち 略歴  2014年: 法政大学 情報科学研究科 修了  2014年: NTTメディアインテリジェンス研究所 入所  2017年: 博士(工学) (電気通信大学) 研究内容  音響信号処理 × 機械学習の基礎研究と実用化  音源強調:うるさい中から欲しい音だけ取り出したい!  異常検知:周囲の異変を音から検知したい! 自己紹介
  • 3. Copyright©2018 NTT corp. All Rights Reserved. 3 Take home message 何でもかんでも大量データ & end-to-end でいいのか? 現状、音響信号処理に関しては No 1. ネットワーク構造に物理的/信号処理的な工夫が必要 2. 人間を超えるためには、 センサー配置や目的関数の工夫も必要 ※ end-to-end がうまくいかない条件は、数学的には証明されていないため、 この結論は将来は変わるかもしれない 現状の到達点 将来への展望
  • 4. Copyright©2018 NTT corp. All Rights Reserved. 4 実環境での音響信号処理サービス 計算機/通信の発達で音の情報処理技術はどんどん身近に 音声認識 エンターテイメント 異常音検知 音声通信 4
  • 5. Copyright©2018 NTT corp. All Rights Reserved. 5 音源強調の必要性 雑音が音情報処理性能を低下させる → うるさい中から欲しい音を取り出す技術が必須 雑音が大きく 音声認識できない 競技音が埋もれ 臨場感が伝わらない 音声認識 スポーツ中継
  • 6. Copyright©2018 NTT corp. All Rights Reserved. 6 音響信号処理の例:音源強調 騒音下でも通話や音声認識を可能にします  100 dB の騒音下で目的音を抽出&音声認識
  • 7. Copyright©2018 NTT corp. All Rights Reserved. 7 音響信号処理の例:音源強調 サッカースタジアムでキック音だけ強調します 周囲のスピーカーで 競技場の歓声を再現
  • 8. Copyright©2018 NTT corp. All Rights Reserved. 8 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 9. Copyright©2018 NTT corp. All Rights Reserved. 9 情報処理とはなんだろうか
  • 10. Copyright©2018 NTT corp. All Rights Reserved. 10 情報処理とはなんだろうか 与えられた情報を別の情報に変換する処理 なんらかの処理入力 出力
  • 11. Copyright©2018 NTT corp. All Rights Reserved. 11 情報処理とはなんだろうか 与えられた情報を別の情報に変換する処理 数理モデル入力 出力 計算機で実現するために、情報変換を数式で表す
  • 12. Copyright©2018 NTT corp. All Rights Reserved. 12 情報処理とはなんだろうか 入力 出力 どんな数理モデルがいい?  定量的な根拠を元にモデルを立てる方がよい  レイトレーシング(物理ベース) 物理モデル ⇨ 写真と見間違うような画像を出力できる  光源位置  物体位置  反射率 etc… [*] Wikipedia, “Ray tracing (graphics)” URL: https://en.wikipedia.org/wiki/Ray_tracing_(graphics) [*]
  • 13. Copyright©2018 NTT corp. All Rights Reserved. 13 情報処理とはなんだろうか  画像/音声などメディアの認識  人間の認識処理は未だ解明されていない  そもそも、対象の定義自体が人間の恣意的なもの ??? 入力 出力 Horse or (0,0,0,0,0,0,0,1,0,0) [*] An image from “The CIFAR-10 dataset” URL: https://www.cs.toronto.edu/~kriz/cifar.html [*] 根拠に基づくモデルは立てられないことが多い
  • 14. Copyright©2018 NTT corp. All Rights Reserved. 14 ブラックボックスな 情報変換(写像)を 計算機で再現するには?
  • 15. Copyright©2018 NTT corp. All Rights Reserved. 15 機械学習 変換関数 入力 目的関数 正解出力 関数形がブラックボックスな写像を 入出力のデータだけから再現する方法 1. 変換関数を決めて 2. 目的関数を決めて 3. 最適化する 和訳
  • 16. Copyright©2018 NTT corp. All Rights Reserved. 16 (深層)ニューラルネットワーク 微分可能な関数の合成関数でできた変換関数  沢山の亜種があるが、結局全部、ただの合成関数  無限個の関数を合成すれば任意の写像が表現可能 [*1] Wikipedia, “Artificial neural network”, https://en.wikipedia.org/wiki/Artificial_neural_network [*2] Wikipedia, “Long short-term memory”, https://en.wikipedia.org/wiki/Long_short-term_memory [*3] Wikipedia, “Convolutional neural network”, https://en.wikipedia.org/wiki/Convolutional_neural_network Shallow LSTM CNN [*1] [*2] [*3]
  • 17. Copyright©2018 NTT corp. All Rights Reserved. 17 現状、最有力な変換関数として君臨 画像/音声/自然言語を含む、 多くのメディア処理で SOTA な性能を実現 ※ 釈迦に説法ですが…  画像認識: AlexNet (2012) [*1] などから  音声認識: DNN-HMM (2011) [*2] などから ※ 当然、これらメディア処理にNNを使うアプローチは大昔からある。 [*1] A. Krizhevsky, et al., “Imagenet classification with deep convolutional neural networks,” in Proc. of NIPS, 2012 [*2] F. Seide, et al., “Conversational speech transcription using context-dependent deep neural networks,” in Proc. of Interspeech, 2011. [*3] A. Narayananand, et al., “Ideal ratio mask estimation using deep neural networks for robust speech recognition,” in Proc. of ICASSP, 2013.  音源強調: IRM推定 (2013) [*3] などから
  • 18. Copyright©2018 NTT corp. All Rights Reserved. 18 なぜ end-to-end はうまくいくのか 恣意性の排除、data-driven な特徴量設計 情報処理不等式  柔軟な回帰関数の下では、恣意的な情報変換は害悪でしかない  Googleの猫細胞 [*1][*2] はあまりにも有名 [*1] Official Google Blog, “Using large-scale brain simulations for machine learning and A.I.” (2012). URL: https://googleblog.blogspot.com/2012/06/using-large-scale-brain- simulations-for.html [*2] Q. V. Le, et al., “Building High-level Features Using Large Scale Unsupervised Learning,” in Proc. Of ICML, 2012.  教師なし学習をしているのに、猫画像に対して発 火するニューロンが獲得された
  • 19. Copyright©2018 NTT corp. All Rights Reserved. 19 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 20. Copyright©2018 NTT corp. All Rights Reserved. 20 観測音から目的音を抽出する信号処理 目的音 雑音 … 観測音 音源強調 出力音 マイク 音響信号処理の例:音源強調
  • 21. Copyright©2018 NTT corp. All Rights Reserved. 21 情報処理としての音源強調 観測音から目的音を取り出す変換関数の設計問題 音源強調  ここでは、マイク1本での音源強調を想定  典型的な劣決定問題 未知変数の数 > 観測変数の数
  • 22. Copyright©2018 NTT corp. All Rights Reserved. 22 End-to-end 音源強調 using DNN ?? 波形を入力し、波形を出力するニューラルネット?? … …… …… …… …… … …… End-to-end S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial Network,” in Proc of Interspeech, 2017.  例えば、以下の論文が有名
  • 23. Copyright©2018 NTT corp. All Rights Reserved. 23 End-to-end 音源強調 using DNN ?? 波形を入力し、波形を出力するニューラルネット?? … …… …… …… …… … …… End-to-end S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial Network,” in Proc of Interspeech, 2017.  例えば、以下の論文が有名 現状 SOTAではない
  • 24. Copyright©2018 NTT corp. All Rights Reserved. 24 完全 end-to-end vs. 信号処理-based DNN 波形領域の end-to-end < 信号処理-based Anonymous, “Phase-Aware Speech Enhancement with Deep Complex U-Net,” open review (submitted to ICLR 2019). URL: https://openreview.net/forum?id=SkeRTsAcYm [Deep Complex U-Net の音が聴けるページ] http://www.deepcomplexunet.tk [SEGAN の音が聴けるページ] URL: https://ccrma.stanford.edu/%7Efrancois/SpeechDenoisingWithDeepFeatureLosses/
  • 25. Copyright©2018 NTT corp. All Rights Reserved. 25 とってもアバウトな”深層複素U-Net”の構成 フィルタリング DNNによる 複素マスク推定 FFT IFFT 目的音を強調するフィルタをDNNで推定 → 信号処理の未知パラメータの推定に利用
  • 26. Copyright©2018 NTT corp. All Rights Reserved. 26 どんなときに end2end はうまくいかないか その理由を解明した論文はまだない  学習データが足りない説  DNN は回帰問題は苦手説  関数の組み方がダメ、自由度が高すぎる説  学習データですらうまく強調できないので考えにくい…  識別に関する理論解析は進むが、回帰は進まない  解空間の大きさや濃度  画像処理のCNN、自然言語処理の attention のようなキ ラー構造が波形領域にはまだ無い?
  • 27. Copyright©2018 NTT corp. All Rights Reserved. 27 深層複素U-Net の正体 【音響 and/or 機械学習のプロ向けの話】 ここでは  音声の統計的性質(時間周波数領域でのスパース性)を利用  非線形フィルタリング(信号処理)をNNで表現 =信号処理の一連の流れを NN とみなし、 未知パラメータだけをNN で推定  FFT / IFFT を固定な 1-D convolution layer とみなせば、時間周 波数領域を経由しつつも、”end-to-end” な学習ができる  非線形フィルタリングの一般式  DNNを となる射影関数して、以下で学習 であり、行列演算で書ける 複素時間周波数マスク(非線形なフィルタのようなもの) を推定する、複素数のニューラルネットワーク
  • 28. Copyright©2018 NTT corp. All Rights Reserved. 28 ここまでのまとめ  音響信号処理では完全な end-to-end はうまく動かない  end-to-end がうまくいかない条件は、数学的には証明されてい ないため、この結論は将来は変わるかもしれない  【現在のトレンド】ネットワーク構造に利用する、物理 的/信号処理的な工夫が模索されている  音声の統計的性質を利用した信号処理を NN として記述し、そ の未知パラメータだけを NN で推定 & 波形領域誤差最小化学習 現状の世界最先端
  • 29. Copyright©2018 NTT corp. All Rights Reserved. 29 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 30. Copyright©2018 NTT corp. All Rights Reserved. 30 機械の計算能力は人間を超えた 強力な写像関数も手に入れた では、なぜ(音の)機械学習は 人間を超えてくれないのか 20年後に向け 私たちはどんな研究をすべきだろうか?
  • 31. Copyright©2018 NTT corp. All Rights Reserved. 31 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど) 3. 出力の価値判断(コスト関数など)
  • 32. Copyright©2018 NTT corp. All Rights Reserved. 32 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど)  DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている 3. 出力の価値判断(コスト関数など)
  • 33. Copyright©2018 NTT corp. All Rights Reserved. 33 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど)  DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている  マイクだけ?画像だけ?一箇所で? → 人間と同等以下 3. 出力の価値判断(コスト関数など)
  • 34. Copyright©2018 NTT corp. All Rights Reserved. 34 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど) 3. 出力の価値判断(コスト関数など)  DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている  マイクだけ?画像だけ?一箇所で? → 人間と同等以下  二乗誤差?クロスエントロピー? → 人間には遠く及ばない
  • 35. Copyright©2018 NTT corp. All Rights Reserved. 35 人間を超える情報処理のために 人間を超える (1) センシングと (3) 価値判断 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)
  • 36. Copyright©2018 NTT corp. All Rights Reserved. 36 手前味噌な研究紹介 人間を超える (1) センシングと (3) 価値判断 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)  100m 離れた場所に置いたマイクを連携させるには?  「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018. Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
  • 37. Copyright©2018 NTT corp. All Rights Reserved. パラボラマイク 場内アナウンス (PAスピーカ) 応援団 競技音 37 野球場で歓声を消したい
  • 38. Copyright©2018 NTT corp. All Rights Reserved. 38 人間の耳の限界を超えるには バックネットのマイク だけでは歓声が消せない
  • 39. Copyright©2018 NTT corp. All Rights Reserved. 39 人間の耳の限界を超えるには distance > 100 m
  • 40. Copyright©2018 NTT corp. All Rights Reserved. 40 人間とは異なる情報処理が必要 100m 離れた外野スタンドのマイクを連携させよう → 距離による伝搬遅延や長残響で単純な引き算はダメ 時間周波数 マスク設計 ×
  • 41. Copyright©2018 NTT corp. All Rights Reserved. 41 時間周波数 マスク設計 × 遅延& 残響推定 人間とは異なる情報処理が必要 100m 離れた外野スタンドのマイクを連携させよう → 遅延や残響のキャリブレーションを追加
  • 42. Copyright©2018 NTT corp. All Rights Reserved. 42 Multi-delay noise model 振幅領域での伝搬遅延/長残響のモデル化 Time-frame delay Gain Gain Gain …… Multi-delay noise model Multi-delay noise model Multi-delay noise model Time-frequency mask calc. 残響 伝搬遅延 Multi-delay noise model  Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張  物理的制約を事前分布におき、残響/遅延パラメータをMAP推定 Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
  • 43. Copyright©2018 NTT corp. All Rights Reserved. 43 Modeling …! ホームベース付近に パラボラマイク 外野スタンドに ショットガンマイク Time [s] Freq.[kHz]Freq.[kHz]Freq.[kHz] パラボラマイク(ホームベース) ショットガンマイク(外野スタンド) 処理音 ストラーイク! ミット音 Time [s] 野球場での動作デモ 審判の声や捕球音を強調
  • 44. Copyright©2018 NTT corp. All Rights Reserved. 44 手前味噌な研究紹介 人間を超える (1) センシング 1. 実世界のセンシング(マイクロホンなど)  100m 離れた場所に置いたマイクを連携させるには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.  機械であれば、人間では実現不可能なセンシングが可能  そのセンサーをうまく活用するためには、その物理的性質 に対応した特殊な信号処理+機械学習の使い方が必要  センサーの選択や配置に関する最適性はまだ未知…
  • 45. Copyright©2018 NTT corp. All Rights Reserved. 45 手前味噌な研究紹介 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)  100m 離れた場所に置いたマイクを連携させるには?  「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018. Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018. 人間を超える (1) センシングと (3) 価値判断
  • 46. Copyright©2018 NTT corp. All Rights Reserved. 46 価値判断(コスト関数)の重要性 DNN にどんな情報を推定してほしいのか?  自然言語:対話の「満足度」を上げたい → 満足度最大化 ≠ クロスエントロピー  音源強調:人が聞いて「良い」と思える音を出力したい → 音質最大化 ≠ 二乗誤差 DNNを学習するコスト関数と、 本当に推定したい情報のミスマッチ… 計算機を人間と同じ感性の元で最適化するには? 1. 人間の感性の計算機による再現 2. ブラックボックスな指標を最大化する学習法の創出 こちらの紹介
  • 47. Copyright©2018 NTT corp. All Rights Reserved. 47 主観的な音質評価を最大化したい ブラックボックス関数は微分不可能 (Backprop.が困難) ??? 人間は DNN のコスト関数になれるか?
  • 48. Copyright©2018 NTT corp. All Rights Reserved. 48 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Game score Reward func.Action selector Action candi- dates Action … … … … ゲームスコアさえあれば DNNが学習できる ビデオゲームや囲碁の学習に成功している! 音源強調に応用できないか?
  • 49. Copyright©2018 NTT corp. All Rights Reserved. 49 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … スコアを主観評価と 捉えれば最適化できる? 学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい…
  • 50. Copyright©2018 NTT corp. All Rights Reserved. 50 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … 人間の主観評価を模擬した定量 評価指標を利用 (e.g. PESQ) PC上のシミュレーションで完結
  • 51. Copyright©2018 NTT corp. All Rights Reserved. 51 DNN音源強調のブラックボックス最適化 DNNを用いて目的関数を定義 サンプリングを用いた勾配の近似計算(policy gradient) 出力音の条件付き分布を DNNで記述 聴感評点の最大化を 目的関数とする
  • 52. Copyright©2018 NTT corp. All Rights Reserved. 聴感評点の例 52 音質の定量指標の例 明瞭度(単語の聞き取りやすさ)の定量指標の例  PESQ: Perceptual Evaluation of Speech Quality  音声符号化などで使われる音質の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の音質評価(MOS)を模擬した値 ⇒ PESQを上げ、出力音の音質向上を狙う  STOI: Short-Time Objective Intelligibility  音声強調などで使われる明瞭度の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の単語正解率を模擬した値 ⇒ STOIを上げ、出力音の明瞭度向上を狙う
  • 53. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 1/2(定量評価実験) 53 音質指標 PESQの向上値 【実験1】:学習回数が進むに従い、聴感評点が向上 明瞭度指標 STOIの向上値 学習回数 学習回数 【実験2】:学習に利用した聴感評点が、従来法より優位に向上 SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度) PSM [Erdogan,2015] 9.40 2.27 83.3 提案法(PESQ) 9.19 2.37 83.4 提案法(STOI) 9.74 2.20 87.3  学習が進むにつれ、目標としてい る聴感評点も向上  学習に用いた聴感評点は従来法より も優位に向上 (Input SNR: 0dB, Open test)  聴感評点を向上させるDNN学習に成功  従来技術と比べ、聴感評点が優位に向上
  • 54. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 2/2(主観評価実験) 54 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ) 従来法 提案法(STOI) PESQ最大化で 音質が向上 STOI最大化で 明瞭度が向上  聴感評点に対応する主観品質も、従来法と比べ優位に向上
  • 55. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 2/2(主観評価実験) 55 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ)  聴感評点に対応する主観品質も、従来法と比べ優位に向上 従来法 提案法(STOI) 正解は「タカドノ」 従来法の正答率:31%, 提案法の正答率:81% 従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が 低下しため、「ハカドノ」などと誤回答
  • 56. Copyright©2018 NTT corp. All Rights Reserved. 56 手前味噌な研究紹介 人間を超える (1) センシングと (3) 価値判断 3. 出力の価値判断(コスト関数など)  「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.  DNNの出力の統計的性質はコスト関数依存  人が本当に欲しい情報を DNN が出力するためには  人間と同等の価値判断(コスト関数)  人間を超えるブラックボックス最適化(optimizer) が必要  ほとんど未着手かつ、文理融合が必要な研究領域。そろそろ 縦割り研究を超える頃ではないでしょうか?
  • 57. Copyright©2018 NTT corp. All Rights Reserved. 57 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 58. Copyright©2018 NTT corp. All Rights Reserved. 58 小規模/安価/中性能な計算機 DNNは音響の世界で実用的か?  音響の世界では、未だローカル処理が求められることがほとんど  リアルタイム性:e.g. 音声通話  ネットワークコスト制約:e.g. 異常音検知 計算機の ”ベースライン” が上がらないと 成り立たないビジネスが多い  計算機パワーの向上は機械学習のブレイクスルー  まだ壊して欲しい壁が沢山。特に低レイヤー向けの中性能計算機
  • 59. Copyright©2018 NTT corp. All Rights Reserved. 59 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 60. Copyright©2018 NTT corp. All Rights Reserved. 60 まず手を動かそう 未だ、メディア処理には、 言語化しにくいノウハウが沢山 First Step 触ってみないと、できる/できないの直感が働かない
  • 61. Copyright©2018 NTT corp. All Rights Reserved. 61 技術者 (Scientist/Engineer) であれ ノウハウがたまると データ/計算機/DNN があれば推定はできてしまう No more “やっただけ” 論文!! やっただけでは問題が “解けた” ことにはならない 問題の本質は?最もエレガントな解法は? ※ 企業としてはそれでいいことも多い Next Step
  • 62. Copyright©2018 NTT corp. All Rights Reserved. 62 【再掲】Take home message 何でもかんでも大量データ & end-to-end でいいのか? 現状、音響信号処理に関しては No 1. ネットワーク構造に物理的/信号処理的な工夫が必要 2. 人間を超えるためには、 センサー配置や目的関数の工夫も必要 ※ end-to-end がうまくいかない条件は、数学的には証明されていないため、 この結論は将来は変わるかもしれない 現状の到達点 将来への展望
  • 63. Copyright©2018 NTT corp. All Rights Reserved. 63 Q&A