深層学習を用いた音源定位、音源分離、クラス分類の統合～環境音セグメンテーション手法の紹介～

深層学習を用いた音源定位、音源分離、クラス分類の統合
～環境音セグメンテーション手法の紹介～
2021/6/23
Tokyo BISH Bash #05
Honda Research Institute Japan
Research Division
周藤唯

2
自己紹介
周藤唯博士（工学）
略歴
- 2011年～2012年本田技研工業株式会社
- 2012年～2018年ホンダエンジニアリング株式会社
- 2018年～2021年東京工業大学博士後期課程
- 2019年～2020年株式会社本田技術研究所
- 2020年～現在 Honda Research Institute Japan
量産開発
工場向け検査装置、自律移動搬送ロボット(回路設計、作動音検査)
研究領域
音環境理解、ロボット聴覚、音声認識

1．Honda Research Institute Japan（HRI-JP）の紹介
HRI-EU
HRI-JP
HRI-US
San Jose, California
Wako, Saitama
Offenbach, Germany
Honda Research Institute設立の狙い
『21世紀の最先端技術で、価値の高い技術を最速で創造し、未来の社会に貢献』
2003年
日本、米国、ヨーロッパ（ドイツ）の3拠点に設立

4
取り組み紹介（ホンダコミュニケーションアシスタンスシステム）
HRI-JPで研究していた音声認識技術を応用し、
聴覚障がい者と健聴者のコミュニケーションをサポートする『ホンダコミュニケーションアシスタンスシステム』を開発

5
東京工業大学工学院システム制御系中臺研究室の紹介
ＡＩ・機械学習，ロボティクス，信号・音声処理といったバックグラウンドをベースに
「音」をキーワードに、基礎研究から応用研究まで広く扱っています。
https://www.nakadai.org/

6
目次
1. 背景、目的（環境音セグメンテーションとは）
2. 関連研究、技術課題
3. マルチチャンネル環境音セグメンテーション手法
4. まとめ

7
背景、目的
ロボットの実環境応用を目指し、環境認識手法が提案、実用化されている
マイクロフォンを用いることで、画像ベース手法ではとらえることのできないイベントが認識可能
アプリケーション：警備、搬送、自動運転
センサ：LRF, 3D LiDAR
画像ベースの認識手法
画像ではとらえることのできない
動きのないイベントが認識可能
マイクロフォンで実現可能な認識
3D LiDAR認識
・オクルージョンに弱い
・動きのないイベントは検知でき
ない（スピーチ、ガラス破損等）
ガラス破損
咳
画像認識例

8
背景、目的
音源定位、区間検出、音源分離、クラス分類を統合された
環境音セグメンテーションタスクと定義し、全体最適な手法を研究
音声データを利用した環境認識における問題
- 複数音源のオーバーラップ、周囲のノイズ等
個別の機能が開発・評価されてきた
- 音源定位、音源分離、雑音抑圧等
音源分離
認識
クラス分類
音源定位
環境音セグメンテーション
区間検出
複数音声の同時認識
音声認識例
皆さん、こんにちは。
野鳥の鳴き声分析

9
アレイ信号処理ベースのカスケード手法
●アレイ信号処理ベースのカスケード手法[1][2]
- 個別のアレイ信号処理機能ブロックのカスケード構成
- 各ブロックで発生した誤差の蓄積による性能劣化
𝑦∗
= 𝑎𝑟𝑔 max
𝑦
𝑓(𝑿, 𝜽)
𝑌𝜔,𝑡 =
𝑚=1
𝑀
𝐹𝑚,𝜔𝑋𝑚,𝜔,𝑡
𝑃 ∅ =
𝐻𝐻(𝜃)𝐻(𝜃)
𝐺 ∅ 𝐻𝑒𝑚
2
[1] K. Nakadai, G. Ince, K. Nakamura, and H. Nakajima,“ Robot audition for dynamic environments, ”IEEE International Conference on Signal Processing, Communication and Computing (ICSPCC), 2012, pp.
125–130.
[2] K. Nakamura, K. Nakadai and H. G. Okuno,“ A real-time super-resolution robot audition system that improves the robustness of simultaneous speech recognition, ”Journal of Advanced Robotics; 2013. Vol.
27, No. 12, pp. 933– 945.
MUSIC (Multiple Signal Classification) ビームフォーマ GMM (Gaussian Mixture Model)
雑音を目的音と誤定位してしまう
可能性
同じ方向から到来する音源は
分離できない
前段ブロックの誤差により精度
が低下
MUSICスペクトル
音源分離認識
音源定位認識結果

10
深層学習を用いたEnd-to-End手法
Deepでポン！
AIに食わせれば
できちゃうん
じゃないの？

11
シングルチャンネルベースの深層学習手法
● Universal Sound Separation [1]
- 混合時系列波形からConv TasNetを用いて音源分離とクラス分類を同時に行う
- シングルチャンネル手法であるため、オーバーラップでの性能劣化
[1] Kavalerov, Ilya, et al. "Universal sound separation." 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2019.
Conv TasNetを用いたUniversal Sound Separation

12
シングルチャンネルベースの深層学習手法
● Learning to separate sounds from weakly labeled scenes [2]
- 混合音のスペクトログラムからCRNNを用いて音源分離とクラス分類を同時に行う
- 音響イベント検出のデータセットを用いた弱ラベル学習
[2] Pishdadian, Fatemeh, Gordon Wichern, and Jonathan Le Roux. "Finding strength in weakness: Learning to separate sounds with weak supervision." IEEE/ACM Transactions on Audio, Speech, and
Language Processing 28 (2020): 2386-2399.
Conv TasNetを用いたUniversal Sound Separation
振幅スペクトル等の
スペクトル特徴

13
マルチチャンネルベースの深層学習手法
[3] Adavanne, Sharath, et al. "Sound event localization and detection of overlapping sources using convolutional recurrent neural networks." IEEE Journal of Selected Topics in Signal Processing 13.1
(2018): 34-48.
● 音響イベントの定位と検出(Sound Event Localization and Detection, SELD) [3]
- 音源定位、区間検出、クラス分類を同時に行う
- スペクトル特徴に加えて、IPDなどの空間特徴によって音源定位を実現
- 音源クラスと音源方向という相関のない2つを同時に学習することで、それらが過剰に紐づいてしまう
音響イベント検出音源方向推定
IPD等の
空間特徴量
振幅スペクトル等の
空間特徴

14
マルチチャンネルベースの深層学習手法
SEDブランチ：
音響イベント検出
DOAブランチ：
音源到来方向推定
音源1
マイクアレイ
音源2
音源1は常に120°から到来？
音源2は常に30°から到来？
音源の移動や、マイクアレイの移動により、相対位置関係は変化する
30°
120°
150°
70°
空間特徴

15
予備実験（空間特徴の効果検証）
入力特徴量:
- 1ch (振幅スペクトル)
- 8ch (振幅スペクトル+sinIPD, cosIPD)
モデル: U-Net, Deeplabv3+
データ数：1,000～10,000（3クラス）
損失関数：クラスごとのスペクトログラムに対するMSE
評価指標：RMSE（二乗平均平方根誤差）
シングルチャンネル入力とマルチチャンネル入力におけるRMSEの差を比較
もし、単純な空間特徴の追加により、
最適な学習が自動的にされるのであれば、
マルチチャンネル入力の方が性能が高くなるはず
L (X, Y) = || f (X)◦Xmag – Y ||2

16
予備実験（空間特徴の効果検証）
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
0 2000 4000 6000 8000 10000
RMSE
difference
The number of training data
Deeplabv3+
U-Net
マルチチャンネル
入力により性能向上
マルチチャンネル
入力により性能悪化
データ数が少ないとマルチチャンネル入力による性能向上は見られなかった
十分なデータセットがない場合、空間特徴を入力するとDOAとクラスの過剰な紐づきが発生
RMSEの差（Multichannel – Single-channel）

17
提案手法の概要
振幅スペクトル+sinIPD, cosIPD
振幅スペクトル+sinIPD, cosIPD
単一ブランチにすべて入力、同時に学習音源方向ごとに分離するブランチ
クラスごとに分離するブランチ
空間特徴を
用いた
音源定位
音源分離
スペクトル
特徴を用いた
音源分離
クラス分類
音源定位
音源分離
クラス分類

18
提案手法の概要
SSLSブランチ（Deeplabv3＋） SSSCブランチ（Deeplabv3＋）
マルチチャン
ネル入力
sinIPD, cosIPD
L (X, Yssls) = || f (X)◦Xmag – Yssls ||2
L (Xsssc, Y) = || f (Xsssc)◦Xmag – Y ||2
f (X)◦Xmag
f (Xsssc)◦Xmag

19
評価方法
(d) SSLS + SSSC (提案手法)
(a) Single-loss single-network (b) Multi-loss single-network
(c) SSLS + Classification
SSLS SSSC
音源定位
音源分離
クラス分類
音源定位
音源分離
音源分離
クラス分類
音源定位
音源分離
クラス分類
空間特徴
空間特徴
SSLS
音源定位
音源分離
クラス分類
(CNN)
空間特徴
空間特徴
方向ごとのMSE
クラスごとの
MSE
様々なネットワーク構造、損失の適用方法をRMSEで比較
方向ごとのMSE
クラス
ごとのMSE
クラス
ごとのMSE
クラスごとのMSE
方向ごとのMSE

20
アプローチ
ネットワーク
構造
音源定位音源分離クラス分類ネットワーク出力
(a)
完全な統合
Single-loss
single-network
(b)
Multi-loss
single-network
(c)
部分的に
分離
SSLS +
Classification
(d)
SSLS + SSSC
(Proposed)
単一ネットワーク
SSLS
SSLS
ネットワーク構造の概要
SSSC
単一ネットワーク
MSE
カスケード
提案手法は一部カスケードになっているが、
両ブランチに音源分離機能を持つため、誤差が蓄積しにくい構造になっている
クラスとDOAの関係に結びついてしまう可能性
誤差蓄積
クラスごとのスペクトログラム
DOAごとのスペクトログラム
MSE
MSE
MSE
MSE
MSE

21
データセット
混合音スペクトログラム
8000
6000
4000
2000
0
Frequency
Hz
コーパスリスト
1
0
0 1 2 3 4
Time s
コーパスクラス数
ATR音素バランス単語 2
RWCP実環境音声・音響データベース 19
RWC-MusicDatabase 4
日本野鳥大鑑
1
バードリサーチ_鳴き声図鑑
バッタ・コオロギ・キリギリス
鳴き声図鑑
1
音響データベース 11
改訂版日本産セミ科図鑑鳴き声 1
Freesound General-Purpose Audio
Tagging Challenge Kaggle
43
DCASE 2016 Task 2データセット 11
合計 75
x(t) = h(t, θ) ∗ s1(t-tr1) + h(t, θ) ∗ s2(t-tr2) + h(t, θ) ∗ s3(t-tr3) + n(t)
dry source s1(t-tr1)
h(t, θ) : インパルス応答
s(t): ドライソース
n(t): 拡散性雑音
tr: 時間遅延
t: 時間
θ: 音源方向
マイクアレイ
チャンネル数 8
半径 0.1 m
マイク間隔 45°
音源方向
距離 1.0 m
音源間隔 5°
SN比 15 dB
データセット
Train 10,000
Test 1,000 (w/o train data)
シミュレーション条件

22
実験結果
ネットワーク構造モデル Improvement
(a)
Single-loss
single-network
U-Net (1ch) (Baseline)
U-Net +0.1
Deeplabv3+ (1ch) (Baseline)
Deeplabv3+ +0.46
(b)
Multi-loss
single-network
U-Net +3.49
Deeplabv3+ +5.30
(c) SSLS + Classification
U-Net + CNN -3.99
Deeplabv3+ + CNN +0.12
(d)
SSLS+SSSC
(提案手法)
U-Net + U-Net -3.26
Deeplabv3+ + Deeplabv3+ -7.28
SSLS SSSC
音源定位
音源分離
クラス分類
クラスごとの
スペクトログラム
音源定位
音源分離
音源分離
クラス分類
音源定位
音源分離
クラス分類
クラスごとの
DOAごとの
クラスごとの
DOAごとの
SSLS
音源定位
音源分離
クラス分類
クラスごとの
DOAごとの
(d)
(a) (b)
(c)

23
セグメンテーション結果例
(c) SSLS+Classification
(a) Single-loss single-network (b) Multi-loss single-network
Ground truth (d) SSLS+SSSC
異なるDOAの音源
が分離できない
方向の異なる音源
の分離性能向上
同方向の音源は
分離不可
全体的に性能劣化
音源
マイクアレイ
ベル
カエル
男声
ベル
カエル
男声
同方向の音源
も分離可能
方向の異なる
音源の分離
性能向上

24
各ブロックの出力結果
Ground truth
入力 SSLS出力 SSSC出力
SSSCでは分離できなかった音源を分離することが可能
SSLS SSSC
推定結果

25
まとめ
- 複数のタスクを深層学習で統合する場合、単純な統合を行うと
クラスとDOAの関係に過剰に結びついてしまうことがわかった
- SSLS ブロックと SSSC ブロックを明示的に分離することで、音源クラスと
DOA の関係への結びつきを防ぐことがわかった
- SSSCブロックでは、SSLSで分離しきれなかった音源をさらに分離すること
で、誤差の蓄積を防ぐことができた
音源定位、音源分離、クラス分類を統合的に扱う
マルチチャンネル環境音セグメンテーション法を提案した
音源定位音源分離クラス分類
マルチチャンネル環境音セグメンテーション
SSLS SSSC
空間特徴

26
参考文献
[1] Kavalerov, Ilya, et al. "Universal sound separation." 2019 IEEE Workshop on Applications of Signal
Processing to Audio and Acoustics (WASPAA). IEEE, 2019.
[2] Pishdadian, Fatemeh, Gordon Wichern, and Jonathan Le Roux. "Learning to separate sounds from weakly
labeled scenes." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal
Processing (ICASSP). IEEE, 2020.
[3] Adavanne, Sharath, et al. "Sound event localization and detection of overlapping sources using
convolutional recurrent neural networks." IEEE Journal of Selected Topics in Signal Processing 13.1 (2018): 34-
48.
シングルチャンネル環境音セグメンテーション
- Y. Sudo, K. Itoyama, K. Nishida and K. Nakadai, Sound event aware environmental sound segmentation with
Mask U-Net, Journal of Advanced Robotics; 2020, Vol. 34, No. 20, pp. 1280-1290.
- Y. Sudo, K. Itoyama, K. Nishida and K. Nakadai, Environmental sound segmentation utilizing Mask U-Net,
IEEE/RSJ International Conference on Intelligent Robots and Systems, Macau, 2019, pp. 5340–5345.
マルチチャンネル環境音セグメンテーション
- Y. Sudo, K. Itoyama, K. Nishida and K. Nakadai, Multi-channel Environmental sound segmentation, Journal
of Applied Intelligence; 2020, 10.1007/s10489-021-02314-5.

深層学習を用いた音源定位、音源分離、クラス分類の統合～環境音セグメンテーション手法の紹介～

More Related Content

What's hot (20)

Similar to 深層学習を用いた音源定位、音源分離、クラス分類の統合～環境音セグメンテーション手法の紹介～ (20)

Recently uploaded (10)

深層学習を用いた音源定位、音源分離、クラス分類の統合～環境音セグメンテーション手法の紹介～

Editor's Notes