SlideShare a Scribd company logo
深層学習を用いた音源定位、音源分離、クラス分類の統合
~環境音セグメンテーション手法の紹介~
2021/6/23
Tokyo BISH Bash #05
Honda Research Institute Japan
Research Division
周藤 唯
2
自己紹介
周藤 唯 博士(工学)
略歴
- 2011年~2012年 本田技研工業 株式会社
- 2012年~2018年 ホンダエンジニアリング 株式会社
- 2018年~2021年 東京工業大学 博士後期課程
- 2019年~2020年 株式会社 本田技術研究所
- 2020年~現在 Honda Research Institute Japan
量産開発
工場向け検査装置、自律移動搬送ロボット(回路設計、作動音検査)
研究領域
音環境理解、ロボット聴覚、音声認識
1.Honda Research Institute Japan(HRI-JP)の紹介
HRI-EU
HRI-JP
HRI-US
San Jose, California
Wako, Saitama
Offenbach, Germany
Honda Research Institute設立の狙い
『21世紀の最先端技術で、価値の高い技術を最速で創造し、未来の社会に貢献』
2003年
日本、米国、ヨーロッパ(ドイツ)の3拠点に設立
4
取り組み紹介(ホンダコミュニケーションアシスタンスシステム)
HRI-JPで研究していた音声認識技術を応用し、
聴覚障がい者と健聴者のコミュニケーションをサポートする『ホンダコミュニケーションアシスタンスシステム』を開発
5
東京工業大学 工学院 システム制御系 中臺研究室の紹介
AI・機械学習,ロボティクス,信号・音声処理といったバックグラウンドをベースに
「音」をキーワードに、基礎研究から応用研究まで広く扱っています。
https://www.nakadai.org/
6
目次
1. 背景、目的(環境音セグメンテーションとは)
2. 関連研究、技術課題
3. マルチチャンネル環境音セグメンテーション手法
4. まとめ
7
背景、目的
ロボットの実環境応用を目指し、環境認識手法が提案、実用化されている
マイクロフォンを用いることで、画像ベース手法ではとらえることのできないイベントが認識可能
アプリケーション:警備、搬送、自動運転
センサ:LRF, 3D LiDAR
画像ベースの認識手法
画像ではとらえることのできない
動きのないイベントが認識可能
マイクロフォンで実現可能な認識
3D LiDAR認識
・オクルージョンに弱い
・動きのないイベントは検知でき
ない(スピーチ、ガラス破損等)
ガラス破損
咳
画像認識例
8
背景、目的
音源定位、区間検出、音源分離、クラス分類を統合された
環境音セグメンテーションタスクと定義し、全体最適な手法を研究
音声データを利用した環境認識における問題
- 複数音源のオーバーラップ、周囲のノイズ等
個別の機能が開発・評価されてきた
- 音源定位、音源分離、雑音抑圧等
音源分離
認識
クラス分類
音源定位
環境音セグメンテーション
区間検出
複数音声の同時認識
音声認識例
皆さん、こんにちは。
野鳥の鳴き声分析
9
アレイ信号処理ベースのカスケード手法
●アレイ信号処理ベースのカスケード手法[1][2]
- 個別のアレイ信号処理機能ブロックのカスケード構成
- 各ブロックで発生した誤差の蓄積による性能劣化
𝑦∗
= 𝑎𝑟𝑔 max
𝑦
𝑓(𝑿, 𝜽)
𝑌𝜔,𝑡 =
𝑚=1
𝑀
𝐹𝑚,𝜔𝑋𝑚,𝜔,𝑡
𝑃 ∅ =
𝐻𝐻(𝜃)𝐻(𝜃)
𝐺 ∅ 𝐻𝑒𝑚
2
[1] K. Nakadai, G. Ince, K. Nakamura, and H. Nakajima,“ Robot audition for dynamic environments, ”IEEE International Conference on Signal Processing, Communication and Computing (ICSPCC), 2012, pp.
125–130.
[2] K. Nakamura, K. Nakadai and H. G. Okuno,“ A real-time super-resolution robot audition system that improves the robustness of simultaneous speech recognition, ”Journal of Advanced Robotics; 2013. Vol.
27, No. 12, pp. 933– 945.
MUSIC (Multiple Signal Classification) ビームフォーマ GMM (Gaussian Mixture Model)
雑音を目的音と誤定位してしまう
可能性
同じ方向から到来する音源は
分離できない
前段ブロックの誤差により精度
が低下
MUSICスペクトル
音源分離 認識
音源定位 認識結果
10
深層学習を用いたEnd-to-End手法
Deepでポン!
AIに食わせれば
できちゃうん
じゃないの?
11
シングルチャンネルベースの深層学習手法
● Universal Sound Separation [1]
- 混合時系列波形からConv TasNetを用いて音源分離とクラス分類を同時に行う
- シングルチャンネル手法であるため、オーバーラップでの性能劣化
[1] Kavalerov, Ilya, et al. "Universal sound separation." 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2019.
Conv TasNetを用いたUniversal Sound Separation
12
シングルチャンネルベースの深層学習手法
● Learning to separate sounds from weakly labeled scenes [2]
- 混合音のスペクトログラムからCRNNを用いて音源分離とクラス分類を同時に行う
- 音響イベント検出のデータセットを用いた弱ラベル学習
[2] Pishdadian, Fatemeh, Gordon Wichern, and Jonathan Le Roux. "Finding strength in weakness: Learning to separate sounds with weak supervision." IEEE/ACM Transactions on Audio, Speech, and
Language Processing 28 (2020): 2386-2399.
Conv TasNetを用いたUniversal Sound Separation
振幅スペクトル等の
スペクトル特徴
13
マルチチャンネルベースの深層学習手法
[3] Adavanne, Sharath, et al. "Sound event localization and detection of overlapping sources using convolutional recurrent neural networks." IEEE Journal of Selected Topics in Signal Processing 13.1
(2018): 34-48.
● 音響イベントの定位と検出(Sound Event Localization and Detection, SELD) [3]
- 音源定位、区間検出、クラス分類を同時に行う
- スペクトル特徴に加えて、IPDなどの空間特徴によって音源定位を実現
- 音源クラスと音源方向という相関のない2つを同時に学習することで、それらが過剰に紐づいてしまう
音響イベント検出 音源方向推定
IPD等の
空間特徴量
振幅スペクトル等の
スペクトル特徴
空間特徴
14
マルチチャンネルベースの深層学習手法
SEDブランチ:
音響イベント検出
DOAブランチ:
音源到来方向推定
音源1
マイクアレイ
音源2
音源1は常に120°から到来?
音源2は常に30°から到来?
音源の移動や、マイクアレイの移動により、相対位置関係は変化する
30°
120°
150°
70°
空間特徴
スペクトル特徴
15
予備実験(空間特徴の効果検証)
入力特徴量:
- 1ch (振幅スペクトル)
- 8ch (振幅スペクトル+sinIPD, cosIPD)
モデル: U-Net, Deeplabv3+
データ数:1,000~10,000(3クラス)
損失関数:クラスごとのスペクトログラムに対するMSE
評価指標:RMSE(二乗平均平方根誤差)
- 1ch (振幅スペクトル)
- 8ch (振幅スペクトル+sinIPD, cosIPD)
シングルチャンネル入力とマルチチャンネル入力におけるRMSEの差を比較
もし、単純な空間特徴の追加により、
最適な学習が自動的にされるのであれば、
マルチチャンネル入力の方が性能が高くなるはず
L (X, Y) = || f (X)◦Xmag – Y ||2
16
予備実験(空間特徴の効果検証)
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
0 2000 4000 6000 8000 10000
RMSE
difference
The number of training data
Deeplabv3+
U-Net
マルチチャンネル
入力により性能向上
マルチチャンネル
入力により性能悪化
データ数が少ないとマルチチャンネル入力による性能向上は見られなかった
十分なデータセットがない場合、空間特徴を入力するとDOAとクラスの過剰な紐づきが発生
RMSEの差(Multichannel – Single-channel)
- 1ch (振幅スペクトル)
- 8ch (振幅スペクトル+sinIPD, cosIPD)
17
提案手法の概要
振幅スペクトル+sinIPD, cosIPD
振幅スペクトル+sinIPD, cosIPD
単一ブランチにすべて入力、同時に学習 音源方向ごとに分離するブランチ
クラスごとに分離するブランチ
空間特徴を
用いた
音源定位
音源分離
スペクトル
特徴を用いた
音源分離
クラス分類
音源定位
音源分離
クラス分類
18
提案手法の概要
SSLSブランチ(Deeplabv3+) SSSCブランチ(Deeplabv3+)
マルチチャン
ネル入力
sinIPD, cosIPD
L (X, Yssls) = || f (X)◦Xmag – Yssls ||2
L (Xsssc, Y) = || f (Xsssc)◦Xmag – Y ||2
f (X)◦Xmag
f (Xsssc)◦Xmag
19
評価方法
(d) SSLS + SSSC (提案手法)
(a) Single-loss single-network (b) Multi-loss single-network
(c) SSLS + Classification
SSLS SSSC
音源定位
音源分離
クラス分類
音源定位
音源分離
音源分離
クラス分類
音源定位
音源分離
クラス分類
スペクトル特徴
空間特徴
スペクトル特徴
空間特徴
SSLS
音源定位
音源分離
クラス分類
(CNN)
スペクトル特徴
空間特徴
スペクトル特徴
空間特徴
方向ごとのMSE
クラスごとの
MSE
様々なネットワーク構造、損失の適用方法をRMSEで比較
方向ごとのMSE
クラス
ごとのMSE
クラス
ごとのMSE
クラスごとのMSE
方向ごとのMSE
20
アプローチ
ネットワーク
構造
音源定位 音源分離 クラス分類 ネットワーク出力
(a)
完全な統合
Single-loss
single-network
(b)
Multi-loss
single-network
(c)
部分的に
分離
SSLS +
Classification
(d)
SSLS + SSSC
(Proposed)
単一ネットワーク
SSLS
SSLS
ネットワーク構造の概要
SSSC
単一ネットワーク
MSE
カスケード
提案手法は一部カスケードになっているが、
両ブランチに音源分離機能を持つため、誤差が蓄積しにくい構造になっている
クラスとDOAの関係に結びついてしまう可能性
誤差蓄積
クラスごとのスペクトログラム
DOAごとのスペクトログラム
クラスごとのスペクトログラム
DOAごとのスペクトログラム
クラスごとのスペクトログラム
DOAごとのスペクトログラム
クラスごとのスペクトログラム
MSE
MSE
MSE
MSE
MSE
21
データセット
混合音スペクトログラム
8000
6000
4000
2000
0
Frequency
Hz
コーパスリスト
1
0
0 1 2 3 4
Time s
コーパス クラス数
ATR音素バランス単語 2
RWCP実環境音声・音響データベース 19
RWC-MusicDatabase 4
日本野鳥大鑑
1
バードリサーチ_鳴き声図鑑
バッタ・コオロギ・キリギリス
鳴き声図鑑
1
音響データベース 11
改訂版 日本産セミ科図鑑 鳴き声 1
Freesound General-Purpose Audio
Tagging Challenge Kaggle
43
DCASE 2016 Task 2データセット 11
合計 75
x(t) = h(t, θ) ∗ s1(t-tr1) + h(t, θ) ∗ s2(t-tr2) + h(t, θ) ∗ s3(t-tr3) + n(t)
dry source s1(t-tr1)
h(t, θ) : インパルス応答
s(t): ドライソース
n(t): 拡散性雑音
tr: 時間遅延
t: 時間
θ: 音源方向
dry source s2(t-tr2)
dry source s3(t-tr3)
マイクアレイ
チャンネル数 8
半径 0.1 m
マイク間隔 45°
音源方向
距離 1.0 m
音源間隔 5°
SN比 15 dB
データセット
Train 10,000
Test 1,000 (w/o train data)
シミュレーション条件
22
実験結果
ネットワーク構造 モデル Improvement
(a)
Single-loss
single-network
U-Net (1ch) (Baseline)
U-Net +0.1
Deeplabv3+ (1ch) (Baseline)
Deeplabv3+ +0.46
(b)
Multi-loss
single-network
U-Net +3.49
Deeplabv3+ +5.30
(c) SSLS + Classification
U-Net + CNN -3.99
Deeplabv3+ + CNN +0.12
(d)
SSLS+SSSC
(提案手法)
U-Net + U-Net -3.26
Deeplabv3+ + Deeplabv3+ -7.28
SSLS SSSC
音源定位
音源分離
クラス分類
クラスごとの
スペクトログラム
音源定位
音源分離
音源分離
クラス分類
音源定位
音源分離
クラス分類
クラスごとの
スペクトログラム
DOAごとの
スペクトログラム
クラスごとの
スペクトログラム
DOAごとの
スペクトログラム
SSLS
音源定位
音源分離
クラス分類
クラスごとの
スペクトログラム
DOAごとの
スペクトログラム
(d)
(a) (b)
(c)
23
セグメンテーション結果例
(c) SSLS+Classification
(a) Single-loss single-network (b) Multi-loss single-network
Ground truth (d) SSLS+SSSC
異なるDOAの音源
が分離できない
方向の異なる音源
の分離性能向上
同方向の音源は
分離不可
全体的に性能劣化
音源
マイクアレイ
ベル
カエル
男声
ベル
カエル
男声
同方向の音源
も分離可能
方向の異なる
音源の分離
性能向上
24
各ブロックの出力結果
Ground truth
入力 SSLS出力 SSSC出力
SSSCでは分離できなかった音源を分離することが可能
SSLS SSSC
推定結果
25
まとめ
- 複数のタスクを深層学習で統合する場合、単純な統合を行うと
クラスとDOAの関係に過剰に結びついてしまうことがわかった
- SSLS ブロックと SSSC ブロックを明示的に分離することで、音源クラスと
DOA の関係への結びつきを防ぐことがわかった
- SSSCブロックでは、SSLSで分離しきれなかった音源をさらに分離すること
で、誤差の蓄積を防ぐことができた
音源定位、音源分離、クラス分類を統合的に扱う
マルチチャンネル環境音セグメンテーション法を提案した
音源定位 音源分離 クラス分類
マルチチャンネル環境音セグメンテーション
SSLS SSSC
スペクトル特徴
空間特徴
26
参考文献
[1] Kavalerov, Ilya, et al. "Universal sound separation." 2019 IEEE Workshop on Applications of Signal
Processing to Audio and Acoustics (WASPAA). IEEE, 2019.
[2] Pishdadian, Fatemeh, Gordon Wichern, and Jonathan Le Roux. "Learning to separate sounds from weakly
labeled scenes." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal
Processing (ICASSP). IEEE, 2020.
[3] Adavanne, Sharath, et al. "Sound event localization and detection of overlapping sources using
convolutional recurrent neural networks." IEEE Journal of Selected Topics in Signal Processing 13.1 (2018): 34-
48.
シングルチャンネル環境音セグメンテーション
- Y. Sudo, K. Itoyama, K. Nishida and K. Nakadai, Sound event aware environmental sound segmentation with
Mask U-Net, Journal of Advanced Robotics; 2020, Vol. 34, No. 20, pp. 1280-1290.
- Y. Sudo, K. Itoyama, K. Nishida and K. Nakadai, Environmental sound segmentation utilizing Mask U-Net,
IEEE/RSJ International Conference on Intelligent Robots and Systems, Macau, 2019, pp. 5340–5345.
マルチチャンネル環境音セグメンテーション
- Y. Sudo, K. Itoyama, K. Nishida and K. Nakadai, Multi-channel Environmental sound segmentation, Journal
of Applied Intelligence; 2020, 10.1007/s10489-021-02314-5.

More Related Content

PDF
異常音検知に対する深層学習適用事例
NU_I_TODALAB
 
PPTX
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
 
PPTX
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
 
PDF
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
 
PDF
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
 
PDF
深層学習を利用した音声強調
Yuma Koizumi
 
PDF
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
 
PDF
実環境音響信号処理における収音技術
Yuma Koizumi
 
異常音検知に対する深層学習適用事例
NU_I_TODALAB
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
 
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
 
深層学習を利用した音声強調
Yuma Koizumi
 
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
 
実環境音響信号処理における収音技術
Yuma Koizumi
 

What's hot (20)

PDF
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
 
PPTX
マルチモーダル深層学習の研究動向
Koichiro Mori
 
PPTX
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
 
PPTX
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
 
PDF
音響信号に対する異常音検知技術と応用
Yuma Koizumi
 
PDF
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
 
PDF
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
京都大学大学院情報学研究科数理工学専攻
 
PDF
音情報処理における特徴表現
NU_I_TODALAB
 
PPTX
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
 
PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
 
PDF
信号の独立性に基づく多チャンネル音源分離
NU_I_TODALAB
 
PDF
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
PDF
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
 
PDF
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
 
PPTX
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
 
PDF
数学で解き明かす深層学習の原理
Taiji Suzuki
 
PDF
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
 
PDF
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
 
PDF
semantic segmentation サーベイ
yohei okawa
 
PDF
機械学習 入門
Hayato Maki
 
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
 
マルチモーダル深層学習の研究動向
Koichiro Mori
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
 
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
 
音響信号に対する異常音検知技術と応用
Yuma Koizumi
 
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
 
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
京都大学大学院情報学研究科数理工学専攻
 
音情報処理における特徴表現
NU_I_TODALAB
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
 
信号の独立性に基づく多チャンネル音源分離
NU_I_TODALAB
 
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
 
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
 
数学で解き明かす深層学習の原理
Taiji Suzuki
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
 
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
 
semantic segmentation サーベイ
yohei okawa
 
機械学習 入門
Hayato Maki
 
Ad

Similar to 深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~ (20)

PDF
Sprint16 thesis introduction
ToshihiroMISHIBA
 
PPTX
Study on optimal divergence for superresolution-based supervised nonnegative ...
Daichi Kitamura
 
PDF
音声認識と深層学習
Preferred Networks
 
PPTX
多重解像度時間周波数表現に基づく独立低ランク行列分析,
Kitamura Laboratory
 
PDF
Interspeech2022 参加報告
Yuki Saito
 
PDF
Neural text-to-speech and voice conversion
Yuki Saito
 
PDF
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
RyoAIHARA1
 
PPTX
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
 
PPTX
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Daichi Kitamura
 
PPTX
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
 
PPTX
独立低ランク行列分析に基づく音源分離とその発展
Kitamura Laboratory
 
PDF
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
Deep Learning JP
 
PDF
Looking to listen at the cocktail party a speaker-independent audio-visual m...
Mitsuo Yamamoto
 
PDF
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
 
PPTX
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
 
PPTX
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
 
PDF
招待講演(鶴岡)
nozomuhamada
 
PPTX
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
Deep Learning JP
 
PDF
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
 
PDF
Semantic segmentation2
Takuya Minagawa
 
Sprint16 thesis introduction
ToshihiroMISHIBA
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Daichi Kitamura
 
音声認識と深層学習
Preferred Networks
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
Kitamura Laboratory
 
Interspeech2022 参加報告
Yuki Saito
 
Neural text-to-speech and voice conversion
Yuki Saito
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
RyoAIHARA1
 
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Daichi Kitamura
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
 
独立低ランク行列分析に基づく音源分離とその発展
Kitamura Laboratory
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
Deep Learning JP
 
Looking to listen at the cocktail party a speaker-independent audio-visual m...
Mitsuo Yamamoto
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
 
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
 
招待講演(鶴岡)
nozomuhamada
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
Deep Learning JP
 
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
 
Semantic segmentation2
Takuya Minagawa
 
Ad

Recently uploaded (10)

PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 

深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~

Editor's Notes

  • #2: My name is Yui Sudo from Tokyo Institute of Technology. I am going to talk about “Environmental sound セグメンテーション utilizing Mask U-Net”. 10s
  • #3: Robots in real environment must recognize many kinds of sounds like speech in a noisy environment. Or sometimes not only speech but also music, bird singing and so on. So many methods have been developed for example noise reduction, sound source localization and separation. However, these conventional methods are used in カスケード like this block diagram. The biggest drawback of the カスケード system is that 誤差 which occurred at each function block are accumulated. Therefore it is necessary to develop end-to-end system in order to actualize overall optimized and more general method. Of simultaneous section detection classification and separation. 1’00
  • #4: まず、弊社の紹介ですが、 ホンダリサーチインスティチュートは「21世紀の最先端技術で、価値の高い技術を最速で創造し、未来の社会に貢献」を狙い、 2003年に日本、アメリカ、ドイツの3拠点に設立されました。 その日本の拠点になりますのが、ホンダ・リサーチ・インスティチュート・ジャパンとなります。 以下HRI-JPと略させていただきます。
  • #5: Robots in real environment must recognize many kinds of sounds like speech in a noisy environment. Or sometimes not only speech but also music, bird singing and so on. So many methods have been developed for example noise reduction, sound source localization and separation. However, these conventional methods are used in カスケード like this block diagram. The biggest drawback of the カスケード system is that 誤差 which occurred at each function block are accumulated. Therefore it is necessary to develop end-to-end system in order to actualize overall optimized and more general method. Of simultaneous section detection classification and separation. 1’00
  • #6: Robots in real environment must recognize many kinds of sounds like speech in a noisy environment. Or sometimes not only speech but also music, bird singing and so on. So many methods have been developed for example noise reduction, sound source localization and separation. However, these conventional methods are used in カスケード like this block diagram. The biggest drawback of the カスケード system is that 誤差 which occurred at each function block are accumulated. Therefore it is necessary to develop end-to-end system in order to actualize overall optimized and more general method. Of simultaneous section detection classification and separation. 1’00
  • #7: Robots in real environment must recognize many kinds of sounds like speech in a noisy environment. Or sometimes not only speech but also music, bird singing and so on. So many methods have been developed for example noise reduction, sound source localization and separation. However, these conventional methods are used in カスケード like this block diagram. The biggest drawback of the カスケード system is that 誤差 which occurred at each function block are accumulated. Therefore it is necessary to develop end-to-end system in order to actualize overall optimized and more general method. Of simultaneous section detection classification and separation. 1’00
  • #9: Robots in real environment must recognize many kinds of sounds like speech in a noisy environment. Or sometimes not only speech but also music, bird singing and so on. So many methods have been developed for example noise reduction, sound source localization and separation. However, these conventional methods are used in カスケード like this block diagram. The biggest drawback of the カスケード system is that 誤差 which occurred at each function block are accumulated. Therefore it is necessary to develop end-to-end system in order to actualize overall optimized and more general method. Of simultaneous section detection classification and separation. 1’00
  • #10: I’ll review some related work of 音響イベント検出. This slide shows a one of the popular approach of 音響イベント検出 which is a CNN based method. This method applies CRNN to spectrogram and detect on-set and off-set of each class sound event. However this SED method cannot remain frequency information by using frequency pooling. So this method cannot separate each sound event. 30s
  • #11: I’ll review some related work of 音響イベント検出. This slide shows a one of the popular approach of 音響イベント検出 which is a CNN based method. This method applies CRNN to spectrogram and detect on-set and off-set of each class sound event. However this SED method cannot remain frequency information by using frequency pooling. So this method cannot separate each sound event. 30s
  • #12: Subsequently, Let me introduce some more related works of sound source separation. One traditional approach is NMF based method which uses NMF. Computational cost is low, its performance is also low compared to DNN based approach. Additionally, it is difficult to deal with many classes like environmental sounds. Second is Deep learning-based approach. U-Net which is originally proposed for image semantic セグメンテーション has been proposed for vocal separation. This method predicts mask spectrograms for separating singing voice and is possible to train end-to-end. However the number of classes is also small, vocal and instrument. And additionally, it is pointed out in the previous study of image semantic セグメンテーション that when the object size is very huge, the performance will be low for example bed and pillow. So it is difficult to simply apply this method to envitonmental sound セグメンテーション which have a lot of classes. 1’15
  • #13: Subsequently, Let me introduce some more related works of sound source separation. One traditional approach is NMF based method which uses NMF. Computational cost is low, its performance is also low compared to DNN based approach. Additionally, it is difficult to deal with many classes like environmental sounds. Second is Deep learning-based approach. U-Net which is originally proposed for image semantic セグメンテーション has been proposed for vocal separation. This method predicts mask spectrograms for separating singing voice and is possible to train end-to-end. However the number of classes is also small, vocal and instrument. And additionally, it is pointed out in the previous study of image semantic セグメンテーション that when the object size is very huge, the performance will be low for example bed and pillow. So it is difficult to simply apply this method to envitonmental sound セグメンテーション which have a lot of classes. 1’15
  • #14: Subsequently, Let me introduce some more related works of sound source separation. One traditional approach is NMF based method which uses NMF. Computational cost is low, its performance is also low compared to DNN based approach. Additionally, it is difficult to deal with many classes like environmental sounds. Second is Deep learning-based approach. U-Net which is originally proposed for image semantic セグメンテーション has been proposed for vocal separation. This method predicts mask spectrograms for separating singing voice and is possible to train end-to-end. However the number of classes is also small, vocal and instrument. And additionally, it is pointed out in the previous study of image semantic セグメンテーション that when the object size is very huge, the performance will be low for example bed and pillow. So it is difficult to simply apply this method to envitonmental sound セグメンテーション which have a lot of classes. 1’15
  • #18: This slide shows the complete architecture of environmental sound セグメンテーション consists of three blocks, 特徴抽出, セグメンテーション and reconstruction. In the 特徴抽出 block STFT is applied to the mixed waveforms and divided into spectral and 空間特徴s. These features are input into the セグメンテーション block. This block predicts a mask spectrogram for separating each class from the input spectrogram. Then an inverse STFT is applied to reconstruct the time domain signal using predicted amplitude spectrogram and phase spectrogram obtained from mixed waveform. The differences between the conventional method and our model are Input features are extended to multi-channel input Deeplabv3+ was applied instead of U-Net based method. These difference are expected that improve the performance on overlapping sound and robustness of large variation in sound event length. 1’10
  • #19: This slide shows the complete architecture of environmental sound セグメンテーション consists of three blocks, 特徴抽出, セグメンテーション and reconstruction. In the 特徴抽出 block STFT is applied to the mixed waveforms and divided into spectral and 空間特徴s. These features are input into the セグメンテーション block. This block predicts a mask spectrogram for separating each class from the input spectrogram. Then an inverse STFT is applied to reconstruct the time domain signal using predicted amplitude spectrogram and phase spectrogram obtained from mixed waveform. The differences between the conventional method and our model are Input features are extended to multi-channel input Deeplabv3+ was applied instead of U-Net based method. These difference are expected that improve the performance on overlapping sound and robustness of large variation in sound event length. 1’10
  • #20: We evaluate our method by conducting some simulation experiments using three custom データセットs. We created these custom データセットs using 10 corpuses contaning many classes of dry source. セグメンテーション 結果s are evaluated by calculating RMSE. Then I will show you the few example and discuss the effect of Deeplabv3+ and 空間特徴s. 30s
  • #22: This figure and this table shows the experimental settings for the numerical simulations. Three dry sources are randomly selected from these 10 corpuses. and the impulse response was convolved like this mixed spectrogram. Then, diffuse noise were added to all time frames. We created 10,000 training set 1,000 評価 set. 30s
  • #23: I’ll review some related work of 音響イベント検出. This slide shows a one of the popular approach of 音響イベント検出 which is a CNN based method. This method applies CRNN to spectrogram and detect on-set and off-set of each class sound event. However this SED method cannot remain frequency information by using frequency pooling. So this method cannot separate each sound event. 30s
  • #24: I’ll review some related work of 音響イベント検出. This slide shows a one of the popular approach of 音響イベント検出 which is a CNN based method. This method applies CRNN to spectrogram and detect on-set and off-set of each class sound event. However this SED method cannot remain frequency information by using frequency pooling. So this method cannot separate each sound event. 30s
  • #25: This table shows the まとめ of the simulation 結果. First, Let’s see the 結果 of データセット1 containing three classes of sound. Regarding deep learning models, Deeplabv3+ showed higher performance than conventional models. As for input features, by using sinIPD and cosIP, RMSE was obviously improved especially on CRNN and UNet. And these figure shows an example. This example contains overlapping sound as shown in blue spectra behind green and yellow spectra. As you can see these colored spectrogram, every model look good. However 1’00
  • #26: 30s
  • #27: 30s