数式ドリブン教師あり学習
Formula-Driven Supervised Learning (FDSL)
⼤⻄達也,⽥所⿓,中村凌,⼭⽥亮佑,
速⽔亮,中嶋航⼤,⽚岡裕雄
1
http://xpaperchallenge.org/cv
2
■ cvpaper.challenge メタサーベイの⼀環
➤ 2022/03/01〜2022/06/09に実施した調査
➤ 論⽂調査はもちろん,背景・メタ知識も含め収集
➤ 今回はFDSLを中⼼に周辺研究を4つに⼤別し調査
■ イントロダクション
➤ 数式ドリブン教師あり学習 (FDSL)の概観を説明
■ 論⽂サマリ
➤ 各論⽂を簡単に紹介
■ メタサーベイ
➤ 論⽂サマリからメタな知識を収集
本資料の構成
本資料について
3
筆頭編者紹介
❖ ⽥所⿓
➢ Twitter︓@MlTohoku
➢ 所属︓東北⼤学 学部4年
■ cvpaper.challenge (2021/12〜)
➢ 研究の興味
■ 事前学習・OOD Detectionなど
➢ その他活動
■ コンペティションへの参加など
❖ ⼤⻄ 達也
➢ 所属︓⼤阪⼤学 電⼦情報⼯学科 学部1年(休学中)
■ cvpaper.challenge (2021/4〜)
➢ 研究の興味
■ FractalDBのセグメンテーションタスク利⽤
■ 最近はイラストに興味
➢ その他活動
■ イラストを描いています (Twitter:@oca_laful)
代表的な事前学習⼿法
4
教師あり学習
Supervised Learning: SL
● ⼈間が実画像に対して⼿動で教師ラベル付け
● ⼊⼒画像から教師ラベルに基づき教師あり学習、
それを通して視覚的特徴表現を獲得
ゴリラ
258
数式ドリブン教師あり学習
Formula-driven Supervised Learning: FDSL
● ある規則性に基づいた数式から⼈⼯画像を⾃動⽣成
● パラメータを元に⾃動で教師ラベル付け
● ⼊⼒画像から教師ラベルに基づき教師あり学習、
それを通して視覚的特徴表現を獲得
⾃⼰教師あり学習
Self-Supervised Learning: SSL
● 画像のみを⽤いて、⼈間によるラベル付けは不要
● 擬似タスク(Pretext Task)を⾃動的に⽣成
● ⼊⼒画像から擬似タスクに基づき教師あり学習、
それを通して視覚的特徴表現を獲得
90°回転
データセットの例
● ImageNet
● PASCAL VOC
● MS COCO
⾃⼰教師⼿法の例
● Rotation、Jigsaw、MAE
● SimCLR、MoCo (対照学習)
データセットの例
● FractalDB
● Perlin Noise
FDSLを中⼼に4タイプに⼤別
5
❏ 実画像 ⇄ ⼈⼯画像(データを⽣成するか︖)
❏ 教師ラベルあり ⇄ 教師ラベルなし(教師ラベルを⽣成するか?)
という⼆つの軸によって4つ⼤別
⼈⼯ 画像・教師ラベル なし
※ 教師ラベルは⾃⼰教師など外的に付与
実 画像・教師ラベル なし
⼈⼯ 画像・教師ラベル あり
※ 数式から付与される数式教師
Supervised Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル あり
Dead
Leaves
基盤モデル
CLIP
Florence
(FLD-900M)
ImageNet
JFT-300M/3B
画像認識の事前学習モデル
Self-Supervised Learning
FDSLはココ︕
DMLab
FractalDB
TileDB
FDSL
PerlinNoiseDB
Spectrum
The Face Synthetic
Dataset
WMM
Domain
Randomization
StyleGAN - Random
MineRL
FDSLとは何か? - 学習を4タイプに⼤別
6
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
実画像,教師ラベル 有 ̶ 教師あり学習
➢ データxと、対応する教師ラベルyを⽤いた最も⼀般的な学習
➢ 最近では、CLIPやFlorenceなどのFoundation Modelも話題
実画像,教師ラベル 無 ̶ ⾃⼰教師あり学習
➢ 教師なしデータxに対応する、⾃動で得られるカテゴリtを定義
➢ アノテーションコスト削減で事前学習データセットの更なる⼤
規模化
FDSLとは何か? - 学習を4タイプに⼤別
7
合成 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
実 画像・教師ラベル 無
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
Self-Supervised
Learning
FDSLとは何か? - 学習を4タイプに⼤別
8
8
⼈⼯画像,教師ラベル 有(数式から⾃動で教師を付与)
➢ Fractal Pre-Trainingを代表例として、実画像・⼈間教師によ
る事前学習モデルに匹敵する精度を実現
➢ 実画像データセットにおけるデータ収集コストやライセンス、
倫理などの問題に対する解決策に
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
FDSLとは何か? - 学習を4タイプに⼤別
9
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
⼈⼯画像,教師ラベル 無(外的に⾃⼰教師を付与)
➢ ラベルを⽣成できない⼈⼯⽣成画像×⾃⼰教師あり学習
■ 実はノイズ画像からでも視覚特徴を獲得することを実証
➢ 事前学習モデルにより⾼いベースラインのAI構築が可能
Dead Leaves
MineCraftDB
DMLab
合成 画像・教師ラベル 無
Dead
Leaves
Spectrum
WMM
StyleGAN - Random
論⽂紹介
11
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
Pre-training without Natural Images
12
会議 : ACCV2020(Best Paper Honorable Mention Award) / IJCV 2022
著者 : Hirokatsu Kataoka, Kazushige Okayasu, Asato Matsumoto, Eisuke Yamagata, Ryosuke
Yamada, Nakamasa Inoue, Akio Nakamura, and Yutaka Satoh
数式ドリブン教師あり学習の提案
数式から⽣成した画像で事前学習を⾏うことに世界で初めて成功
● ⾃然画像を⽤いず数式から画像データセットを⾃動⽣成・事前学習済みモデル構築
● 実画像⼤規模データセットによる倫理問題やラベル付コストなどの様々な課題が存在
● 数式からフラクタル画像を⽣成、⽣成時の画像に紐づくパラメータを教師ラベルと扱う
● 数式から⽣成した画像からでも画像の特徴表現が獲得できることを⽰した
MV-FractalDB: Formula-driven Supervised Learning for Multi-view Image Recognition
13
会議 : IROS 2021
著者 : Ryosuke Yamada, Ryo Takahashi, Ryota Suzuki, Akio Nakamura, Yusuke Yoshiyasu, Ryusuke
Sagawa, Hirokatsu Kataoka
● 多視点画像認識における3D姿勢ラベル付きデータセットの⾃動構築⽅法を提案
● 従来は三次元物体認識にも関わらずImageNet事前学習モデルを使⽤していた
● 三次元データセットはラベル付の困難さからImageNet規模サイズのデータセットは存在しない
● Iterated Function System (IFS)を3D拡張,三次元フラクタルモデルを⽣成
● 3Dフラクタルモデルを2D画像に投影することで多視点のフラクタル画像を⽣成
FractalDBを三次元に拡張し,多視点画像認識に適⽤
https://ryosuke-yamada.github.io/Multi-view-Fractal-DataBase/
Can Vision Transformers Learn without Natural Images?
会議 : AAAI 2022
著者 : Kodai Nakashima, Hirokatsu Kataoka, Asato Matsumoto, Kenji Iwata, Nakamasa Inoue,
Yutaka Satoh
● Vision Transformer (ViT)でも、フラクタル画像による事前学習が可能であることを⽰した
○ 従来1400万/3億の実画像を⽤いていたが,実質的にゼロ枚の実画像で事前学習
● SimCLRv2/MoCov2などの実画像を⽤いた⾃⼰教師あり学習よりも⾼い事前学習効果
● CIFAR10においては、ImageNet事前学習モデルと0.4ポイントの僅差
Vision Transformerを実画像ゼロで事前学習
FractalDBの事前学習効果はImageNetに近いことを明らかに
14
Improving Fractal Pre-training
15
会議 : WACV 2022
著者 : Connor Anderson, Ryan Farrell
● SVDを⽤いてIFSのパラメータ探索を効率化,⾊と背景を組み合わせたフラクタル画像を事
前学習に⽤いることで,より良い転移学習が可能になることを⽰した (Fig.7)
● ⼤規模なマルチインスタンス(複数のフラクタル)予測の事前学習を提案,有効性を確認
● フラクタルの事前学習は医療画像のセグメンテーションタスクに有効(Fig.6 Glas)
フラクタル画像の事前学習効果を改善
Formula-driven Supervised Learning with Recursive Tiling Patterns
16
会議 : ICCV 2021 Workshop
著者 : Hirokatsu Kataoka et al.
● 画像全体に敷き詰めるタイリングパターンによるTileDBを⾃動構築
● 正六⾓形に3つの操作(頂点の移動、辺の変形、鏡⾯⽅向の対称移動)を加え画像⽣成
● FractalDBより少ないパラメータセットでデータセットを⾃動構築可能
● FractalDBよりもImageNetに類似するConv.1フィルタを獲得(下図参照)
少ないパラメータのFDSLでも⾼い事前学習効果を確認
Spatiotemporal Initialization for 3D CNNs with Generated Motion Patterns
17
会議 : WACV 2022
著者 : Hirokatsu Kataoka, Eisuke Yamagata, Kensho Hara, Ryusuke Hayashi, Nakamasa Inoue
● Perlin Noiseに基づいてモーションパターンと動画ラベルを同時に⽣成
● Kinetics-400/700のような⼤規模動画データセットの事前学習する前に時空間モデルのパ
ラメータを初期化し、⽬標タスク性能を向上
動き情報をより良く獲得するためのVideo Perlin Noiseを提案
⼈⼯知能による内視鏡画像診断⽀援プラットフォーム
18
会議 : Nippon Laser Igakkaishi
著者 : 野⾥博和
● 深層学習を⽤いた内視鏡画像診断は内視鏡画像&希少症例画像の収集が困難
● Fractal DataBase (FractalDB)の事前学習モデルを利⽤して有⽤性を検証
● ImageNetとの⽐較ではやや劣るが,商⽤利⽤が可能であることから医療現場での利⽤が⾒
込まれる
FractalDBが希少疾患の判別に有⽤であることを⽰唆
19
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
Domain Randomization for Transferring Deep Neural
20
会議 : IROS 2017
著者 : Josh Tpbin et al.
● 様々な幾何学的な物体に対して,アルゴリズムで⽣成されたシンプルなテクスチャでレンダ
リング(⽣成)されたデータのみを使⽤して,実世界で性能が良い検出器を訓練ができるこ
とを発⾒
● 実画像で事前学習を⾏わずに⽣成されたRGB画像のみで学習されたDNNをロボット制御の⽬
的で実世界に移すことを成功した初めての例を⽰した.
⽣成画像で事前学習した検出器が実世界で⼗分な精度を達成
Fake it till you make it: face analysis in the wild using
synthetic data alone
21
会議 : ICCV 2021
著者 : Erroll Wood et al.
● 顔に関するさまざまなタスク(顔推定・ランドマーク推定など)において、合成データの
みでSOTAと同等の精度を達成。
● 従来はドメイン汎化・ドメイン適応⼿法により、実データに対する性能を上げていたが
、⾼品質な合成顔データがあれば、そのまま実データにも適応できる。
合成顔データのみで、あらゆる顔タスクでSOTAと同等
Training Deep Networks with Synthetic Data: Bridging
the Reality Gap by Domain Randomization
22
会議 : CVPR 2018
著者 : Jonathan Tremblay et al.
● シミュレータのパラメータをランダムに調整して、ドメイン汎化性能を向上させる
Domain Randomizationを⾞の検出タスクに利⽤。
● KITII Datasetにおける⾞の検出性能において、合成画像のみで学習させたモデルの精
度は、実画像を学習させたモデルに並ぶ。また、実画像によりFinetuningすることによ
り、更なる精度向上。
Domain Randomizationは、物体検出においても有効
23
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
Dead Leaves
MineCraftDB
DMLab
合成 画像・教師ラベル 無
Dead
Leaves
Spectrum
WMM
StyleGAN - Random
Learning to see by Looking at Noise
24
会議 : NeurIPS 2021
著者 : Manel Baradad, Jonas Wulff, Tongzhou Wang, Phillip Isola, Antonio Torralba
● 様々な⼈⼯画像データセットで⾃⼰教師あり事前学習を⾏い、複数の分類タスクで性能測定
● VTABを⽤いた実験では,Natural(⾃然画像)のカテゴリでは⾃然画像の事前学習効果が⾼い
○ 事前学習には⾃⼰教師あり学習を使⽤
● Specialized(医療や航空)やStructure(形状や距離情報が重要な)タスクでは,⾃然画像と同等,
あるいは⾃然画像を超える事前学習性能
ランダム⽣成画像の事前学習は構造的表現を獲得可能
メタサーベイ
メタサーベイ
1.論⽂の背景にある知識等に着⽬
a.代表的な評価法と精度の変遷
b.FDSLのトレンド
c.現状の課題点
という部分にフォーカス
26
事前学習効果の評価
27
❖ 評価⽅法︓Fine-Tuning
➢ 事前学習によって獲得したパラメータを初期値として⽤
いて、Target TaskでFine-Tuningした時の性能を測る
➢ Target Taskとしては、ImageNetなどがベンチマークと
して⽤いられる
➢ BackBoneとしては、CNNであればResNet-50をはじめ
としたResNetベースのモデル、ViTであればViT-BやViT-
Lなどがスタンダード
モデル
学習 画像デ
ータ
識
別
器
ラベル
ラベル
あり
ラベル
なし
モデル
学習 画像データ
識
別
器
ラベル
モデル
学習
画像データ
検証⽤データセットの変遷
28
■ 公開されているPretrain済みモデルの評価指標は様々
● 取り組みたいタスクに対して数百のモデル調査が必要
■ ImageNet→Visual Task Adaptation Benchmark (VTAB)
● VTABをテストに⽤いることで評価を⼀般化
○natural,specialized,structuredからなる19の評価タスク
○全タスクの平均スコアで⽐較
● ⽐較からgenerative modelによるPretrainは識別精度が低下することを確認
FDSLのトレンド
29
様々なタスクに対して派⽣
数式から画像を⽣成
3D化
3D化
画像をカット&ペースト
⼈物に特化
汎⽤的なモデル
タスクに特化したモデル
交通に特化
実世界の
物体検出に特化
課題︓画像⽣成に時間がかかる
30
⼀度⽣成を開始すれば作業は不必要だが,時間がかかる
■3D合成データ
○ 合成する画像は⼈⼿で撮影
○ cut, pasete and learnではBigBIRDを使⽤
○ 背景にはUW Scenes Dataset を使⽤
○ 拡張は容易だが,撮影の労⼒が膨⼤
■Fake It Till You Make It
○ NVIDIA M60 GPUを150台使⽤して2⽇
課題︓⼤量のデータを学習するためのマシンリソースが必要
31
ABCIのような⼤規模なマシンリソースが求められる
学習効果がある形状パターンを掴むには膨⼤な探索実験が必要
試⾏回数が識別精度向上に直結
■GPU,CPU
○ ⼤規模な画像の学習にGPU,画像⽣成にCPUが必要
○ Fake It Till You Make ItはNVIDIA M60 GPUを150台
使⽤
■ストレージ
○ ⽣成画像は学習が完了まで保存
○ FractalDB︓100万枚〜1,000万枚(512pix ×512 pix)
○ dead leaves︓10.5万枚(128 pix ×128 pix)
○ Fake It Till You Make It︓100万枚(512pix ×512 pix)
課題︓事前学習に効果的なデータがわからない
32
探索実験からパターンを決定するが,効果は未知数
■パラメータごとに探索実験が必要
○ ⽣成する画像枚数によって変更
○ パラメータ数が変われば再度探索実験する必要がある
○ 探索実験はマシンリソースに⼤きく依存
■⽣成画像は最適解か
○ 現状、事前学習効果は実験的に明らかにしている
○ 実画像と特徴表現を⽐較した結果、初期層のみ特徴抽出器とし
て有効であることを確認
課題︓⾳声・⾔語もできる︖︖
33
半教師あり学習,⾃⼰教師あり学習が存在
■Noisy Student
○ ⾳声データにノイズを加えて学習
○ SSLより精度が⾼く,SoTAを達成
■数式ドリブン教師あり学習で⾳声認識タスクを解くには
○ 数式⽣成可能な⾳声パターンを調査
○ カテゴリをどのように定義するか
○ 下流タスクに適合する⾳声を⽣成できるか
■数式ドリブン教師あり学習で⾔語タスクを解くには
○ 意味のある⾔語を⽣成できるか
○ ⾔語は英語で良いのか
○ ⽂法,単語

More Related Content

PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
自己教師学習(Self-Supervised Learning)
PPTX
Curriculum Learning (関東CV勉強会)
PDF
画像生成・生成モデル メタサーベイ
PDF
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]相互情報量最大化による表現学習
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
自己教師学習(Self-Supervised Learning)
Curriculum Learning (関東CV勉強会)
画像生成・生成モデル メタサーベイ
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...

What's hot (20)

PDF
Transformer メタサーベイ
PDF
【メタサーベイ】基盤モデル / Foundation Models
PDF
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
PDF
Optimizer入門&最新動向
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PDF
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
PDF
ドメイン適応の原理と応用
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PPTX
[DL輪読会]Graph R-CNN for Scene Graph Generation
PPTX
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
PDF
【メタサーベイ】Video Transformer
PDF
最適輸送の解き方
PDF
Layer Normalization@NIPS+読み会・関西
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PPTX
モデル高速化百選
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Transformer メタサーベイ
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
Optimizer入門&最新動向
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
【メタサーベイ】Vision and Language のトップ研究室/研究者
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
ドメイン適応の原理と応用
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
これからの Vision & Language ~ Acadexit した4つの理由
[DL輪読会]Graph R-CNN for Scene Graph Generation
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
【メタサーベイ】Video Transformer
最適輸送の解き方
Layer Normalization@NIPS+読み会・関西
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
モデル高速化百選
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Ad

Similar to 【メタサーベイ】数式ドリブン教師あり学習 (20)

PPTX
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
PDF
220707_ishizone_class_imbalance_SSL.pdf
PDF
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
PDF
Deep Learningの基礎と応用
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PDF
Contrastive learning 20200607
PPTX
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
PDF
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
PPTX
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
PDF
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
PPTX
170318 第3回関西NIPS+読み会: Learning What and Where to Draw
PDF
【DL輪読会】Learning Instance-Specific Adaptation for Cross-Domain Segmentation (E...
PDF
Deeplearning lt.pdf
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PPTX
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
PDF
20150930
PDF
[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...
PPT
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
220707_ishizone_class_imbalance_SSL.pdf
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
Deep Learningの基礎と応用
Semi supervised, weakly-supervised, unsupervised, and active learning
Contrastive learning 20200607
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
170318 第3回関西NIPS+読み会: Learning What and Where to Draw
【DL輪読会】Learning Instance-Specific Adaptation for Cross-Domain Segmentation (E...
Deeplearning lt.pdf
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
20150930
[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Ad

Recently uploaded (12)

PPTX
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PDF
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
PDF
翔泳社 「C++ ゼロからはじめるプログラミング」対応 C++学習教材(三谷純)
PDF
20250823_IoTLT_vol126_kitazaki_v1___.pdf
PPTX
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
PDF
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
PPTX
Vibe Codingを触って感じた現実について.pptx .
PDF
Working as an OSS Developer at Ruby Association Activity Report 2025
PDF
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
PDF
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
翔泳社 「C++ ゼロからはじめるプログラミング」対応 C++学習教材(三谷純)
20250823_IoTLT_vol126_kitazaki_v1___.pdf
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
Vibe Codingを触って感じた現実について.pptx .
Working as an OSS Developer at Ruby Association Activity Report 2025
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回

【メタサーベイ】数式ドリブン教師あり学習

  • 1. 数式ドリブン教師あり学習 Formula-Driven Supervised Learning (FDSL) ⼤⻄達也,⽥所⿓,中村凌,⼭⽥亮佑, 速⽔亮,中嶋航⼤,⽚岡裕雄 1 http://xpaperchallenge.org/cv
  • 2. 2 ■ cvpaper.challenge メタサーベイの⼀環 ➤ 2022/03/01〜2022/06/09に実施した調査 ➤ 論⽂調査はもちろん,背景・メタ知識も含め収集 ➤ 今回はFDSLを中⼼に周辺研究を4つに⼤別し調査 ■ イントロダクション ➤ 数式ドリブン教師あり学習 (FDSL)の概観を説明 ■ 論⽂サマリ ➤ 各論⽂を簡単に紹介 ■ メタサーベイ ➤ 論⽂サマリからメタな知識を収集 本資料の構成 本資料について
  • 3. 3 筆頭編者紹介 ❖ ⽥所⿓ ➢ Twitter︓@MlTohoku ➢ 所属︓東北⼤学 学部4年 ■ cvpaper.challenge (2021/12〜) ➢ 研究の興味 ■ 事前学習・OOD Detectionなど ➢ その他活動 ■ コンペティションへの参加など ❖ ⼤⻄ 達也 ➢ 所属︓⼤阪⼤学 電⼦情報⼯学科 学部1年(休学中) ■ cvpaper.challenge (2021/4〜) ➢ 研究の興味 ■ FractalDBのセグメンテーションタスク利⽤ ■ 最近はイラストに興味 ➢ その他活動 ■ イラストを描いています (Twitter:@oca_laful)
  • 4. 代表的な事前学習⼿法 4 教師あり学習 Supervised Learning: SL ● ⼈間が実画像に対して⼿動で教師ラベル付け ● ⼊⼒画像から教師ラベルに基づき教師あり学習、 それを通して視覚的特徴表現を獲得 ゴリラ 258 数式ドリブン教師あり学習 Formula-driven Supervised Learning: FDSL ● ある規則性に基づいた数式から⼈⼯画像を⾃動⽣成 ● パラメータを元に⾃動で教師ラベル付け ● ⼊⼒画像から教師ラベルに基づき教師あり学習、 それを通して視覚的特徴表現を獲得 ⾃⼰教師あり学習 Self-Supervised Learning: SSL ● 画像のみを⽤いて、⼈間によるラベル付けは不要 ● 擬似タスク(Pretext Task)を⾃動的に⽣成 ● ⼊⼒画像から擬似タスクに基づき教師あり学習、 それを通して視覚的特徴表現を獲得 90°回転 データセットの例 ● ImageNet ● PASCAL VOC ● MS COCO ⾃⼰教師⼿法の例 ● Rotation、Jigsaw、MAE ● SimCLR、MoCo (対照学習) データセットの例 ● FractalDB ● Perlin Noise
  • 5. FDSLを中⼼に4タイプに⼤別 5 ❏ 実画像 ⇄ ⼈⼯画像(データを⽣成するか︖) ❏ 教師ラベルあり ⇄ 教師ラベルなし(教師ラベルを⽣成するか?) という⼆つの軸によって4つ⼤別 ⼈⼯ 画像・教師ラベル なし ※ 教師ラベルは⾃⼰教師など外的に付与 実 画像・教師ラベル なし ⼈⼯ 画像・教師ラベル あり ※ 数式から付与される数式教師 Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル あり Dead Leaves 基盤モデル CLIP Florence (FLD-900M) ImageNet JFT-300M/3B 画像認識の事前学習モデル Self-Supervised Learning FDSLはココ︕ DMLab FractalDB TileDB FDSL PerlinNoiseDB Spectrum The Face Synthetic Dataset WMM Domain Randomization StyleGAN - Random MineRL
  • 6. FDSLとは何か? - 学習を4タイプに⼤別 6 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training 実画像,教師ラベル 有 ̶ 教師あり学習 ➢ データxと、対応する教師ラベルyを⽤いた最も⼀般的な学習 ➢ 最近では、CLIPやFlorenceなどのFoundation Modelも話題
  • 7. 実画像,教師ラベル 無 ̶ ⾃⼰教師あり学習 ➢ 教師なしデータxに対応する、⾃動で得られるカテゴリtを定義 ➢ アノテーションコスト削減で事前学習データセットの更なる⼤ 規模化 FDSLとは何か? - 学習を4タイプに⼤別 7 合成 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training 実 画像・教師ラベル 無 simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL Self-Supervised Learning
  • 8. FDSLとは何か? - 学習を4タイプに⼤別 8 8 ⼈⼯画像,教師ラベル 有(数式から⾃動で教師を付与) ➢ Fractal Pre-Trainingを代表例として、実画像・⼈間教師によ る事前学習モデルに匹敵する精度を実現 ➢ 実画像データセットにおけるデータ収集コストやライセンス、 倫理などの問題に対する解決策に 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット 合成 画像・教師ラベル 有 シミュレータ Fractal Pre-training TileDB FDSL Perlin Noise The Face Synthetic Dataset Domain Randomization
  • 9. FDSLとは何か? - 学習を4タイプに⼤別 9 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training ⼈⼯画像,教師ラベル 無(外的に⾃⼰教師を付与) ➢ ラベルを⽣成できない⼈⼯⽣成画像×⾃⼰教師あり学習 ■ 実はノイズ画像からでも視覚特徴を獲得することを実証 ➢ 事前学習モデルにより⾼いベースラインのAI構築が可能 Dead Leaves MineCraftDB DMLab 合成 画像・教師ラベル 無 Dead Leaves Spectrum WMM StyleGAN - Random
  • 11. 11 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット 合成 画像・教師ラベル 有 シミュレータ Fractal Pre-training TileDB FDSL Perlin Noise The Face Synthetic Dataset Domain Randomization
  • 12. Pre-training without Natural Images 12 会議 : ACCV2020(Best Paper Honorable Mention Award) / IJCV 2022 著者 : Hirokatsu Kataoka, Kazushige Okayasu, Asato Matsumoto, Eisuke Yamagata, Ryosuke Yamada, Nakamasa Inoue, Akio Nakamura, and Yutaka Satoh 数式ドリブン教師あり学習の提案 数式から⽣成した画像で事前学習を⾏うことに世界で初めて成功 ● ⾃然画像を⽤いず数式から画像データセットを⾃動⽣成・事前学習済みモデル構築 ● 実画像⼤規模データセットによる倫理問題やラベル付コストなどの様々な課題が存在 ● 数式からフラクタル画像を⽣成、⽣成時の画像に紐づくパラメータを教師ラベルと扱う ● 数式から⽣成した画像からでも画像の特徴表現が獲得できることを⽰した
  • 13. MV-FractalDB: Formula-driven Supervised Learning for Multi-view Image Recognition 13 会議 : IROS 2021 著者 : Ryosuke Yamada, Ryo Takahashi, Ryota Suzuki, Akio Nakamura, Yusuke Yoshiyasu, Ryusuke Sagawa, Hirokatsu Kataoka ● 多視点画像認識における3D姿勢ラベル付きデータセットの⾃動構築⽅法を提案 ● 従来は三次元物体認識にも関わらずImageNet事前学習モデルを使⽤していた ● 三次元データセットはラベル付の困難さからImageNet規模サイズのデータセットは存在しない ● Iterated Function System (IFS)を3D拡張,三次元フラクタルモデルを⽣成 ● 3Dフラクタルモデルを2D画像に投影することで多視点のフラクタル画像を⽣成 FractalDBを三次元に拡張し,多視点画像認識に適⽤ https://ryosuke-yamada.github.io/Multi-view-Fractal-DataBase/
  • 14. Can Vision Transformers Learn without Natural Images? 会議 : AAAI 2022 著者 : Kodai Nakashima, Hirokatsu Kataoka, Asato Matsumoto, Kenji Iwata, Nakamasa Inoue, Yutaka Satoh ● Vision Transformer (ViT)でも、フラクタル画像による事前学習が可能であることを⽰した ○ 従来1400万/3億の実画像を⽤いていたが,実質的にゼロ枚の実画像で事前学習 ● SimCLRv2/MoCov2などの実画像を⽤いた⾃⼰教師あり学習よりも⾼い事前学習効果 ● CIFAR10においては、ImageNet事前学習モデルと0.4ポイントの僅差 Vision Transformerを実画像ゼロで事前学習 FractalDBの事前学習効果はImageNetに近いことを明らかに 14
  • 15. Improving Fractal Pre-training 15 会議 : WACV 2022 著者 : Connor Anderson, Ryan Farrell ● SVDを⽤いてIFSのパラメータ探索を効率化,⾊と背景を組み合わせたフラクタル画像を事 前学習に⽤いることで,より良い転移学習が可能になることを⽰した (Fig.7) ● ⼤規模なマルチインスタンス(複数のフラクタル)予測の事前学習を提案,有効性を確認 ● フラクタルの事前学習は医療画像のセグメンテーションタスクに有効(Fig.6 Glas) フラクタル画像の事前学習効果を改善
  • 16. Formula-driven Supervised Learning with Recursive Tiling Patterns 16 会議 : ICCV 2021 Workshop 著者 : Hirokatsu Kataoka et al. ● 画像全体に敷き詰めるタイリングパターンによるTileDBを⾃動構築 ● 正六⾓形に3つの操作(頂点の移動、辺の変形、鏡⾯⽅向の対称移動)を加え画像⽣成 ● FractalDBより少ないパラメータセットでデータセットを⾃動構築可能 ● FractalDBよりもImageNetに類似するConv.1フィルタを獲得(下図参照) 少ないパラメータのFDSLでも⾼い事前学習効果を確認
  • 17. Spatiotemporal Initialization for 3D CNNs with Generated Motion Patterns 17 会議 : WACV 2022 著者 : Hirokatsu Kataoka, Eisuke Yamagata, Kensho Hara, Ryusuke Hayashi, Nakamasa Inoue ● Perlin Noiseに基づいてモーションパターンと動画ラベルを同時に⽣成 ● Kinetics-400/700のような⼤規模動画データセットの事前学習する前に時空間モデルのパ ラメータを初期化し、⽬標タスク性能を向上 動き情報をより良く獲得するためのVideo Perlin Noiseを提案
  • 18. ⼈⼯知能による内視鏡画像診断⽀援プラットフォーム 18 会議 : Nippon Laser Igakkaishi 著者 : 野⾥博和 ● 深層学習を⽤いた内視鏡画像診断は内視鏡画像&希少症例画像の収集が困難 ● Fractal DataBase (FractalDB)の事前学習モデルを利⽤して有⽤性を検証 ● ImageNetとの⽐較ではやや劣るが,商⽤利⽤が可能であることから医療現場での利⽤が⾒ 込まれる FractalDBが希少疾患の判別に有⽤であることを⽰唆
  • 19. 19 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット 合成 画像・教師ラベル 有 シミュレータ Fractal Pre-training TileDB FDSL Perlin Noise The Face Synthetic Dataset Domain Randomization
  • 20. Domain Randomization for Transferring Deep Neural 20 会議 : IROS 2017 著者 : Josh Tpbin et al. ● 様々な幾何学的な物体に対して,アルゴリズムで⽣成されたシンプルなテクスチャでレンダ リング(⽣成)されたデータのみを使⽤して,実世界で性能が良い検出器を訓練ができるこ とを発⾒ ● 実画像で事前学習を⾏わずに⽣成されたRGB画像のみで学習されたDNNをロボット制御の⽬ 的で実世界に移すことを成功した初めての例を⽰した. ⽣成画像で事前学習した検出器が実世界で⼗分な精度を達成
  • 21. Fake it till you make it: face analysis in the wild using synthetic data alone 21 会議 : ICCV 2021 著者 : Erroll Wood et al. ● 顔に関するさまざまなタスク(顔推定・ランドマーク推定など)において、合成データの みでSOTAと同等の精度を達成。 ● 従来はドメイン汎化・ドメイン適応⼿法により、実データに対する性能を上げていたが 、⾼品質な合成顔データがあれば、そのまま実データにも適応できる。 合成顔データのみで、あらゆる顔タスクでSOTAと同等
  • 22. Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization 22 会議 : CVPR 2018 著者 : Jonathan Tremblay et al. ● シミュレータのパラメータをランダムに調整して、ドメイン汎化性能を向上させる Domain Randomizationを⾞の検出タスクに利⽤。 ● KITII Datasetにおける⾞の検出性能において、合成画像のみで学習させたモデルの精 度は、実画像を学習させたモデルに並ぶ。また、実画像によりFinetuningすることによ り、更なる精度向上。 Domain Randomizationは、物体検出においても有効
  • 23. 23 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training Dead Leaves MineCraftDB DMLab 合成 画像・教師ラベル 無 Dead Leaves Spectrum WMM StyleGAN - Random
  • 24. Learning to see by Looking at Noise 24 会議 : NeurIPS 2021 著者 : Manel Baradad, Jonas Wulff, Tongzhou Wang, Phillip Isola, Antonio Torralba ● 様々な⼈⼯画像データセットで⾃⼰教師あり事前学習を⾏い、複数の分類タスクで性能測定 ● VTABを⽤いた実験では,Natural(⾃然画像)のカテゴリでは⾃然画像の事前学習効果が⾼い ○ 事前学習には⾃⼰教師あり学習を使⽤ ● Specialized(医療や航空)やStructure(形状や距離情報が重要な)タスクでは,⾃然画像と同等, あるいは⾃然画像を超える事前学習性能 ランダム⽣成画像の事前学習は構造的表現を獲得可能
  • 27. 事前学習効果の評価 27 ❖ 評価⽅法︓Fine-Tuning ➢ 事前学習によって獲得したパラメータを初期値として⽤ いて、Target TaskでFine-Tuningした時の性能を測る ➢ Target Taskとしては、ImageNetなどがベンチマークと して⽤いられる ➢ BackBoneとしては、CNNであればResNet-50をはじめ としたResNetベースのモデル、ViTであればViT-BやViT- Lなどがスタンダード モデル 学習 画像デ ータ 識 別 器 ラベル ラベル あり ラベル なし モデル 学習 画像データ 識 別 器 ラベル モデル 学習 画像データ
  • 28. 検証⽤データセットの変遷 28 ■ 公開されているPretrain済みモデルの評価指標は様々 ● 取り組みたいタスクに対して数百のモデル調査が必要 ■ ImageNet→Visual Task Adaptation Benchmark (VTAB) ● VTABをテストに⽤いることで評価を⼀般化 ○natural,specialized,structuredからなる19の評価タスク ○全タスクの平均スコアで⽐較 ● ⽐較からgenerative modelによるPretrainは識別精度が低下することを確認
  • 30. 課題︓画像⽣成に時間がかかる 30 ⼀度⽣成を開始すれば作業は不必要だが,時間がかかる ■3D合成データ ○ 合成する画像は⼈⼿で撮影 ○ cut, pasete and learnではBigBIRDを使⽤ ○ 背景にはUW Scenes Dataset を使⽤ ○ 拡張は容易だが,撮影の労⼒が膨⼤ ■Fake It Till You Make It ○ NVIDIA M60 GPUを150台使⽤して2⽇
  • 31. 課題︓⼤量のデータを学習するためのマシンリソースが必要 31 ABCIのような⼤規模なマシンリソースが求められる 学習効果がある形状パターンを掴むには膨⼤な探索実験が必要 試⾏回数が識別精度向上に直結 ■GPU,CPU ○ ⼤規模な画像の学習にGPU,画像⽣成にCPUが必要 ○ Fake It Till You Make ItはNVIDIA M60 GPUを150台 使⽤ ■ストレージ ○ ⽣成画像は学習が完了まで保存 ○ FractalDB︓100万枚〜1,000万枚(512pix ×512 pix) ○ dead leaves︓10.5万枚(128 pix ×128 pix) ○ Fake It Till You Make It︓100万枚(512pix ×512 pix)
  • 32. 課題︓事前学習に効果的なデータがわからない 32 探索実験からパターンを決定するが,効果は未知数 ■パラメータごとに探索実験が必要 ○ ⽣成する画像枚数によって変更 ○ パラメータ数が変われば再度探索実験する必要がある ○ 探索実験はマシンリソースに⼤きく依存 ■⽣成画像は最適解か ○ 現状、事前学習効果は実験的に明らかにしている ○ 実画像と特徴表現を⽐較した結果、初期層のみ特徴抽出器とし て有効であることを確認
  • 33. 課題︓⾳声・⾔語もできる︖︖ 33 半教師あり学習,⾃⼰教師あり学習が存在 ■Noisy Student ○ ⾳声データにノイズを加えて学習 ○ SSLより精度が⾼く,SoTAを達成 ■数式ドリブン教師あり学習で⾳声認識タスクを解くには ○ 数式⽣成可能な⾳声パターンを調査 ○ カテゴリをどのように定義するか ○ 下流タスクに適合する⾳声を⽣成できるか ■数式ドリブン教師あり学習で⾔語タスクを解くには ○ 意味のある⾔語を⽣成できるか ○ ⾔語は英語で良いのか ○ ⽂法,単語