SlideShare a Scribd company logo
8
Most read
10
Most read
12
Most read
論文紹介
DARTS: Differentiable
Architecture Search
TFUG, NN 論文を肴に酒を飲む会 #6
2018.7.5
Who am I?
● 是枝祐太
● 某電機会社リサーチャー
● 研究歴
– 〜 2015: 医療+ロボット(大学)
– 〜 2016: ロボット+応用機械学習
– 〜現在 : 応用機械学習+自然言語処理
@koreyou_
koreyou
tl;dr
●
DARTS: Differentiable Architecture Search
● DL のアーキテクチャ ( トポロジ、関数の種別 ) を最適化する NAS
(Neural Architecture Search) に関する研究
● NAS を微分可能にすることで、 ENAS などの NAS の SoTA と同等以上
の性能を実現
● ⇒著者らが実装を公開中 https://github.com/quark0/darts
論文情報
● 2018/6/24 投稿 @arXiv (cs.LG)
背景
●
NAS (Neural Architecture Search)
– ネットワークのアーキテクチャ ( 関数の種別、つなぎ方 ) を学習するメタ学習手法
● 人間が設計するのと同等以上のアーキテクチャをも発見できるようになり
[Zoph+17] 大きな注目を集めている
DL の学習Controller
既存の NAS の問題
● Controller を用いた方法が主流 [Zoph+16,Zoph+17,Pham+18]
– DL の学習と、アーキテクチャ生成を交互に行う
– 性質上どうしても時間がかかる (NASNet [Zoph+17] では 500 GPUs × 4 days)
● ENAS[Pham+17] などのパラメータシェアリングは問題を緩和しているだけで
根本的な解決をしていない
トポロジの提案
Validation データ上
評価結果
RNN + 強化学習 [Zoph+16]
進化的アルゴリズム [Real+18]
ベイズ最適化 [Kandasamy+18]
様々なトポロジの
ネットワークを生成
本研究のメインアイデア
● 数値データではないトポロジは通常微分不可能だが、工夫をすることでア
ーキテクチャに対しても微分可能に
アーキテクチャ探索を微分可能にすることで探索を効率化
手法 (1) :アーキテクチャの表現
● トポロジを DAG として表現する
– ノードには番号がついており自分よ
り後のノード全てにつながっている
● 各エッジにはオペレーション
のどれかが割り当て
られる
– オペレーションは行列計算、活性関
数、繋がない、など
● これにより NAS はエッジにどのオ
ペレーションを割り当てるかとい
う問題に簡略化できた
前段のネットワークからの入力
後段のネットワークへの出力
ネットワーク
の一部分
(RNN の
セルなど )
sum
オペレーション o(i, j)
(x)∈O
o(i, j)
(x)∈O
手法 (2) :オペレーション選択の微分
● エッジの出力を各オペレーションの重み付き和として表
現
– 仮に ReLU だった場合 + 行列計算だった場合 + …
● 「どのオペレーションを選ぶか」と「オペレーションのパ
ラメータ(あれば)」について両方微分可能に!
あるオペレーションの結果
重み (=softmax)
学習パラメータ
方法 (3) :最適化手順
● 毎 SGD のミニバッチステップごとにモデルパラメータとアーキテクチャのパ
ラメータを EM 法のように順番に更新する
● wk
と ®k
を k ステップ目のモデルパラメータ、アーキテクチャのパラメータだ
とすると、 k ステップ目の計算は
– ® を固定して w を更新
– w を固定して α を更新
← ηw
← ηα
方法 (4) :最適化の工夫
● なぜ ®k
の更新に wk
の微分項 (virtual gradient step) をいれるのか
● 今回解きたい最適化問題は二段階 (bilevel) 最適化である
● 著者曰く、 virtual gradient step を入れることで w*(®k
) を近似している
– 私の直感的には勾配の方向をいれることで、勾配∇ wk
をもが w* の方向を向くように
( つまり∇ w* に近づくように)最適化されるのでは感じる
← ηα
手法 (5)
● 1 ノードごと k 個を残して出力
エッジを消す
– 重みが大きいオペレーションを持
つエッジを残す
● エッジごと最大の重みを持つオ
ペレーションを残す
k=2 の場合
学習の様子(動画)
● エポックとともにアーキテクチャもどんどん変わってゆくことがわかる
https://github.com/quark0/darts
その他の工夫
● 差分法を使い2階微分を 1 階微分で表現することで、ヘシアンに関する計
算量の増加を防ぐ
● Batch Normalization では移動平均を使わない
– モデルの形が学習中にどんどんかわってゆくため
実験条件
● CIFAR-10 ( 画像分類 )
– 2 種類計 8 セルからなる CNN において、 2 種類のセルのアーキテクチャを学習
● 1 セルあたり 7 ノード
– 全体構造は事前に決めてある (ResNet 構造、セルの順番)
● Penn Treebank ( 言語モデル )
– 単層の Highway Recurrent Neural Network [Zilly+16] のセルのアーキテクチャ 1
種類を学習
● 1 セルあたり 12 ノード
● 他のハイパーパラメータは固定、あまり工夫はしない
● 初期値によって結果が大きくかわるので、 4 試行のうちもっとも validation
score がよかったものを採用
結果 (CIFAR-10)
← ηα
“First order” → 2階偏微分なし (» =0)
結果 (CIFAR-10)
精度: NASNet > DARTS ENAS≧
速度: ENAS > DARTS >>> NASNet
4 試行分が加算されている
( 参考 )CIFAR-10 の SotA
● 2018/6/5 時点での SotA ( おそらく ) はアーキテクチャとして Shake-
Drop を使い、データオーグメンテーションを工夫した [Cubuk+18]
– データオーグメンテーションの仕方を強化学習でメタ学習
Cubuk, Zoph, Mane, Vasudevan and Le. "AutoAugment: Learning Augmentation Policies from Data". arXiv. 2018.
結果 (Penn Treebank)
≧精度:人手設計 DARTS > ENAS > NASNet
速度: ENAS DARTS≧
結果 (Penn Treebank)
本研究と同じ設定で実行
ランダムサーチも強い
⇒ NAS 以外の設定や探索空間の工夫も重要なことがわかる
実験:発見されたアーキテクチャが汎用的かの検証
● 発見されたアーキテクチャを他の画像処理/言語モデルに適用
● NAS 間の比較は似た傾向
– 精度: NASNet > DARTS ≧ ENAS
– 速度: ENAS ≧ DARTS >>> NASNet
● 人手設計に比べると相対的に悪くなった
– NAS はタスクに特化したアーキテクチャを発見している
所感
● 研究レベルでは NAS が使えるレベルになってきている
– 現実的な計算時間、人に引けを取らない性能、実装の公開
● ただし、 NAS 自体の汎用性、安定性はまだまだこれから
– 本研究は探索空間をかなり絞っていた
– 探索空間の重要性は論文内でも指摘されている
● アーキテクチャの工夫による改善はサチってきている
– 今後タスクの細分化が進み、 1 タスクあたりの研究参加者が減ってゆけば、ますます
NAS の考え方は重要になる
まとめ
● DL のアーキテクチャを最適化する NAS (Neural Architecture Search)
に関する研究
● NAS を微分可能にすることで、 ENAS などの NAS の SoTA と同等以上
の性能を実現
● 研究レベルでは NAS が使えるレベルになってきている
● ⇒著者らが実装を公開中 https://github.com/quark0/darts

More Related Content

PDF
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
 
PDF
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
PPTX
モデル高速化百選
Yusuke Uchida
 
PPTX
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
PPTX
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
PPTX
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
Deep Learning JP
 
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
PDF
[DL Hacks]Visdomを使ったデータ可視化
Deep Learning JP
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
 
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
モデル高速化百選
Yusuke Uchida
 
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
Deep Learning JP
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
[DL Hacks]Visdomを使ったデータ可視化
Deep Learning JP
 

What's hot (20)

PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
 
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
 
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
 
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
 
PPTX
近年のHierarchical Vision Transformer
Yusuke Uchida
 
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
PDF
ELBO型VAEのダメなところ
KCS Keio Computer Society
 
PDF
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
 
PDF
実装レベルで学ぶVQVAE
ぱんいち すみもと
 
PDF
最適輸送の計算アルゴリズムの研究動向
ohken
 
PDF
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
PPTX
Noisy Labels と戦う深層学習
Plot Hong
 
PDF
PRML学習者から入る深層生成モデル入門
tmtm otm
 
PDF
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
PDF
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
 
近年のHierarchical Vision Transformer
Yusuke Uchida
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
ELBO型VAEのダメなところ
KCS Keio Computer Society
 
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
 
実装レベルで学ぶVQVAE
ぱんいち すみもと
 
最適輸送の計算アルゴリズムの研究動向
ohken
 
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
Noisy Labels と戦う深層学習
Plot Hong
 
PRML学習者から入る深層生成モデル入門
tmtm otm
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
Ad

Similar to 論文紹介 "DARTS: Differentiable Architecture Search" (20)

PPTX
[DL輪読会]Learning to Navigate in Cities Without a Map
Deep Learning JP
 
PPTX
CNNの構造最適化手法(第3回3D勉強会)
MasanoriSuganuma
 
PPTX
how-calculate-cluster-coefficience
Norihiro Shimoda
 
PDF
VLDB'10勉強会 -Session 2-
Takeshi Yamamuro
 
PDF
研究動向から考えるx86/x64最適化手法
Takeshi Yamamuro
 
PDF
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
MasanoriSuganuma
 
PDF
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
Deep Learning JP
 
PDF
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
MasanoriSuganuma
 
PDF
MapReduceによる大規模データを利用した機械学習
Preferred Networks
 
PDF
Tokyo.R #22 LT
Masayuki Isobe
 
PDF
Overview and Roadmap
JubatusOfficial
 
PPTX
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
 
PDF
MemoryPlus Workshop
Hitoshi Sato
 
PDF
attention_is_all_you_need_nips17_論文紹介
Masayoshi Kondo
 
PDF
Orb oracle
Masa Nakatsu
 
PPTX
分散型台帳技術Orb DLTの紹介
Orb, Inc.
 
PDF
短距離古典分子動力学計算の 高速化と大規模並列化
Hiroshi Watanabe
 
PDF
FPGAをロボット(ROS)で「やわらかく」使うには
Hideki Takase
 
PDF
2018年01月27日 Keras/TesorFlowによるディープラーニング事始め
aitc_jp
 
PDF
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
Matlantis
 
[DL輪読会]Learning to Navigate in Cities Without a Map
Deep Learning JP
 
CNNの構造最適化手法(第3回3D勉強会)
MasanoriSuganuma
 
how-calculate-cluster-coefficience
Norihiro Shimoda
 
VLDB'10勉強会 -Session 2-
Takeshi Yamamuro
 
研究動向から考えるx86/x64最適化手法
Takeshi Yamamuro
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
MasanoriSuganuma
 
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
Deep Learning JP
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
MasanoriSuganuma
 
MapReduceによる大規模データを利用した機械学習
Preferred Networks
 
Tokyo.R #22 LT
Masayuki Isobe
 
Overview and Roadmap
JubatusOfficial
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
 
MemoryPlus Workshop
Hitoshi Sato
 
attention_is_all_you_need_nips17_論文紹介
Masayoshi Kondo
 
Orb oracle
Masa Nakatsu
 
分散型台帳技術Orb DLTの紹介
Orb, Inc.
 
短距離古典分子動力学計算の 高速化と大規模並列化
Hiroshi Watanabe
 
FPGAをロボット(ROS)で「やわらかく」使うには
Hideki Takase
 
2018年01月27日 Keras/TesorFlowによるディープラーニング事始め
aitc_jp
 
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
Matlantis
 
Ad

Recently uploaded (11)

PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 

論文紹介 "DARTS: Differentiable Architecture Search"

  • 1. 論文紹介 DARTS: Differentiable Architecture Search TFUG, NN 論文を肴に酒を飲む会 #6 2018.7.5
  • 2. Who am I? ● 是枝祐太 ● 某電機会社リサーチャー ● 研究歴 – 〜 2015: 医療+ロボット(大学) – 〜 2016: ロボット+応用機械学習 – 〜現在 : 応用機械学習+自然言語処理 @koreyou_ koreyou
  • 3. tl;dr ● DARTS: Differentiable Architecture Search ● DL のアーキテクチャ ( トポロジ、関数の種別 ) を最適化する NAS (Neural Architecture Search) に関する研究 ● NAS を微分可能にすることで、 ENAS などの NAS の SoTA と同等以上 の性能を実現 ● ⇒著者らが実装を公開中 https://github.com/quark0/darts
  • 5. 背景 ● NAS (Neural Architecture Search) – ネットワークのアーキテクチャ ( 関数の種別、つなぎ方 ) を学習するメタ学習手法 ● 人間が設計するのと同等以上のアーキテクチャをも発見できるようになり [Zoph+17] 大きな注目を集めている
  • 6. DL の学習Controller 既存の NAS の問題 ● Controller を用いた方法が主流 [Zoph+16,Zoph+17,Pham+18] – DL の学習と、アーキテクチャ生成を交互に行う – 性質上どうしても時間がかかる (NASNet [Zoph+17] では 500 GPUs × 4 days) ● ENAS[Pham+17] などのパラメータシェアリングは問題を緩和しているだけで 根本的な解決をしていない トポロジの提案 Validation データ上 評価結果 RNN + 強化学習 [Zoph+16] 進化的アルゴリズム [Real+18] ベイズ最適化 [Kandasamy+18] 様々なトポロジの ネットワークを生成
  • 8. 手法 (1) :アーキテクチャの表現 ● トポロジを DAG として表現する – ノードには番号がついており自分よ り後のノード全てにつながっている ● 各エッジにはオペレーション のどれかが割り当て られる – オペレーションは行列計算、活性関 数、繋がない、など ● これにより NAS はエッジにどのオ ペレーションを割り当てるかとい う問題に簡略化できた 前段のネットワークからの入力 後段のネットワークへの出力 ネットワーク の一部分 (RNN の セルなど ) sum オペレーション o(i, j) (x)∈O o(i, j) (x)∈O
  • 9. 手法 (2) :オペレーション選択の微分 ● エッジの出力を各オペレーションの重み付き和として表 現 – 仮に ReLU だった場合 + 行列計算だった場合 + … ● 「どのオペレーションを選ぶか」と「オペレーションのパ ラメータ(あれば)」について両方微分可能に! あるオペレーションの結果 重み (=softmax) 学習パラメータ
  • 10. 方法 (3) :最適化手順 ● 毎 SGD のミニバッチステップごとにモデルパラメータとアーキテクチャのパ ラメータを EM 法のように順番に更新する ● wk と ®k を k ステップ目のモデルパラメータ、アーキテクチャのパラメータだ とすると、 k ステップ目の計算は – ® を固定して w を更新 – w を固定して α を更新 ← ηw ← ηα
  • 11. 方法 (4) :最適化の工夫 ● なぜ ®k の更新に wk の微分項 (virtual gradient step) をいれるのか ● 今回解きたい最適化問題は二段階 (bilevel) 最適化である ● 著者曰く、 virtual gradient step を入れることで w*(®k ) を近似している – 私の直感的には勾配の方向をいれることで、勾配∇ wk をもが w* の方向を向くように ( つまり∇ w* に近づくように)最適化されるのでは感じる ← ηα
  • 12. 手法 (5) ● 1 ノードごと k 個を残して出力 エッジを消す – 重みが大きいオペレーションを持 つエッジを残す ● エッジごと最大の重みを持つオ ペレーションを残す k=2 の場合
  • 14. その他の工夫 ● 差分法を使い2階微分を 1 階微分で表現することで、ヘシアンに関する計 算量の増加を防ぐ ● Batch Normalization では移動平均を使わない – モデルの形が学習中にどんどんかわってゆくため
  • 15. 実験条件 ● CIFAR-10 ( 画像分類 ) – 2 種類計 8 セルからなる CNN において、 2 種類のセルのアーキテクチャを学習 ● 1 セルあたり 7 ノード – 全体構造は事前に決めてある (ResNet 構造、セルの順番) ● Penn Treebank ( 言語モデル ) – 単層の Highway Recurrent Neural Network [Zilly+16] のセルのアーキテクチャ 1 種類を学習 ● 1 セルあたり 12 ノード ● 他のハイパーパラメータは固定、あまり工夫はしない ● 初期値によって結果が大きくかわるので、 4 試行のうちもっとも validation score がよかったものを採用
  • 16. 結果 (CIFAR-10) ← ηα “First order” → 2階偏微分なし (» =0)
  • 17. 結果 (CIFAR-10) 精度: NASNet > DARTS ENAS≧ 速度: ENAS > DARTS >>> NASNet 4 試行分が加算されている
  • 18. ( 参考 )CIFAR-10 の SotA ● 2018/6/5 時点での SotA ( おそらく ) はアーキテクチャとして Shake- Drop を使い、データオーグメンテーションを工夫した [Cubuk+18] – データオーグメンテーションの仕方を強化学習でメタ学習 Cubuk, Zoph, Mane, Vasudevan and Le. "AutoAugment: Learning Augmentation Policies from Data". arXiv. 2018.
  • 19. 結果 (Penn Treebank) ≧精度:人手設計 DARTS > ENAS > NASNet 速度: ENAS DARTS≧
  • 20. 結果 (Penn Treebank) 本研究と同じ設定で実行 ランダムサーチも強い ⇒ NAS 以外の設定や探索空間の工夫も重要なことがわかる
  • 21. 実験:発見されたアーキテクチャが汎用的かの検証 ● 発見されたアーキテクチャを他の画像処理/言語モデルに適用 ● NAS 間の比較は似た傾向 – 精度: NASNet > DARTS ≧ ENAS – 速度: ENAS ≧ DARTS >>> NASNet ● 人手設計に比べると相対的に悪くなった – NAS はタスクに特化したアーキテクチャを発見している
  • 22. 所感 ● 研究レベルでは NAS が使えるレベルになってきている – 現実的な計算時間、人に引けを取らない性能、実装の公開 ● ただし、 NAS 自体の汎用性、安定性はまだまだこれから – 本研究は探索空間をかなり絞っていた – 探索空間の重要性は論文内でも指摘されている ● アーキテクチャの工夫による改善はサチってきている – 今後タスクの細分化が進み、 1 タスクあたりの研究参加者が減ってゆけば、ますます NAS の考え方は重要になる
  • 23. まとめ ● DL のアーキテクチャを最適化する NAS (Neural Architecture Search) に関する研究 ● NAS を微分可能にすることで、 ENAS などの NAS の SoTA と同等以上 の性能を実現 ● 研究レベルでは NAS が使えるレベルになってきている ● ⇒著者らが実装を公開中 https://github.com/quark0/darts