SlideShare a Scribd company logo
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
北海道大学大学院 情報科学院 情報理工学部門
複合情報工学分野 調和系工学研究室
2022年5月20日(金) 博士後期課程 3年 吉田 拓海
論文紹介ゼミ
A Generalist Agent
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1
論文情報
• 著者
• 発表
– arxiv
• 概要
– 大規模言語モデルに触発され,テキスト出力の領域を超えた
単一の汎化エージェント(Gato)を構築
– モデルとデータについて説明,Gatoの現状の性能を報告
• 論文URL
– https://arxiv.org/abs/2205.06175
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
概要
• 単一のニューラルネットによって様々なタスクを学習
– Atariゲーム,画像キャプション生成,チャット,
実世界のロボット制御 など
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
Introduction
• 全てのタスクで単一のニューラルネットを使用するメリット
– 各ドメインに適したモデルを作成する手間が省ける
– 学習データの量と多様性が増加する
• 歴史的に見ても汎用的なモデルは
専門的なアプローチより優れている傾向にある [Sutton, 2019]
– 例:画像処理におけるCNNの登場
• 本論文で検証する仮説
– 多くのタスクに対応可能なエージェントを学習することは可能
– このエージェントが僅かな追加データでさらに多くのタスクで
成功するように適応可能
[Sutton, 2019] R. Sutton. The bitter lesson. Incomplete Ideas (blog), 13:12, 2019.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
Gato
• モデルはTransformer Decoder
• マルチモーダルなデータで学習
– 画像,テキスト,関節トルク,ボタン操作,
その他離散的および連続的な観察・動作など
Transformer
Decoder
[Text]
sentencepiece
-> embedding
[Image]
16*16 patch
-> ResNet block
[離散値]
embedding
[連続値]
mu-law encode
-> 離散化(1024)
-> embedding
教師有学習
(offline)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
モデルの学習
• 自己回帰のオフライン教師有学習
– 強化学習エージェントによって生成した学習サンプルを使用
– 画像トークンとエージェントの観測にマスクをかける
– オフライン・オンラインの強化学習も原理的には可能
• モデルはTransformer Decoder
– 1.18B parameters
• 実世界のロボット制御のためこのサイズ
• layers: 24
• embedding size: 2048
• feedforward hidden size: 8196
– steps: 1M
– batch size: 512
– token sequence length: 1024
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
Deployment
• promptによる条件付けを使用
– training時
• 各バッチの前半25%はprompt
• 同じタスク,同じソースエージェントによって生成
• promptの半分はエピソードの終わりから
– ゴール条件付けとして機能
• 残り半分はエピソードから一様にサンプリング
– evaluation時
• 目的タスクの成功デモをpromptに使用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
Deployment
➀環境の最初の観測
がシーケンスに追加
➁行動ベクトルを1トークンずつ
自己回帰的にサンプリング
➂行動を構成する全トークンが
サンプリングされると行動をデコード
④行動が環境に送られ
新しい観測が追加
⑤繰り返し
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
Dataset
• 使用したデータセット
– Agent Experience
• シミュレーション,実環境(RGB Stacking real robot)の両方を含む
– 自然言語,画像
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
Dataset
• 制御タスク(シミュレーション)
– エキスパートエージェント* によって学習サンプルを生成
• * SOTAやそれに近い強化学習エージェント
– エキスパートリターン** 80%以上でフィルタリングする
• ** エキスパートエージェントが達成可能な最大持続性能
– あるタスクについて収集された全エピソードについての
windowed average return のセットに対する最大値と定義
• 視覚・言語データ
– 次の処理で学習エピソードを作成
• 5つの(画像,テキスト)ペアをサンプリング
• それらをトークン化・連結
• 必要な学習シーケンス長にパディング・ランダムトリミング
𝑅𝑖:エピソード𝑖 の総リターン
𝑊 = min(1000,0.1 × 𝑁)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
Dataset
• 制御タスク(実世界)
– ロボットのブロック積み上げ [Lee et al., 2021]
• 目標:赤を青に積む(緑は無視)
– sim2real[Lee et al., 2021]エージェントが収集したデータを使用
• シミュレーションと実環境両方
– 2つの課題
• Skill Mastery (5つのテストセットも学習可)
• Skill Generalization (5つのテストセットは学習不可)
[Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D.
Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021.
※ブロックの形には色々パターンがある
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
制御タスク(シミュレーション)の性能
• Gatoを50回ロールアウトしたスコアの平均
• エキスパートスコアとの比較
– エキスパートスコアの x% 以上を達成できたタスクの数 y
– 604タスク中450以上でエキスパートの50%以上を達成
ランダムなエージェント エキスパートエージェント
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
制御タスク(シミュレーション)の性能
• ALE Atari (全51ゲーム)
– 23のゲームで人間の平均スコアを達成
– 11のゲームで人間の2倍のスコアを達成
– ALE Atari 専門の Atariエージェント(Gato 1.18B) を学習させた
• 44のゲームで人間の平均スコアを達成
– 他7ゲームはデータ生成に使用したエキスパートも
人間の平均スコア以下
• AtariエージェントはGatoを凌駕
– Gatoをスケールアップすることで性能向上する可能性を示唆
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
制御タスク(シミュレーション)の性能
• BabyAI
– ほぼすべてのレベルでエキスパートスコア80%以上を達成
– 公開ベースライン BabyAI 1.0, BabyAI 1.1 [Hui et al., 2020]
• 単一のタスクだけで100万回のデモを使って学習させたもの
• 77%と90%
• Meta-World (全45タスク)
– 44タスクで50%以上
– 35タスクで80%以上
– 3タスクで90%以上
• Canonical DM Control Suite (全30タスク)
– 21タスクで50%以上
– 18タスクで80%以上
[Hui et al., 2020] D. Y.-T. Hui, M. Chevalier-Boisvert, D. Bahdanau, and Y. Bengio. Babyai 1.1. Preprint arXiv:2007.12770, 2020.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
モデルサイズの増加による性能
• 同等のトークン数であれば
モデルサイズが大きくなるにつれて性能向上
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
Out of distribution tasks の性能
• 以下の4タスクをホールドアウトし分布外タスクの評価に使用
– cartpole.swingup (DM Control Suite)
– assembly-v2 (Meta-World)
– order_of_apples_forage_simple (DM Lab)
– boxing (ALE Atari)
• 理想
– 望ましい行動のデモを含むプロンプトによる条件付け
によって新しいタスクに適応
• メモリ制約,デモのシーケンス長が非常に長い
• 現実の実験
– 限られた数(詳細不明)のデモでfine-tune
• モデルは364M ver
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
Out of distribution tasks の性能
図引用
cartpole swingup
S. Tunyasuvunakool, A. Muldal, Y. Doron, S. Liu, S. Bohez, J. Merel, T. Erez, T. Lillicrap, N. Heess, and Y. Tassa. dm_control: Software and tasks for
continuous control. Software Impacts, 6:100022, 2020.
DMLab
C. Beattie, J. Z. Leibo, D. Teplyashin, T. Ward, M. Wainwright, H. Küttler, A. Lefrancq, S. Green, V. Valdés, A. Sadik, et al. DeepMind lab. Preprint
arXiv:1612.03801, 2016.
Atari boxing
Wikipedia Contributors. Boxing (Atari 2600). Wikipedia. Published March 15, 2022. Accessed May 20, 2022.
https://en.wikipedia.org/wiki/Boxing_(Atari_2600)
?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
Out of distribution tasks の性能
• Cartpole, Meta-world assembly (左2つ)
– 画像処理不要のタスク
– どちらも同様の傾向
– no control data (画像とテキストのみで事前学習)の利点は無い
• DMLab
– same domain only data が最良
• 他の環境のデータを追加する利点は無い
• DMLabは自然に見える画像が入力されているため
– no control data の性能が高い
• Atari Boxing
– 事前学習の効果無し
• ゲームの入力画像が他のデータと視覚的に非常に異なるため
と著者らは仮定
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
制御タスク(実世界)の性能
• 制御タスク(実世界)
– ロボットのブロック積み上げ [Lee et al., 2021]
• 目標:赤を青に積む(緑は無視)
– sim2real[Lee et al., 2021]エージェントが収集したデータを使用
• シミュレーションと実環境両方
– 2つの課題
• Skill Mastery (5つのテストセットも学習可)
• Skill Generalization (5つのテストセットは学習不可)
[Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D.
Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021.
※ブロックの形には色々パターンがある
再掲
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
制御タスク(実世界)の性能
• Skill Generalization Performance (Real)
– 各テストセットごとに200エピソード評価
– BC-IMP[Lee et al., 2021]と同等の性能
• Skill Mastery Performance (Real)
– BC-IMP[Lee et al., 2021]と同等の性能
[]
[Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D.
Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
制御タスク(実世界)の性能 fine-tune
• テストセットを使用した fine-tune の性能を調査(左図)
– 先行研究[Lee et al., 2022]と同様の設定
– 10エピソードでエキスパート性能を達成
• シミュレーション環境でも fine-tune の性能を調査(右図)
– シミュレーションについては複数のモデルサイズで比較
• モデルサイズが大きいと少ないエピソードでより良い適応
• モデルサイズが大きいことで,多様な学習データから学習した
表現を使用可能であることを示唆
[Lee et al., 2022] A. X. Lee, C. M. Devin, J. T. Springenberg, Y. Zhou, T. Lampe, A. Abdolmaleki, and K. Bousmalis. How to spend your
robot time: Bridging kickstarting and offline reinforcement learning for vision-based robotic manipulation. Preprint arXiv:2205.03353,
2022.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
制御タスク(実世界)の性能 fine-tune
• 「青を緑に積む」ことを目的とした新しいタスクを設定
– 本来は「赤を青に積む」
– 3Dマウスを使用して実機で500回(2時間45分)のデモデータ
• fine tune用のデータに追加
– finetuneによってGatoは60%の成功率を達成
– ゼロから学習させたBCベースラインの成功率は0.5%
• 青に向かって移動し,時々拾い上げて緑に置くが
安定した積みは殆ど達成されず
本来の
タスク
新しい
タスク
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
視覚・言語タスクの性能(生成サンプル)
Text関連については定量評価なし
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
視覚・言語タスクの性能(生成サンプル)
• Gatoとのチャット
• 関連する返答をするが,表面的・事実に反することが多い
– さらなるスケーリングで改善される可能性が高い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
Broader Impact
• generalist agentはvision-language modelとしても機能
– vision-language modelで議論されているような懸念を引き継ぐ
• 加えて generalist agent は現実世界で行動可能
– ユーザがエージェントを擬人化することに繋がる
• 誤作動した場合に誤った信頼
• 悪用
– アーケードゲームの格闘を間違って伝達
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
Conclusions
• Transformer は multi-task multi-embodiment policyとして有効
– embodiment: 身体性
• また few-shot out-of-distribution task learning においても有望
• 将来的には新しい行動の学習のデフォルトの出発点となる
– prompting, fine-tuning
• スケールアップについて
– 全タスクの性能はパラメータ,データ,計算能力の
規模に応じて向上する
– より優れたハードウェアとネットワーク構造によって
リアルタイムのロボット制御機能を維持したまま
より大きなモデルを学習させることが可能になる
– こうしたスケールアップによって
有用な generalist agent を構築可能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
画像と離散値の処理例
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
連続値の処理例
Mu-law Encode について
WaveNet[Oord et al., 2016]と同様
[Oord et al., 2016] A. v. d. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K.
Kavukcuoglu. WaveNet: A generative model for raw audio. Preprint arXiv:1609.03499, 2016.
(𝜇 = 100, 𝑀 = 256)
離散化(Discretize) について
[-1.0, 1.0]にclip
1024個のビンで離散化
整数値をシフト(textとの重複回避)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
Position Encoding について
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
29
Related Work
• Gatoに関連するアーキテクチャ
– LLM的なアーキテクチャが様々な制御タスクで有効性を示す
• Decision Transformer
[Chen et al., 2021b; Reid et al., 2022; Zheng et al., 2022]
• Trajectory Transformer [Janner et al., 2021]
– Perceiver IO [Jaegle et al., 2021]
• 長いシーケンスに特化したTransformer由来のアーキテクチャ
• あらゆるモダリティをバイトのシーケンスとしてモデル化可能
• generalist model がサポートするモダリティの範囲を拡大する
ために使用される可能性あり
[Chen et al., 2021b] L. Chen, K. Lu, A. Rajeswaran, K. Lee, A. Grover, M. Laskin, P. Abbeel, A. Srinivas, and I. Mordatch. Decision
transformer: Reinforcement learning via sequence modeling. Advances in Neural Information Processing Systems, 34, 2021b.
[Reid et al., 2022] M. Reid, Y. Yamada, and S. S. Gu. Can Wikipedia help offline reinforcement learning? Preprint
arXiv:2201.12122, 2022.
[Zheng et al., 2022] Q. Zheng, A. Zhang, and A. Grover. Online decision transformer. Preprint arXiv:2202.05607, 2022.
[Janner et al., 2021] M. Janner, Q. Li, and S. Levine. Offline reinforcement learning as one big sequence modeling problem.
Advances in Neural Information Processing Systems, 34, 2021.
[Jaegle et al., 2021] A. Jaegle, S. Borgeaud, J.-B. Alayrac, C. Doersch, C. Ionescu, D. Ding, S. Koppula, D. Zoran, A. Brock, E.
Shelhamer, et al. Perceiver IO: A general architecture for structured inputs & outputs. Preprint arXiv:2107.14795, 2021.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
30
Related Work
• GPT-3[Brown et al., 2020], Gopher[Rae et al., 2021],
Flamingo[Alayrac et al., 2022], PaLM[Chowdhery et al., 2022] 等
– これらのテキスト能力を実世界の多様な環境と実施形態で
リアルタイムに行動できる1つのgeneralist agentに
統一する方法の検討が必要
[Brown et al., 2020] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry,
A. Askell, et al. Language models are few-shot learners. In Advances in Neural Information Processing
Systems, pages 1877–1901, 2020.
[Rae et al., 2021] J. W. Rae, S. Borgeaud, T. Cai, K. Millican, J. Hoffmann, F. Song, J. Aslanides, S. Henderson, R. Ring, S. Young,
et al. Scaling language models: Methods, analysis & insights from training gopher. Preprint arXiv:2112.11446, 2021.
[Alayrac et al., 2022] J.-B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson, K. Lenc, A. Mensch, K. Millican, M. Reynolds,
R. Ring, E. Rutherford, S. Cabi, T. Han, Z. Gong, S. Samangooei, M. Monteiro, J. Menick, S. Borgeaud, A. Brock, A. Nematzadeh,
S. Sharifzadeh, M. Binkowski, R. Barreira, O. Vinyals, A. Zisserman, and K. Simonyan. Flamingo: a visual language model for
few-shot learning. Preprint arXiv:2204.14198, 2022.
[Chowdhery et al., 2022] A. Chowdhery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C.
Sutton, S. Gehrmann, et al. PaLM: Scaling language modeling with pathways. Preprint arXiv:2204.02311, 2022.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
31
Related Work
• generalist agent
– NPI [Reed and De Freitas, 2016]
• 単一のLSTMによって配列のソートや2つの加算など訓練
• 訓練時に見た問題よりも大きな問題に汎化できる
– 音声,画像,テキスト処理タスクを共同学習[Kaiser et al., 2017]
• 画像,音声,カテゴリデータの処理はモダリティ固有のエンコーダ
• 残りのネットワークはタスク間で共有
– “one big net for every thing”[Schmidhuber, 2018]
– 制御可能なマルチタスク言語モデル[Keskar et al., 2019]
• 言語ドメイン,エンティティ間の関係,などに従って指示
[Reed and De Freitas, 2016] S. Reed and N. De Freitas. Neural programmer-interpreters. In International Conference on
Learning Representations, 2016.
[Kaiser et al., 2017] L. Kaiser, A. N. Gomez, N. Shazeer, A. Vaswani, N. Parmar, L. Jones, and J. Uszkoreit. One model to learn
them all. Preprint arXiv:1706.05137, 2017.
[Schmidhuber, 2018] J. Schmidhuber. One big net for everything. Preprint arXiv:1802.08864, 2018.
[Keskar et al., 2019] N. S. Keskar, B. McCann, L. R. Varshney, C. Xiong, and R. Socher. CTRL: A conditional transformer
language model for controllable generation. Preprint arXiv:1909.05858, 2019.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
32
Related Work
• “Single-brain”
– “the processing function of neocortical modules is qualitatively
similar in all neocortical regions. Put shortly, there is nothing
intrinsically motor about the motor cortex, nor sensory about the
sensory cortex” [Mountcastle, 1978]
• 新皮質のモジュールの処理機能は、すべての新皮質の領域で質的に
類似している。簡単に言えば、運動野には本質的に運動的なものは
なく、感覚野には感覚的なものはない。
– 大脳皮質のニューロン列が視覚,聴覚,運動制御で
同じような振る舞いをする
– 知能の構築に必要なのは1つのモデルである
という議論を動機づけた[Hawkins and Blakeslee, 2004]
[Mountcastle, 1978] V. Mountcastle. An organizing principle for cerebral function: the unit module and the distributed
system. The mindful brain, 1978.
[Hawkins and Blakeslee, 2004] J. Hawkins and S. Blakeslee. On intelligence. Macmillan, 2004.

More Related Content

PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
 
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
 
PDF
【DL輪読会】Segment Anything
Deep Learning JP
 
PDF
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
 
PDF
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
 
PPTX
強化学習アルゴリズムPPOの解説と実験
克海 納谷
 
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
 
PDF
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
 
【DL輪読会】Segment Anything
Deep Learning JP
 
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
 
強化学習アルゴリズムPPOの解説と実験
克海 納谷
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 

What's hot (20)

PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
PDF
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
 
PPTX
報酬設計と逆強化学習
Yusuke Nakata
 
PPTX
【DL輪読会】"A Generalist Agent"
Deep Learning JP
 
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
PPTX
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
 
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 
PDF
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Hideki Tsunashima
 
PDF
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
Deep Learning JP
 
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
PDF
【DL輪読会】Mastering Diverse Domains through World Models
Deep Learning JP
 
PDF
不均衡データのクラス分類
Shintaro Fukushima
 
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
 
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
PDF
[DL輪読会]Inverse Constrained Reinforcement Learning
Deep Learning JP
 
PPTX
強化学習における好奇心
Shota Imai
 
PPTX
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP
 
PPTX
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
 
報酬設計と逆強化学習
Yusuke Nakata
 
【DL輪読会】"A Generalist Agent"
Deep Learning JP
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Hideki Tsunashima
 
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
Deep Learning JP
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
【DL輪読会】Mastering Diverse Domains through World Models
Deep Learning JP
 
不均衡データのクラス分類
Shintaro Fukushima
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
[DL輪読会]Inverse Constrained Reinforcement Learning
Deep Learning JP
 
強化学習における好奇心
Shota Imai
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
Ad

Similar to A Generalist Agent (20)

PPTX
Semi-Supervised Neural Architecture Search
harmonylab
 
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
PPTX
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab
 
PPTX
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
PDF
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
PDF
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
 
PDF
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
harmonylab
 
PPTX
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
PPTX
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 
PPTX
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab
 
PPTX
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
 
PPTX
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab
 
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
PPTX
RAPiD
harmonylab
 
PDF
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
harmonylab
 
PPTX
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab
 
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
PPTX
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab
 
PPTX
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
harmonylab
 
Semi-Supervised Neural Architecture Search
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
harmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
RAPiD
harmonylab
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
harmonylab
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab
 
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
harmonylab
 
Ad

More from harmonylab (20)

PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
 
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
 
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
 
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
 
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
 
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
 
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
PDF
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
 
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
PDF
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
PDF
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
 
PPTX
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
 
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
 
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
 
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
 
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
 
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
 
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 

Recently uploaded (11)

PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PDF
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 

A Generalist Agent

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 北海道大学大学院 情報科学院 情報理工学部門 複合情報工学分野 調和系工学研究室 2022年5月20日(金) 博士後期課程 3年 吉田 拓海 論文紹介ゼミ A Generalist Agent
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1 論文情報 • 著者 • 発表 – arxiv • 概要 – 大規模言語モデルに触発され,テキスト出力の領域を超えた 単一の汎化エージェント(Gato)を構築 – モデルとデータについて説明,Gatoの現状の性能を報告 • 論文URL – https://arxiv.org/abs/2205.06175
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 概要 • 単一のニューラルネットによって様々なタスクを学習 – Atariゲーム,画像キャプション生成,チャット, 実世界のロボット制御 など
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 Introduction • 全てのタスクで単一のニューラルネットを使用するメリット – 各ドメインに適したモデルを作成する手間が省ける – 学習データの量と多様性が増加する • 歴史的に見ても汎用的なモデルは 専門的なアプローチより優れている傾向にある [Sutton, 2019] – 例:画像処理におけるCNNの登場 • 本論文で検証する仮説 – 多くのタスクに対応可能なエージェントを学習することは可能 – このエージェントが僅かな追加データでさらに多くのタスクで 成功するように適応可能 [Sutton, 2019] R. Sutton. The bitter lesson. Incomplete Ideas (blog), 13:12, 2019.
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 Gato • モデルはTransformer Decoder • マルチモーダルなデータで学習 – 画像,テキスト,関節トルク,ボタン操作, その他離散的および連続的な観察・動作など Transformer Decoder [Text] sentencepiece -> embedding [Image] 16*16 patch -> ResNet block [離散値] embedding [連続値] mu-law encode -> 離散化(1024) -> embedding 教師有学習 (offline)
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 モデルの学習 • 自己回帰のオフライン教師有学習 – 強化学習エージェントによって生成した学習サンプルを使用 – 画像トークンとエージェントの観測にマスクをかける – オフライン・オンラインの強化学習も原理的には可能 • モデルはTransformer Decoder – 1.18B parameters • 実世界のロボット制御のためこのサイズ • layers: 24 • embedding size: 2048 • feedforward hidden size: 8196 – steps: 1M – batch size: 512 – token sequence length: 1024
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 Deployment • promptによる条件付けを使用 – training時 • 各バッチの前半25%はprompt • 同じタスク,同じソースエージェントによって生成 • promptの半分はエピソードの終わりから – ゴール条件付けとして機能 • 残り半分はエピソードから一様にサンプリング – evaluation時 • 目的タスクの成功デモをpromptに使用
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 Deployment ➀環境の最初の観測 がシーケンスに追加 ➁行動ベクトルを1トークンずつ 自己回帰的にサンプリング ➂行動を構成する全トークンが サンプリングされると行動をデコード ④行動が環境に送られ 新しい観測が追加 ⑤繰り返し
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 Dataset • 使用したデータセット – Agent Experience • シミュレーション,実環境(RGB Stacking real robot)の両方を含む – 自然言語,画像
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 Dataset • 制御タスク(シミュレーション) – エキスパートエージェント* によって学習サンプルを生成 • * SOTAやそれに近い強化学習エージェント – エキスパートリターン** 80%以上でフィルタリングする • ** エキスパートエージェントが達成可能な最大持続性能 – あるタスクについて収集された全エピソードについての windowed average return のセットに対する最大値と定義 • 視覚・言語データ – 次の処理で学習エピソードを作成 • 5つの(画像,テキスト)ペアをサンプリング • それらをトークン化・連結 • 必要な学習シーケンス長にパディング・ランダムトリミング 𝑅𝑖:エピソード𝑖 の総リターン 𝑊 = min(1000,0.1 × 𝑁)
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 Dataset • 制御タスク(実世界) – ロボットのブロック積み上げ [Lee et al., 2021] • 目標:赤を青に積む(緑は無視) – sim2real[Lee et al., 2021]エージェントが収集したデータを使用 • シミュレーションと実環境両方 – 2つの課題 • Skill Mastery (5つのテストセットも学習可) • Skill Generalization (5つのテストセットは学習不可) [Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D. Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021. ※ブロックの形には色々パターンがある
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 制御タスク(シミュレーション)の性能 • Gatoを50回ロールアウトしたスコアの平均 • エキスパートスコアとの比較 – エキスパートスコアの x% 以上を達成できたタスクの数 y – 604タスク中450以上でエキスパートの50%以上を達成 ランダムなエージェント エキスパートエージェント
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 制御タスク(シミュレーション)の性能 • ALE Atari (全51ゲーム) – 23のゲームで人間の平均スコアを達成 – 11のゲームで人間の2倍のスコアを達成 – ALE Atari 専門の Atariエージェント(Gato 1.18B) を学習させた • 44のゲームで人間の平均スコアを達成 – 他7ゲームはデータ生成に使用したエキスパートも 人間の平均スコア以下 • AtariエージェントはGatoを凌駕 – Gatoをスケールアップすることで性能向上する可能性を示唆
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 制御タスク(シミュレーション)の性能 • BabyAI – ほぼすべてのレベルでエキスパートスコア80%以上を達成 – 公開ベースライン BabyAI 1.0, BabyAI 1.1 [Hui et al., 2020] • 単一のタスクだけで100万回のデモを使って学習させたもの • 77%と90% • Meta-World (全45タスク) – 44タスクで50%以上 – 35タスクで80%以上 – 3タスクで90%以上 • Canonical DM Control Suite (全30タスク) – 21タスクで50%以上 – 18タスクで80%以上 [Hui et al., 2020] D. Y.-T. Hui, M. Chevalier-Boisvert, D. Bahdanau, and Y. Bengio. Babyai 1.1. Preprint arXiv:2007.12770, 2020.
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 モデルサイズの増加による性能 • 同等のトークン数であれば モデルサイズが大きくなるにつれて性能向上
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 Out of distribution tasks の性能 • 以下の4タスクをホールドアウトし分布外タスクの評価に使用 – cartpole.swingup (DM Control Suite) – assembly-v2 (Meta-World) – order_of_apples_forage_simple (DM Lab) – boxing (ALE Atari) • 理想 – 望ましい行動のデモを含むプロンプトによる条件付け によって新しいタスクに適応 • メモリ制約,デモのシーケンス長が非常に長い • 現実の実験 – 限られた数(詳細不明)のデモでfine-tune • モデルは364M ver
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 Out of distribution tasks の性能 図引用 cartpole swingup S. Tunyasuvunakool, A. Muldal, Y. Doron, S. Liu, S. Bohez, J. Merel, T. Erez, T. Lillicrap, N. Heess, and Y. Tassa. dm_control: Software and tasks for continuous control. Software Impacts, 6:100022, 2020. DMLab C. Beattie, J. Z. Leibo, D. Teplyashin, T. Ward, M. Wainwright, H. Küttler, A. Lefrancq, S. Green, V. Valdés, A. Sadik, et al. DeepMind lab. Preprint arXiv:1612.03801, 2016. Atari boxing Wikipedia Contributors. Boxing (Atari 2600). Wikipedia. Published March 15, 2022. Accessed May 20, 2022. https://en.wikipedia.org/wiki/Boxing_(Atari_2600) ?
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 Out of distribution tasks の性能 • Cartpole, Meta-world assembly (左2つ) – 画像処理不要のタスク – どちらも同様の傾向 – no control data (画像とテキストのみで事前学習)の利点は無い • DMLab – same domain only data が最良 • 他の環境のデータを追加する利点は無い • DMLabは自然に見える画像が入力されているため – no control data の性能が高い • Atari Boxing – 事前学習の効果無し • ゲームの入力画像が他のデータと視覚的に非常に異なるため と著者らは仮定
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 制御タスク(実世界)の性能 • 制御タスク(実世界) – ロボットのブロック積み上げ [Lee et al., 2021] • 目標:赤を青に積む(緑は無視) – sim2real[Lee et al., 2021]エージェントが収集したデータを使用 • シミュレーションと実環境両方 – 2つの課題 • Skill Mastery (5つのテストセットも学習可) • Skill Generalization (5つのテストセットは学習不可) [Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D. Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021. ※ブロックの形には色々パターンがある 再掲
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 制御タスク(実世界)の性能 • Skill Generalization Performance (Real) – 各テストセットごとに200エピソード評価 – BC-IMP[Lee et al., 2021]と同等の性能 • Skill Mastery Performance (Real) – BC-IMP[Lee et al., 2021]と同等の性能 [] [Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D. Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021.
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 制御タスク(実世界)の性能 fine-tune • テストセットを使用した fine-tune の性能を調査(左図) – 先行研究[Lee et al., 2022]と同様の設定 – 10エピソードでエキスパート性能を達成 • シミュレーション環境でも fine-tune の性能を調査(右図) – シミュレーションについては複数のモデルサイズで比較 • モデルサイズが大きいと少ないエピソードでより良い適応 • モデルサイズが大きいことで,多様な学習データから学習した 表現を使用可能であることを示唆 [Lee et al., 2022] A. X. Lee, C. M. Devin, J. T. Springenberg, Y. Zhou, T. Lampe, A. Abdolmaleki, and K. Bousmalis. How to spend your robot time: Bridging kickstarting and offline reinforcement learning for vision-based robotic manipulation. Preprint arXiv:2205.03353, 2022.
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 制御タスク(実世界)の性能 fine-tune • 「青を緑に積む」ことを目的とした新しいタスクを設定 – 本来は「赤を青に積む」 – 3Dマウスを使用して実機で500回(2時間45分)のデモデータ • fine tune用のデータに追加 – finetuneによってGatoは60%の成功率を達成 – ゼロから学習させたBCベースラインの成功率は0.5% • 青に向かって移動し,時々拾い上げて緑に置くが 安定した積みは殆ど達成されず 本来の タスク 新しい タスク
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 視覚・言語タスクの性能(生成サンプル) Text関連については定量評価なし
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 視覚・言語タスクの性能(生成サンプル) • Gatoとのチャット • 関連する返答をするが,表面的・事実に反することが多い – さらなるスケーリングで改善される可能性が高い
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 Broader Impact • generalist agentはvision-language modelとしても機能 – vision-language modelで議論されているような懸念を引き継ぐ • 加えて generalist agent は現実世界で行動可能 – ユーザがエージェントを擬人化することに繋がる • 誤作動した場合に誤った信頼 • 悪用 – アーケードゲームの格闘を間違って伝達
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 Conclusions • Transformer は multi-task multi-embodiment policyとして有効 – embodiment: 身体性 • また few-shot out-of-distribution task learning においても有望 • 将来的には新しい行動の学習のデフォルトの出発点となる – prompting, fine-tuning • スケールアップについて – 全タスクの性能はパラメータ,データ,計算能力の 規模に応じて向上する – より優れたハードウェアとネットワーク構造によって リアルタイムのロボット制御機能を維持したまま より大きなモデルを学習させることが可能になる – こうしたスケールアップによって 有用な generalist agent を構築可能
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 画像と離散値の処理例
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 連続値の処理例 Mu-law Encode について WaveNet[Oord et al., 2016]と同様 [Oord et al., 2016] A. v. d. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu. WaveNet: A generative model for raw audio. Preprint arXiv:1609.03499, 2016. (𝜇 = 100, 𝑀 = 256) 離散化(Discretize) について [-1.0, 1.0]にclip 1024個のビンで離散化 整数値をシフト(textとの重複回避)
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 Position Encoding について
  • 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 29 Related Work • Gatoに関連するアーキテクチャ – LLM的なアーキテクチャが様々な制御タスクで有効性を示す • Decision Transformer [Chen et al., 2021b; Reid et al., 2022; Zheng et al., 2022] • Trajectory Transformer [Janner et al., 2021] – Perceiver IO [Jaegle et al., 2021] • 長いシーケンスに特化したTransformer由来のアーキテクチャ • あらゆるモダリティをバイトのシーケンスとしてモデル化可能 • generalist model がサポートするモダリティの範囲を拡大する ために使用される可能性あり [Chen et al., 2021b] L. Chen, K. Lu, A. Rajeswaran, K. Lee, A. Grover, M. Laskin, P. Abbeel, A. Srinivas, and I. Mordatch. Decision transformer: Reinforcement learning via sequence modeling. Advances in Neural Information Processing Systems, 34, 2021b. [Reid et al., 2022] M. Reid, Y. Yamada, and S. S. Gu. Can Wikipedia help offline reinforcement learning? Preprint arXiv:2201.12122, 2022. [Zheng et al., 2022] Q. Zheng, A. Zhang, and A. Grover. Online decision transformer. Preprint arXiv:2202.05607, 2022. [Janner et al., 2021] M. Janner, Q. Li, and S. Levine. Offline reinforcement learning as one big sequence modeling problem. Advances in Neural Information Processing Systems, 34, 2021. [Jaegle et al., 2021] A. Jaegle, S. Borgeaud, J.-B. Alayrac, C. Doersch, C. Ionescu, D. Ding, S. Koppula, D. Zoran, A. Brock, E. Shelhamer, et al. Perceiver IO: A general architecture for structured inputs & outputs. Preprint arXiv:2107.14795, 2021.
  • 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 30 Related Work • GPT-3[Brown et al., 2020], Gopher[Rae et al., 2021], Flamingo[Alayrac et al., 2022], PaLM[Chowdhery et al., 2022] 等 – これらのテキスト能力を実世界の多様な環境と実施形態で リアルタイムに行動できる1つのgeneralist agentに 統一する方法の検討が必要 [Brown et al., 2020] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, et al. Language models are few-shot learners. In Advances in Neural Information Processing Systems, pages 1877–1901, 2020. [Rae et al., 2021] J. W. Rae, S. Borgeaud, T. Cai, K. Millican, J. Hoffmann, F. Song, J. Aslanides, S. Henderson, R. Ring, S. Young, et al. Scaling language models: Methods, analysis & insights from training gopher. Preprint arXiv:2112.11446, 2021. [Alayrac et al., 2022] J.-B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson, K. Lenc, A. Mensch, K. Millican, M. Reynolds, R. Ring, E. Rutherford, S. Cabi, T. Han, Z. Gong, S. Samangooei, M. Monteiro, J. Menick, S. Borgeaud, A. Brock, A. Nematzadeh, S. Sharifzadeh, M. Binkowski, R. Barreira, O. Vinyals, A. Zisserman, and K. Simonyan. Flamingo: a visual language model for few-shot learning. Preprint arXiv:2204.14198, 2022. [Chowdhery et al., 2022] A. Chowdhery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C. Sutton, S. Gehrmann, et al. PaLM: Scaling language modeling with pathways. Preprint arXiv:2204.02311, 2022.
  • 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 31 Related Work • generalist agent – NPI [Reed and De Freitas, 2016] • 単一のLSTMによって配列のソートや2つの加算など訓練 • 訓練時に見た問題よりも大きな問題に汎化できる – 音声,画像,テキスト処理タスクを共同学習[Kaiser et al., 2017] • 画像,音声,カテゴリデータの処理はモダリティ固有のエンコーダ • 残りのネットワークはタスク間で共有 – “one big net for every thing”[Schmidhuber, 2018] – 制御可能なマルチタスク言語モデル[Keskar et al., 2019] • 言語ドメイン,エンティティ間の関係,などに従って指示 [Reed and De Freitas, 2016] S. Reed and N. De Freitas. Neural programmer-interpreters. In International Conference on Learning Representations, 2016. [Kaiser et al., 2017] L. Kaiser, A. N. Gomez, N. Shazeer, A. Vaswani, N. Parmar, L. Jones, and J. Uszkoreit. One model to learn them all. Preprint arXiv:1706.05137, 2017. [Schmidhuber, 2018] J. Schmidhuber. One big net for everything. Preprint arXiv:1802.08864, 2018. [Keskar et al., 2019] N. S. Keskar, B. McCann, L. R. Varshney, C. Xiong, and R. Socher. CTRL: A conditional transformer language model for controllable generation. Preprint arXiv:1909.05858, 2019.
  • 33. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 32 Related Work • “Single-brain” – “the processing function of neocortical modules is qualitatively similar in all neocortical regions. Put shortly, there is nothing intrinsically motor about the motor cortex, nor sensory about the sensory cortex” [Mountcastle, 1978] • 新皮質のモジュールの処理機能は、すべての新皮質の領域で質的に 類似している。簡単に言えば、運動野には本質的に運動的なものは なく、感覚野には感覚的なものはない。 – 大脳皮質のニューロン列が視覚,聴覚,運動制御で 同じような振る舞いをする – 知能の構築に必要なのは1つのモデルである という議論を動機づけた[Hawkins and Blakeslee, 2004] [Mountcastle, 1978] V. Mountcastle. An organizing principle for cerebral function: the unit module and the distributed system. The mindful brain, 1978. [Hawkins and Blakeslee, 2004] J. Hawkins and S. Blakeslee. On intelligence. Macmillan, 2004.