SlideShare a Scribd company logo
2
Most read
7
Most read
8
Most read
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Secrets of RLHF in Large Language Models Part I:
PPO 今井 翔太(東京⼤学 松尾研究室)
Twitter:えるエル@ImAI_Eruel
DL輪読会2023/07/21
書誌情報
nタイトル:Secrets of RLHF in Large Language Models Part I: PPO
n出典:https://arxiv.org/abs/2307.04964
n著者:Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang,
Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, Limao Xiong, Lu Chen, Zhiheng Xi, Nuo Xu,
Wenbin Lai, Minghao Zhu, Cheng Chang, Zhangyue Yin, Rongxiang Weng, Wensen
Cheng, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu,
Xuanjing Huang
n所属:ByteDance Inc
Shota Imai | The University of Tokyo
2
今回の発表について
n今井の最近の稼働が限界のためだいぶざっくりとしたまとめです
n読んでいて気づいたのですが,論⽂の構成が微妙に雑な気がしており,適
宜⾃分の解釈を加えています(⽤語が未定義,具体的になんのモデルが使
われているのか不明等)
Shota Imai | The University of Tokyo
3
論⽂概要
n⼤規模⾔語モデルの学習ではRLHFが使われる
n本論⽂では⼀番よく使われるRL⼿法のPPOについて,アルゴリズムのど
の部分が学習に影響を与えるのか調査
n上記の調査によって得られた知⾒を元に,新規アルゴリズムであるPPO-
maxを提案
nアブストの最後に書かれたお気持ち
「主要なLLMのRLHF実装が謎すぎて研究が進まんので実装を公開してく
れ」
Shota Imai | The University of Tokyo
4
RLHF(Reinforcement Learning From Human Feedback)
nChatGPTなどで,出⼒を⼈間のこのみに合わせるために⾏う強化学習
n⼈間の⼿でスコアづけしたデータから報酬モデルを作成し,LLMの出⼒を
⽅策とみなして学習を⾏う
Shota Imai | The University of Tokyo
5
RLFHの⼿順
InstructGPTにおけるRLHFは以下の⼿順で⾏われる
1.報酬モデルの作成
2.報酬モデルから出⼒される報酬をもとにLLMを⽅策とみなして学習
Shota Imai | The University of Tokyo
6
Reward Modelの学習
n⼈間のフィードバックをもとに,ある⽂章に対する「好ましさ」を報酬と
して採点するニューラルネットワーク
nある⼀つのプロンプトに対する出⼒を複数⽤意し,それらに⼈間がランク
づけをしたデータをもとに学習
プロンプト:上司との関係を改善したいのですが,どうしたらいいでしょう
か?⼀⾔で答えてください.
- 出⼒1:「 上司との関係を改善するには,上司とのコミュニケーションを取り,上司のことを理解してい
く必要があります。また,上司への謙虚な態度や協⼒的な態度を⾒せることも⼤切です。 」→スコア:0.6
- 出⼒2:「原因を特定して対策を講じることが⼤切です.相⼿の働き⽅や性格を理解することも⼤切です.
例えば,相⼿の働き⽅が気に⼊らない場合は,相⼿に対して意⾒を述べることで改善してもらうことがで
きます.また,相⼿の性格を理解することで,相⼿に対してうるさくないように気をつけることもできま
す. ただし,原因を特定して対策を講じることは難しい」→スコア:0.1
- 出⼒3:「ご相談の⽅は、相⼿の⼈格を尊重し、相⼿の意⾒を聞くことを意識しましょう。また、⾃分の意
⾒もしっかりと伝え、相⼿に対して感謝の気持ちを持つことも⼤切です。 」→スコア:0.3
n このプロンプトとそれに対するGPT出⼒(回答)を⼊⼒すると,GPTの出⼒がどれくらい好ましい
か,報酬という形で採点してくれるモデル(=Reward Model)が出来上がる
Shota Imai | The University of Tokyo
7
報酬モデルの学習/理論
nLabelerがプロンプトの出⼒に対してランク付を⾏い,そのランク付きデータか
ら学習
n学習に使⽤するモデルは,GPT-3のSFTで学習を⾏なったモデルのうち,パラ
メータ数6B(60億)のモデルの最終層のレイヤを除いて,報酬のスカラー値を
⼀つ出⼒するようにしたもの
- 175BのRMは不安定で機能しなかったとのこと
- この6BのRMを,全てのInstructGPTの学習に使⽤
nlabelerは,あるプロンプトに対する出⼒をSFTを⾏なったモデルから複数得て,
それをK=4からK=9の間でランク付する
nRMはプロンプト𝑥に対する出⼒yを⼊⼒として,報酬を出⼒するモデル𝑟!(𝑥, 𝑦)と
書ける
nRMは,出⼒の⽐較を利⽤して以下の損失関数で学習される
- 𝑦!はより好ましいランクの出⼒,𝑦"は 𝑦!と⽐較してランクが低い出⼒
- ある1つのプロンプト𝑥に対し,ランク付けされた出⼒K個が存在するため,組み合わせの数は #𝐶$個存在する
(ランク数が4個なら %𝐶$ =6個)
- σはシグモイド間数
- この損失の最⼩化により, 𝑟&(𝑥, 𝑦)はあるプロンプトに関して⼈間が好ましい出⼒により⾼い報酬を出すようにな
る
Shota Imai | The University of Tokyo
8
Reward Modelを使った強化学習
n ここまでで得たSFTのGPTモデルとRMを⽤いて強化学習を⾏う
n 強化学習のアルゴリズムとしてはPPO(Proximal Policy Optimization)を使⽤
n プロンプトxに対するモデルの出⼒𝜋!"#(y | x)に対して,⼊⼒xと出⼒yに対するRMによる報酬の
出⼒𝑟$ (𝑥, 𝑦)を使う
- ⼈間の好みを反映したRMがGPTモデルの出⼒の良さを報酬として評価するため,報酬を最⼤
化する強化学習によって学習されたモデルは,良い報酬を得る=⼈間に取って好ましい出⼒を
するように改善される
9
GPT
⼊⼒のプロンプトx:
上司との関係を改善したいのですが,どうし
たらいいでしょうか?⼀⾔で答えてください.
GPTの出⼒y:
上司との関係を改善するには,上司とのコミュニケー
ションを取り,上司のことを理解していく必要がありま
す。また,上司への謙虚な態度や協⼒的な態度を⾒せる
ことも⼤切です。
Reward
Model
⼊⼒のプロンプトx
+
GPTの出⼒y
報酬: 0.6
⽅策勾配法(PPO)による強化学習
PPO
n強化学習における⽅策勾配法の⼀つTRPOを,より実装を単純にし,強⼒
にしたもの
- TRPO(Trust Region Policy Optimization):⽅策勾配において適切な勾配の更新幅
を保証
n更新前の⽅策と新しい⽅策の確率密度⽐が,ある値1 − 𝜖, 1 + 𝜖の範囲に収
まるよう制約をかけて学習
n価値モデルは,報酬和とのMSEで学習
Shota Imai | The University of Tokyo
10
実際に使われているPPO
n実際には,PPOのロスに加え,⼀般的なデータセットへの性能を失わない
ようにする項を加えて学習
Shota Imai | The University of Tokyo
11
全体像
Shota Imai | The University of Tokyo
12
本論⽂のLLM学習の設定
n主に7 Bのモデルを使⽤
nベースモデルはLLaMA-7B
nHH-RLHFデータセットでRLHF
nHH-RLH:無害なLLMを学習するためのデータセット
Shota Imai | The University of Tokyo
13
単純なPPO学習中のさまざまな指標変化
n報酬は上昇するが,RLする前の SFTモデルより出⼒が悪くなる
n出⼒の⻑さが⼤きくなる→パープレキシティが⼩さくなる傾向
Shota Imai | The University of Tokyo
14
PPOの改良で考慮すべき要素
Shota Imai | The University of Tokyo
15
星は,PPO-Maxで実際に改良した要素
報酬のクリッピング
n従来の強化学習では,クリッピングはそこまで効果がないか逆に悪影響で
あることが多い
nRLHFでは,学習の後半にいくにつれて報酬が⾼くなる効果
Shota Imai | The University of Tokyo
16
トークンレベルのKLペナルティ
n報酬モデルの報酬に対し,SFTモデルとの乖離を防ぐKL項を追加
Shota Imai | The University of Tokyo
17
⽅策モデルと価値モデルの初期化
nそもそもRLHFの⽅策と価値モデルの初期化はかなり特殊
n事前学習+SFTを⾏ったLLMモデル(⽅策),報酬モデル(価値)を使ってい
る
nこれがどう影響するのか?
- ⽅策モデル:単なる事前学習モデルを⽅策にすると性能悪化.SFTモデルを使うべき
- 価値モデル:報酬モデルを使おうがそうでなかろうがそんなに変わらない
n価値モデルの初期化についてさらに考察
- SFTモデルの出⼒層を変えて初期化
- 頑張って学習した報酬モデルのみを最適化
Shota Imai | The University of Tokyo
18
Shota Imai | The University of Tokyo
19
PPO-maxを使ったLLMの評価 / vs. SFTモデル
n評価はharmless evaluationで,学習に使わなかったデータを⼊⼒とし,
出⼒の無害性を評価
Shota Imai | The University of Tokyo
20
ChatGPT(gpt-3.5)との⽐較
Shota Imai | The University of Tokyo
21

More Related Content

What's hot (20)

PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
PDF
Transformer メタサーベイ
cvpaper. challenge
 
PDF
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
 
PDF
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
PDF
【DL輪読会】GPT-4Technical Report
Deep Learning JP
 
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
PDF
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
 
PDF
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
 
PPTX
近年のHierarchical Vision Transformer
Yusuke Uchida
 
PPTX
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics
 
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
PPTX
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
 
PPTX
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
PDF
深層生成モデルと世界モデル
Masahiro Suzuki
 
PDF
点群深層学習 Meta-study
Naoya Chiba
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
Transformer メタサーベイ
cvpaper. challenge
 
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
 
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
【DL輪読会】GPT-4Technical Report
Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
 
近年のHierarchical Vision Transformer
Yusuke Uchida
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
深層生成モデルと世界モデル
Masahiro Suzuki
 
点群深層学習 Meta-study
Naoya Chiba
 

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 
PDF
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
 
Ad

Recently uploaded (10)

PDF
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
PDF
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
PDF
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
PDF
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
PDF
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
PDF
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
PDF
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
PDF
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
PDF
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
Ad

【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"