【AI論文解説】 RLHF不要なLLMの強化学習手法: Direct Preference Optimization(+α)

Technology Infrastructure Center
Yu Ishihara
Copyright 2023 Sony Group Corporation
From r to Q∗: Your Language Model is Secretly a Q-Function

Direct Policy Optimization (DPO)の続報
こちらの論文を本日は紹介

Direct Policy Optimization (DPO)とは?
• RLHF(Reinforcement Learning from Human Feedback)をせずに、直接(Direct)方策
の最適化を行って(言語)モデルの性能を上げる手法
：
報酬関数を学習する
学習した報酬関数で
強化学習主にする
：
報酬関数の学習無しに
直接方策の学習を行う

DPOの課題
• 1ページ前のDPOの最適化はContextual-Banditの設定で解いたときに得られる
式になっている
• RLHFは
で報酬をもらって終了する設定
で報酬をもらって終了する設定
で学習する場合はそれぞれの単語単位で評価されるのに対し、
は文をひとまとめで評価して最適化している違いがある

token-level設定に向けた方針
• 報酬関数を方策関数を使って表現する
• Preferenceの式に代入する
• 方策の関数としてPreferenceの式を得る
← のときはこんな感じに
表現できていた
このの流れに相当することをこちらの設定で行う→

報酬関数を方策関数を使って表現1
• 論文内の式がわかりにくい・・・
• このように解釈するのがわかりやすい?
この括弧はこっちでは
を解く設定で、報酬関数にの方策とのクロスエントロピー最小化項がある
と言っているがこっちではない→

• Max-Entropy RLでの最適方策は以下の形式で表現できることが知られている[1]
価値関数はエントロピー項の影響で
あまりみない形になる
初見ではなぜこうなるのか全く分からないと思いますが、↑の定義の下、とは以下のような関係に
ここでさらに、割引率で状態遷移が決定的だと仮定すると、報酬関数、関数、関数は次の関係にある
の報酬でのペナルティ

• 今、token-level DPOのpreference式を方策を使って書くことを目指している
この和が方策関数を使ってどう表現されるか知りたい
前ページで報酬関数と、の関係はわかっている
並び替えて和をとってみると
最適方策の形はこうだった
の部分を除けば、方策の和を方策関数を使って書くことができている

方策関数を使ったPreferenceの表現
• 報酬和がどのような形になるか分かったのでPreferenceの式に入れる
分子分母にあるので消える
関数をの最適化設定でも方策関数だけを使って表現することができた

Token-level DPOの特徴1
• 方策は何を学習するのか? だった
なので
上のように表現できる報酬関数から得られる最適方策は
同じになることが知られている
特徴：以下を報酬関数とする方策の学習を行っている
特徴：この部分がに相当している
の相対的な良さの学習のみが行われている
特徴：どんなシフト量だったとしても同じ方策に到達できることが確認できる

• DPOはtoken単位でcredit assignmentを学習できるか?
• token levelでの学習をしているので出来ることが想定される
• 出力時のcreditが次の式で表現されるはずなのでこれで可視化
• 報酬関数
学習した方策の対数尤度学習元の方策の対数尤度
元の質問文変更した質問文
変更されたに惑わされずに、ちゃんと必要な情報にが与えられている

• 最近のLLMは探索アルゴリズムと組み合わせることで、推論時に回答の精度
を向上させる手法が提案されている
これを今回導出した報酬関数の別表現で置き換えたものを考える
この式を見る限りでは、単純に得られた方策の対数尤度を基準として探索しても良いはず
実際精度が上がり
報告されている傾向に
類似することを確認

• DPOを実行する前にSupervised Fine-Tuning(SFT)をLLMに対して行っていると、
DPOを実行した後、対数尤度が元の値より減少する現象が知られている
• 今回のtoken-level設定で考えることでこの現象を説明できるか?
• 対数尤度比を考えると学習前はこの比の期待値は0
学習後はreference policyとは異なるので、期待値は0以下になる
が出す出力で見ると暗黙的な報酬の値は常に減少する

Diffusionモデルの学習へのDPO適用
• 逆拡散過程の操作を方策と見立て、より期待した画像を生成できるように
ノイズ画像デノイズ画像
コンテキスト
：画像
このような決定的な状態遷移と仮定
↑は先ほど求めたこちらの拡散モデル版←
逆拡散過程の操作に対応

Generative AIへのDPO応用
• UserのPromptから画像生成するプロセスの最適化にDPOを適用する

【AI論文解説】 RLHF不要なLLMの強化学習手法: Direct Preference Optimization(+α)

More Related Content

Similar to 【AI論文解説】 RLHF不要なLLMの強化学習手法: Direct Preference Optimization(+α)

More from Sony - Neural Network Libraries

Recently uploaded

【AI論文解説】 RLHF不要なLLMの強化学習手法: Direct Preference Optimization(+α)