Technology Infrastructure Center
Yu Ishihara
Copyright 2023 Sony Group Corporation
From r to Q∗: Your Language Model is Secretly a Q-Function
Direct Policy Optimization (DPO)の続報
こちらの論文を本日は紹介
Direct Policy Optimization (DPO)とは?
• RLHF(Reinforcement Learning from Human Feedback)をせずに、直接(Direct)方策
の最適化を行って(言語)モデルの性能を上げる手法
:
報酬関数を学習する
学習した報酬関数で
強化学習 主に する
:
報酬関数の学習無しに
直接方策の学習を行う
DPOの課題
• 1ページ前のDPOの最適化はContextual-Banditの設定で解いたときに得られる
式になっている
• RLHFは
で報酬をもらって終了する設定
で報酬をもらって終了する設定
で学習する場合はそれぞれの単語単位 で評価されるのに対し、
は文をひとまとめで評価して最適化している違いがある
token-level設定に向けた方針
• 報酬関数を方策関数を使って表現する
• Preferenceの式に代入する
• 方策の関数としてPreferenceの式を得る
← のときはこんな感じに
表現できていた
この の流れに相当することをこちらの設定で行う→
報酬関数を方策関数を使って表現1
• 論文内の式がわかりにくい・・・
• このように解釈するのがわかりやすい?
この括弧はこっちでは
を解く設定で、報酬関数に の方策とのクロスエントロピー最小化項がある
と言っているがこっちではない→
報酬関数を方策関数を使って表現2
• Max-Entropy RLでの最適方策は以下の形式で表現できることが知られている[1]
価値関数はエントロピー項の影響で
あまりみない形になる
初見ではなぜこうなるのか全く分からないと思いますが、↑の定義の下、 と は以下のような関係に
ここでさらに、割引率 で状態遷移が決定的だと仮定すると、報酬関数、 関数、 関数は次の関係にある
の報酬 でのペナルティ
報酬関数を方策関数を使って表現3
• 今、token-level DPOのpreference式を方策を使って書くことを目指している
この和が方策関数を使ってどう表現されるか知りたい
前ページで報酬関数と 、 の関係はわかっている
並び替えて和をとってみると
最適方策の形はこうだった
の部分を除けば、方策の和を方策関数を使って書くことができている
方策関数を使ったPreferenceの表現
• 報酬和がどのような形になるか分かったのでPreferenceの式に入れる
分子分母にあるので消える
関数を の最適化設定でも方策関数だけを使って表現することができた
Token-level DPOの特徴1
• 方策は何を学習するのか? だった
なので
上のように表現できる報酬関数から得られる最適方策は
同じになることが知られている
特徴 :以下を報酬関数とする方策の学習を行っている
特徴 :この部分が に相当している
の相対的な良さの学習のみが行われている
特徴 :どんなシフト量 だったとしても同じ方策に到達できることが確認できる
Token-level DPOの特徴2
• DPOはtoken単位でcredit assignmentを学習できるか?
• token levelでの学習をしているので出来ることが想定される
• 出力時のcreditが次の式で表現されるはずなのでこれで可視化
• 報酬関数
学習した方策の対数尤度 学習元の方策の対数尤度
元の質問文 変更した質問文
変更された に惑わされずに、ちゃんと必要な情報に が与えられている
Token-level DPOの特徴3
• 最近のLLMは探索アルゴリズムと組み合わせることで、推論時に回答の精度
を向上させる手法が提案されている
これを今回導出した報酬関数の別表現で置き換えたものを考える
この式を見る限りでは、単純に得られた方策の対数尤度を基準として探索しても良いはず
実際精度が上がり
報告されている傾向に
類似することを確認
Token-level DPOの特徴4
• DPOを実行する前にSupervised Fine-Tuning(SFT)をLLMに対して行っていると、
DPOを実行した後、対数尤度が元の値より減少する現象が知られている
• 今回のtoken-level設定で考えることでこの現象を説明できるか?
• 対数尤度比を考えると学習前はこの比の期待値は0
学習後はreference policyとは異なるので、期待値は0以下になる
が出す出力で見ると 暗黙的な 報酬の値は常に減少する
Diffusionモデルの学習へのDPO適用
• 逆拡散過程の操作を方策と見立て、より期待した画像を生成できるように
ノイズ画像 デノイズ画像
コンテキスト
:画像
このような決定的な状態遷移と仮定
↑は先ほど求めたこちらの拡散モデル版←
逆拡散過程の操作に対応
Generative AIへのDPO応用
• UserのPromptから画像生成するプロセスの最適化にDPOを適用する

【AI論文解説】 RLHF不要なLLMの強化学習手法: Direct Preference Optimization(+α)