YouTube nnabla channelの次の動画で利用したスライドです。
【AI論文解説】RLHF不要なLLMの強化学習手法Direct Preference Optimization(+α)
https://youtu.be/s4OqzfDyjXY?si=nnDFza9x1SGkTgCX
以下の論文を解説しています。
From r to Q∗: Your Language Model is Secretly a Q-Function
https://arxiv.org/abs/2404.12358