RLHF-Reward-Modeling项目中的Pairwise Preference Model详解-CSDN博客

本文链接：https://blog.csdn.net/gitblog_01031/article/details/149015345

RLHF-Reward-Modeling项目中的Pairwise Preference Model详解

项目概述

RLHF-Reward-Modeling是一个专注于强化学习人类反馈(RLHF)中奖励模型构建的开源项目。该项目提供了一套完整的工具链，用于训练和评估基于成对偏好的奖励模型。本文将重点介绍其中的Pairwise Preference Model（成对偏好模型），这是RLHF流程中至关重要的组成部分。

技术背景

在强化学习人类反馈(RLHF)流程中，奖励模型扮演着关键角色。它通过学习人类对模型输出的偏好判断，为强化学习阶段提供训练信号。Pairwise Preference Model通过比较两个候选回复的优劣，预测人类更可能选择的回复，这种成对比较的方式比绝对评分更能准确反映人类偏好。

环境配置

要运行该项目，需要配置以下环境：

硬件要求：建议使用配备NVIDIA GPU的Linux系统
软件依赖：
- CUDA工具包(推荐12.1或12.2版本)
- Python 3.10.9
- PyTorch 2.1.2
- Flash Attention优化库

具体安装步骤如下：

# 创建conda环境
conda create -n pm_dev python=3.10.9
conda activate pm_dev

# 安装基础依赖
pip3 install torch==2.1.2 torchvision torchaudio
pip install flash-attn

# 安装Axolotl训练框架
git clone https://github.com/OpenAccess-AI-Collective/axolotl
cd axolotl
pip install -e .

# 安装FastChat
git clone https://github.com/lm-sys/FastChat.git
cd FastChat
pip install -e .

# 安装其他工具
pip install wandb deepspeed

数据集准备

项目支持多种格式的偏好数据集，核心要求是将数据组织为特定的JSON格式：

[
  {
    "content": "[CONTEXT] \n\n<turn> user\n问题示例\n[RESPONSE A] 回答A [RESPONSE B] 回答B",
    "role": "user"
  },
  {
    "content": "B",  # 表示人类偏好选择
    "role": "assistant"
  }
]

项目提供了process_pair_data.py脚本帮助转换标准格式数据。同时，项目维护了一系列公开可用的偏好数据集，包括：

700K规模的混合偏好数据集
多种开源对话偏好数据集

这些数据集已经过预处理，可直接用于模型训练。

半监督奖励建模(SSRM)

项目创新性地提出了半监督奖励建模(Semi-Supervised Reward Modeling)方法，该方法通过以下步骤利用未标注数据提升模型性能：

伪标注：使用现有模型为未标注数据预测偏好
置信度阈值过滤：保留模型高置信度的预测结果
监督微调：在筛选后的数据上继续训练模型

这种方法显著降低了对人工标注数据的依赖，同时保持了模型性能。实现代码位于pseudo_label.py和conf_threshold.py中。

模型训练

项目支持多种主流开源模型，包括LLaMA、Gemma、Mistral等系列。以下是使用Gemma-2B模型训练的示例命令：

CUDA_VISIBLE_DEVICES="0,1,2,3" torchrun --nproc_per_node 4 \
  --master_port 20001 -m axolotl.cli.train gemma-2b-it.yaml

对于显存不足的情况，可以使用DeepSpeed Stage 3优化：

CUDA_VISIBLE_DEVICES="0,1,2,3" torchrun --nproc_per_node 4 \
  --master_port 20001 -m axolotl.cli.train gemma-2b-it.yaml \
  --deepspeed deepspeed_configs/deepspeed_3.json

重要提示：使用DeepSpeed Stage 3时，模型保存策略需要特殊配置，建议将保存间隔设置为每个epoch结束时。

模型使用示例

训练好的偏好模型可用于比较两个回复的优劣。以下是一个完整的使用示例：

import torch
import numpy as np
from transformers import AutoModelForCausalLM, AutoTokenizer

# 初始化模型和分词器
model = AutoModelForCausalLM.from_pretrained(
    "模型路径",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
).cuda()

tokenizer = AutoTokenizer.from_pretrained("模型路径", use_fast=True)

# 准备输入
context = "多轮对话历史..."
response_A = "回答A"
response_B = "回答B"

# 构建提示模板
prompt = f"[CONTEXT] {context} [RESPONSE A] {response_A} [RESPONSE B] {response_B}"

# 编码输入
input_ids = tokenizer.encode(prompt, return_tensors='pt').cuda()

# 模型推理
with torch.no_grad():
    outputs = model(input_ids)
    
# 解析结果
logit_A = outputs.logits[0, -1, tokenizer.encode("A")[0]].item()
logit_B = outputs.logits[0, -1, tokenizer.encode("B")[0]].item()

# 计算选择概率
prob_A = np.exp(logit_A) / (np.exp(logit_A) + np.exp(logit_B))
print(f"选择A的概率: {prob_A:.4f}")

对于多个候选回复的比较，建议采用锦标赛式排序策略，将复杂度控制在O(n)级别。