arxiv: https://arxiv.org/abs/2305.14992
问题背景:当前LLM推理受到几个关键因素的限制:
(1)LLM缺乏世界模型(一种人类就有的对环境的心理表征,可以模拟行动以及活动对外部世界状态的影响)去预测世界状态和模拟执行动作产生的长期结果影响,从而导致规划能力和执行动作能力不足。
(2)缺乏奖励机制来评估和引导推理走向理想状态。
(3)无法平衡探索(未访问过的节点)与利用(访问过的节点),从而无法有效地探索广阔的推理空间。
本文方法概述:提出RAP(Resoning via Planning)框架,让LLM能够以接近人类意识规划的方式进行推理。RAP通过世界模型增强LLM,并通过有指导准则的规划进行推理,让后续产生有高奖励值的推理路径。
本文方法框架:
语言模型作为世界模型
- 用自然语言在prompt中定义状态和动作。
- 根据定义的状态和动作,将推理过程描述为马尔可夫过程(MDP)。
奖励设计
- 动作的log概率作为奖励。
- 采样多次世界模型的答案,使用生成最多的答案比例作为置信度。根据当前状态下得到的置信度会作为奖励。
- 让LLM自己去评估结果。(LLM识别推理错误,要比避免在生成中产生错误更容易)
- 根据特定任务可以启发式的插入就爱你老公i函数。
采用蒙特卡洛树搜索进行规划
- MCTS迭代式的构建了一颗搜索树,节点代表状态,边代表活动和在当前状态下应用动作生成下一个状态的过渡。