【Preference Learning】Reasoning with Language Model is Planning with World Model

最新推荐文章于 2025-08-23 11:23:17 发布

原创

最新推荐文章于 2025-08-23 11:23:17 发布 · 1.4k 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #人工智能 #自然语言处理

arxiv: https://arxiv.org/abs/2305.14992

问题背景：当前LLM推理受到几个关键因素的限制：

（1）LLM缺乏世界模型（一种人类就有的对环境的心理表征，可以模拟行动以及活动对外部世界状态的影响）去预测世界状态和模拟执行动作产生的长期结果影响，从而导致规划能力和执行动作能力不足。

（2）缺乏奖励机制来评估和引导推理走向理想状态。

（3）无法平衡探索（未访问过的节点）与利用（访问过的节点），从而无法有效地探索广阔的推理空间。

本文方法概述：提出RAP（Resoning via Planning）框架，让LLM能够以接近人类意识规划的方式进行推理。RAP通过世界模型增强LLM，并通过有指导准则的规划进行推理，让后续产生有高奖励值的推理路径。

本文方法框架：

语言模型作为世界模型

用自然语言在prompt中定义状态和动作。
根据定义的状态和动作，将推理过程描述为马尔可夫过程（MDP）。

奖励设计

动作的log概率作为奖励。
采样多次世界模型的答案，使用生成最多的答案比例作为置信度。根据当前状态下得到的置信度会作为奖励。
让LLM自己去评估结果。（LLM识别推理错误，要比避免在生成中产生错误更容易）
根据特定任务可以启发式的插入就爱你老公i函数。

采用蒙特卡洛树搜索进行规划

MCTS迭代式的构建了一颗搜索树，节点代表状态，边代表活动和在当前状态下应用动作生成下一个状态的过渡。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

辰阳星宇 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。