【Preference Learning】Reasoning with Language Model is Planning with World Model

arxiv: https://arxiv.org/abs/2305.14992

问题背景:当前LLM推理受到几个关键因素的限制:

(1)LLM缺乏世界模型(一种人类就有的对环境的心理表征,可以模拟行动以及活动对外部世界状态的影响)去预测世界状态和模拟执行动作产生的长期结果影响,从而导致规划能力和执行动作能力不足。

(2)缺乏奖励机制来评估和引导推理走向理想状态。

(3)无法平衡探索(未访问过的节点)与利用(访问过的节点),从而无法有效地探索广阔的推理空间。

本文方法概述:提出RAP(Resoning via Planning)框架,让LLM能够以接近人类意识规划的方式进行推理。RAP通过世界模型增强LLM,并通过有指导准则的规划进行推理,让后续产生有高奖励值的推理路径。

本文方法框架:

语言模型作为世界模型

  • 用自然语言在prompt中定义状态和动作。
  • 根据定义的状态和动作,将推理过程描述为马尔可夫过程(MDP)。

奖励设计

  • 动作的log概率作为奖励。
  • 采样多次世界模型的答案,使用生成最多的答案比例作为置信度。根据当前状态下得到的置信度会作为奖励。
  • 让LLM自己去评估结果。(LLM识别推理错误,要比避免在生成中产生错误更容易)
  • 根据特定任务可以启发式的插入就爱你老公i函数。

采用蒙特卡洛树搜索进行规划

  • MCTS迭代式的构建了一颗搜索树,节点代表状态,边代表活动和在当前状态下应用动作生成下一个状态的过渡。
### Model Preference 的概念 Model preference 在机器学习中指的是对于不同模型的选择偏好,这种偏好的确立基于多个因素,包括但不限于模型性能、复杂度以及解释能力。当面对多种可用模型时,研究者或工程师会依据具体应用场景的需求来决定哪个模型更为合适。 在实际应用中,model preference 不仅涉及评估模型的表现指标(如准确性),还包括考虑计算资源消耗、部署难易程度等因素[^1]。例如,在某些情况下,尽管更复杂的模型能够提供更高的精度,但如果简单模型已经满足业务需求,则后者可能是更好的选择,因为其维护成本更低且更容易理解。 此外,随着数据量的增长,如何有效地从大量数据中提取有价值的信息成为了一项重要挑战。此时,具有更好泛化能力和更强解释性的模型往往会受到青睐,这有助于确保所选模型不仅能在现有数据上表现良好,而且可以对未来未见的数据做出合理的预测[^2]。 为了实现这一目标,可以通过引入概率框架和贝叶斯推理方法来自动生成与给定数据集最为契合的模型结构及其参数设置,并对其背后的工作机制给出清晰说明。这样的过程使得最终选定的模型既具备良好的拟合效果又易于被人类专家解读。 ```python import numpy as np from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression, Ridge, Lasso # 假设 X 是特征矩阵,y 是标签向量 X_train, X_test, y_train, y_test = train_test_split(X, y) models = { 'Linear Regression': LinearRegression(), 'Ridge Regression': Ridge(alpha=1.0), 'Lasso Regression': Lasso(alpha=0.1) } for name, model in models.items(): model.fit(X_train, y_train) score = model.score(X_test, y_test) print(f'{name} R^2 Score on test set: {score:.4f}') ``` 此代码片段展示了三种不同的回归算法:线性回归、岭回归和套索回归之间的比较。通过这种方式可以帮助建立关于哪种类型的模型更适合当前任务的理解,从而形成相应的 model preference
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

辰阳星宇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值