人工智能咨询培训老师叶梓 转载标明出处
尽管LLMs在处理语言相关任务时表现出色,但在数学问题解决等需要精确推理的领域,它们的输出往往容易出错。这些错误输出虽然表面上看似合理,但实际上与事实不符,对理性过程有害。为了提高模型在这些领域的性能,来自复旦大学和上海人工智能实验室的研究团队提出了MCT Self-Refine(MCTSr)算法,该算法通过系统的探索和启发式自我精炼机制,改善了LLMs中的决策框架。
想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。
CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
方法
Figure 1阐释了MCTSr算法的运作过程。图中的智能体通过试错学习决策和推理,类似于人类的思考方式。这个过程包括选择(Selection)、扩展(Expansion)、评估(Evaluation)和反向传播(Backpropagation)四个阶段,通过迭代优化策略来提高决策质量。MCTSr算法的主要工作流程包括以下几个阶段:
- 初始化(Initialization):使用一个简单的模型生成的