LEAST-TO-MOST PROMPTING ENABLES COMPLEX REASONING IN LARGE LANGUAGE MODELS---正文

题目

最少到最多的提示使大型语言模型能够进行复杂的推理

在这里插入图片描述

论文地址:https://arxiv.org/abs/2205.10625

摘要

    思路链提示在各种自然语言推理任务中表现出色。然而,它在需要解决比提示中显示的示例更难的问题的任务上表现不佳。为了克服这种由易到难的概括的挑战,我们提出了一种新颖的提示策略,即从最少到最多提示。该策略的关键思想是将复杂问题分解为一系列更简单的子问题,然后按顺序解决它们。先前解决的子问题的答案有助于解决每个子问题。我们在与符号操作、组合概括和数学推理相关的任务上的实验结果表明,从最少到最多提示能够推广到比提示中看到的更难的问题。一个值得注意的发现是,当使用 GPT-3 code-davinci-002 模型进行从最少到最多的提示时,它可以在任何分割(包括长度分割)中解决组合泛化基准 SCAN,准确率至少为 99%,而使用思路链提示的准确率仅为 16%。这一点尤其值得注意,因为文献中专门用于解决 SCAN 的神经符号模型是在包含超过 15,000 个示例的整个训练集上进行训练的。我们在附录中提供了所有任务的提示。

引言

    尽管深度学习在过去十年中取得了巨大的成功,但人类智能与机器学习之间仍然存在巨大差异:

  1. 对于新任务,人类通常可以从几个演示示例中学会完成它,而机器学习需要大量标记数据进行模型训练;
  2. 人类可以清楚地解释他们预测或决策背后的原因,而机器学习本质上是一个黑匣子;
  3. 人类可以解决比他们以前见过的任何问题都更困难的问题,而对于机器学习来说,训练和测试中的例子通常处于相同的难度级别。

    最近提出的思路链提示方法(Wei et al, 2022; Chowdhery et al, 2022)在缩小人类智能和机器智能之间的差距方面迈出了重要一步。它将自然语言原理的思想(Ling et al, 2017; Cobbe et al, 2021)与小样本提示(Brown et al, 2020)相结合。当进一步与自洽解码 (Wang et al, 2022b) 相结合,而不是使用典型的贪婪解码时,少数样本的思路链提示在许多具有挑战性的自然语言处理任务上的表现大大优于文献中的最新成果,这些任务是从专门设计的神经模型中获得的,这些模型使用数百倍的注释示例进行训练,同时具有完全可解释性。

    然而,思路链提示有一个关键的局限性——它在需要泛化解决比演示示例更难的问题的任务上表现不佳,例如组合泛化 (Lake & Baroni, 2018; Keysers et al, 2020)。为了解决这种由易到难的泛化问题,我们提出了由少到多的提示。它包括两个阶段:首先将一个复杂的问题分解为一系列较容易的子问题,然后按顺序解决这些子问题,其中通过先前解决的问题的答案来促进给定子问题的解决子问题。两个阶段都是通过少样本提示实现的,因此两个阶段都没有训练或微调。图 1 显示了从最少到最多提示的示例用法。“从最少到最多提示”一词借用自教育心理学(Libby 等人,2008 年),用于表示使用渐进式提示序列帮助学生学习新技能的技术。在这里,我们将这种技术应用于教人类教授语言模型。符号操作、组合泛化和数学推理的实证结果表明,从最少到最多提示确实可以推广到比演示的更难的问题。

在这里插入图片描述
图 1:从最少到最多提示分两个阶段解决数学应用题:(1)查询语言模型将问题分解为子问题;(2)查询语言模型按顺序解决子问题。第二个子问题的答案建立在第一个子问题的答案之上。本例中省略了每个阶段提示的演示示例。

从最少到最多提示

    从最少到最多提示通过将复杂问题分解为一系列更简单的子问题,教语言模型如何解决复杂问题。它包含两个连续的阶段:

  1. 分解。此阶段的提示包含演示分解的常量示例,然后是需要分解的具体问题。
  2. 子问题解决。此阶段的提示包含三部分:
  • 演示如何解决子问题的常量示例;
  • 之前回答过的子问题和生成的解决方案的可能为空的列表,以及
  • 接下来要回答的问题。

    在图 1 所示的示例中,首先要求语言模型将原始问题分解为子问题。传递给模型的提示包括说明如何分解复杂问题的示例(图中未显示),然后是要分解的具体问题(如图所示)。语言模型发现,原始问题可以通过解决中间问题“每次旅行需要多长时间?”来解决。在下一阶段,我们要求语言模型按顺序解决问题分解阶段的子问题。原始问题被附加为最终子问题。解决从向语言模型传递一个由说明如何解决问题的示例组成的提示开始(图中未显示),然后是第一个子问题“每次旅行需要多长时间?”。然后,我们获取语言模型生成的答案(“…每次旅行需要 5 分钟。”),并通过将生成的答案附加到上一个提示来构建下一个提示,然后是下一个子问题,这恰好是本例中的原始问题。然后将新提示传回语言模型,语言模型返回最终答案。

    从最少到最多的提示可以与其他提示技术相结合,如思路链(Wei 等人,2022 年)和自洽(Wang 等人,2022b 年),但不是必须的。此外,对于某些任务,从最少到最多提示的两个阶段可以合并形成单次提示。

结果

    我们展示了符号操作、组合概括和数学推理任务的从最少到最多提示结果,并将其与思路链提示进行了比较。

符号操作

    我们采用最后一个字母连接任务(Wei et al,2022)。在此任务中,每个输入都是一个单词列表,相应的输出是列表中单词最后一个字母的连接。 例如,“thinking, machine”输出“ge”,因为“thinking”的最后一个字母是“g”,“machine”的最后一个字母是“e”。当测试列表的长度与提示范例中的列表长度相同时,思路链提示可以完美完成工作。然而,当测试列表比提示范例中的列表长得多时,它的表现会很差。我们表明,从最少到最多的提示克服了这一限制,并且在长度概括方面明显优于思路链提示。

问:“思考,机器,学习” 
答:“思考”,“思考,机器”,“思考,机器
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值