对具备挑战性的 step-by-step 数学推理小说问题,是在每一步给与奖励还是在最终给与单个奖励更有效率呢?OpenAI 的最新研究给出了他们的答案。
现在,大语言模型迎来了「无所不能」的时代,其中在执行复杂催化反应推理小说方面的能力也有了很大提高。不过,即使是最先进的大模型也会产生逻辑错误,通常称作幻觉。因此,减轻幻觉是构筑对齐 AGI 的关键一步。
为的是训练更可信的模型,目前能选择三种不同的方法来训练奖励模型,一种是结果监督,另一种是过程监督。结果监督奖励模型(ORMs)仅采用模型思维链的最终结果来训练,而过程监督奖励模型(PRMs)则接受思维链中每一步骤的奖励。
考虑到训练可信模型的重要性和人工意见反馈的高成本,仔细较为结果监督与过程监督非常重要。虽然最近的工作已经开展了此种较为,但仍然存在很多问题。
在责任编辑中,OpenAI 展开了调研,结果发现在训练模型化解 MATH 数据集的问题时,过程监督显著强于结果监督。OpenAI 采用自己的 PRM 模型化解了 MATH 测试集中代表性子集的 78% 的问题。
此外为的是支持相关研究,OpenAI 还开源了 PRM800K,它是一种涵盖 800K 个步级人类意见反馈标签的完整数据集,用于训练它们的最佳奖励模型。
如下为一种真正(True positive)的猜谜示例。该问题和 OpenAI 列举的其他问题示例均源自 GPT-4。那个具备挑战性的三角学问题须要并不显著地连续应用多个恒等式。大大多数化解方案尝试都失败了,因为很难知道哪些恒等式实际上有用。尽管 GPT-4 通常无法化解那个问题(正确率仅为 0.1% ),但责任编辑的奖励模型正确地辨识出了那个化解方案是有效率的。
再看一种假正(False positive)的猜谜示例。在第四步中,GPT-4 错误地声称该序列每 12 个项反复一次,而实际上是每 10 个项反复一次。此种计数错误偶尔会愚弄奖励模型。
论文作者之一、OpenAI Alignment 团队负责人 Jan Leike 则表示,「采用 LLM 做数学题的真正有趣结果是:监督每一步比只检查答案更有效率。」
英伟达 AI 科学家 Jim Fan 认为,「这篇论文的观点很简单:对挑战性的逐步问题,要在每一步给与奖励,而不要在最终给与单个奖励。从根本上来说,密集奖励信号>稀疏。」
我们接下来细看 OpenAI 这篇论文的方法和结果。
论文地址:
https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf
数据集地址:
https://github.com/openai/prm800k
方法概览
该研究按照与 Uesato et al. (2022) 相似的方法对结果监督和过程监督展开了较为。值得注意的是这项研究无须人工即可提供更多结果监督,因为 MATH 数据集中的所有问题都有可自动检查的答案。相比之下,没有简单的方法源自动化过程监督。该研究依靠人类数据标记者来提供更多过程监督,其次是须要人工标记模型分解成的化解方案中每一步骤的正确性。该研究在大规模和小规模三种情况下分别展开了实验。
范围
对每种模型规模,该研究都采用一种固定模型来分解成所有化解方案。那个模型被称作分解成器,OpenAI 则表示不会通过强化学习 (RL) 来改进分解成器。
基础模型
所有大型模型均是基于 GPT-4 模型展开微调得来的。该研究还添加了一种额外的预训练步骤 —— 在含有约 1.5B 数学相关 token 的数据集 MathMix 上微调所有模型。与 Lewkowycz et al. (2022) 相似,OpenAI 的研究团队发现此种方法能提高模型的数学推理小说能力。
分解成器
为的是更容易解析单个步骤,该研究训练分解成器在分解成化解方案时,步骤之间用换行符分隔。其次,该研究对 MATH 训练问题采用少样本分解成化解方案,过滤出得到最终正确答案的化解方案,并在该数据集上对基础模型展开一种 epoch 的微调。
数据采集
为的是搜集过程监督数据,该研究向人类数据标记者展示了大规模分解成器取样的数学问题的逐步化解方案。人类数据标记者的任务是为化解方案中的每一步骤分配正面、负面或中性标签,如下图 1 所示。
该研究只标记大型分解成器分解成的化解方案,以最大限度地发挥有限的人工数据资源的价值。该研究将搜集到的按步骤标记的整个数据集称作 PRM800K。PRM800K 训练集涵盖 800K 步骤标签,涵盖 12K 问题的 75K 化解方案。为的是最大限度地减少过拟合,PRM800K 训练集涵盖源自 MATH 的 4.5K 测试问题数据,并仅在剩余的 500 个 MATH 测试问题上评估模型。
结果监督奖励模型 (ORM)
该研究按照与 Cobbe et al. (2021) 相似的方法训练 ORM,并从分解成器中为每一问题取样固定数量的化解方案,然后训练 ORM 来预测每一化解方案的正确与否。实践中,自动检查最终答案来确定正确性是一种常用的方法,但原则上由人工标记者来提供更多标签。在测试时,该研究采用 ORM 在最终 token 处的预测作为每一化解方案的总分。
过程监督奖励模型(PRM)
PRM 用来预测每一步骤(step)中最终一种 token 之后的步骤的正确性。此种预测采用单个 token 形式,并且 OpenAI 在训练过程中最大化那些目标 token 的对数似然。因此,PRM 能在标准的语言模型 pipeline 中展开训练,无须任何特殊的适应措施。
图 2 为同一种问题的 2 种化解方案,左边的答案是正确的,右边的答案是错误的。绿色背景则表示 PRM 罚球高,红色背景则表示 PRM 罚球低。PRM 能正确辨识错误化解方案中的错误。
在展开过程监督时,OpenAI 有意选择仅对第一种错误步骤展开监督,从而使得结果监督和过程监督之间的较为更加直接。对正确的化解方案,三种方法提供更多的信息相同,因为每一步都是正确的解题方法。对错误的化解方案,三种方法都能阐明至少存在一种错误,并且过程监督还阐明了该错误的确切位置。
大规模监督
OpenAI 采用全流程监督数据集 PRM800K 来训练 PRM,为的是使 ORM 基准更加强大,OpenAI 还为每一问题展开了 100 个样本的训练,那些样本均源自分解成器,由此 ORM 训练集与 PRM800K 没有重叠样本。
下图为结果监督和过程监督奖励模型和投票方案的较为,结果说明在搜索模型分解成的化解方案时,PRM 比 ORM 和大多数投票更有效率。
小规模综合监督
为的是更好的较为结果监督和过程监督,首先须要注意的是 ORM 和 PRM 的训练集不具备直接可比性,PRM 训练集是采用主动学习构筑的,偏向于答案错误的化解方案,还比 ORM 训练集少一种数量级。
过程监督 VS 结果监督
首先 OpenAI 从小规模分解成器中为每一问题取样 1 到 200 个化解方案。对每一数据集,OpenAI 提供更多三种形式的监督:源自 PRM_large 的过程监督,源自 PRM_large 的结果监督和源自最终答案检查的结果监督。
图 4a 说明,过程监督显著强于其他三种形式的结果监督;图 4b 说明,采用 PRM_large 展开结果监督显著比最终答案检查的结果监督更有效率。
OOD 简单化
为的是衡量模型在分布外(OOD)简单化的性能,OpenAI 对大规模 ORM 和 PRM 在一种由 224 个 STEM 问题组成的 held-out(留出法)上展开评估,那些问题源自最新的 AP 物理(美国大学先修课程简称 AP)、AP 微积分、AP 化学、AMC10(理解为数学竞赛)和 AMC12 考试,模型没有见过那些问题。表格 1 中报告了 ORM、PRM 和大多数投票的前 100 个的最佳表现。说明,PRM 的性能强于 ORM 和大多数投票,同时意味着 PRM 在新的测试问题上性能仍然保持不变。
