yd1
当前位置: 跑酷财经网 -> 行业新闻

AI解数学题,答案是对的过程却是错的?DeepMind新研究改进谷歌思维

来源:IT之家   发布时间:2022-12-19 12:24      阅读量:15545   

做AI数学题成绩又被刷新了!

众所周知,借助谷歌思维链的概念,AI已经能够像人类一样在做题时生成解题步骤。

这次来自DeepMind的科学家提出了一个实际问题:如何保证解题步骤和答案的双重准确性。

因此,他们在GSM8K数据集上综合比较了基于过程和基于结果的监测方法,并结合其优势训练出一个最优模型。

结果表明,新模型的错误率从16.8%降低到12.7%,求解步骤的错误率也从14.0%降低到3.4%。

步骤+回答双重保障

在介绍新的研究之前,不得不提Google在今年1月提出的思维链概念。

简单来说,思维链提示是一种特殊的情境学习与标准提示只给出输入输出对的例子不同,思维链提示会增加一个额外的推理过程

该方法已在LaMDA—137B,GPT—3 175B和PaLM—540B三个大型语言模型中得到验证与标准提示相比,新方法在一系列算术推理任务中的准确率有了明显提高

可是,这种方法的一个问题是,在某些情况下,AI可以生成正确的答案,但推理过程是错误的。

现在,来自DeepMind的研究人员对这一点进行了改进:他们不仅关注最终结果,还关注推理过程的准确性。

为此,他们首次对自然语言处理任务中基于过程和结果的方法进行了综合比较。

具体包括以下不同场景:小样本提示,有监督的微调,通过专家迭代的强化学习,重排序和强化学习的奖励模型。

之所以选择GSM8K数据集,是因为它由小学数学应用题组成,答案都是整数解,便于精确统计,

第二,GSM8K数据集有离线监督推理步骤和在线人工标注。

从结果来看,第一,基于过程的方法和基于结果的方法,最终答案的错误率几乎相同这也意味着,单靠结果监督,就足以做到答案的低错误率

其次,推理步骤准确性的提高需要过程监督或模仿其奖励模型虽然最终答案错误率差不多,但从下图可以看出,结果监督的推理错误率明显高于过程监督

此外,研究人员还结合了两者的优点,训练出了一个最优模型,即将监督学习和基于奖励模型的强化学习相结合。

新模型的错误回答率从之前最好的水平16.8%降低到12.7%,回答正确但推理过程错误的情况也从14.0%降低到3.4%。

当模型被允许回避30%的问题时,最终答案的错误率甚至可以达到2.7%。

研究团队

这篇论文的研究团队来自DeepMind,共有三位合著者:Jonathan Uesato,Nate Kushman和Ramana Kumar。

纸质链接:

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

为您推荐

推动全社会资源节约集约利用内蒙古发布可量化评价指标体系

推动全社会资源节约集约利用内蒙古发布

推动资源节约集约利用,提升资源利用效率,对我国实现碳达峰碳中和目标具有重要意义。3月1日,内蒙古... [查看详情]

中手游2021年营收39.56亿元,仙剑7合计销量超60万

中手游2021年营收39.56亿元,

图片来源:仙剑7中手游公布年度业绩,首次公布《仙剑奇侠传7》销量。4月1日,中手游举办了2021... [查看详情]

特斯拉向员工推出ModelY标准续航全时四驱版,6万美元起售

特斯拉向员工推出ModelY标准续航

北京时间4月12日晚间消息,据报道,特斯拉已经开始交付ModelY新车StandardRange... [查看详情]

科学家发现木星起源重要新细节:已远远偏离最初位置,一路收集大量物质

科学家发现木星起源重要新细节:已远远

,据国外媒体报道,苏黎世大学与瑞士国家研究竞争力中心的研究人员近日对木星的形成史开展了极为详细的... [查看详情]

realmeQ5/5i/Pro上架:高通骁龙870、80W闪充加持

realmeQ5/5i/Pro上架:

,realme今日官宣,真我Q5系列将于4月20日14:00正式发布,目前新机已经上架realm... [查看详情]

苹果35W双口USB-C充电器图片曝光:双口并排设计,可折叠插脚

苹果35W双口USB-C充电器图片曝

,此前,9to5Mac发现了一份泄露的支持文件,苹果可能计划在不久的将来推出一款双口35WUSB... [查看详情]

华为真人游戏交互专利公布,可提高游戏真实性

华为真人游戏交互专利公布,可提高游戏

,华为终端有限公司“真人游戏交互系统与方法”专利公布。专利摘要显示,本申请提供一种真人游戏交互方... [查看详情]

伟大变革守望“高原精灵”

伟大变革守望“高原精灵”

守望“高原精灵”4月的傍晚,金色的霞光洒落在绵延的草原上。远处成群的藏羚羊、藏野驴时而低头进食,... [查看详情]

933