yd1
当前位置: 跑酷财经网 -> 资讯

GPT-4写代码能力提升21%,MIT新方法让LLM学会反思,网友:和人

来源:IT之家   发布时间:2023-03-27 13:26      阅读量:10681   

GPT-4 再度进化!

加上一个简单方法,就能让 GPT-4 这类大语言模型学会自我反思,性能直接提升 30%。

在此之前,大语言模型回答出错,经常是二话不说,直接先道歉,然后 emmmmmm,继续乱猜。

现在,它不会这样了,有了新方法的加成,GPT-4 不仅会反思自己哪里错了,还会给出改进策略。

比如说它会自动分析为什么“陷入循环”:

或者说反思一下自己有缺陷的搜索策略:

这是美国东北大学联合 MIT 发表的最新论文中的方法:Reflexion。

不仅适用于 GPT-4,也适用于其他大语言模型,让它们学会人类特有的反思能力。

目前该论文已经发表在预印平台 arxiv 上。

这把直接让网友直呼“AI 进化的速度已经超过我们适应的能力了,我们要被毁灭了。”

甚至有网友为开发人员发来“饭碗警告”:

用这种方法写代码的时薪是要比普通开发人员便宜的。

利用二元奖励机制实现反思

正如网友所言,Reflexion 赋予 GPT-4 的反思能力和人类的思考过程差不多:

可以简单用两个字来概括:反馈。

在这个反馈过程中,又可以分为三大步:

  • 1、评估:测试当前生成答案的准确性

  • 2、自我反省的产生:错误识别 —— 实现修正

  • 3、执行一个迭代反馈循环

在第一步评估的过程中,首先要经历的是 LLM的自我评估。

也就是说 LLM 在还没有外部反馈时,首先要自己对答案进行反思。

那如何进行自我反思?

研究团队使用了一个二元奖励机制,为 LLM 在当前状态下执行的操作赋值:

1 代表生成的结果 OK,0 则表示生成的结果不太行。

而之所以采用二元而非多值或连续输出这类更具描述性的奖励机制,原因和没有外部输入有关。

要在没有外部反馈的条件下进行自我反思,必须将答案限制在二元状态下,只有这样,才能迫使 LLM 做出有意义的推断。

在自我评估结束之后,如果二元奖励机制输出为 1,则不启动自我反思装置,若为 0,LLM 则会开启反思模式。

在反思的过程中,模型会触发一个启发性函数 h,类比人类思考过程,h 起到的作用就像是监督一样。

不过,同人类思考一样,LLM 在反思的过程中同样也有局限性,这在函数中的 Ω 和 ε 中就能体现。

Ω 表示重复连续动作的次数,一般会将这个数值设置为 3,这表示反思过程中若重复一个步骤三次,会直接跳到下一个步骤。

而 ε 则表示在反思的过程中允许执行的最大操作数量。

既然有监督,那修正也必须执行,修正过程的函数是这样子的:

其中,自我反思模型是通过“特定领域的失败轨迹和理想反射对”训练而来的,并不允许访问数据集中给定问题的特定领域的解决方案。

这样一来,LLM 在反思的过程中便能够迸发出更多有“创新性”的东西。

反思之后性能提升近 30%

既然 GPT-4 这类 LLM 都能够进行自我反思了,那具体效果究竟如何?

研究团队在 ALFWorld 和 HotpotQA 基准上对这种方法进行了评估。

在 HotpotQA 的 100 个问答对测试中,使用 Reflexion 这种方法的 LLM 显示出了巨大的优势,再经过多轮反思重复提问之后,LLM 的性能提升了接近 30%。

而没有使用 Reflexion,在重复问答之后,性能没有任何变化。

在 HotpotQA 的 134 个问答对测试中,可以看出在 Reflexion 的加持下,LLM 经过多轮反思后,准确率一度达到 97%。

在另外一篇博客中,团队成员也晒出了他们这种方法在 GPT-4 上的效果,测试范围是编写代码。

结果也显而易见,用了 Reflexion,GPT-4 的编程能力直接提升了 21%。

关于 GPT-4 已经会“思考”了,你怎么(le)看(ma)?

论文地址:

参考链接:

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

为您推荐

推动全社会资源节约集约利用内蒙古发布可量化评价指标体系

推动全社会资源节约集约利用内蒙古发布

推动资源节约集约利用,提升资源利用效率,对我国实现碳达峰碳中和目标具有重要意义。3月1日,内蒙古... [查看详情]

中手游2021年营收39.56亿元,仙剑7合计销量超60万

中手游2021年营收39.56亿元,

图片来源:仙剑7中手游公布年度业绩,首次公布《仙剑奇侠传7》销量。4月1日,中手游举办了2021... [查看详情]

特斯拉向员工推出ModelY标准续航全时四驱版,6万美元起售

特斯拉向员工推出ModelY标准续航

北京时间4月12日晚间消息,据报道,特斯拉已经开始交付ModelY新车StandardRange... [查看详情]

科学家发现木星起源重要新细节:已远远偏离最初位置,一路收集大量物质

科学家发现木星起源重要新细节:已远远

,据国外媒体报道,苏黎世大学与瑞士国家研究竞争力中心的研究人员近日对木星的形成史开展了极为详细的... [查看详情]

realmeQ5/5i/Pro上架:高通骁龙870、80W闪充加持

realmeQ5/5i/Pro上架:

,realme今日官宣,真我Q5系列将于4月20日14:00正式发布,目前新机已经上架realm... [查看详情]

苹果35W双口USB-C充电器图片曝光:双口并排设计,可折叠插脚

苹果35W双口USB-C充电器图片曝

,此前,9to5Mac发现了一份泄露的支持文件,苹果可能计划在不久的将来推出一款双口35WUSB... [查看详情]

华为真人游戏交互专利公布,可提高游戏真实性

华为真人游戏交互专利公布,可提高游戏

,华为终端有限公司“真人游戏交互系统与方法”专利公布。专利摘要显示,本申请提供一种真人游戏交互方... [查看详情]

伟大变革守望“高原精灵”

伟大变革守望“高原精灵”

守望“高原精灵”4月的傍晚,金色的霞光洒落在绵延的草原上。远处成群的藏羚羊、藏野驴时而低头进食,... [查看详情]

933