GPT-4变懒了:转档推太长,表格也只给3行!OpenAI怎么说?AI模型为何会变笨?

24小时全年无休的AI,会想要“偷懒”吗?近期有大量用户反应,GPT-4正变得越来越懒散,不再尽心尽力回答问题,而OpenAI也出面表示,他们正在调查这个问题,并且研究如何修复AI模型。

Google刚发布号称在多个指标上比GPT-4更强悍的AI模型Gemini,在这或许是OpenAI最需要严阵以待的时刻,GPT-4近来就被发觉出现了“偷懒”问题,不再详尽解答用户的疑问,甚至是拒绝回应、要用户自己找出答案。

延伸阅读:“一个词”让ChatGPT吐出原始资料!AI模型为何能在无形间出卖你?

GPT-4变懒了,怎么回事?OpenAI怎么说?

11月底时,AI工程师克里希南(Rohit Krishnan)就在推特上抱怨,GPT-4变得懒散又没用,希望交给聊天机器人的各种任务都遭到回绝。“转换这个档案?太长了。编写表格?只给前三行。读取这个连结?抱歉不行。读取这个py档案(python程式)?抱歉不允许。这实在太让人泄气了。”他在推文中表示。

提出类似抱怨的不只他一人,创业家麦特.温辛(Matt Wensing)也指出,GPT越来越抗拒做枯燥的工作,基本上它只会给出一部分答案,然后让用户自行解决剩下的部分。

抱怨GPT-4越来越懒的声浪在网络上日渐攀升,终于OpenAI官方也出面表示,他们已经听到用户对于GPT-4越来越懒的回馈,正在研究怎么解决这个问题,但强调他们自11月11日以来,就没有动过AI模型。

OpenAI解释,这个说法并不代表AI自行改变了模型,只是模型的行为可能出现了微妙的差异,导致提示词出现退化,这种情况通常要用户及员工很长一段时间才会注意到,并且修复这样的变化。

GPT-4变笨的事件,也恰好紧接在OpenAI爆出宫斗大戏之后,至于这出政变戏码是否有影响内部的运转或效率,则暂时未可知。

不过OpenAI强调,发布新模型时他们都会进行包含AB测试在内的各种试验,依据所有试验结果确保新模型比旧模型更能带给用户帮助,也欢迎用户持续反应GPT-4可能出现的变化、是否变得懒散,帮助他们即时掌握问题状况。

延伸阅读:Google承认Gemini超神影片造假“动了几刀”!号称打赢GPT-4,其实很水

GPT-4也曾变笨!实测6月份版本的GPT-4,就比3月版本准确度高多了

事实上,这并非GPT技术首次“学坏”,早在今年6、7月时,就有大批开发者抱怨GPT-4“变笨”了,有时会犯下一些愚蠢的错误、没注意到用户施加的指令,甚至引发外界猜测OpenAI是否为省钱降低了运算能力、或者调整模型降低成本。

当时OpenAI产品副总裁韦林德(Peter Welinder)公开澄清,“不,我们没有把GPT-4变笨!”声称他们每次更新都是让GPT-4比以前更聪明,用户觉得变笨的情况有可能是因为高度使用下,一些过去没发现的问题暴露出来。

虽然OpenAI强调他们没有更动模型,但有研究团队发布报告,用对比今年3月跟6月的GPT-4模型,评估在数学、敏感问题、回应频率、程式能力、推理能力等诸多面向的表现,其中在数学能力方面, 研究团队用500道题目让两个模型判断质数,结果3月份的版本以97.6%准确度压倒性高于6月版本的2.4%

gpt accuracy.jpg

先前GPT-4也传出变笨消息,且经研究团队测试在部份数学能力上出现显着落差。

图/ @svpino via X

AI模型会变笨,究竟是什么原因?

来自史丹佛及柏克莱加大的研究团队指出,“我们发现GPT-4和GPT-3.5的表现和行为,在两个版本中存在显着差异,并且在某些任务的表现随着时间越来越差。”他们认为其中一种可能性是 GPT-4已经从思路链偏移 ,这是一种将多步骤问题拆解成复数中间步骤,提升大型语言模型推理能力的技术。

对于GPT技术有时莫名出现改变的情况,他们坦承训练AI模型并不像工业制造般明确,投入什么原料就知道会制造出什么产品, 即使是完全相同的训练材料,在不同次训练当中,也可能催生出性格、文字风格、评估标准,甚至政Z偏袒倾向迥异的AI模型

一直以来,AI究竟是如何运作的,常被称为“黑盒子”,很难从外部去解释、理解AI是如何做出决策,如此行动的原因等等。即使是引领着生成式AI发展的OpenAI,目前也不明白在没有更新模型的情况下,GPT-4突然变得懒散的原因,不过再等待一些时间,开发团队或许将能修复问题,告诉我们GPT-4究竟为何突然发懒。

延伸阅读:细看GPT-4,还有14个惊人细节!可能会帮助犯罪、人类无法控制?

资料来源:PCMag、Digital Trend、X

责任编辑:林美欣

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。