Google承认Gemini超神影片造假“动了几刀”!号称打赢GPT-4,其实很水?

Google于12月份的第一周野心勃勃地揭开全新AI模型Gemini的神秘面纱,除了拍摄影片大肆宣传Gemini卓越的架构和功能,还声称这款模型已超越OpenAI的GPT-4等模型的性能。不过却有人发现,Gemini的宣传影片有造假之嫌,指出这款模型可能不像Google声称的那么好。

12月6日,Google公布一段名为“与Gemini互动:和多模态(multimodal)AI互动”的影片,点阅率在一天内即突破100万次,因为这个演示影片呈现了Gemini如何以混合语言和视觉理解的多模态AI模型,灵活地回应各种输入的内容或指令。

延伸阅读:Google最强模型Gemini,30项测试打赢GPT-4!Pixel 8 Pro抢先解锁2大AI功能

大动作推出Gemini,演示影片却陷入造假危机

尽管影片有确实载明影片中有缩短Gemini的反应时间,跳过中间的延迟和犹豫的部分,但《彭博社》的记者首先指出,这个影片并非真实的,因为实际上的“演示影片”,是经过一系列精心调整的图像和文字提示,所歪曲而成的互动情况,不论是用户在和模型互动的速度、准确性和基本运行模式都被影片误导。

举例来说,影片2:45处显示的是,一只手静静坐出一系列的手势,而Gemini则快速回应用户在玩剪刀石头布,不过在Google另外提供的文件中说明,Gemini是同时看到剪刀、石头和布三个手势,并且在文字提示:“你认为我在做什么?提示:这是一个游戏”的协助下,才做出最终正确的回答。

虽然实际的互动和影片内容仍有相似之处,但两种互动的感觉显然有很大的不同,一种是直观、无须言语的评估,可以即时捕捉抽象的想法,另一种却是精心设计且高度暗示的互动,反而显示了其局限性。

除了演示影片的问题以外,AbacusAI执行长宾杜.雷迪(Bindu Reddy)在其X的个人贴文中分享他的观察,虽然Google列举许多Gemini在各种基准测试中的得分超越GPT-4,包含用于评估AI模型在STEM、社会科学、数学和人文学科等领域潜力的大规模多任务语言理解(Massive Multitask Language Understanding,MMLU)。

雷迪指出Google使用COT@32取代5-shot的机器学习方式,以增强Gemini的效能,才得以在MMLU方面的评估更加突出。但5-shot才是评估这项表现的标准衡量基准,而在使用5-shot的情况下,GPT-4的表现(86.4%)仍比Gemini更佳(83.7%)。

google gemini rock paper scissors.jpg

影片演示中,Gemini能在用户做出猜拳动作后猜出他在做什么,然而实际上这段演示却是经过了些许“加工”。

图/ Google

同时,也已有许多人开始试用Bard上面的Gemini“精简版”Gemini Pro,他们发现该模型无法正确反映基本事实。例如,当问到2023年的奥斯卡最佳男主角,Gemini Pro回答的是去年的得主布兰顿.葛利森(Brendan Gleeson),而不是真正的获胜者布兰登.费雪(Brendan Fraser)。除此之外,翻译或外语似乎也不是它的强项,有人询问Gemini Pro是否可以给他一个6个字母的法语单字,其回复的不是7个字母就是5个字母的单字。

Google Gemini translate

有人询问Gemini有关法文的问题,却得到和它需求不同的回复。

图/ X @benjaminnetter

Google回应演示影片是为了激励开发人员

随着质疑的声浪越来越大,Google研究和深度学习副总裁Oriol Vinyals回应,对于人们对Gemini的实作影片感兴趣非常高兴,他也重申影片中的所有使用者提示和输出的结果都是真实的,只是为了简洁而缩短。演示影片也展示了使用Gemini构建的多模态用户体验会是什么样子,Google之所以制作它是为了激励开发人员。

不过这并非Google的演示影片第一次受到质疑,过去该公司在展示AI助理Duplex协助用户预定发廊和餐厅时就有过争议。在演示过程中,Google Duplex看起来能够协助人们预订餐厅、预约美发服务,甚至预订旅行。但在几位记者和专家的实际操作后,他们得出该演示影片的内容并非真实的结论,而是需要另外设定,因此Google Duplex的功能被认为是虚假的。

延伸阅读:Google最强模型Gemini,背后灵魂推手揭密!Deepmind创办人如何靠“西洋棋”成功?

参考资料:Tech Crunch、Tech Crunch、India Express、Mint、CNET

责任编辑:陈建钧、苏祐萱

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。