Google承认Gemini超神影片造假“动了几刀”！号称打赢GPT-4，其实很水？

▼

Google于12月份的第一周野心勃勃地揭开全新AI模型Gemini的神秘面纱，除了拍摄影片大肆宣传Gemini卓越的架构和功能，还声称这款模型已超越OpenAI的GPT-4等模型的性能。不过却有人发现，Gemini的宣传影片有造假之嫌，指出这款模型可能不像Google声称的那么好。

12月6日，Google公布一段名为“与Gemini互动：和多模态（multimodal）AI互动”的影片，点阅率在一天内即突破100万次，因为这个演示影片呈现了Gemini如何以混合语言和视觉理解的多模态AI模型，灵活地回应各种输入的内容或指令。

延伸阅读：Google最强模型Gemini，30项测试打赢GPT-4！Pixel 8 Pro抢先解锁2大AI功能

大动作推出Gemini，演示影片却陷入造假危机

尽管影片有确实载明影片中有缩短Gemini的反应时间，跳过中间的延迟和犹豫的部分，但《彭博社》的记者首先指出，这个影片并非真实的，因为实际上的“演示影片”，是经过一系列精心调整的图像和文字提示，所歪曲而成的互动情况，不论是用户在和模型互动的速度、准确性和基本运行模式都被影片误导。

举例来说，影片2:45处显示的是，一只手静静坐出一系列的手势，而Gemini则快速回应用户在玩剪刀石头布，不过在Google另外提供的文件中说明，Gemini是同时看到剪刀、石头和布三个手势，并且在文字提示：“你认为我在做什么？提示：这是一个游戏”的协助下，才做出最终正确的回答。

虽然实际的互动和影片内容仍有相似之处，但两种互动的感觉显然有很大的不同，一种是直观、无须言语的评估，可以即时捕捉抽象的想法，另一种却是精心设计且高度暗示的互动，反而显示了其局限性。

除了演示影片的问题以外，AbacusAI执行长宾杜．雷迪（Bindu Reddy）在其X的个人贴文中分享他的观察，虽然Google列举许多Gemini在各种基准测试中的得分超越GPT-4，包含用于评估AI模型在STEM、社会科学、数学和人文学科等领域潜力的大规模多任务语言理解（Massive Multitask Language Understanding，MMLU）。

雷迪指出Google使用COT@32取代5-shot的机器学习方式，以增强Gemini的效能，才得以在MMLU方面的评估更加突出。但5-shot才是评估这项表现的标准衡量基准，而在使用5-shot的情况下，GPT-4的表现（86.4%）仍比Gemini更佳（83.7%）。

影片演示中，Gemini能在用户做出猜拳动作后猜出他在做什么，然而实际上这段演示却是经过了些许“加工”。

图／ Google

同时，也已有许多人开始试用Bard上面的Gemini“精简版”Gemini Pro，他们发现该模型无法正确反映基本事实。例如，当问到2023年的奥斯卡最佳男主角，Gemini Pro回答的是去年的得主布兰顿．葛利森（Brendan Gleeson），而不是真正的获胜者布兰登．费雪（Brendan Fraser）。除此之外，翻译或外语似乎也不是它的强项，有人询问Gemini Pro是否可以给他一个6个字母的法语单字，其回复的不是7个字母就是5个字母的单字。

有人询问Gemini有关法文的问题，却得到和它需求不同的回复。

图／ X @benjaminnetter

Google回应演示影片是为了激励开发人员

随着质疑的声浪越来越大，Google研究和深度学习副总裁Oriol Vinyals回应，对于人们对Gemini的实作影片感兴趣非常高兴，他也重申影片中的所有使用者提示和输出的结果都是真实的，只是为了简洁而缩短。演示影片也展示了使用Gemini构建的多模态用户体验会是什么样子，Google之所以制作它是为了激励开发人员。

不过这并非Google的演示影片第一次受到质疑，过去该公司在展示AI助理Duplex协助用户预定发廊和餐厅时就有过争议。在演示过程中，Google Duplex看起来能够协助人们预订餐厅、预约美发服务，甚至预订旅行。但在几位记者和专家的实际操作后，他们得出该演示影片的内容并非真实的结论，而是需要另外设定，因此Google Duplex的功能被认为是虚假的。

延伸阅读：Google最强模型Gemini，背后灵魂推手揭密！Deepmind创办人如何靠“西洋棋”成功？

参考资料：Tech Crunch、Tech Crunch、India Express、Mint、CNET

责任编辑：陈建钧、苏祐萱

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

大动作推出Gemini，演示影片却陷入造假危机

Google回应演示影片是为了激励开发人员

相关文章