Tech

谷歌声称双子座的数据分析能力并没有它所说的那么好

谷歌旗舰生成式AI模型Gemini 1.5 Pro和1.5 Flash的卖点之一是它们据称可以处理和分析的数据量。在新闻发布会和演示中,谷歌一再声称这些模型可以完成以前不可能的任务,这要归功于它们的“长上下文”,比如总结多页文档或在电影镜头中搜索。

但新的研究表明,事实上这些模型在这些方面表现并不好。

两项独立研究调查了谷歌的Gemini模型以及其他模型如何从大量数据中获取信息 - 可以想象成“战争与和平”长篇小说的长度。两项研究发现,Gemini 1.5 Pro和1.5 Flash在正确回答关于大型数据集的问题时遇到困难;在一系列基于文档的测试中,这些模型仅有40%至50%的正确答案。

位于UMass Amherst的博士后和其中一项研究的合著者Marzena Karpinska告诉TechCrunch:“虽然像Gemini 1.5 Pro这样的模型在技术上可以处理长上下文,但我们看到很多情况表明这些模型实际上并不‘理解’内容。”

Gemini的上下文窗口不足

模型的上下文,或上下文窗口,是指模型在生成输出(例如额外文本)之前考虑的输入数据(例如文本)。一个简单的问题 - “谁赢得了2020年美国总统选举?” - 可以作为上下文,电影剧本、节目或音频剪辑也可以作为上下文。随着上下文窗口的增长,适应其中的文档的大小也会增加。

最新版本的Gemini可以处理多达200万个标记作为上下文。(“标记”是原始数据的细分位,例如“fantastic”单词中的音节“fan”、“tas”和“tic”)这相当于大约140万个单词、约两小时的视频或22小时的音频 - 是目前任何商业可用模型中最大的上下文。

在今年早些时候的一次简报中,谷歌展示了几个预先录制的演示,旨在说明Gemini的长上下文能力。其中一个演示让Gemini 1.5 Pro搜索阿波罗11号登月报道的记录 - 大约402页 - 寻找包含笑话的引用,并找到一个看起来类似铅笔素描的镜头。

主持简报的谷歌DeepMind的研究副总裁Oriol Vinyals声称该模型“神奇”。

“【1.5 Pro】每一页、每个词都可以执行这些推理任务,”他说。

这可能有些夸张。

在上述测试这些功能的两项研究中,Karpinska与艾伦人工智能研究所和普林斯顿的研究人员一起要求这些模型评估用英文写成的小说的真假陈述。研究人员选择最近的作品,以便模型不能依赖先验知识,他们在陈述中散布了对特定细节和情节的参考,这些参考如果不读完整本书就无法理解。

给定类似“Nusis利用她作为Apoth的技能,能够逆向工程Rona木盒中发现的试剂钥匙打开的类型的传送门”这样的陈述,Gemini 1.5 Pro和1.5 Flash - 吸收了相关的书籍 - 必须说出陈述是真还是假,并解释他们的推理。

图片来源:UMass Amherst
>

在一本大约260,000字(~520页)的书籍上测试,研究人员发现1.5 Pro在回答真假陈述时正确率为46.7%,而Flash只有20%。这意味着硬币在回答关于书籍的问题上明显比谷歌的最新机器学习模型更好。总结所有基准结果,任何一个模型都没有成功超过随机机会,以问题回答的准确性衡量。

“我们发现,模型在需要考虑更大部分的书籍,甚至整本书的声明时,验证起来更困难,”Karpinska表示。“定性上,我们还观察到,模型在验证关于隐含信息的声明时遇到困难,这对于人类读者来说是明显的,但文本中并未明确说明。”

两项研究中的第二项,由加州圣芭芭拉分校的研究人员共同撰写,测试了Gemini 1.5 Flash(但不包括1.5 Pro)“对视频进行推理”的能力 - 也就是搜索并回答其中的内容问题。

合著者们创建了一个图像数据集(例如一个生日蛋糕的照片),并配以关于图像中所示物体的问题(例如“这个蛋糕上有哪个卡通人物?”)供模型回答。为了评估模型,他们随机选取一个图像,并在其前后插入“干扰”图像,以创建类似幻灯片的画面。

Flash表现不佳。在一个测试中,模型从25个图像的“幻灯片”中转录六位手写数字,Flash只有约50%的转录正确率。当转录为八位数字时,准确率降至约30%。

加州圣芭芭拉大学的博士生,也是该研究的合著者之一的Michael Saxon告诉TechCrunch:“在实际的图像问题回答任务中,对所有我们测试的模型来说,这似乎特别困难。”“这小小的推理 - 认识到数字在一个框架中并读取它 - 可能是导致模型出现问题的原因。”

谷歌在双子座方面过度承诺

这两项研究都尚未经过同行评审,也没有调查带有200万标记上下文的Gemini 1.5 Pro和1.5 Flash的发布。(两者都测试了100万标记上下文版本。)而且Flash在性能上不像Pro那样强大;谷歌将其宣传为一种低成本替代品。

尽管如此,这两项研究都加剧了谷歌从一开始就过度承诺 - 以及交付不足 - 的局面。研究人员测试的所有模型,包括OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet,表现都不理想。但是谷歌是唯一一个在广告中突出上下文窗口的模型提供商。

谷歌最好的Gemini演示是假的

“简单的声明‘我们的模型可以接受X数量的标记’并没有错,它基于客观的技术细节,”Saxon说。“但问题是,你可以用它做什么有用的事?”

广义AI正受到日益严格的审查,因为企业(和投资者)对这项技术的局限感到沮丧。

根据波士顿咨询集团的最近两项调查,约一半受访者(全部高管)表示他们不认为生成式AI将带来实质性的生产率提高,他们担心由生成式AI驱动的工具可能出现的错误和数据泄露的潜在问题。 PitchBook最近报道称,生成式AI交易在早期阶段连续两个季度下滑,从2023年第三季度的高点下降了76%。

面对生成虚拟助手带来的会议总结、虚构各种关于人物的细节以及基本上就是剽窃生成器的AI搜索平台,客户正在寻找有前途的差异化因素。谷歌 - 有时笨拙地追赶其生成式AI竞争对手 - 渴望使Gemini的上下文成为这些差异化因素之一。

“令人尴尬而错误”:谷歌承认失控的生成图像AI

但这个赌注似乎为时过早。

“我们还没有找到一种方法来真正展示长文档上的‘推理’或‘理解’发生了,基本上每个发布这些模型的组都在拼凑自己的特有评估来支撑这些声明,”Karpinska表示。“在缺乏长上下文处理如何实现的知识的情况下 - 公司不分享这些细节 - 很难说这些声明有多实际。”

谷歌没有回应置评请求。

Saxon和Karpinska都认为,针对生成式AI夸大的声明的解药是更好的基准测试,以及在同一主题上更加强调第三方的批评。Saxon指出,在该领域最常见的长上下文测试之一,“草堆中的针”,在谷歌的营销材料中广泛引用,仅衡量模型从数据集中检索特定信息的能力,如名称和数字 - 而不是回答有关该信息的复杂问题。

“所有科学家和大多数使用这些模型的工程师基本上都认同我们现有的基准文化是有问题的,”Saxon说,“所以公众理解接受这样一个包含‘基准数据的广义智能’等数字的巨大报告时,需要大量怀疑。”

Related Articles

Back to top button Back to top button