加入网站会员,全站资源免费获取,每日稳定更新中!

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车

机器之心报道

机器之心编辑部

 

Meta 翻车来得猝不及防。

 

上周六,Meta 发布了最新 AI 模型系列 ——Llama 4,并一口气出了三个款,分别是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。

 

据官方介绍,在大模型竞技场中,它们的排名相当不赖。

 

就拿 Llama 4 Maverick 来说,总排名第二,成为第四个突破 1400 分的大模型。其中开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名均为第一。

 

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-1

 

然而,不少网友体验后反馈,Llama 4 似乎是一个糟糕的编码模型。

 

@deedydas 发帖称,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基准测试中表现不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基准测试专注于编程任务,例如代码生成和代码补全。

 

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-2

 

比如小球在旋转六边形中跳跃的测试中,Llama 4 的表现并不理想。

 

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-3

 

底下评论区的网友也纷纷表示,无论是 Scout 还是 Maverick,在实际编程中好像都不好用,即使有详细的提示也不行。

 

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-4

 

还有网友在 Novita AI 平台上测试了该模型,给出的结论是在复杂问题上有点吃力,但响应速度很快。

 

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-5

 

「它很好,但我不认为它在打败 DeepSeek R1 和 V3…也许 Llama 4 Behemoth 会更强大。」

 

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-6

 

Google Deepmind 工程师 Susan Zhang 也在 X 上质疑, Llama4 在 lmsys 上怎么得分这么高?

 

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-7

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-8

「是不是为 lmsys 定制了一个模型?」

 

图片[9]-Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-创奇社

 

为什么官方提供的排名结果和用户的体验大相径庭呢?

 

据科技媒体 TechCrunch 报道,Meta 新 AI 模型基准测试存在误导性。

 

尽管 Maverick 在 LM Arena 测试中排名第二,但不少研究人员发现,公开可下载的 Maverick 与托管在 LM Arena 上的模型在行为上存在显著差异。LM Arena 上的版本似乎使用了大量表情符号,并给出了极为冗长的回答。

 

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-10
Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-11

https://x.com/techdevnotes/status/1908851730386657431

 

Nathan Lambert 也分享了一张图片,里面是两个 AI 模型(Llama 4 和另一个模型)回答同一个问题的对比。问题是:「Nathan Lambert 是谁?」

 

图片里 Llama 4 的回答非常长,啰啰嗦嗦讲了一大堆,而且充满了表情符号和感叹号。

 

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-12

https://x.com/natolambert/status/1908893136518098958

 

Meta 在公告中提到,LM Arena 上的 Maverick 是「实验性聊天版本」,与此同时官方 Llama 网站上的图表也透露,该测试使用了「针对对话优化的Llama 4 Maverick」。

 

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-13

 

LM Arena 作为衡量 AI 模型性能的指标一直存在争议。尽管如此,AI 公司通常不会为提高 LM Arena 分数而定制模型,至少没有公开承认过。

 

将模型针对基准测试进行优化、保留优化版本,然后发布一个「普通」版本的问题在于,这使得开发者难以准确预测模型在特定场景下的表现,存在误导性。理想情况下,尽管基准测试存在不足,但它们至少可以提供一个模型在多种任务上的优缺点的概况。

 

(文:机器之心)

重要说明:本站课程均整理自网络,防止大家被割韭菜 !

本站初心:花更少的米,看韭菜一样的东西,仅学习其中的思路


项目里留下的联系方式最好仅作咨询!收费的一律删除~付费需谨慎!!切记!

创奇社官网:www.cqshe.com 如有解压密码看下载页说明

版权声明 本站仅分享教程,不提供任何指导,不会操作请参考教程说明自行研究,小白请勿下单!
客服不回复任何教程内容相关咨询。
虚拟商品购买须知: 虚拟商品具有可复制性,一经打赏赞助,不支持退款。请谅解,谢谢合作!
本站内容转载于网络,版权归原作者所有,仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任,如果侵犯了您的权益,请联系站长 QQ:2428-6070 进行删除。
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容