AI 模型基准测试共1篇
Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车-创奇社

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车

Meta发布AI模型Llama 4后,用户反馈编码能力不佳。尽管在基准测试中表现优异,但在实际编程任务中的效果欠佳,引发讨论。
机器之心的头像-创奇社机器之心33天前
090