凹非寺共2篇
Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告-创奇社

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

Meta最新基础模型Llama 4发布后遭遇差评如潮。代码能力受质疑,尤其是经典‘氛围编程’小球测试表现不佳。竞技场排名成绩参差不齐,且存在数据泄露和版权问题的疑虑。
量子位的头像-创奇社量子位33天前
0120
OpenAI官方基准测试:承认Claude遥遥领先(狗头)-创奇社

OpenAI官方基准测试:承认Claude遥遥领先(狗头)

OpenAI发布PaperBench新基准测试,最新版Claude-3.5-Sonnet在复现ICML2024论文任务中超越其他顶尖大模型。对比去年的MLE-Benchmark,PaperBench更侧重综合能力评估。
量子位的头像-创奇社量子位40天前
0140