o1-high - 创奇社 - AI 与 DeepSeek 前沿资讯・资源・课程平台

OpenAI官方基准测试：承认Claude遥遥领先（狗头）

OpenAI官方基准测试：承认Claude遥遥领先（狗头）

OpenAI发布PaperBench新基准测试，最新版Claude-3.5-Sonnet在复现ICML2024论文任务中超越其他顶尖大模型。对比去年的MLE-Benchmark，PaperBench更侧重综合能力评估。

2025-04-03 40

在线客服
升级VIP
繁简切换
返回顶部