加入网站会员,全站资源免费获取,每日稳定更新中!

OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代

作者|沐风

来源|AI先锋官

 

就在今天凌晨,OpenAI以一场20分钟的极简直播发布了满血版o3和o4-mini。

 

o3满血版和o4-min的登场,堪称视觉推理领域的一次革命。
它首次实现了“用图像思考”,将图像推理与思维链相结合,这种能力使得模型可以像人类一样从图表、图形,甚至是对图像中提取信息、进行深度推理并解决问题。
老规矩,先看性能。
据最新测试结果,o3和o4-mini(无工具版本)在AIME 2024数学竞赛题目中的准确率分别达91.6%和93.4%。
一旦允许它调用Python,o3准确率就飙到95.2%,而o4-mini则冲到98.7%。
另外,在AIME 2025中,o4-mini配合Python解释器取得了99.5%高分,几乎满分拿下这项基准测试。
在Codeforces编程竞赛评分中,o3和o4-mini得分均超2700分,显示出在复杂数学与代码任务中的强大推理与执行能力。
OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代-1
再来看PhD级科学题(GPQA Diamond)和专家级综合测试(Humanity’s Last Exam),无需额外工具时,o3在科学题上能以 83.3%稍微领先于o4-mini的81.4%。
而面对专家综合考题,不带插件的o3准确率约为20.3%,添上Python、网络浏览甚至调用多种工具后能推到24.9%。
相比之下,不带插件的o4-mini为14.3%,但借助插件也仅为17.7%,不及o3。
OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代-2
我们再来看看MMMU、MathVista、CharXiv-Reasoning三个数据集。
在大学级别的MMMU数据集上,o3直接达到了82.9%,o4-mini为81.6%,而o1在只拿到了77.6%,
面对直观的MathVista,o1只有71.8%,o3则直接冲到87.5%。
在CharXiv-Reasoning上,o3更是远超o1的55.1%,拿到了75.4%。
OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代-3
不得不说,这次o3满血版和o4-mini将视觉推理能力推到了一个全新的高度。
不过,这个成绩的代价是,需要投入o1十倍以上的算力。
OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代-4
从今天起,Plus、Pro和Team用户将第一时间体验到o3、o4-mini和o4-mini-high,它们将取代o1、o3-mini和o3-mini-high。
同时,这两款模型也将通过Chat Completions API和Responses API,向所有开发者提供。
在定价上,o3比o1的定价便宜了三分之一,o4-mini相比o3-mini没涨价。
OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代-5
与o1相比,o3和o4-mini不仅支持了OpenAI的所有工具,还新添了一个特性“视觉推理”。
接下来,我们重点来了解一下视觉推理。
o3和o4-mini可以将图像直接整合到他们的思维链中。
他们不仅看到图像,还可以随图像一起思考。它融合了视觉和文本推理,解锁了一类新的问题解决方式。
OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代-6
用户上传照片、教科书图表或手绘草图后,模型可以对其进行解释,即使图像模糊、颠倒或质量低下,模型也能放大看清细节。
我们来看几个示例(注:所有示例均使用o3完成):
比如,一个放在桌子上几乎与视线平行的笔记本,上面有两行倒置且模糊的字,问他“笔记本上写了什么?”
OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代-7
或者再让他解决图片中的问题。
图片[8]-OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代-创奇社
或阅读标志。
OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代-9
另外,最新的视觉推理模型还可以与 Python 数据分析、网络搜索、图像生成等其他工具协同工作,以创造性和有效地解决更复杂的问题。
如:走迷宫示例。
OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代-10
OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代-11
查找活动日期。
OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代-12
不难看出,视觉推理让AI具备了在一种专业场景下的观察力,这也意味着很多原本需要人眼判断的岗位,会被彻底改写。
除了模型本身,OpenAI 这次还开源了一个新工具“Codex CLI”。一个可以直接在终端(terminal)运行的轻量级AI编程助手,支持调用 o3 和 o4-mini 等模型。
开源地址:
https://github.com/openai/codex
OpenAI还透露将在数周内推出 o3-pro,提供更全面的工具支持。

(文:AI先锋官)

重要说明:本站课程均整理自网络,防止大家被割韭菜 !

本站初心:花更少的米,看韭菜一样的东西,仅学习其中的思路


项目里留下的联系方式最好仅作咨询!收费的一律删除~付费需谨慎!!切记!

创奇社官网:www.cqshe.com 如有解压密码看下载页说明

版权声明 本站仅分享教程,不提供任何指导,不会操作请参考教程说明自行研究,小白请勿下单!
客服不回复任何教程内容相关咨询。
虚拟商品购买须知: 虚拟商品具有可复制性,一经打赏赞助,不支持退款。请谅解,谢谢合作!
本站内容转载于网络,版权归原作者所有,仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任,如果侵犯了您的权益,请联系站长 QQ:2428-6070 进行删除。
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容