鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
4.1与4.5孰大?OpenAI刚刚给出答案:
发布GPT-4.1,比GPT-4.5强的那种。
![图片[1]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBwHy5B6ibasgk6H00rmCmRhDHQKbqqgaEkqlvxFY7fJYm5F8poKNibvicLw.gif)
新模型系列更新,一共带来三个版本:GPT-4.1,GPT-4.1 mini、GPT-4.1 nano——
与通常中杯大杯超大杯的设置不同,这回翻译过来,是中杯、小杯、超小杯。
OpenAI表示,4.1系列是API专供,不过列位非开发者先别急哈,人家也补充了,在ChatGPT里,4.1的能力将主要通过“融入最新版本的GPT-4o”体现。
![图片[2]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBwhKxybStiaiasichBfEd8ZPg0okd8UD6ibzm50Ht0vGekJvRZzqCBht3LpA.gif)
能力方面,总结起来4.1系列纸面上最突出的优势有两点:
长上下文,3个型号均拥有100万token上下文窗口;
性价比,用内部老哥的说法就是:
现在你可以用4%的价格,畅享GPT-4o模型品质。
OpenAI还表示,GPT-4.1系列会在API里取代GPT-4.5 Preview,后者将于今年(2025年)7月14日下架。
GPT-4.1:主打性价比
展开来看,OpenAI整体上是把GPT-4.1和GPT-4o拿来对比的。
![图片[5]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBwb3YPBhsiawgBibvnM39mpPsx6ful1o55vQ4vpYl8Gicu9XxLbYCyhYSLA.jpg)
以延迟为横轴,以智能为纵轴,可以看到,GPT-4.1比GPT-4o强了一丢丢,而4.1 mini则超出了4o mini一大截。
定量比较的结果是,编码方面,GPT-4.1在衡量真实世界软件工程技能的SWE-bench Verified上得分为54.6%,比GPT-4o的分数提高了21.4%,比GPT-4.5强了26.6%。
![图片[6]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBwsRHicic1xJ8WABsPEd9xZ5OLd4GEMJRicpvVMWMNefzWqhiaYMkAGJ56tQ.png)
指令遵循方面,在MultiChallenge基准中,GPT-4.1得分38.3%,而GPT-4o的得分是27.8%。
![图片[7]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBwt3lengRY16B5Bibwvhk2GzBBiaCNnNOiaRYH691mFNbnwKsxBPRS5kgFw.png)
长上下文方面,在多模态长下文理解基准Video-MME上,GPT-4.1刷新SOTA,在长篇无字幕类别中得分72.0%,比GPT-4o高了6.7%。
![图片[8]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBwEWKUfxicYucibZh4Q7dV43dW4XbknqFOCqLeXyjOAY2FvXSvtyPQ3T2A.png)
值得注意的是,GPT-4.1 mini在多项基准测试中超过了GPT-4o。
比如在智能评估基准MMLU上,GPT-4.1 mini的得分为87.5%,超过了GPT-4o的85.7%,同时延迟降低一半,成本降低83%。
![图片[9]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBwRSZWjVMCSYPvusV2qZTOybC19TTOY4wsqdtuiaQYf2nMNsiaPUicicAphQ.png)
GPT-4.1 nano则被定位为OpenAI“目前速度最快、成本最低”的模型。并且在部分测试中有超出GPT-4o mini的表现。
编码能力
OpenAI着重强调了GPT-4.1的编码能力。除了在各种编程任务上都超过GPT-4o,OpenAI还演示了其在前端编程方面的实际优势:
能够创建功能更强大、更美观的Web应用。
人类评分的结果显示,在80%的对比测试中,GPT-4.1的网站都比GPT-4o的网站更受欢迎。
比如给出同一段提示词:
GPT-4o生成的网站长这样:
![图片[10]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBw5yMDrdnFjMWssVmVuF3oH6Eu20r77x1NgbpAWicyWv7WwRrPWXkCMtQ.gif)
而4.1的结果明显更美观:
手快的网友则已经搞出了大家更想看的——小球测试。
BTW,OpenAI提到,GPT-4.1会在API里取代GPT-4.5,GPT-4.5 Preview将在3个月后(2025年7月14日)彻底关闭,但这位老哥表示:我还是更喜欢4.5啊啊啊。
不过,老哥也坦承:4.5虽好,但4.1确实便宜太多啦(30倍价差)。
![图片[12]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBw0cbHWJRwQz8hic8xYr5iaLibiaeYw9V8jRUG7ClDGkDwp9fibBw9zYduQVQ.png)
百万长上下文
再来看一眼长上下文方面,GPT-4.1的具体表现。
大海捞针实验中,面对100万token上下文检索,3个型号均能100%过关。
![图片[13]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBw1nQwPmicMLPxrqcJv8DxjF6UP4XKEKT6x0khchRImmAA2BXl2Ks60pA.png)
OpenAI还开源了一个新的评估平台OpenAI-MRCR,以测试模型检索和理解多条信息、并理解信息之间相互关系的能力。也就是说更接近实际应用中,大家对长上下文的真实需求。
结果如下:
还发布了一个用于评估多跳上下文推理的数据集Graphwalks。所谓多跳,即在长上下文中进行多次逻辑跳跃,比如编写代码时在多个文件之间跳转。
在这个基准上,GPT-4.1与o1性能相当,轻松击败了GPT-4o。
![图片[17]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBwngrby8kblQcEGN0KTNoJ4RXomQLYzZkcFV6DvSrFtfA8e01ibYJvAqg.png)
性价比仍不如DeepSeek R1
价格方面,相对于自家贵得要命的模型,GPT-4.1系列无疑是便宜的。
尤其是对比要被替代的GPT-4.5 Preview,2刀/百万tokens vs 75刀/百万tokens,价格属于大砍一刀只剩零头了。
![图片[18]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBwN2BrbKOWJl8arzRAENGibpE0HrOkTIic3E0oWFDsR0RYIE3ybCicZxiakw.png)
但精明的网友们发现,还是比不上DeepSeek R1:
![图片[19]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBw6c2NPhN1lx7CGd3iaSKWic7mDic14U4AHUzYULjcalia7bTFjJjmuianAOA.png)
△图源:x@bongrandp
One More Thing
以上,你觉得GPT-4.1如何?
反正这个命名方式确实是蛮值得吐槽的。
但没准儿,OpenAI的意思是…4.10>4.5?
![图片[20]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBw9vvft4bNEbwtax1YHiaOiab9G6crDVjJsEG713QMJ9HF17DwT6T3ntaw.png)
至少奥特曼本尊有被说服到(doge)。
他还自嘲了一波:
我们能不能在今天夏天之前搞定我们的模型命名?在此之前每个人都可以再花几个月时间来取消我们(我们活该)。
![图片[21]-GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比-创奇社](https://mmssai-1331437701.cos.ap-shanghai.myqcloud.com/images/2025-04/YicUhk5aAGtAExt6BqniahTsYbq5P5ZNBwPUjLFIUf30RbtfoiaHcg6rgwgKDdCCMG3YVM1nqkgMOBerZISbmd4rw.png)
(文:量子位)
重要说明:本站课程均整理自网络,防止大家被割韭菜 !
本站初心:花更少的米,看韭菜一样的东西,仅学习其中的思路
项目里留下的联系方式最好仅作咨询!收费的一律删除~付费需谨慎!!切记!
创奇社官网:www.cqshe.com 如有解压密码看下载页说明
暂无评论内容