排序
UC伯克利:让推理模型少思考,准确率反而更高了!
UC伯克利研究发现,强制要求模型跳过思考过程仍能保持或提高推理能力。使用DeepSeek-R1模型,在定理证明任务中仅需30%的Token就能达到与完整思考相同的准确率。
速递|GPT-5前的最后冲锋?OpenAI亮出o3与o4-mini双模型,实现“用图像思考”
OpenAI发布O3和O4-mini两款新型AI推理模型,声称在数学、编程、推理、科学及视觉理解能力测试中超越此前所有模型。
生数科技副总裁:多模态技术定将催生全新内容平台,实现完全个性化、实时可控、可交互|中国AIGC产业峰会
多模态生成技术推动AI视频创作新阶段,生数科技产品副总裁廖谦分享了其对于多模态大模型终局的看法及应用场景。视频生成领域迎来黄金发展期,预计2024年将出现重大突破。
最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格
中科大等团队提出VCR-Bench评估基准,用于评价视频理解中的CoT推理能力。该基准包含七个独立评估维度的任务框架,覆盖视觉感知和逻辑推理两大类别。结果显示当前多模态模型在复杂视频推理任务上...
OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维
姚顺雨指出AI发展分为上半场和下半场。上半场以模型和方法为主,而下半场的重点转向如何定义现实任务并有效评估AI的表现。他强调强化学习已能泛化,并提出新的评估规则来解决当前局限性。
实现“双杀”!中国大模型竞争力排名出炉:第一名是他
阿里在2025年中国商用大模型厂商评估中连续两年被评为领导者,并在模型能力和执行能力两大核心维度上排名第一。Omdia报告显示,阿里不仅在技术层面领先,还因其生态建设和商业化优势实现全面领...
腾讯史上最大就业计划技术岗超六成,大厂加码AI人才校招
腾讯启动史上最大就业计划,加大技术类岗位招聘;字节跳动和阿里也扩大了AI人才招聘规模。多家大厂针对人工智能领域展开大规模校园招聘,期待应聘者携带相关成果或项目专利。
OpenAI正以30亿美元洽谈收购Windsurf,加码Agent赛道
OpenAI正洽谈以30亿美元收购AI编程平台Windsurf,显示其对Agent赛道的决心。Windsurf前身为Codeium,曾获得6500万美元和1.5亿美元融资,估值暴涨至12.5亿美元。Cascade是Windsurf的一大亮点,提...
微软开源DeepSeek-R1魔改版:响应99%敏感提示,风险降50%
今天凌晨,微软开源了MAI-DS-R1魔改版,在保留原有推理性能的基础上进行大幅度增强,响应敏感话题提升2倍至99.3%,安全性降低50%。
突发!特朗普禁止英伟达,向DeepSeek等提供AI芯片
特朗普政府禁止向中国出售英伟达的人工智能芯片,导致该公司股价下跌和营收损失。该禁令限制了英伟达对中国市场的销售,并且可能影响其在中国的市场份额及与华为的竞争地位。
OpenAI深夜发布满血o3和o4mini: 两个没想到
OpenAI发布o3和o4-mini模型,具备连续调用超过600次工具的能力,超越人类工程师。主要特点包括全面工具访问与推理能力、图像推理能力的突破以及主动式工具使用。