最新更新第91页
最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格
中科大等团队提出VCR-Bench评估基准,用于评价视频理解中的CoT推理能力。该基准包含七个独立评估维度的任务框架,覆盖视觉感知和逻辑推理两大类别。结果显示当前多模态模型在复杂视频推理任务上...
OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维
姚顺雨指出AI发展分为上半场和下半场。上半场以模型和方法为主,而下半场的重点转向如何定义现实任务并有效评估AI的表现。他强调强化学习已能泛化,并提出新的评估规则来解决当前局限性。
实现“双杀”!中国大模型竞争力排名出炉:第一名是他
阿里在2025年中国商用大模型厂商评估中连续两年被评为领导者,并在模型能力和执行能力两大核心维度上排名第一。Omdia报告显示,阿里不仅在技术层面领先,还因其生态建设和商业化优势实现全面领...
腾讯史上最大就业计划技术岗超六成,大厂加码AI人才校招
腾讯启动史上最大就业计划,加大技术类岗位招聘;字节跳动和阿里也扩大了AI人才招聘规模。多家大厂针对人工智能领域展开大规模校园招聘,期待应聘者携带相关成果或项目专利。
OpenAI正以30亿美元洽谈收购Windsurf,加码Agent赛道
OpenAI正洽谈以30亿美元收购AI编程平台Windsurf,显示其对Agent赛道的决心。Windsurf前身为Codeium,曾获得6500万美元和1.5亿美元融资,估值暴涨至12.5亿美元。Cascade是Windsurf的一大亮点,提...
微软开源DeepSeek-R1魔改版:响应99%敏感提示,风险降50%
今天凌晨,微软开源了MAI-DS-R1魔改版,在保留原有推理性能的基础上进行大幅度增强,响应敏感话题提升2倍至99.3%,安全性降低50%。
突发!特朗普禁止英伟达,向DeepSeek等提供AI芯片
特朗普政府禁止向中国出售英伟达的人工智能芯片,导致该公司股价下跌和营收损失。该禁令限制了英伟达对中国市场的销售,并且可能影响其在中国的市场份额及与华为的竞争地位。
OpenAI深夜发布满血o3和o4mini: 两个没想到
OpenAI发布o3和o4-mini模型,具备连续调用超过600次工具的能力,超越人类工程师。主要特点包括全面工具访问与推理能力、图像推理能力的突破以及主动式工具使用。
聚焦个性化学习,夸克不想做一个千篇一律的“AI+教育”
教育作为大模型天然的应用场景之一,在AI+教育赛道上竞争激烈。夸克学习产品聚焦个性化需求,并通过AI技术提升用户体验,形成以‘AI超级框’为核心入口的学习产品,旨在推动学习场景中的通用能...
硅谷活动 4.18 The AI-Powered Enterprise: 打造下一代工作流自动化与企业生产力
AI变革企业级软件、人才管理与技术文档,多位产品领袖探讨AI机遇。4月18日周五18:00 Mountain View, CA,点击报名。