清华和上海AI Lab团队通过测试时强化学习方法,提升模型数学能力159%,在多个数据集上表现显著。
2025-04-24 57

归来的姿态在 LLM 的后训练时代证明了其巨大价值,Sutton 和 Barto 拿了图灵奖,Dav
2025-04-24 40

扩散模型通过新框架d1实现推理功能,结合监督微调与新颖策略梯度方法diffu-GRPO提升数学和逻辑推理能力。
2025-04-20 57

太平洋彼岸的 Meta 公司便发布了 Llama 4 模型。该模型参考了 DeepSeek 的技术,
2025-04-19 32

最新研究提出F5R-TTS系统,通过概率化输出和GRPO优化方法成功将强化学习整合到非自回归TTS中,显著提升语音合成质量。
2025-04-19 43

姚顺雨指出AI发展分为上半场和下半场。上半场以模型和方法为主,而下半场的重点转向如何定义现实任务并有效评估AI的表现。他强调强化学习已能泛化,并提出新的评估规则来解决当前局限性。
2025-04-17 35

表示,通过AI,DeepMind团队在一年里,完成了10亿年的博士研究时间!10亿年的科学探索被压缩
2025-04-14 21

了突飞猛进的进展。 在探索的过程中,一个核心的议题是:对于模型推理性能的提升来说,什么有效?什么无效
2025-04-14 19

近期研究者通过奖励模型增强通用奖励模型在推理阶段的可扩展性,同时使用强化学习提升LLM性能。然而,当前强化学习算法仍有改进空间,奖励稀疏性是主要难点之一。
2025-04-13 24

DeepSeek与清华大学合作开发自我进化的AI模型,利用强化学习提升模型效率。该方法在多项基准测试中超越现有方法和模型,展示了更少计算资源下的优化性能,并计划以开源形式发布新模型。
2025-04-08 18

本身不够好 。 尤其在专业搜索场景(如文献、数据库查询)中,用户往往无法用精确、完整的表达描述他们
2025-04-08 17

马斯克发布特斯拉人形机器人擎天柱最新视频展示类人行走能力,并介绍其采用强化学习训练方案,未来目标是年产超5万台应用于工厂场景及计划2026年登陆火星。
2025-04-03 18

谷歌DeepMind的DreamerV3在《我的世界》中无需人类数据自主完成钻石收集任务,标志着AI向通用人工智能(AGI)又迈进了一步。
2025-04-03 22

:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,
2025-04-02 18
没有账号?注册  忘记密码?