强化学习-创奇社

速递｜DeepSeek联手清华新模型GRM开源，算力降低性能反升-创奇社

速递｜DeepSeek联手清华新模型GRM开源，算力降低性能反升

DeepSeek与清华大学合作开发自我进化的AI模型，利用强化学习提升模型效率。该方法在多项基准测试中超越现有方法和模型，展示了更少计算资源下的优化性能，并计划以开源形式发布新模型。

Z Potentials32天前

090

颠覆传统信息搜索，效果是之前SOTA的三倍？UIUC韩家炜、孙冀萌团队开源DeepRetrieval，让模型端到端地学会搜索！-创奇社

颠覆传统信息搜索，效果是之前SOTA的三倍？UIUC韩家炜、孙冀萌团队开源DeepRetrieval，让模型端到端地学会搜索！

本身不够好。尤其在专业搜索场景（如文献、数据库查询）中，用户往往无法用精确、完整的表达描述他们

机器之心32天前

0100

RL for LLMs，强化学习的 Scaling Law 才刚刚起步？-创奇社

RL for LLMs，强化学习的 Scaling Law 才刚刚起步？

近期研究者通过奖励模型增强通用奖励模型在推理阶段的可扩展性，同时使用强化学习提升LLM性能。然而，当前强化学习算法仍有改进空间，奖励稀疏性是主要难点之一。

机器之心30天前

0110

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展-创奇社

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

了突飞猛进的进展。在探索的过程中，一个核心的议题是：对于模型推理性能的提升来说，什么有效？什么无效

机器之心29天前

090

诺奖得主震撼宣言：AI一年完成10亿年「博士研究时间」！-创奇社

诺奖得主震撼宣言：AI一年完成10亿年「博士研究时间」！

表示，通过AI，DeepMind团队在一年里，完成了10亿年的博士研究时间！10亿年的科学探索被压缩

新智元28天前

090

OpenAI姚顺雨：大模型下半场是产品的游戏，做研究也要有产品思维-创奇社

OpenAI姚顺雨：大模型下半场是产品的游戏，做研究也要有产品思维

姚顺雨指出AI发展分为上半场和下半场。上半场以模型和方法为主，而下半场的重点转向如何定义现实任务并有效评估AI的表现。他强调强化学习已能泛化，并提出新的评估规则来解决当前局限性。

量子位24天前

0236

不会吧！OpenAI 发布新 O3 和 4o-mini，居然得看算力基础设施的脸色？-创奇社

不会吧！OpenAI 发布新 O3 和 4o-mini，居然得看算力基础设施的脸色？

太平洋彼岸的 Meta 公司便发布了 Llama 4 模型。该模型参考了 DeepSeek 的技术，

AI前线22天前

0236

语音合成突破：F5R-TTS首次实现非自回归模型的GRPO优化，零样本克隆性能显著提升-创奇社

语音合成突破：F5R-TTS首次实现非自回归模型的GRPO优化，零样本克隆性能显著提升

最新研究提出F5R-TTS系统，通过概率化输出和GRPO优化方法成功将强化学习整合到非自回归TTS中，显著提升语音合成质量。

机器之心22天前

0336

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭-创奇社

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

：在美国数学奥赛，顶级AI模型得分不足5%！来自ETH Zurich等机构的MathArena团队，

新智元40天前

080

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源-创奇社

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

扩散模型通过新框架d1实现推理功能，结合监督微调与新颖策略梯度方法diffu-GRPO提升数学和逻辑推理能力。

机器之心22天前

0488

DeepMind闭关修炼「我的世界」，自学成才挖钻登Nature！人类玩家瑟瑟发抖-创奇社

DeepMind闭关修炼「我的世界」，自学成才挖钻登Nature！人类玩家瑟瑟发抖

谷歌DeepMind的DreamerV3在《我的世界》中无需人类数据自主完成钻石收集任务，标志着AI向通用人工智能（AGI）又迈进了一步。

新智元33天前

0100

无需数据标注！测试时强化学习，模型数学能力暴增清华&上海AI Lab-创奇社

无需数据标注！测试时强化学习，模型数学能力暴增清华&上海AI Lab

清华和上海AI Lab团队通过测试时强化学习方法，提升模型数学能力159%，在多个数据集上表现显著。

量子位19天前

04611

马斯克又秀人形机器人：擎天柱实现稳步行走-创奇社

马斯克又秀人形机器人：擎天柱实现稳步行走

马斯克发布特斯拉人形机器人擎天柱最新视频展示类人行走能力，并介绍其采用强化学习训练方案，未来目标是年产超5万台应用于工厂场景及计划2026年登陆火星。

财联社AI daily33天前

090

被《经验时代》刷屏之后，剑桥博士长文讲述RL破局之路-创奇社

被《经验时代》刷屏之后，剑桥博士长文讲述RL破局之路

归来的姿态在 LLM 的后训练时代证明了其巨大价值，Sutton 和 Barto 拿了图灵奖，Dav

机器之心19天前

0306