排序
语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升
最新研究提出F5R-TTS系统,通过概率化输出和GRPO优化方法成功将强化学习整合到非自回归TTS中,显著提升语音合成质量。
OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维
姚顺雨指出AI发展分为上半场和下半场。上半场以模型和方法为主,而下半场的重点转向如何定义现实任务并有效评估AI的表现。他强调强化学习已能泛化,并提出新的评估规则来解决当前局限性。
RL for LLMs,强化学习的 Scaling Law 才刚刚起步?
近期研究者通过奖励模型增强通用奖励模型在推理阶段的可扩展性,同时使用强化学习提升LLM性能。然而,当前强化学习算法仍有改进空间,奖励稀疏性是主要难点之一。
DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖
谷歌DeepMind的DreamerV3在《我的世界》中无需人类数据自主完成钻石收集任务,标志着AI向通用人工智能(AGI)又迈进了一步。
颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!
本身不够好 。 尤其在专业搜索场景(如文献、数据库查询)中,用户往往无法用精确、完整的表达描述他们
速递|DeepSeek联手清华新模型GRM开源,算力降低性能反升
DeepSeek与清华大学合作开发自我进化的AI模型,利用强化学习提升模型效率。该方法在多项基准测试中超越现有方法和模型,展示了更少计算资源下的优化性能,并计划以开源形式发布新模型。