➢ 网站首页
❖ 中创网
Z
❖ 冒泡网
M
❖ 福源网
F
❖ 免费项目
free
❖ 资讯中心
❖ 提示词区
❖ 行业动态
开通会员
开通年费会员
时长:一年
免费查看所有付费资源
1对1客服支持
开通年费会员
开通永久会员
时长:永久
免费查看所有付费资源
1对1客服支持
开通永久会员
开通会员 尊享会员权益
登录
注册
找回密码
➢ 网站首页
❖ 中创网
Z
❖ 冒泡网
M
❖ 福源网
F
❖ 免费项目
free
❖ 资讯中心
❖ 提示词区
❖ 行业动态
开通会员 尊享会员权益
登录
注册
找回密码
强化学习
共6篇
排序
更新
浏览
点赞
评论
无需数据标注!测试时强化学习,模型数学能力暴增 清华&上海AI Lab
清华和上海AI Lab团队通过测试时强化学习方法,提升模型数学能力159%,在多个数据集上表现显著。
行业动态
量子位
19天前
0
46
11
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
扩散模型通过新框架d1实现推理功能,结合监督微调与新颖策略梯度方法diffu-GRPO提升数学和逻辑推理能力。
行业动态
机器之心
22天前
0
48
8
OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维
姚顺雨指出AI发展分为上半场和下半场。上半场以模型和方法为主,而下半场的重点转向如何定义现实任务并有效评估AI的表现。他强调强化学习已能泛化,并提出新的评估规则来解决当前局限性。
行业动态
量子位
24天前
0
23
6
不会吧!OpenAI 发布新 O3 和 4o-mini,居然得看算力基础设施的脸色?
太平洋彼岸的 Meta 公司便发布了 Llama 4 模型。该模型参考了 DeepSeek 的技术,
行业动态
AI前线
22天前
0
23
6
语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升
最新研究提出F5R-TTS系统,通过概率化输出和GRPO优化方法成功将强化学习整合到非自回归TTS中,显著提升语音合成质量。
行业动态
机器之心
22天前
0
33
6
被《经验时代》刷屏之后,剑桥博士长文讲述RL破局之路
归来的姿态在 LLM 的后训练时代证明了其巨大价值,Sutton 和 Barto 拿了图灵奖,Dav
行业动态
机器之心
19天前
0
30
6
在手机上浏览此页面
登录
没有账号?立即注册
用户名或邮箱
登录密码
记住登录
找回密码
登录
注册
已有账号,立即登录
设置用户名
设置密码
重复密码
注册