推理阶段 - 创奇社 - AI 与 DeepSeek 前沿资讯・资源・课程平台

RL for LLMs，强化学习的 Scaling Law 才刚刚起步？

RL for LLMs，强化学习的 Scaling Law 才刚刚起步？

近期研究者通过奖励模型增强通用奖励模型在推理阶段的可扩展性，同时使用强化学习提升LLM性能。然而，当前强化学习算法仍有改进空间，奖励稀疏性是主要难点之一。

2025-04-13 41

在线客服
升级VIP
繁简切换
返回顶部