监督微调 - 创奇社 - AI 与 DeepSeek 前沿资讯・资源・课程平台

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

扩散模型通过新框架d1实现推理功能，结合监督微调与新颖策略梯度方法diffu-GRPO提升数学和逻辑推理能力。

2025-04-20 76

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

了突飞猛进的进展。在探索的过程中，一个核心的议题是：对于模型推理性能的提升来说，什么有效？什么无效

2025-04-14 35

在线客服
升级VIP
繁简切换
返回顶部