🏠 网站首页
💎 中创网
💭 冒泡网
👑 福源网
🆓 免费项目
📰 资讯中心
❖ 提示词区
❖ 行业动态
登录
注册
搜索
diffu-GRPO
行业动态
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
扩散模型通过新框架d1实现推理功能,结合监督微调与新颖策略梯度方法diffu-GRPO提升数学和逻辑推理能力。
2025-04-20
56
在线客服
升级VIP
繁简切换
返回顶部
没有账号?
注册
忘记密码?
已有账号?
登录