扩散模型通过新框架d1实现推理功能,结合监督微调与新颖策略梯度方法diffu-GRPO提升数学和逻辑推理能力。
2025-04-20 56

了突飞猛进的进展。 在探索的过程中,一个核心的议题是:对于模型推理性能的提升来说,什么有效?什么无效
2025-04-14 16
没有账号?注册  忘记密码?