监督微调共2篇
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源-创奇社

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散模型通过新框架d1实现推理功能,结合监督微调与新颖策略梯度方法diffu-GRPO提升数学和逻辑推理能力。
机器之心的头像-创奇社机器之心22天前
0488
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展-创奇社

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

了突飞猛进的进展。 在探索的过程中,一个核心的议题是:对于模型推理性能的提升来说,什么有效?什么无效
机器之心的头像-创奇社机器之心29天前
090