扩散模型

达摩院在ICLR 2025提出了动态架构DyDiT，通过智能资源分配将DiT模型的推理算力削减51%，生成速度提升1.73倍，FID指标几乎无损，并且仅需3%的微调成本。

2025-04-24 59

近日，大连理工大学与莫纳什大学的研究团队提出VLIPP框架，通过引入物理规律提升视频生成的物理真实性。论文指出视频扩散模型在物理场景下表现不佳的原因，并提出两阶段方法，利用视觉语言模型预测运动路径，再用细粒度的视频扩散模型生成符合物理规则的视频。

2025-04-17 67

北京大学的研究人员提出了一种名为MotionReFit的新模型，它可以根据用户的文本指令生成逼真的人体动作。该模型通过引入MotionCutMix数据增强技术及带有动作协调器的自回归扩散模型来实现这一目标，支持空间和时间上的动作编辑，无需特定的身体部位规范。

2025-04-14 37

TTT打造了一分钟视频生成器，让汤姆和杰瑞的追逐战延续到全新篇章，技术与经典的完美碰撞，你准备好迎接

2025-04-10 851