推理速度共2篇
清华&英伟达揭露ICML最佳论文隐藏数值问题,简单掩码模型是等价更好选择 ICLR25-创奇社

清华&英伟达揭露ICML最佳论文隐藏数值问题,简单掩码模型是等价更好选择 ICLR25

是清华及英伟达研究人员最新提出的观点。 他们发现,作为离散扩散模型中性能最强的类别,掩码扩散模型可能
量子位的头像-创奇社量子位20天前
03112
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强-创奇社

Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

mba架构,使长文本推理速度提升3倍,同时还能保持高性能,开源版本包括8B和56B尺寸。训练过程采用
新智元的头像-创奇社新智元22天前
0446