推理速度共3篇
清华&英伟达揭露ICML最佳论文隐藏数值问题,简单掩码模型是等价更好选择 ICLR25-创奇社

清华&英伟达揭露ICML最佳论文隐藏数值问题,简单掩码模型是等价更好选择 ICLR25

是清华及英伟达研究人员最新提出的观点。 他们发现,作为离散扩散模型中性能最强的类别,掩码扩散模型可能
量子位的头像-创奇社量子位20天前
03112
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强-创奇社

Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

mba架构,使长文本推理速度提升3倍,同时还能保持高性能,开源版本包括8B和56B尺寸。训练过程采用
新智元的头像-创奇社新智元22天前
0446
GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的-创奇社

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

1,实力究竟如何?在众多实测中,它的表现的确可圈可点,但却依然打不过Gemini 2.5 Pro和C
新智元的头像-创奇社新智元27天前
040