注意力机制共2篇
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强-创奇社

Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

mba架构,使长文本推理速度提升3倍,同时还能保持高性能,开源版本包括8B和56B尺寸。训练过程采用
新智元的头像-创奇社新智元22天前
0446
刚刚,ICLR 2025时间检验奖颁给Adam之父!Bengio「注意力机制」摘亚军-创奇社

刚刚,ICLR 2025时间检验奖颁给Adam之父!Bengio「注意力机制」摘亚军

ICLR 2025时间检验奖揭晓,Adam优化器和注意力机制分别由Jimmy Ba、Yoshua Bengio领衔的两篇2015年论文摘得冠军与亚军。Adam让大模型训练更快更稳;注意力机制为Transformer奠定基础并广泛应用...
新智元的头像-创奇社新智元28天前
090