mba架构,使长文本推理速度提升3倍,同时还能保持高性能,开源版本包括8B和56B尺寸。训练过程采用
2025-04-20 50
没有账号?注册  忘记密码?