MoE架构共1篇
字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?-创奇社

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

字节最新研发的Seed-Thinking-v1.5模型在数学、代码推理任务中表现优异,参数规模较小。该模型通过创新的数据处理方法、强化学习算法及基础设施优化提升了性能,并与其他领先模型进行了对比分析...
量子位的头像-创奇社量子位30天前
0110