月之暗面开源Moonlight:30亿/160亿参数混合专家模型
月之暗面Kimi发布新技术报告,推出在Muon上训练的混合专家模型Moonlight,包含30亿和160亿参数版本,使用5.7万亿个token,提升帕累托效率边界,实现在更低的浮点运算次数下更好的性能表现。
经济观察报,2025-02-24 11:59:38
公司动态
经济观察网讯 2月24日,月之暗面Kimi发布了“Muon可扩展用于LLM训练”的新技术报告,并宣布推出“Moonlight”:一个在Muon上训练的30亿/160亿参数混合专家模型(MoE)。使用了5.7万亿个token,在更低的浮点运算次数(FLOPs)下实现了更好的性能,从而提升了帕累托效率边界。(编辑 万佳)