新书8月19日消息,摩尔线程正式发布夸娥智算集群KUAE 1.2版本通过软硬件层面的综合优化,提升功能和性能,更高效、更稳定,对生态系统更友好,为大型模型培训提供更坚实、更可靠的计算能力支持。
夸娥1.2主要升级点:
▼MFU增加10% 最高可达55%
在新版本中,使用千卡集群训练千亿模型,MFU(模型算力利用率)提高10%。
在密集模型集群训练中,MFU最高可达55%。
▼Flash Attention2优化
通过集成最新的MUSAA, SDK平台和优化后的Flash Attention2技术,结合新版Torch MUSA与算子的融合显著提高了大模型训练的效率和资源利用率,大大缩短了训练周期,降低了整体成本。
▼64K长文本支持
加强对长文本大模型培训的支持,优化处理长文本理解和生成任务的能力,更好地处理文档摘要、文章写作等复杂语言处理任务。
▼支持混合专家模型MoE模型
MCCL通信库完成了All2All优化,并对不同形状的muDNN算子矩阵运算进行了优化,以更好地支持MoEl(Mixture of Experts)训练大模型。
这不仅提高了智能计算的效率,而且为更大参数的大模型训练提供了高度可扩展的基础。
▼断点续训
进一步提高了大模型训练的Checkpoint(检查点)读写性能,写入时间小于2秒,显著提高了训练效率。
▼对DeepSpeed进行优化
支持Depsped、Ulysses的适应性和性能优化,加强了长文本训练的支持。
适用于国内外多种大型模型,在Hugging中, Face支持培训和微调主要开源模型,创新型企业可灵活选择不同的大模型开发智能应用。
▼稳定性提升
千卡集群软硬件进一步成熟,实现连续15天无故障训练。
新版本引入了KUAE Aegis的可靠性功能,加强了GPU、监测、自动诊断和故障恢复能力,如显存、集合通信等。
▼可视化/可观测
引入Perfsight性能监控系统,可实时显示模型训练过程中的资源消耗和性能分析数据,有助于快速发现和恢复训练过程中的故障,满足大型性能调整的需要。
▼内置模型库新增模型库新增模型
KUAE内置模型库Modelllllod Zoo新增LLAMA2全系列大模型,百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。
[本文结尾]如需转载,请务必注明出处:新书
责任编辑:上面的文Q
文章内容报告
还没有评论,来说两句吧...