连续无故障训练15天！摩尔线程发布夸娥智算集群KUAE1.2-新书

新书8月19日消息，摩尔线程正式发布夸娥智算集群KUAE 1.2版本通过软硬件层面的综合优化，提升功能和性能，更高效、更稳定，对生态系统更友好，为大型模型培训提供更坚实、更可靠的计算能力支持。

夸娥1.2主要升级点：

▼MFU增加10% 最高可达55%

在新版本中，使用千卡集群训练千亿模型，MFU(模型算力利用率)提高10%。

在密集模型集群训练中，MFU最高可达55%。

▼Flash Attention2优化

通过集成最新的MUSAA， SDK平台和优化后的Flash Attention2技术，结合新版Torch MUSA与算子的融合显著提高了大模型训练的效率和资源利用率，大大缩短了训练周期，降低了整体成本。

▼64K长文本支持

加强对长文本大模型培训的支持，优化处理长文本理解和生成任务的能力，更好地处理文档摘要、文章写作等复杂语言处理任务。

▼支持混合专家模型MoE模型

MCCL通信库完成了All2All优化，并对不同形状的muDNN算子矩阵运算进行了优化，以更好地支持MoEl（Mixture of Experts）训练大模型。

这不仅提高了智能计算的效率，而且为更大参数的大模型训练提供了高度可扩展的基础。

▼断点续训

进一步提高了大模型训练的Checkpoint(检查点)读写性能，写入时间小于2秒，显著提高了训练效率。

▼对DeepSpeed进行优化

支持Depsped、Ulysses的适应性和性能优化，加强了长文本训练的支持。

适用于国内外多种大型模型，在Hugging中， Face支持培训和微调主要开源模型，创新型企业可灵活选择不同的大模型开发智能应用。

▼稳定性提升

千卡集群软硬件进一步成熟，实现连续15天无故障训练。

新版本引入了KUAE Aegis的可靠性功能，加强了GPU、监测、自动诊断和故障恢复能力，如显存、集合通信等。

▼可视化/可观测

引入Perfsight性能监控系统，可实时显示模型训练过程中的资源消耗和性能分析数据，有助于快速发现和恢复训练过程中的故障，满足大型性能调整的需要。

▼内置模型库新增模型库新增模型

KUAE内置模型库Modelllllod Zoo新增LLAMA2全系列大模型，百川、雅意、Qwen2、Mixtral（MoE 8x7B)等模型。

连续无故障训练15天！摩尔线程发布夸娥智算集群KUAE1.2

[本文结尾]如需转载，请务必注明出处：新书

责任编辑：上面的文Q

文章内容报告

连续无故障训练15天！摩尔线程发布夸娥智算集群KUAE1.2