据国内媒体报道,新书9月5日报道,在2024年全球人工智能芯片峰会上,国内人工智能芯片公司壁崖科技将首次公布自主原创的异构GPU协同训练方案HGCT。
据了解,这将是中国第一个三种异构芯片混合训练技术,该行业首次支持三种或三种以上异构GPU混合训练相同的大型模型(悬崖GPU) 英伟达GPU 其他国产芯片)采用统一方案支持不同型号、不同厂商的GPU,一行代码适用于各种框架。
在此之前,AI Infra公司无问芯穹4 2芯片,最多只支持两种GPU同时训练。
性能方面,HGCT混训方案的异构协同通信效率大于98%、端到端训练效率90-95%,一举突破了大型异构算力孤岛问题。
可靠性方面,目前可实现千卡集群和千亿参数自动断点续训不足10分钟,15天连续训练不中断,4天连续训练无故障。
据报道,壁科技与客户、合作伙伴、科研机构共同推广异构GPU协作培训生态,包括:中国移动、中国电信、尚唐科技、国家电网智能电网研究院有限公司、上海智能计算能力技术有限公司、上海人工智能实验室、中国信息通信研究院等。
公开资料显示,墙体科技成立于2019年9月,主要研发通用, GPU(GPGPU),用于人工智能训练与推理等领域。
2021年3月,壁崖科技完成B轮融资,累计融资额超过47亿元
20202年8月,首款通用GPU芯片BR100正式发布,创下全球计算能力纪录,16位浮点计算能力达到1000T以上,8位定点计算能力达到2000T以上,单芯片峰值计算能力达到PFLOPS水平。
甚至是NVIDIA当时的4nmm BR100的纸面性能数据也不逊色于旗舰H100。
[本文结尾]如需转载,请务必注明出处:新书
责任编辑:朝晖
文章内容报告
还没有评论,来说两句吧...