新书7月10日报道,最近,人工智能软件副总裁兼首席架构师丁云凡在谈到计算瓶颈时表示,解决计算瓶颈问题需要从硬件集群计算能力、软件有效计算能力、异构聚合计算能力三个维度考虑。
他认为,要做好这三个维度,即使国内人工智能芯片的单一计算能力不强,也可以通过综合手段提高计算能力,以满足国内大型模型培训的需要。
“我们在2020年设计的第一代产品中制作了chiplet架构,今年国外巨头发布的英伟达B100、英特尔Gaudi等产品 3也采用了同样的想法,他们使用了最先进的工艺,但也需要chiplet来突破摩尔定律的限制,以提高单卡计算能力。”丁云帆说。
据他介绍,墙科技采用三级异步checkpoint技术,结合GPU显存和CPU内存,甚至多节点内存备份系统,实现了平衡,可以大大降低故障恢复成本。
此前,兰科技发布了首款通用GPU芯片BR100,创下全球计算能力纪录,16位浮点计算能力达到1000T以上,8位定点计算能力达到2000T以上,单芯片峰值计算能力达到PFLOPS水平。
当时,墙伦科技给出的数据显示,其首款旗舰产品BR100与英伟达在售的旗舰GPU峰值计算能力相比,Int8、BF16、TF32/TF32 、FP32数据格式的峰值性能优势至少为3.3倍,FP32数据格式的性能优势为13.1倍。
[本文结尾]如需转载,请务必注明出处:新书
责任编辑:雪花
文章内容报告
还没有评论,来说两句吧...