快20倍还便宜！NVIDIAGPU的“掘墓人”出现了？(掘墓人lol)-新书

芯片初创公司Etched近日宣布推出一款针对芯片初创公司的Etched Transformer架构专用AISC芯片 “Sohu”，并声称自己在AI大语言模型中（LLM）推理性能击败了NVIDIA最新的B200 GPU，人工智能性能是H100的20倍。

这也意味着Sohu芯片将大大降低现有AI数据中心的采购成本和安装成本。

目前，Etched公司已直接与台积电4nm技术合作生产Sohu芯片，并从顶级供应商那里获得了足够的资金 HBM 和服务器供应，以快速提高第一年的生产能力。

一些早期客户已经向Etched公司预订了数千万美元的硬件。

快20倍还便宜！NVIDIAGPU的“掘墓人”出现了？

AI性能超过NVIIDIAI H100的20倍是怎么做到的？

据Etched公司介绍，Sohu是世界上第一个基于Transformer架构的ASIC。

根据Etched披露的数据，配备8个Sohu芯片的服务器每秒可以处理超过8个Sohu芯片 500,000 个 Llama 70B Token，同样配备8张NVIDIA H100 GPU加速卡服务器的20倍。

同样，也远远超过了配备8个NVIDIA的最新B200 GPU加速卡的服务器约为10倍。

快20倍还便宜！NVIDIAGPU的“掘墓人”出现了？

△基准测试是针对的 FP8 精度的 Llama-3 70B：无稀疏性，8x 模型并行、2048 输入/128 输出长度。使用 TensorRT-LLM 0.10.08(最新版本)计算 8xH100，8xGB200 数字是估算出来的。

Etched表示，Sohu的速度比NVIDIA最新一代Blackwelll架构的B200快 GPU的数量级更快，而且价格更便宜。它可以帮助客户建立起来。 GPU 无法实现的产品。

不过，这里还是要强调的是，虽然Sohu的AI性能比NVIDIAGPU好，但是有一个前提，因为Sohu是专门为基于Transformer架构的大模型定制的，所以它也只支持基于Transformer架构的大模型加速。

“通过将Transformer架构集成到我们的芯片中，虽然大多数传统的传统芯片都无法运行 AI 模型，如为 Instagram 广告提供支持 DLRM、像 AlphaFold 2 这种蛋白质折叠模型，如蛋白质折叠模型， Stable Diffusion 2 这样的旧图像模型，以及CNN、RNN 或 LSTM等模型，但对于基于Transformer架构的大模型来说，Sohu将是历史上最快的人工智能芯片，没有一个芯片能与之匹敌。”Etched公司说。

1、更高的计算利用率

因为Sohu只运行Transformer这种算法，所以可以删除绝大多数控制流逻辑，从而拥有更多的数学计算逻辑。因此，Sohu FLOPS 利用率超过 90%（而使用 TRT-LLM 的GPU上 FLOPS 利用率约为 30%）。

尽管NVIDIA H200 拥有 989 TFLOPS 的 FP16/BF16 计算能力（无稀疏性），这无疑是非常强大的，甚至比谷歌的新产品还要强大 Trillium 芯片更好。

但NVIDIA已经发布的B200计算能力只有25%(每个芯片 1,250 TFLOPS）。这是由于 GPU 绝大多数区域用于可编程性，因此专注于可编程性 Transformer 芯片可以进行更多的计算。

例如，构建单个 FFP16/BF16/FP8 需要乘加电路 10,000 晶体管，这是所有矩阵数学的基石。NVIDIA H100 SXM 有 528 每张量核心，每张量核心，每张量核心4， x 8 × 16FMA 电路。

正文

快20倍还便宜！NVIDIAGPU的“掘墓人”出现了？(掘墓人lol)

相关阅读

快20倍还便宜！NVIDIAGPU的“掘墓人”出现了？(掘墓人lol)

全球首款Transformer专用AI芯片Sohu发布：比英伟达H100快20倍(transceiver芯片)

159元起！小米上新米家电饭煲N1：九段精煮最快28分钟米饭上桌(米家电饭煲1s评测)

苹果正在研发廉价版AppleVision：最快2025年上市(iphone廉价版上市时间)

发表评论取消回复

还没有评论，来说两句吧...

目录[+]