谷歌深夜甩出AI芯片猛兽！最强TPU算力暴涨，能跑推理模型，内存大飙升

芯东西4月10日报道，今天，在谷歌云Next大会上，谷歌发布第七代TPU芯片Ironwood。谷歌机器学习、系统和云AI副总裁兼总经理Amin Vahdat称，Ironwood是谷歌迄今为止最强大、最节能的TPU，专为支持思考、推理类模型的大规模应用而设计。

每块Ironwood芯片的峰值算力为4614 TeraFLOPS（第六代TPU芯片Trillium的5倍），内存高达192GB（Trillium的6倍）；HBM带宽达到7.2 Tbps（Trillium的4.5倍）；其每瓦峰值算力是Trillium的2倍多。

通过芯片间互连（ICI）网络，Ironwood实现1.2 Tbps的芯片间双向带宽，最高可扩展至9216个液冷芯片组成的Pod，总算力达42.5 ExaFLOPS，是目前世界上最大超算El Capitan算力的24倍多。

对于谷歌云客户，Ironwood提供两种尺寸：256芯片配置和9216芯片配置。开发者还可以利用谷歌的Pathways软件堆栈，管理数万个Ironwood TPU的综合计算能力。全面推出的Cluster Director允许用户部署和管理具有计算、存储和网络功能的大型加速虚拟机集群。

谷歌称，Ironwood代表着AI及其基础设施的发展迎来重大转变，从提供实时信息供人类解读的响应式AI，转变为主动生成解读的AI模型，迎来“推理时代”。

Ironwood旨在“优雅地管理”思考模型复杂的计算和通信需求，包括大语言模型（LLM）、混合专家模型（MoE）和高级推理任务等这些需要大规模并行处理和高效的内存访问的场景。

具体而言，Ironwood能在执行大规模张量操作的同时，最大限度地减少芯片上的数据移动和延迟。

由于顶级思维模型的计算需求远远超出了任何单个芯片的容量，谷歌为Ironwood TPU配备了低延迟、高带宽的ICI网络，以支持全TPU Pod规模的协调同步通信。

Ironwood还配备了增强版SparseCore专用加速器，可用于处理高级排名和推荐任务中常见的超大嵌入。增强版SparseCore可以加速更多领域的任务，从传统的AI任务扩展到金融和科学等领域。

大会现场，谷歌云宣布他们将很快推出A4X和A4 VMs（虚拟机），由英伟达GB200 NVL72和B200 Blackwell GPU提供算力支持，谷歌云也将成为首批提供Vera Rubin GPU的云服务厂商。

英伟达创始人兼CEO黄仁勋特地为谷歌云Next大会录制了一段视频，他称英伟达与谷歌云的“超级合作伙伴关系”涵盖了每一层面的计算，英伟达将与谷歌云一起推出加密计算服务，面向全球的高监管与高风险行业客户。

Ironwood的发布正值AI芯片领域的竞争不断加剧。尽管英伟达在该领域处于领先地位，但包括亚马逊和微软在内的科技巨头也在纷纷推出自己的内部解决方案。亚马逊通过AWS提供了Trainium、Inferentia和Graviton处理器，而微软则为其Cobalt 100AI芯片提供Azure实例。

随着AI与行业、场景的集成越来越深入，谷歌正通过对Ironwood等推理场景专用硬件的投资，为这一未来做好准备。

原文链接：https://www.cqshe.com/001271.html，转载请注明出处。