Google Cloud 在大规模计算升级中加倍投入人工智能超级计算机
Lasted 2024-04-10 11:31:43
谷歌云宣布了对其云基础设施的广泛扩展,旨在为人工智能训练、推理和数据处理提供多样而强大的方法。在拉斯维加斯曼德勒海湾举行的谷歌云年度大会上,谷歌云推出了一系列新进展,以帮助客户释放人工智能模型的全部潜力,其中包括 "人工智能超级计算机"(AI Hypercomputer)架构。这个架构结合了谷歌云的TPU、GPU以及人工智能软件,为客户提供了广泛的生成式人工智能培训选项组合。
AI Hypercomputer 架构的核心支柱之一是谷歌云的张量处理单元(TPU),这是专为神经网络和AI加速定制的电路。谷歌云宣布最新迭代的TPU v5p 已全面上市。该产品于去年12月首次发布,谷歌云声称其训练大型语言模型的速度是上一代产品的三倍。每个TPU v5p 包含 8960 个芯片,每个芯片的内存带宽可提高300%。
谷歌云还加入了新的A3巨型虚拟机,该虚拟机将配备Nvidia的H100 GPU阵列,在每个虚拟机中提供了两倍的GPU到GPU网络带宽。此外,一项名为 "Hyperdisk ML "的新服务将帮助企业利用块存储来改进数据访问,以实现人工智能和机器学习(ML)的目的。Hyperdisk ML 能够在必要时跨服务器缓存数据,以进行数千次推理,并且比其他解决方案加载模型的速度快12倍。
谷歌云还发布了一款面向数据中心的通用CPU,名为Google Axion。这是谷歌云首款基于Arm架构的CPU,用于为谷歌服务如BigTable、BigQuery和谷歌地球引擎提供动力。谷歌云表示,Axion的性能比当前一代x86实例提高了50%,比基于Arm的实例提高了30%。