亚马逊云科技和英伟达宣布了一项多方合作,致力于构建全球最具可扩展性且按需付费的人工智能(AI)基础设施,以便训练日益复杂的大语言模型(LLM)和开发生成式AI应用程序。据了解,亚马逊云科技和英伟达合作已超过12年,为人工智能、机器学习、图形、游戏和高性能计算(HPC)等各种应用提供了大规模、低成本的GPU解决方案。
借助由NVIDIA H100 Tensor Core GPU支持的下一代Amazon Elastic Compute Cloud(Amazon EC2)P5 实例,以及亚马逊云科技最先进的网络和可扩展性,此次合作将提供高达20 exaFLOPS的计算性能来帮助构建和训练更大规模的深度学习模型。P5实例将是第一个利用亚马逊云科技第二代Amazon Elastic Fabric Adapter(EFA)网络技术的GPU实例,可提供3200 Gbps的低延迟和高带宽网络吞吐量。因此客户能够在 Amazon EC2 UltraCluster中扩展多达2万个H100 GPU,满足按需访问超级计算机的AI性能需求。
点击查看:亚马逊云科技免费套餐
新的Amazon EC2 P5实例构建于亚马逊云科技和英伟达十多年来在AI和HPC基础设施交付方面的合作基础之上,也立足于双方在P2、P3、P3dn 和 P4d(e)前四代实例方面的合作。P5实例是基于英伟达GPU的第五代亚马逊云科技产品,与最初部署的英伟达GPU(始于CG1实例)已相隔近13年。
Amazon EC2 P5实例非常适合对日益复杂的LLM和计算机视觉模型进行训练和运行推理,并应用于要求严苛的计算密集型生成式 AI 应用程序,包括问题回答、代码生成、视频图像生成和语音识别等领域。
对于致力于以可扩展和安全的方式将 AI 赋能的创新推向市场的企业和初创公司而言,Amazon EC2 P5实例是不二之选。P5 实例采用 8 个英伟达 H100 GPU,能够在一个Amazon EC2 实例中实现 16 petaFLOPs 的混合精度性能、640 GB 的高带宽内存和3200 Gbps 的网络连接(比上一代实例高出 8 倍)。P5 实例性能的提升使机器学习模型训练时间加快了 6 倍(将训练时间从数天缩短到数小时),额外的GPU内存可帮助客户训练更庞大更复杂的模型。预计P5实例的机器学习模型训练成本将比上一代降低 40%。相比灵活性较差的云产品或昂贵的本地系统,它为客户提供了更高的效率。
Amazon EC2 P5 实例部署在 Amazon EC2 UltraCluster 的超大规模集群中,该集群由云端最高性能的计算、网络和存储系统组成。每个 EC2 UltraCluster 都是世界上功能最强大的超级计算机之一,助力客户运行最复杂的多节点机器学习训练和分布式 HPC 工作负载。
它们采用PB级无阻塞网络,基于 Amazon EFA,这种面向 Amazon EC2 实例的网络接口使客户能够在亚马逊云科技上运行需要在大规模高级节点间通信的应用程序。EFA 的定制操作系统绕过硬件接口,并与英伟达 GPUDirect RDMA 整合,可降低延迟、提高带宽利用率,从而提升实例间通信性能,这对于在数百个 P5 节点上扩展深度学习模型的训练至关重要。
借助 P5 实例和 EFA,机器学习应用程序可以使用 NVIDIA Collective Communications Library(NCCL)扩展到多达 2 万个 H100 GPU。因此,客户可以通过亚马逊云科技的按需弹性和灵活扩展能力,获得本地 HPC 集群的应用性能。除了这些出色的计算能力外,客户可以使用业界最广泛最深入的服务组合,比如面向对象存储的 Amazon S3、面向高性能文件系统的 Amazon FSx,以及用于构建、训练和部署深度学习应用的 Amazon SageMaker。P5 实例将在今后几周提供有限预览版。
借助新的 Amazon EC2 P5 实例,Anthropic、Cohere、Hugging Face、Pinterest 和Stability AI 等客户将能够大规模构建和训练最庞大的机器学习模型。基于其它几代 Amazon EC2 实例的合作将帮助初创公司、大企业和研究人员无缝扩展来满足各自的机器学习需求。