万宁市谊堂府497号 +13594780053 rapt@mac.com

公司新闻

  • Home
  • 亚马逊 EC2 P5e 实例现已全面推出 机器学习博客

亚马逊 EC2 P5e 实例现已全面推出 机器学习博客

2026-01-27 12:21:09 27

Amazon EC2 P5e 实例现已普遍可用

作者:Avi Kulkarni Aman Shanbhag Pavel Belevich Khaled Rawashdeh Karthik Venna Maxime Hugues Shruti Koparkar,发布日期:2024年9月9日发布于 Amazon EC2、 公告、 计算 永久链接评论 分享

关键要点

Amazon EC2 P5e 实例已正式推出,致力于满足高速计算和生成式 AI 的需求。P5e 实例配备 NVIDIA H200 GPU,具有更高的内存带宽和更大的 GPU 内存,使其更适合训练和部署大型语言模型 (LLMs)。P5e 实例适用于各种计算密集型工作负载,如生成式 AI、深度学习和高性能计算 (HPC)。即将推出的 P5en 实例将解决 CPU 和 GPU 之间的通信瓶颈,进一步提高工作负载性能。

随着生成式 AI 模型和高性能计算 (HPC) 应用程序对计算能力的需求不断增加,客户正在探索这些技术的边界,以便在各个行业中推出具有更高保真度的产品和体验。

亚马逊 EC2 P5e 实例现已全面推出 机器学习博客

近年来,大型语言模型 (LLMs) 的规模已呈指数级增长,反映了 AI 领域的一项重要趋势。在短短五年内,模型的参数数量已经从数十亿增加到数千亿。虽然 LLMs 的规模不断扩大,使其在各种自然语言处理任务上的表现显著提高,但增加的模型规模也带来了巨大的计算和资源挑战。训练和部署这些模型需要大量的计算能力、内存和存储空间。

LLM 的规模对推理所需计算的选择有着深远的影响。较大的 LLMs 需要更多 GPU 内存来存储模型参数和中间计算,并且需要更强的计算能力来执行推理所需的矩阵乘法等操作。因为计算复杂性增加,较大的 LLMs 执行单次推理所需的时间会更长。这种额外的计算需求可能导致推理延迟增加,而推理延迟对需要实时或近实时响应的应用至关重要。

HPC 客户也表现出类似的趋势。随着 HPC 客户数据收集的保真度提高,数据集达到艾克字节级别,客户正在寻找加快解决方案的方式,以应对日益复杂的应用程序。

为满足客户在深度学习、生成式 AI 和 HPC 工作负载中对高性能和可扩展性的需求,我们很高兴地宣布 Amazon Elastic Compute Cloud (Amazon EC2) P5e 实例现已普遍可用,这些实例由 NVIDIA H200 Tensor Core GPU 提供支持。AWS 是首家在生产中提供 H200 GPU 的领先云服务提供商。此外,我们还宣布即将推出网络优化的 P5en 实例。

在这篇文章中,我们将讨论这些实例的核心能力及其适用的用例,并演示如何开始使用这些实例以及在其上进行 Meta Llama 31 70B 和 405B 模型的推理部署。

EC2 P5e 实例概述

P5e 实例配备 NVIDIA H200 GPU,内存容量比 P5 实例中的 NVIDIA H100 Tensor Core GPU 高出 17 倍,GPU 内存带宽快 15 倍。

P5e 实例集成了 8 个 NVIDIA H200 GPU,共有 1128 GB 的高带宽 GPU 内存、第三代 AMD EPYC 处理器、2 TiB 的系统内存和 30 TB 的本地 NVMe 存储。P5e 实例还提供 3200 Gbps 的聚合网络带宽,支持 GPUDirect RDMA,通过绕过 CPU 实现节点之间的低延迟和高效扩展性能。

一元加速器网址

以下表格总结了实例的详细信息:

实例大小vCPUs实例内存 (TiB)GPUGPU 内存网络带宽 (Gbps)GPUDirect RDMAGPU 点对点实例存储 (TB)EBS 带宽 (Gbps)p5e48xlarge19228 x NVIDIA H2001128 GB HBM3e3200 Gbps EFA是900 GB/s NVSwitch8 x 384 NVMe SSD80

EC2 P5en 实例即将推出

GPU 加速计算中的一个瓶颈可能存在于 CPU 和 GPU 之间的通信。对于大型数据集或需要频繁数据交换的工作负载而言,数据在这两个组件之间的传输非常耗时。这一挑战可能会影响广泛的基于 GPU 的应用程序,如深度学习、高性能计算和实时数据处理。CPU 与 GPU 之间的数据移动需求可能会引入延迟并降低整体效率。此外,网络延迟也可能成为分布式系统上 ML 工作负载的问题,因为数据需要在多个机器之间传输。

即将在 2024 年推出的 EC2 P5en 实例可以帮助解决这些挑战。P5en 实例将 NVIDIA H200 GPU 与定制的第四代英特尔至强可扩展处理器配对,实现 CPU 与 GPU 之间的 PCIe Gen 5。这些实例将提供高达四倍的 CPU 与 GPU 之间的带宽并降低网络延迟,从而提高工作负载性能。

P5e 用例

P5e 实例非常适合训练、微调和运行越来越复杂的 LLM 和多模态基础模型 (FMs),这些模型支持最具挑战性和计算密集的生成式 AI 应用程序,包括问答、代码生成、视频和图像生成、语音识别等。

客户在进行推理部署 LLM 时,可以利用 P5e 实例的几个关键优势,使其成为这些工作负载的理想选择。

首先,P5e 实例中 H200 GPU 的更高内存带宽使得 GPU 能够更快速地从内存中获取和处理数据。这意味着推理延迟得以降低,对于期望近瞬时响应的实时应用如对话 AI 系统而言,这一点至关重要。更高的内存带宽还提高了吞吐量,使 GPU 每秒可以处理更多推理。在 P5e 实例上部署 70 亿参数的 Meta Llama 31 模型时,与使用类似 P5 实例相比,客户可以预期实现高达 1871 倍的吞吐量提高和高达 40 的成本降低。

其次,现代 LLM 的巨大规模拥有数百亿参数在推理过程中需要大量内存来存储模型及中间计算。在标准的 P5 实例上,这可能需要使用多个实例来满足内存需求。而 P5e 实例的 GPU 内存容量提高了 176 倍,使您能够通过单个实例来容纳整个模型。这可以避免与分布式推理系统相关的复杂性和开销,例如数据同步、通信和负载均衡。客户在单个 P5e 实例上部署 405 亿参数的 Meta Llama 31 模型时预期能够获得高达 172 倍的吞吐量提高和高达 69的成本降低。

最后,P5e 实例更高的 GPU 内存还允许在推理期间使用更大的批量大小,以提高 GPU 的利用率,从而实现更快的推理时间和更高的整体吞吐量。这额外的内存对于有高吞吐量推理需求的客户尤其有利。

在优化推理吞吐量和成本时,请考虑调整批量大小、输入/输出序列长度及量化级别,因为这些参数可能产生显著影响。尝试不同配置以找到您的特定用例在性能和成本之间的最佳平衡。

总之,P5e 实例结合了更高的内存带宽、增加的 GPU 内存容量和对更大批量大小的支持,非常适合客户部署 LLM 推理工作负载。与其他选项相比,这些实例可以带来显著的性能提升、成本节约和操作简便性。

P5e 实例同样适合内存密集型的 HPC 应用,如模拟、制药发现、地震分析、天气预报和金融建模。使用动态编程 (DP) 算法进行基因组测序或加速数据分析等应用的客户,也可以通过支持 DPX 指令集获得更多收益。

开始使用 P5e 实例

在启动 P5 实例时,您可以使用 AWS 深度学习镜像 (DLAMI) 来支持 P5 实例。DLAMI 为机器学习实践者和研究人员提供基础设施和工具,帮助他们快速构建可扩展、安全、分布式的机器学习应用程序。您可以通过 AWS 深度学习容器 在 P5 实例上运行容器化应用程序,并使用 亚马逊弹性容器服务 (Amazon ECS) 或 亚马逊弹性 Kubernetes 服务 (Amazon EKS) 中的库。

P5e 实例现已可用

EC2 P5e 实例现已在美国东部 (俄亥俄) AWS 区域 中以 p5e48xlarge 尺寸提供,并可以通过 Amazon EC2 容量块 进行访问。有关更多信息,请参阅 Amazon EC2 P5 实例。

关于作者

Avi Kulkarni 是高级专员,专注于全球商业发展和 ML 及 HPC 工作负载的市场推广,服务于商业和公共部门客户。之前,他曾在 AWS 管理合作伙伴关系,并负责霍尼韦尔汽车客户的产品管理,涵盖电动、自动及传统车辆。

Karthik Venna 是 AWS 的首席产品经理,负责 EC2 实例的开发,涵盖深度学习和生成式 AI 等广泛工作负载。

Khaled Rawashdeh 是 AWS 的高级产品经理,负责定义和创建 Amazon EC2 加速计算实例,以满足最苛刻的 AI/机器学习工作负载的需求。在加入 AWS 之前,他曾在领先公司任职,专注于为企业客户开发数据中心软件和系统。

Aman Shanbhag 是 AWS ML 框架团队的助理专员解决方案架构师,帮助客户和合作伙伴大规模部署 ML 训练和推理解决方案。加入 AWS 之前,Aman 毕业于莱斯大学,获得计算机科学、数学和企业管理学位。

Pavel Belevich 是 AWS ML 框架团队的高级应用科学家。他将自己在大规模模型分布式训练和推理方面的研究应用于现实客户需求。在加入 AWS 之前,Pavel 曾在 PyTorch 分布式团队工作,研究多种分布式训练技术,如 FSDP 和流水线并行。

Dr Maxime Hugues 是 AWS 的全球首席专员解决方案架构师,专注于生成式 AI,自 2020 年加盟 AWS。He holds a ME from the French National Engineer School “ISENToulon”,MS 从科学大学获得学位,并于 2011 年从 Lille 1 大学获得计算机科学博士学位。他的研究主要集中在编程范式、极端计算的创新硬件和 HPC/机器学习的性能。在加入 AWS 之前,他曾是 TotalEnergies 的 HPC 研究科学家和技术负责人。

Shruti Koparkar 是 AWS 的高级产品市场经理,帮助客户探索、评估和采用 Amazon EC2 加速计算基础设施以满足他们的机器学习需求。

发表评论