Press "Enter" to skip to content

机器学习算力基准MLPerf新一期榜单发布:Graphcore效率领先

6 月 30 日,开放工程联盟 MLCommons 发布了机器学习训练性能基准 MLPerf Training v1.0 的最新结果。

 

在新一期基准测试中,研究人员统计了各类硬件设备在不同机器学习模型训练到标准质量目标所需的时间,包括图像分类、目标检测、NLP、推荐系统和强化学习。MLCommons 还添加了两个新的基准来评估语音到文本和 3D 医学成像任务的性能。

 

与上一轮结果相比,本期的最佳基准测试结果提升高达 2.1 倍,这显示出了硬件、软件和系统规模的大幅性能提升。

 

行业基准测试组织 MLPerf 于 2018 年 5 月由谷歌、百度、英特尔、AMD、哈佛和斯坦福大学共同发起,是机器学习领域芯片性能的重要参考标准。

 

 

在新的一期榜单中,训练 NLP 领域着名预训练模型 BERT 的时间已经被缩短到十几秒了:在谷歌的 TPU 上,训练这样一个模型只需要 17 秒,而用英伟达的服务器也只需 19 秒。

 

Graphcore 的服务器需要十几分钟才能训练完,但需要知道的是,Graphcore 系统仅由两块 AMD EPYC 处理器和 64 个 Graphcore IPU 芯片组成。谷歌的机器是由 3456 块 TPU 和 1728 个 AMD 的 EPYC 处理器组成。而英伟达的最佳结果在一个系统中使用了 4096 块最新的 A100 和 1024 个 AMD EPYC CPU。

 

 

除了多芯片服务器性能令人刮目相看以外,来自芯片公司 Graphcore 的产品也表现出了很高的效率。此次测试结果显示,在 Graphcore IPU-POD64 上,BERT 的训练时间只用 12 分钟,ResNet-50 的训练时间为 14.5 分钟,AI 性能已达超级计算机级别。

 

MLPerf 还对比了市面上的 Graphcore 系统与英伟达的最新产品,结果证实 Graphcore 在「每美元性能」(Performance-Per-Dollar)指标上更加优秀。对客户而言,这项重要的第三方测试确认了 Graphcore 系统不仅具有新一代 AI 的优异性能,同时在目前的广泛应用中也表现非常出色。

 

MLPerf 基准测试

 

对于第一次 MLPerf 1.0 版的提交,Graphcore 选择聚焦在关键图像分类和自然语言处理的应用基准测试类别。MLPerf 图像分类基准使用流行的 ResNet-50 版本 1.5 模型,在 ImageNet 数据集上训练, 以达到适用于所有提交情况的准确率。对于自然语言处理,使用了 BERT-Large 模型和选取的一个代表性片段。该片段大约占总训练计算工作负载的 10%,并使用维基百科数据集进行训练。

 

Graphcore 提交的成绩是 ResNet-50 和 BERT 图像分类和自然语言处理部分,这是目前流行的应用和模型方向。参与测试的两个 Graphcore 系统,IPU-POD16 和 IPU-POD64,均已量产交付客户。

价格较低、结构紧凑的 5U IPU-POD16 系统适用于刚开始构建 IPU AI 计算能力的企业客户。它由 4 个 1U 的 IPU-M2000 和 1 个双 CPU 服务器(dual-CPU server)组成,可以提供 4 PetaFLOPS 的 AI 处理能力。
纵向扩展的 IPU-POD64 包含 16 个 IPU-M2000 和数量灵活的服务器。Graphcore 系统实现了服务器和 AI 加速器的解耦,因此客户可以根据工作负载指定 CPU 与 IPU 的比率。例如,和自然语言处理相比,计算机视觉任务通常对服务器的需求更高。对于 MLPerf,IPU-POD64 在 BERT 的提交中使用了 1 台服务器,在 ResNet-50 的提交中使用了 4 台服务器。每台服务器均由 2 个 AMD EPYC CPU 驱动。

MLPerf 测试包含开放分区和封闭分区两个提交分区。封闭分区严格要求提交者使用完全相同的模型实施和优化器方法,包括定义超参数状态和训练时期。开放分区保证和封闭分区完全相同的模型准确性和质量,但支持更灵活的模型实践。因此,该分区支持更快的模型实现,更加适应不同的处理器功能和优化器方法。

 

对于像 Graphcore IPU 这样的特殊架构,开放分区更能体现出产品的优异性能,但 Graphcore 还是选择在开放和封闭分区都进行了提交。

 

测试结果体现了 Graphcore 系统的优异性能,即使在具有限制规格的开箱即用的封闭分区上也是如此。更令人瞩目的是开放分区结果,Graphcore 能够在其中优化部署,以充分利用 IPU 和系统功能。这更贴近真实应用,支持客户可以不断提升其系统性能。

 

 

「每美元性能」指标

 

MLPerf 的比较存在很多指标,评判校准复杂。从相对简单的硅片到有着昂贵存储的复杂堆栈式芯片,如今的处理器和系统架构差别巨大。如果以「每美元性能」的角度来看,往往最能够说明问题。

 

Graphcore 的 IPU-POD16 是一个 5U 的系统,标价 15 万美元。如前所述,它由 4 个 IPU-M2000 加速器以及行业标准主机服务器构成。每个 IPU-M2000 由 4 个 IPU 处理器构成。MLPerf 中使用的 NVIDIA DGX-A100 640GB 是一个 6U 机盒,标价约为 30 万美元,有 8 个 DGX A100 芯片。IPU-POD16 的价格是它的一半。在这个系统中,IPU-M2000 的价格和一个 DGX A100 80GB 的价格是一样的,或者在更细的层次上,一个 IPU 的价格是它的四分之一。

 

在 MLPerf 比较分析中,Graphcore 采用了严格监管的封闭分区的结果,并针对系统价格对其进行了归一化。对于 ResNet-50 和 BERT,很明显 Graphcore 系统提供了比 NVIDIA 产品更好的每美元性能。在 IPU-POD16 上进行 ResNet-50 训练的情况下,Graphcore 的每美元性能是 NVIDIA 的 1.6 倍。

 

在 BERT 上,Graphcore 的每美元性能是 NVIDIA 的 1.3 倍。Graphcore 系统的经济性可以更好地帮助客户实现其 AI 计算目标,同时,由于 IPU 专为 AI 构建的架构特点,Graphcore 系统还可以解锁下一代模型和技术。

 

 

Graphcore 软件主管 Matt Fyles 表示,「这对于希望使用人工智能的公司来说非常有意义。新结果非常具有代表性,我们将继续推进自身系统的发展,并继续提高其效率。」

 

Graphcore 高级副总裁兼中国区总经理卢涛表示:「首次提交 MLPerf 就获得如此出色的成绩,我们感到非常自豪。此次测试还会带给 Graphcore 客户更多价值,因为我们在准备阶段所做的所有改进和优化都会反馈到 Graphcore 软件栈中。全球范围内的 Graphcore 用户都会从 MLPerf 测试中受益匪浅,不仅局限于 BERT 和 ResNet-50 模型。我们将继续参与包括训练和推理在内的 MLPerf 测试,为追求更优性能、更大规模和添加更多模型,贡献 Graphcore 的所有智慧和力量。」

 

参考内容:

 

https://www.zdnet.com/article/graphcore-brings-new-competition-to-nvidia-in-latest-mlperf-ai-benchmarks/

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注