TACC借助 Horizon 系统探索高性能计算混合精度与 FP64 仿真技术


如果想在高性能计算仿真与建模领域测试某个想法,并观察其对各类科学应用的影响,得克萨斯大学奥斯汀分校的得克萨斯高级计算中心或许是最佳选择。这里是美国国家科学基金会(NSF)旗舰级超级计算机的部署地,因此各类应用程序全年无休地在此运行。

现有的 “Frontera” 系统于 2019 年 9 月投入使用,是一台纯 CPU 架构超级计算机,由 8368 个双路至强(Xeon)节点组成,共计 468608 个核心,峰值性能达 38.75 拍字节浮点运算 / 秒(petaflops)。Frontera 系统中设有一个搭载液冷英伟达(Nvidia)GPU 节点的分区,该分区以 3.5 拍字节浮点运算 / 秒的性能,测试国家科学基金会相关程序的 GPU 加速效果。这些国家科学基金会程序的应用范围涵盖天体物理学、量子力学、材料科学、药物设计及气候建模等多个领域。每年,有超过 100 个大规模、计算密集型应用程序在 Frontera 系统上运行,其中许多应用程序能够充分利用该系统的全部性能。

2023 年 11 月,TACC 做出了向 GPU 加速转型的明确决策,推出了 “Vista” 超级计算机。该系统旨在衔接已显老旧的 Frontera 与性能将大幅提升的 “Horizon” 系统 —— 后者作为国家科学基金会的新一代旗舰级超级计算机,最初预计于 2026 年投入使用。Vista 系统于 2023 年末启动部署,2024 年夏季交付使用。正如我们所预期的,该系统确实预示了 TACCHorizon 系统上所依赖的 CPU 与 GPU 混合架构未来。Vista 系统包含 256 个纯 CPU 节点和 600 个 CPU-GPU 混合节点,在不同数值精度下的 CPU 与 GPU 性能均表现不俗:

TACC 超级计算机

Ranger

Stampede

Stampede-2

Frontera

Stampede-3

Vista

Horizon

部署年份

2008

2012

2017

2019

2023

2024

2026

纯 CPU 节点

3936

6400

1736

8008

1848

256

4752

CPU 核心数

62976 个 * 2.3GHz 皓龙(Opteron)核心

102400 个 * 2.7GHz   至强(Xeon)E5-2680 v2 核心

166656 个 * 2.1GHz   至强(Xeon)8160 v3 核心

468608 个 * 2.7GHz   至强(Xeon)E5-2620 v4 核心

131712 个 * 不同主频的至强(Xeon)核心

36864 个 * 3.1GHz 格蕾丝(Grace)核心

836352 个 *   3.64GHz 维拉(Vera)核心

FP64 性能

579.4 太字节浮点运算 / 秒(teraflops)

2.1 拍字节浮点运算 / 秒(petaflops)

5.2 拍字节浮点运算 / 秒(petaflops)

38.7 拍字节浮点运算 / 秒(petaflops)

7.9 拍字节浮点运算 / 秒(petaflops)

1.8 拍字节浮点运算 / 秒(petaflops)

131.8 拍字节浮点运算 / 秒(petaflops)

CPU-GPU 混合节点

108

20

600

2016

混合节点 CPU 核心数

4752 个 * 2.0GHz   Power9 核心

2240 个 * 1.9GHz 至强(Xeon)Max CPU 核心

43200 个 * 3.44GHz   格蕾丝(Grace)核心

145152 个 *   3.44GHz 格蕾丝(Grace)核心

GPU 数量

448 个 * 英伟达(Nvidia)V100

80 个 * 英特尔(Intel)Max GPU

600 个 * 英伟达(Nvidia)H100

4032 个 * 英伟达(Nvidia)B200

FP64 性能(CPU+GPU)

3.5 拍字节浮点运算 / 秒(petaflops)

2.1 拍字节浮点运算 / 秒(petaflops)

2.3+40.8 拍字节浮点运算   / 秒(petaflops)

6.9+161.28 拍字节浮点运算 / 秒(petaflops)

FP16 性能(稀疏计算)

1.183 艾字节浮点运算 / 秒(exaflops)

20.16 艾字节浮点运算 / 秒(exaflops)

FP8 性能(稀疏计算)

2.375 艾字节浮点运算 / 秒(exaflops)

40.32 艾字节浮点运算 / 秒(exaflops)

FP4 性能(稀疏计算)

80.64 艾字节浮点运算 / 秒(exaflops)

CPU – 协处理器节点

6880

4200

90

协处理器节点 CPU 核心数

2880 个 * 2.1GHz 至强(Xeon)E5-2620 v4

协处理器数量

6880 个 * 1.1GHz 至强融核(Xeon Phi)7120P

4200 个 * 1.4GHz 至强融核(Xeon Phi)7250

360 个 * 英伟达(Nvidia)RTX 5000

FP64 性能(CPU + 协处理器)

7.1 拍字节浮点运算 / 秒(petaflops)

12.8 拍字节浮点运算 / 秒(petaflops)

0.063 拍字节浮点运算 / 秒(petaflops)

总 FP64 性能

579.4 太字节浮点运算 / 秒(teraflops)

9.2 拍字节浮点运算 / 秒(petaflops)

18.0 拍字节浮点运算 / 秒(petaflops)

42.3 拍字节浮点运算 / 秒(petaflops)

10 拍字节浮点运算 / 秒(petaflops)

43.1 拍字节浮点运算 / 秒(petaflops)

300 拍字节浮点运算 / 秒(petaflops)

性能提升幅度

15.9 倍

1.96 倍

2.35 倍

7.1 倍

值得关注的是,TACC 执行董事丹斯坦齐奥内(Dan Stanzione)向《The Next Platform》透露,早在 2021 年,TACC 就已与英伟达及戴尔(Dell)达成 Horizon 系统相关协议。因此,从某种程度上说,Horizon 系统选用的 GPU 早已确定 —— 将采用 “Hopper” 系列 H100 和 H200 之后的 “Blackwell” 数据中心 GPU,而非后续的 “Rubin” GPU 加速器。尽管按照英伟达的计划,Rubin GPU 加速器将于 2026 年底推出(有迹象表明,“Vera” CV100 Arm 处理器和 Rubin R200 GPU 加速器均能按时在 2026 年下半年交付)。

由于美国国家科学基金会的预算周期与英伟达的产品周期难以同步,Horizon 系统无法等待 Rubin GPU。这也是 Horizon 系统的 CPU-GPU 混合部分采用 2016 个节点的原因 —— 每个节点配备 1 颗 72 核心的 “Grace” CG100 Arm 处理器和 2 块 Blackwell B200 GPU。据我们计算,这些 Grace CPU 的 FP64 性能达 6.9 拍字节浮点运算 / 秒,Blackwell GPU 的 FP64 性能则为 161.3 拍字节浮点运算 / 秒。

对于 TACC 计划开展的混合精度浮点运算研究(该研究始于 Frontera 系统,在 Vista 系统上进一步推进)而言,至关重要的一点是:这些 Blackwell GPU 在 FP16 精度下的性能略超 20 艾字节浮点运算 / 秒,FP8 精度下略超 40 艾字节浮点运算 / 秒,FP4 精度下则接近 81 艾字节浮点运算 / 秒(下文将详细介绍)。

由于仍有大量美国国家科学基金会的工作负载需在 CPU 上运行,设置纯 CPU 分区同样必要。因此,Horizon 系统包含一个基于 Vera CV100 处理器的分区,该处理器拥有 88 个核心。通过反向计算我们推测,该分区由 4752 个 Vera-Vera 超级芯片节点组成,这些节点的主频为 3.64GHz,FP64 总性能达 131.8 拍字节浮点运算 / 秒。

幸运的是,尽管生成式人工智能(GenAI)热潮导致英伟达 GPU 的市场价格大幅上涨,但英伟达仍履行了 2021 年与 TACC 达成的财务协议。

“这对我们来说是件好事,” 斯坦齐奥内表示,“我们当时并未预料到生成式人工智能会迎来如此爆发式增长,但值得称赞的是,英伟达兑现了承诺,按约定数量和价格为我们提供了 GPU。而戴尔及系统其他部分的成本则大幅上升 —— 我们并未达成类似的固定价格协议,但五年前我们确实为这 4000 块 GPU 签订了固定价格协议,且明确适用于 Blackwell 系列。尽管 GPU 零售价格大幅波动,英伟达仍坚守了与我们的约定。我认为我们的采购成本未必比美国能源部(DOE)下属实验室更具优势,但肯定比 OpenAI 的采购成本更低。”

这无疑是个好消息,为 TACC 点赞!

不过,今年即将部署的 Horizon 系统还有一个令人关注的亮点:TACC 将利用 Blackwell GPU 张量核心中的低精度浮点运算功能,对科学家当前在 TACC 设备上运行的高性能计算仿真与建模工作负载核心的 FP64 计算进行仿真。

“随着行业发展,电路设计越来越注重低精度运算,我们必须对此进行深入研究,” 斯坦齐奥内解释道,“我们目前尚未掌握所有相关信息,但我们将先进行原生 FP64 运算测试,之后很可能采用 Ozaki 方案进行 FP64 仿真(除非出现更优方案)。对于所有验收应用程序,我们将开展验证流程,对比原生 FP64 运算结果与 Ozaki 方案生成的非完全符合 IEEE 标准的 FP64 运算结果的准确性。但考虑到当前低精度运算的电路资源投入规模,我们预计仿真 FP64 的性能将比原生 FP64 提升 2 至 3 倍。”

斯坦齐奥内补充称,TACC 将分别以原生 FP64 和仿真 FP64 模式,运行高性能 LINPACK 测试,以参与全球超级计算机 TOP500 排名。这与田纳西大学的杰克东加拉(Jack Dongarra)等人开发的 LINPACK 代码中的混合精度 HPL 求解器不同 —— 后者可实现 10 倍的性能提升。

我们热切期待看到实际应用程序在 Blackwell 和 Rubin GPU 上采用 Ozaki 方案的表现,并希望能获取相关数据,对比采用相同 Ozaki 方案仿真的 “Ampere” 和 “Hopper” GPU 的性能(2012 年发布了关于 Ozaki 方案的原始论文,去年 4 月则发布了一篇关于更新后的 Ozaki FP64 仿真算法的新论文)。

TACC 已通过内部实现的 Ozaki 方案在其 GPU 上进行了初步测试,但斯坦齐奥内表示,针对 Blackwell GPU,TACC 将转而采用英伟达提供的 FP64 仿真器参考实现。他指出,实际性能将取决于 Blackwell GPU 的带宽,但采用 Ozaki 方案仅需修改代码中的 DGEMM 调用(选择原生或仿真模式)即可。

“如果这种仿真能够产生科学上可接受的结果,那么无需更换芯片,我们的 FP64 计算成本就能降低 2 至 3 倍,” 斯坦齐奥内满怀期待地说,“我推测,随着时间推移,将会出现更多类似 Ozaki 的方案 —— 其中部分方案的性能可能略低,但能满足 IEEE 64 的所有边界条件。未来,这些方案可能会被隐藏在微码中,用户将无需再关注其实现细节。”

五年前 TACC 与英伟达签订 Blackwell GPU 采购协议时,上述这些可能性均未被纳入考量。因此,若仿真技术能够成功落地,这将成为另一项推动科学进步的意外收获,就像早期与英伟达锁定 GPU 价格一样。

英伟达锁定价格这一举措的影响不容小觑。Horizon 系统的总预算为 4.57 亿美元,其中仅需约三分之一的资金即可覆盖来自英伟达的计算和网络设备成本(斯坦齐奥内表示,与 Horizon 系统相连的、来自 VAST Data 的 400PB 闪存存储是单独招标采购的)。尽管 Horizon 系统的 FP64 综合性能约为 300 拍字节浮点运算 / 秒(低于早期规划阶段传闻的 400 拍字节浮点运算 / 秒),但约 1.6 亿美元的采购价格堪称划算 —— 这一投入是 Frontera 系统的 2.7 倍,而 FP64 性能却达到了 Frontera 系统的 7.1 倍。

若仅对比 GPU 引擎性能,Frontera 与 Horizon 系统的差距更为显著。Frontera 系统的 448 块 “Volta” V100 GPU 的 FP64 性能为 3.5 拍字节浮点运算 / 秒,而 Horizon 系统的 4032 块 Blackwell GPU 的 FP64 性能达 161.3 拍字节浮点运算 / 秒 ——GPU 向量核心的 FP64 吞吐量提升了 46.1 倍。在张量核心方面,FP16 精度下的性能达 20.2 艾字节浮点运算 / 秒,且精度每减半,计算吞吐量就翻一番,FP4 精度下的性能可达 80.6 艾字节浮点运算 / 秒。

我们期待 FP64 仿真测试数据的公布 —— 该数据可能显示,同一台机器的仿真 FP64 性能可达 320 至 484 拍字节浮点运算 / 秒,经过优化后甚至可能更高,而若追求更高的精度保真度,性能则可能略有下降。

今年的高性能计算领域将不乏看点,混合精度技术或许将成为高精度浮点运算的主流仿真方案。

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->
            <!-- 非定向300*250按钮  end -->
        </div>



Source link

未经允许不得转载:紫竹林-程序员中文网 » TACC借助 Horizon 系统探索高性能计算混合精度与 FP64 仿真技术

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的