9月17日,据外媒The next platform报道,美国计算机协会(Associationfor Computing Machinery; ACM)近期公布了戈登·贝尔奖(被誉为“超级计算应用领域的诺贝尔奖”)的入围名单。
基于中国1.5 EXAFLOPS(百亿亿次)超级计算机的一篇研究论文再次入围,该奖项将在今年11月在美国丹佛举行的SC23超级计算大会上颁发。
中国超级计算机再度入围
ACM表示,虽然最终的系统规模以及模拟和模型运行的结果尚未完成,但基于新一代的 1.5 exaflops中国神威超级计算机(oceanlite,太湖之光升级版)完成的一篇题为《涡轮机械流动的精确计算》论文(将在11月SC23会议之前正式发布)已经入围。
早在2021年11月,中国的超级计算机就曾以4190万个核心的量子模拟而获得了戈登贝尔奖。
当时阿里巴巴集团、清华大学、DAMO学院,浙江实验室和北京人工智能研究院在Oceanlite机器中运行了一个名为“八卦路”的预训练机器学习模型,该模型涉及3700多万个核心和14.5万亿个参数。
此次《涡轮机械流动的精确计算》论文,则是由Weiqi Shen, Jiahuan Cui, Yao Zheng等(共 19 位作者),来自浙江大学、清华大学、国家超级计算无锡中心、剑桥大学、佛罗里达大学团队共同完成。
该团队开发了一种新的大涡流模拟代码,用于解决涡轮机械中的可压缩流。他们将该代码应用于美国国家航空航天局(NASA)的重大挑战问题,使用高阶非结构化求解器求解高压涡轮级联的 16.9 亿个网格元素和 8650 亿个自由度。
根据该论文的作者显示,Oceanlite系统拥有超过100000个由中国国家并行计算机工程与技术研究中心(NRCPC)设计的定制SW26010 Pro处理器。
2022年4月,中国科学技术大学、国家海洋科学与技术试点实验室(青岛)、北京大学数学科学学院、无锡国家超级计算中心和中国海洋大学组成的联合团队,公布了一篇超级计算机模拟复杂量子多体的文章介绍,SW26010 pro是sw26010改进型,拥有6个核心模块,每个模块有1个管理Linux线程的核心(MPE)和64个计算核心。
而组成太湖之光的SW26010处理器,只有4个核心模块,说明SW26010 pro单片应该有50%的性能提升。
The next platform的报道称,SW26010 Pro处理器的64个(8 x 8)计算核心网络是一个具有256KB L2高速缓存的计算处理单元(CPE)。每个CPE有四个逻辑块,可以在一对上支持FP64和FP32,在另一对上则可以支持FP16和BF16。
SW26010 Pro中的每个核心模块上都有一个DDR4内存控制器和16 GB内存,内存带宽为51.4 GB/秒,因此整个处理器有96 GB主内存和307.2 GB/s带宽。六个CPE通过环形互连连接,并有两个网络接口,使用专有互连将它们连接到外部。
SW26010 Pro芯片的FP64或FP32精度为14.03 PB,BF16或FP16精度为55.3 PB。
The next platform称,Oceanlite最大的配置有107520个节点,共有4193万个核心,分布在105个机柜中。刚刚曝光的论文也证实了该超级计算机的理论峰值性能为1.5 exaflops,MPE内核运行在2.1 GHz,CPW内核运行在2.25 GHz。
如果将该超级计算机规模扩大到120个机柜,在FP64 pervision下的峰值将达到1.72 Exaflops,这将超过美国橡树岭国家实验室的1.68 Exaflops的“Frontier”超级计算机。
在160个机柜的条件下,在FP64的峰值性能将接近2.3 Exaflops,将有望击败已经安装完成的美国能源部阿贡国家实验室的基于英特尔CPU及GPU的新一代超级计算机“Aurora”,以及正在建设的美国劳伦斯·利弗莫尔国家实验室基于AMD MI300芯片的“El Capitan”超级计算机,后两者的FP64性能都将达到 2 Exaflops以上。
不过,最新的戈登·贝尔奖参赛论文《涡轮机械流动的精确计算》显示,其对于喷气发动机模拟在大约58333个节点上运行,这些节点代表了超过350000个MPE核心和超过2240万个CPE核心。
这是以上预测的Oceanlite最大配置的一半多一点。
其他入围者介绍
1、量子精度的大规模材料建模:金属合金中的准晶体和相互作用扩展缺陷的 Ab Initio 模拟
Sambit Das、Bikash Kanungo、Vishal Subramanian 等人(共八位作者),组成的团队成员包括密歇根大学、印度科学研究所和美国橡树岭国家实验室
密歇根大学和印度科学研究所的团队与美国橡树岭国家实验室合作,开发了一种混合机器学习和HPC模拟方法,将密度函数理论(DFT)和量子多体(QMB)问题结合起来,进行量子粒子模拟。这项工作实现了高精度计算,并通过将 QMB 方法与 DFT 相结合的逆-DFT 实现了大规模建模。
他们实现了地面阶段的能量计算,同时保持了与 QMB 相称的精度,最终的软件能够利用到Frontier超级计算机系统的60%计算资源。但不要认为这意味着这个量子模拟可以持续以 1 EB的速度运行。当涉及到这个特定的应用程序时,它可能会更像650 PB的浮点运算,而且可能会少得多,这取决于Frontier的计算和网络效率。
2、用于先进设计的百亿亿次级多物理场核反应堆模拟
Elia Merzaria、Steven Hamilton、Thomas Evans 等人(共 12 位作者)由来自美国宾夕法尼亚州立大学、橡树岭国家实验室、阿贡国家实验室和伊利诺伊大学厄巴纳香槟分校的团队组成
该研究团队模拟了一个先进的核反应堆系统,将辐射传输与热和流体模拟耦合在一起,包括高保真、高分辨率蒙特卡罗代码 Shift 和计算流体动力学代码 NekRS。
Nek5000/RS在ORNL的Frontier系统上实现,实现了10亿个谱元和3500亿个自由度,而Shift则在8192个系统节点上实现了非常高的弱缩放。
结果,他们计算了 214,896 个燃料棒区域中的 6 个反应,统计误差低于 1%,为蒙特卡罗运输应用提供了首个解决方案。
ACM报告称,该研究是在Frontier系统的8192个节点上运行(该超算总的有9402个节点),每个节点有一个“Trento”自定义AMD Epyc CPU,每个节点拥有四个“Aldebaran”Instinct MI250X GPU加速器,总计37608个GPU。
3、通过前所未有的谱元模拟探索湍流瑞利-贝纳德对流的最终状态
Niclas Jansson、Martin Karp、Adalberto Perez 等人(总共 12 位作者),其中包括来自 KTH 皇家理工学院、弗里德里希·亚历山大大学、马克斯·普朗克计算和数据设施以及伊尔梅瑙工业大学的团队
该团队开发了高保真光谱元素代码 Neko,这对于对完全发展的湍流进行前所未有的大规模直接数值模拟至关重要,同时保持 GPU 加速平台上的高性能可移植性。
他们应用了 GPU 优化的预处理器,其任务重叠用于压力泊松方程和原位数据压缩。
他们还通过复杂的工作流程控制,在配备多达 16,384 个GPU的 芬兰的“LUMI”超级计算机和意大利的“Leonardo”超级计算机上进行了大规模瑞利-贝纳德对流的初始运行。
4、在 Cerebras CS-2 系统上使用代数压缩扩展多维地震处理的“记忆墙”
Hatem Ltaief、Yuxi Hong、Leighton Wilson 等人(总共六位作者)是阿卜杜拉国王科技大学和 Cerebras Systems Inc. 团队
研究人员利用针对人工智能 (AI) 定制的目前为止这是世界上最大的AI芯片Cerebras CS-2 系统的高内存带宽进行地震数据处理,通过利用低秩矩阵近似来拟合 SRAM(静态随机存取存储器)晶圆级硬件上的问题,以及使用许多依赖于多维卷积算子的基于波动方程的算法。
因此,该团队将标准地震基准数据集实施到 Cerebras 处理元件的小型本地存储器中,将最坏情况下的负载平衡整个应用程序执行推断到 35,784,000 个处理元件上的 48 个 CS-2 系统。
这是在人工智能定制架构上运行的应用程序的一个重要示例,可以支持新一代地震算法。
5、将深度等变模型的领先精度扩展到真实尺寸的生物分子模拟
哈佛大学约翰·A·保尔森工程与应用科学学院团队成员 Albert Musaelian、Anders Johansson、Simon Batzner 和 Boris Kozinsky
该研究团队开发了 Allegro 架构,以弥合原子模拟的精度与速度之间的权衡,并能够以量子保真度描述前所未有的复杂结构中的动力学。这是通过创新模型架构、大规模并行化和针对高效 GPU 使用而优化的模型实现相结合来实现的。
Allegro 的可扩展性通过在美国劳伦斯伯克利国家能源研究科学计算中心的 “Perlmutter” 系统上对蛋白质动力学进行长达纳秒的稳定模拟,模拟了HIV病毒衣壳的原子结构,高达4400万个原子结构,模拟时间为几纳秒。他们实现了高达 1 亿个原子的强大扩展。
首个戈登·贝尔气候建模奖
值得一提的是,ACM还将颁发其首个戈登·贝尔气候建模奖。
由美国桑迪亚国家实验室开发和扩展的能源Exascale地球系统模型的SCREAM变体入围了该奖项。
有趣的是,SCREAM的部分代码是从头开始的,使用C 和Kokkos库将代码打包到系统中的CPU和GPU,在这种情况下,它在美国橡树岭实验室的“Frontier”超级计算机上运行,每天模拟1.26年进行实际的云解析模拟。
中国Oceanlite系统也入围了该决赛,这一系统模拟了2021年末和2022年初汤加近海水下火山喷发的影响,包括冲击波、地震、海啸以及水和火山灰的扩散。
模拟和模型的结合能够模拟400亿粒子,并以80%的计算效率在Oceanlite系统中运行3900万个核心。
第三位入围戈登·贝尔气候建模决赛的是日本的一组研究人员,他们在理研实验室的“Fugaku”超级计算机中获得了11580个节点,约占该机器总节点的7%,并为2021年东京奥运会制作了一个1000集合、500米分辨率、30秒刷新的天气模型。
这是一个真实的用例,在30天内发布了超过75248个天气预报,每个30分钟的预报都在不到三分钟的时间内完成。