Vor dem diesjährigen Einsatz von Frontier dient der 1,5-Cabinet-„Crusher“ der Wissenschaft
Von Tiffany Trader
28. März 2022
Der Frontier-Supercomputer wurde 2021 im Oak Ridge National Laboratory des Energieministeriums installiert, der endgültige Schrank wurde im Oktober in Betrieb genommen. Während die Bereinigung des vollständigen 2-Exaflops-Spitzensystems weitergeht – wir haben inoffiziell von Problemen mit der Verbindungstechnologie gehört – läuft das Frontier-Projekt mit einem kleineren Testbed-System mit demselben Kerndesign.
Mit einer maximalen doppelten Präzision von etwa 40 Petaflops ist „Crusher“ eine 1,5-Gehäuse-Iteration des Supercomputers Cray EX Frontier. Crusher wird frühen wissenschaftlichen Nutzern dienen, während die Integration und Erprobung des gesamten Frontier-Systems mit 74 Schränken fortgesetzt wird. Das Frontier-System ist auf dem besten Weg, irgendwann in diesem Jahr das erste Exascale-System der Vereinigten Staaten zu sein und wird laut Oak Ridge National Laboratory am 1. Januar 2023 den vollständigen Benutzerbetrieb aufnehmen.
Crusher besteht aus 192 HPE Cray EX-Knoten – jeweils mit einer AMD „Trento“ 7A53 Epyc-CPU und vier AMD Instinct MI250X-GPUs (insgesamt 768 GPUs). Trento verwendet die gleichen Zen-3-Kerne wie Milan, optimiert für eine bessere Speichereffizienz. Die Knoten sind über die Slingshot-11-Verbindung von HPE verbunden. Jeder Knoten verfügt über 512 GB DDR4-Speicher auf der CPU und 512 GB HMB2e (128 GB pro GPU) mit kohärentem Speicher über den Knoten hinweg.
Im Gegensatz dazu soll der Frontier in voller Größe 2 Exaflops Spitzenleistung mit doppelter Präzision in 74 Gehäusen innerhalb eines 29-MW-Leistungsbereichs liefern. Auf einer Grundfläche von 372 m2 in der Oak Ridge Leadership Computing Facility (OLCF) umfasst Frontier 9.408 Knoten mit insgesamt 9,2 Petabyte Speicher (4,6 Petabyte DDR4 und 4,6 Petabyte HBM2e). Gesamtzahl der GPUs: 37.632. Es stehen 37 Petabyte lokaler Knotenspeicher und Zugriff auf 716 Petabyte zentrumsweiten Speicher zur Verfügung.
Die in der Frontier-Architektur verwendeten HPE Olympus-Racks sind vollständig flüssigkeitsgekühlt, einschließlich der DIMMs und NICs. Jeder Schrank wiegt (im trockenen Zustand) 3.630 Kilogramm. Das vollständige Frontier-System umfasst insgesamt 81.000 Kabel.
Crusher, sagte Oak Ridge, sei bereit, die Wissenschaft zu „zerschlagen“, obwohl wir vermuten, dass der Name auch eine Anspielung auf den Chefarzt aus der Fernsehserie Star Trek: The Next Generation sein könnte. Im weiteren Sinne wäre die vollständige Konfiguration die „Final Frontier“.
Bei vier Projekten wurde der Code bereits erfolgreich für Crusher und damit auch für Frontier optimiert. Dabei handelt es sich um das Projekt CANcer Distributed Learning Environment (CANDLE); das Projekt „Computergestützte Hydrodynamik auf ∥ (parallelen) Architekturen“ oder „Cholla“; das Locally Self-Consistent Multiple Scattering (LSMS)-Projekt; und das Nuclear Coupled-Cluster Oak Ridge (NuCCOR)-Projekt. Einige dieser Codes gehen auf das erste Hybridarchitektursystem von OLCF zurück, den stillgelegten 27-Petaflop-Supercomputer Cray XK7 Titan, der ebenfalls CPU+GPU-Knoten verwendete und der 2012 in Betrieb genommen wurde.
Höhepunkte der ersten Ergebnisse:
„Crusher ist das neueste in einer langen Reihe von Test- und Entwicklungssystemen, die wir für frühe Benutzer von OLCF-Plattformen eingesetzt haben, und mit Sicherheit das leistungsstärkste System, das wir jemals bereitgestellt haben“, sagte Bronson Messer vom ORNL, OLCF-Wissenschaftsdirektor. „Die Ergebnisse, die diese Codeteams auf der Maschine erzielen, sind sehr ermutigend, da wir mit Frontier auf den Beginn der Exascale-Ära blicken.“
„Mit einer Grundfläche von nur 44 Quadratfuß ist Crusher ein Hundertstel der Größe des vorherigen Titan-Supercomputers, aber schneller als das gesamte 4.352 Quadratfuß große System und bietet für seine geringe Größe eine enorme Rechenleistung“, berichtete der Ankündigung von Oak Ridge.
Frontier sollte ursprünglich in der zweiten Hälfte des Jahres 2021 bereitgestellt und 2022 abgenommen werden. Verzögerungen der einen oder anderen Art sind bei Supercomputing-Systemen dieses Umfangs und Umfangs typisch, und Frontier ist darüber hinaus die erste Implementierung der AMD A+A-Architektur zu einer der ersten Exascale-Maschinen der Welt. Es bleibt abzuwarten, ob Frontier wie allgemein erwartet rechtzeitig für die Top500-Liste Ende Mai (nicht Juni dieses Jahres) bereit sein wird (vorausgesetzt, das System war vor der Veröffentlichung der Liste im November 2021 vollständig installiert). Oak Ridge hat keinen genauen Zeitplan für den Einsatz und die Abnahme von Frontier genannt, außer dass dies im Jahr 2022 erfolgen wird, gefolgt vom Beginn des vollständigen Betriebs am 1. Januar 2023.
Eine Herausforderung, die Oak Ridge und seine Lieferantenpartner bereits gemeistert haben, betrifft die durch Covid verursachten Engpässe in der Lieferkette. In einer Rede auf der SCA22 Anfang dieses Monats sagte Al Geist, Corporate Research Fellow des ORNL, dass es von den 59 Millionen Teilen von Frontier etwa 2 Millionen Teile gäbe, die die regulären Hersteller nicht liefern könnten. „Die HPE- und AMD-Teams haben eine heldenhafte Anstrengung unternommen, um Elektroniklager und […] andere Hersteller anzurufen und [die fehlenden Teile zu beschaffen.]“
OLCF ist eine Einrichtung der Spitzenklasse (wie der Name schon sagt) und die Heimat von Summit, einem weiteren heterogenen CPU-GPU-System, das 2018 auf den Markt kam. Mit 149 Linpack-Petaflops ist die von IBM gebaute Maschine derzeit das zweitgrößte System auf dem zweimal jährliche Top500-Liste der schnellsten Computer. Den Titel des schnellsten Supercomputers der Welt trägt offiziell das auf Riken Arm basierende Fujitsu-System (442 Petaflops Spitzenwert), es wird jedoch angenommen, dass China über zwei Exascale-Systeme verfügt, die aus politischen Gründen von der Liste ausgeschlossen wurden.
Zwei weitere Exascale-Systeme sind in den Vereinigten Staaten an Deck: Aurora im Argonne National Laboratory und El Capitan im Livermore National Laboratory. Aurora, die mehrere Rückschläge und Rückschläge erlitten hat, soll später in diesem Jahr im Argonne National Lab wieder auf die Beine gestellt werden. Die Intel-HPE-Zusammenarbeit strebt nun eine Spitzenleistung von mehr als 2 Exaflops an. Auf den ersten Blick könnte die verlangsamte Einführung von Frontier diese Zeitpläne möglicherweise in Frage stellen; Allerdings ist Frontier bereits auf dem Boden und Aurora noch nicht. Die Ponte-Vecchio-GPU für den Aurora-Supercomputer wird erst später in diesem Jahr ausgeliefert, berichtete Intel kürzlich. Unterdessen sind die Vorbereitungen für El Capitan in Livermore in vollem Gange; Das System – das von HPE mit einer ähnlichen Architektur wie Frontier gebaut werden soll – soll 2023 ausgeliefert werden und verspricht eine Spitzenleistung von mehr als 2 Exaflops.
Lesen Sie die OLCFPressemitteilungWeitere Informationen zu den wissenschaftlichen Codes, die auf Crusher ausgeführt werden, finden Sie hier.
Pressemitteilung