Na Arnesu smo nedavno posodobili svojo računsko gručo oz. superračunalnik, ki je sedaj veliko zmogljivejši. O vseh vidikih nadgradnje vam več povemo v spodnjih odstavkih.
Nadgradnja oz. pridobitev novih GPU-jev
Predvsem je k nadgradnji pripomogla pridobitev osmih novih H100 GPU računskih vozlišč. Vsako vozlišče je sestavljeno iz:
- 2x Nvidia H100, 80GB HBM2e in
- 2x AMD EPYC 9124 16-jedrni processor s 64 nitmi.
Trenutno smo v fazi raziskovanja, kako v našo gručo čim bolje vgraditi Multi-Instance GPU (MIG) oz. GPU z več instancami, ki omogoča razdelitev H100 GPU-ja na 7 ali manj instanc. Pri tem je vsaka instanca izolirana in ima svoja računska jedra, predpomnilnik in pomnilnik. To omogoča, da lahko ločeno poganjamo več aplikacij in se tako izognemo tekmovanju za vire GPU-ja.
Če GPU razdelimo na 7 delov MIG, lahko tako iz 16 GPU-jev dobimo 112 manjših izoliranih delov GPU-ja z 10GB spomina HBM2e. To pomeni, da lahko teoretično sočasno uporablja GPU z 10 GB HBM2e spomina kar 112 uporabnikov.
Nadgradnja Ceph storage in ERASURE
Dodali smo šest infrastrukturnih strežnikov (skupno jih je zdaj 16) za podatkovno shrambo AMD EPYC 7402P, z naslednjimi komponentami:
- 24 jeder, 48 niti,
- 2,8 GHz,
- 180W,
- 192GB RAM,
- 28X 12TB HDD,
- 4X 4TB SSD,
- 2X 1TB SSD.
Pred nadgradnjo so bili podatki shranjeni tako, da je bil podatek shranjen na dveh različnih strežnikih. Po nadgradnji podatkovne shrambe smo za boljšo zagotovitev redundantnosti podatke prestavili na “Erasure code 8+3” sklad. To pomeni, da je objekt razdeljen na 8 delov in vsebuje 3 redundantne, oziroma paritetne dele, ki so uporabljeni za rekonstrukcijo objektov ob izgubi podatkov. Vsak del se nahaja na drugem podatkovnem strežniku.
Prednosti takšnega sklada so:
- boljša odpornost z več uporabnega prostora (sedaj EC 8+3 – 72,7%, prej 2x replikacija – 50%),
- ob izpadu treh ali manj strežnikov bomo podatek še vedno lahko rekonstruirali.
V shrambo smo sicer dodali 168 HDD in 36 SSD diskov, skupno je zdaj v shrambi 448 HDD in 96 SSD diskov, kar pomeni:
- 3,3 PB surovega HDD prostora oz. 2,4 PB razpoložljivega prostora in
- 250 TB SSD prostora.
Nadgradnja prijavnih vozlišč
Trenutno smo v fazi nadgradnje prijavnih vozlišč. Dvem obstoječim virtualnim prijavnim vozliščem bomo dodali dve fizični prijavni vozlišči. Za dostop do teh vozlišč bo po novem potrebna dvofaktorska avtentikacija.
Dve obstoječi virtualni prijavni vozlišči 16c z 32 GB RAM-a poganja virtualizacijska platforma Proxmox (KVM), dva nova strežnika, ki jih bomo dodali, pa bosta vsebovala AMD EPYC 9254 (24c, 4,15GHz, 200W) ter 128 GB RAM-a.
Skupna zmogljivost Arnesovega superračunalnika po nadgradnji
Po nadgradnji je pričakovana zmogljivost Arnesovega superračunalnika okoli 1 PFLOPS, od tega približno 0,8 PFLOPS GPU ter približno 0,2 PFLOPS CPU.
S 75 CPU vozlišči in 32 GPU vozlišči je na Arnes gruči na voljo približno 24,5 TB RAM-a.
V spodnji tabeli so opisane vse trenutne CPU in GPU komponente Arnesove superračunalniške gruče.
Tip | Količina | Opis | Slurm oznaka |
CPU | 6 | AMD EPYC 7232P (8c, 3.1GHz, 120W), 336GB RAM | wn[011-016] |
CPU | 2 | 2x Intel Xeon Silver 4114 (10c, 2.20GHz, 85W), 64GB RAM | wn[051-052] |
CPU | 1 | 2x Intel Xeon Silver 4114 (10c, 2.20GHz, 85W), 128GB RAM | wn053 |
CPU | 3 | 2x Intel Xeon E5-2630 v3 (8c, 2.40GHz, 85W), 256GB RAM | wn[061,064,065] |
CPU | 1 | 2x Intel Xeon E5-2630 v3 (8c, 2.40GHz, 85W), 512GB RAM | wn062 |
CPU | 62 | AMD EPYC 7702P (64c, 2.0GHz, 200W), 256 GB RAM | wn[101-162] |
GPU | 24 | 2x Nvidia V100S, AMD EPYC 7272, 128GB RAM | wn[201-224] |
GPU | 8 | 2x Nvidia H100, 2x AMD EPYC 9124, 256GB RAM | gwn[01-08] |