Slovensko nacionalno superračunalniško omrežje

Nadgradnja Arnesove superračunalniške gruče

Na Arnesu smo nedavno posodobili svojo računsko gručo oz. superračunalnik, ki je sedaj veliko zmogljivejši. O vseh vidikih nadgradnje vam več povemo v spodnjih odstavkih.

Nadgradnja oz. pridobitev novih GPU-jev

Predvsem je k nadgradnji pripomogla pridobitev osmih novih H100 GPU računskih vozlišč. Vsako vozlišče je sestavljeno iz:

  • 2x Nvidia H100, 80GB HBM2e in
  • 2x AMD EPYC 9124 16-jedrni processor s 64 nitmi.

Trenutno smo v fazi raziskovanja, kako v našo gručo čim bolje vgraditi Multi-Instance GPU (MIG) oz. GPU z več instancami, ki omogoča razdelitev H100 GPU-ja na 7 ali manj instanc. Pri tem je vsaka instanca izolirana in ima svoja računska jedra, predpomnilnik in pomnilnik. To omogoča, da lahko ločeno poganjamo več aplikacij in se tako izognemo tekmovanju za vire GPU-ja.

Če GPU razdelimo na 7 delov MIG, lahko tako iz 16 GPU-jev dobimo 112 manjših izoliranih delov GPU-ja z 10GB spomina HBM2e. To pomeni, da lahko teoretično sočasno uporablja GPU z 10 GB HBM2e spomina kar 112 uporabnikov.

Nadgradnja Ceph storage in ERASURE

Dodali smo šest infrastrukturnih strežnikov (skupno jih je zdaj 16) za podatkovno shrambo AMD EPYC 7402P, z naslednjimi komponentami:

  • 24 jeder, 48 niti,
  • 2,8 GHz,
  • 180W,
  • 192GB RAM,
  • 28X 12TB HDD,
  • 4X 4TB SSD,
  • 2X 1TB SSD.

Pred nadgradnjo so bili podatki shranjeni tako, da je bil podatek shranjen na dveh različnih strežnikih. Po nadgradnji podatkovne shrambe smo za boljšo zagotovitev redundantnosti podatke prestavili na “Erasure code 8+3” sklad. To pomeni, da je objekt razdeljen na 8 delov in vsebuje 3 redundantne, oziroma paritetne dele, ki so uporabljeni za rekonstrukcijo objektov ob izgubi podatkov. Vsak del se nahaja na drugem podatkovnem strežniku.

Prednosti takšnega sklada so:

  • boljša odpornost z več uporabnega prostora (sedaj EC 8+3 – 72,7%, prej 2x replikacija – 50%),
  • ob izpadu treh ali manj strežnikov bomo podatek še vedno lahko rekonstruirali.

V shrambo smo sicer dodali 168 HDD in 36 SSD diskov, skupno je zdaj v shrambi 448 HDD in 96 SSD diskov, kar pomeni:

  • 3,3 PB surovega HDD prostora oz. 2,4 PB razpoložljivega prostora in
  • 250 TB SSD prostora.

Nadgradnja prijavnih vozlišč

Trenutno smo v fazi nadgradnje prijavnih vozlišč. Dvem obstoječim virtualnim prijavnim vozliščem bomo dodali dve fizični prijavni vozlišči. Za dostop do teh vozlišč bo po novem potrebna dvofaktorska avtentikacija.

Dve obstoječi virtualni prijavni vozlišči 16c z 32 GB RAM-a poganja virtualizacijska platforma Proxmox (KVM), dva nova strežnika, ki jih bomo dodali, pa bosta vsebovala AMD EPYC 9254 (24c, 4,15GHz, 200W) ter 128 GB RAM-a.


Skupna zmogljivost Arnesovega superračunalnika po nadgradnji

V spodnji tabeli so opisane vse trenutne CPU in GPU komponente Arnesove superračunalniške gruče.

TipKoličinaOpisSlurm oznaka
CPU6AMD EPYC 7232P (8c, 3.1GHz, 120W), 336GB RAMwn[011-016]
CPU22x Intel Xeon Silver 4114 (10c, 2.20GHz, 85W), 64GB RAMwn[051-052]
CPU12x Intel Xeon Silver 4114 (10c, 2.20GHz, 85W), 128GB RAMwn053
CPU32x Intel Xeon E5-2630 v3 (8c, 2.40GHz, 85W), 256GB RAMwn[061,064,065]
CPU12x Intel Xeon E5-2630 v3 (8c, 2.40GHz, 85W), 512GB RAMwn062
CPU62AMD EPYC 7702P (64c, 2.0GHz, 200W), 256 GB RAMwn[101-162]
GPU242x Nvidia V100S, AMD EPYC 7272, 128GB RAMwn[201-224]
GPU82x Nvidia H100, 2x AMD EPYC 9124, 256GB RAMgwn[01-08]
Dostopnost