Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Rechnerbetriebsgruppe

GPU-Server

Zur Zeit gibt es am Institut mehrere Server mit  GPUs von Nvidia (Tesla V100, RTX6000). Neben CUDA ist auch OpenCL und TensorFlow (Python) installiert.

Alle PCs in den Pool-Räumen haben eine Intel-Grafikkarte (Onboard). Diese lässt sich über OpenCL zum Rechnen nutzen.

Die Rechner sind auch über SSH bzw. RDP (gruenau[9-10]) nutzbar. Nutzen Sie dazu bitte eine VPN-Verbindung.

 

Übersicht über GPU-Rechner

Die folgende Tabelle gibt eine Übersicht über die vorhandenen Rechner mit GPUs und welche GPUs verbaut sind.

 

Server/PCs Karte CUDA Sonstiges Slurm gres
gruenau1

2x Nvidia Tesla V100

1x Nvidia RTX6000

Y (11.8) OpenCL,TensorFlow  
gruenau2 3x Nvidia RTX6000 Y (11.8) OpenCL,TensorFlow RTX6000
gruenau7 4 x Nvidia RTX A6000 Y (11.8) OpenCL,TensorFlow  
gruenau8 4 x Nvidia RTX A6000 Y (11.8) OpenCL,TensorFlow  
gruenau9 3 x Nvidia Tesla A100 Y (11.8) OpenCL,TensorFlow A10080GB
gruenau10 3 x Nvidia Tesla A100 Y (11.8) OpenCL,TensorFlow A10080GB

Aktuelle Auslastung der GPUs finden sich hier.

 

Informationen zu den GPUs

Im folgenden finden Sie detailiertere Informationen zu den GPUs, die Ihnen eine gezielte Auswahl der passenden GPU ermöglichen soll.

 

Karte RAM (GB) RAM Bandwidth (GB/s) GPU Speed (MHz) CUDA Kerne Tensor Kerne Raytracing Kerne Compute Cap
GeForce GTX 745 4GB 28.8 1033 384 / / 5.0
Nvidia Tesla V100 32GB 897.0 1530 5120 640 / 7.0
Nvidia Tesla T4 16GB 320.0 1515 2560 320 40 7.5
Nvidia RTX6000 24GB 672.0 1770 4608 576 72 7.5
GeForce RTX 3090 24GB 936.2 1695 10496 328 82 8.6
Nvidia RTX A6000 48GB 768 2100 10752 336 84 8.6
Nvidia Tesla A100 80GB 1600 1410 6912 432 / 8.0

Bitte nutzen Sie die Tools "clinfo" und "nvidia-smi" um weitere Informationen zu erhalten.

 

Auswahl-Hilfe

Abhängig vom Workload kann es sinnvoll sein, ein System dem anderen vorzuziehen. Die folgenden Tabellen geben eine Übersicht über den Durchsatz der Grafikkarte basierend auf dem Input.

 

Vergleich GPUs High-End Systeme:

Karte FP16 (TFLOPS)

FP32 (TFLOPs)

FP64 (TFLOPS) Deep Learning (TOPs) Ray Tracing (TFLOPS)
Nvidia Tesla V100 30.0 15.0 7.5 120 /
Nvidia Tesla T4 16.2 8.1 0.25 65 /
Nvidia RTX6000 32.6 16.3 0.5

130

34
GeForce RTX 3090 35.58 35.58 1.11 142 / 284* 58
Nvidia RTX A6000 38,7
 38,7 1.21 309,7
75,6
Nvidia Tesla A100 77,97
19,49
9.746 ?
/

Die Empfehlungen für bestimmte Szenarien sind jeweils in gelb markiert.

Legende:
TFLOPs = Tera Floating Point Operations per Second
TOPs = Tera Operations per Second
INTX = Integer variable with X-bits
FPX = Floating point variable with X-bits
GRays = Giga Rays per second
* = Doppelte Performance, wenn Sparsity-Feature genutzt wird

 

Vergleich Gesamtsysteme:

 

Server

Geekbench5
CPU (Single)
Geekbench5
CPU (Multi)
GPUs Empfohlenes Szenario
gruenau1 1078 25239 (36/72 Cores) 2 x RTX6000 Multi GPU
Ray Tracing
Deep Learning
max. CPU
gruenau2 1078 25239 (36/72 Cores) 2 x RTX6000 Multi GPU
Ray Tracing
Deep Learning
max. CPU
gruenau9 854 14169 (16/32 Cores) 3 x T4 FP64 Computation
max. RAM
gruenau10 1078 25239 (36/72 Cores) 2 x V100

FP64 Computation
max. CPU
max. RAM

gruenau[3-6] 695 27451 (60C/120T) / /

Für weitere Infos zu den Spezifikationen der Compute-Servern auf den jeweiligen Namen in der Tabelle klicken.

 

allgemeiner Hinweis:

Da alle Ressourcen unter den Nutzern geteilt werden, kann es auch sinnvoll sein, ein System zu nutzen, welches nicht die optimale Performance für ein Experiment bereitstellt.

Zur besseren Verteilung der Ressourcen ist die Verwendung von SLURM empfohlen.

 

 

Links

[1] https://developer.download.nvidia.com/video/gputechconf/gtc/2019/presentation/s9234-volta-and-turing-architecture-and-performance-optimization.pdf

[2] https://blogs.nvidia.com/blog/2019/11/15/whats-the-difference-between-single-double-multi-and-mixed-precision-computing/

[3] https://docs.nvidia.com/cuda/ampere-tuning-guide/index.html

[4] https://en.wikipedia.org/wiki/Nvidia_Tesla