Benchmark des instances Tensorflow Tesla

Résumé des résultats du modèle de test pour la classification d'images avec les serveurs LeaderGPU Tesla

LeaderGPU est un nouvel acteur sur le marché du calcul GPU, et il a l'intention de changer les règles du jeu. Actuellement, le marché du calcul GPU comprend plusieurs grands acteurs tels qu'Amazon AWS, Google Cloud, etc. Cependant, un grand acteur ne signifie pas toujours la meilleure offre sur le marché. Le projet LeaderGPU, par rapport à Amazon AWS et Google Cloud, propose des serveurs physiques, pas des VPS, où les ressources matérielles peuvent être partagées entre plusieurs dizaines d'utilisateurs.

Des tests ont été effectués sur les systèmes de calcul Tesla de LeaderGPU sur des données synthétiques des modèles de réseau suivants : ResNet-50, ResNet-152, VGG16 et AlexNet. À la fin de cet article, vous trouverez les résultats des tests effectués sur d'autres modèles. Les tests sur des données synthétiques ont été effectués en utilisant tf.Variable en analogie avec les modèles configurés pour ImageNet.

Les commandes suivantes ont été utilisées pour exécuter le test :

# git clone https://github.com/tensorflow/benchmarks.git
# python3.5 benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py --num_gpus=2 --model alexnet (vgg11, vgg16, etc.) --batch_size 32 (64, 128, 256, 512)

Instances Tesla LeaderGPU

  • Environnement de test :2 x Tesla P100 PCI (ltbv32), 2 x Tesla V100 PCI (ltbv20), 2 x Tesla V100 NVLink (ltbv46)
  • Type d'instance :2 x Tesla P100 PCI (ltbv32), 2 x Tesla V100 PCI (ltbv20), 2 x Tesla V100 NVLink (ltbv46)
  • GPUs :Nvidia Tesla cards
  • Système d'exploitation :CentOS 7
  • CUDA / cuDNN :9.0 / 7.0.5
  • TensorFlow 1.7 from repo
  • Benchmark GitHub hash :9165a70
  • Date du test :25.04.2018
Options Inception V3 VGG16 ResNet-50 ResNet-152 Alexnet
Batch size on GPU 64 32 64 32 512
Optimization sgd sgd sgd sgd sgd

picture

Test de données synthétiques (images / s)

GPUs InceptionV3 VGG16 ResNet-50 ResNet-152 Alexnet
GPUs InceptionV3 VGG16 ResNet-50 ResNet-152 Alexnet
2x P100 268.24 224.90 446.08 150.04 5252.43
2x PCI V100 430.77 309.82 667.62 213.04 7545.40
2x NVlink V100 450.75 417.22 698.97 236.90 8786.56

Autres résultats

Test de données synthétiques (images / s)

2x PCI Tesla P100

Batch size Alexnet vgg11 vgg16 vgg19 lenet googlenet
32 1411.48 378.47 224.90 199.87 14944.76 788.43
64 2460.54 473.82 256.68 225.58 29215.60 913.38
128 3576.26 539.08 278.83 243.67 47375.83 1035.37
256 4545.45 561.73 - - 67116.75 1127.05
512 5252.43 - - - 83665.27 1165.75
Batch size overfeat inceptionv3 inception4 resnet50 resnet101 resnet152
32 548.55 248.72 122.22 389.73 220.26 150.04
64 952.51 268.24 133.96 446.08 253.86 176.09
128 1437.54 283.39 - 483.51 - -
256 1847.21 - - - - -
512 2186.47 - - - - -

2x PCI Tesla V100

Batch size Alexnet vgg11 vgg16 vgg19 lenet googlenet
32 1665.82 526.55 309.82 282.81 17583.47 1268.95
64 3056.89 695.42 374.22 331.41 32271.30 1487.77
128 4660.06 831.39 410.27 360.79 62652.62 1704.92
256 6255.16 729.42 - - 98828.17 1921.02
512 7545.40 - - - 136553.56 2039.60
Batch size overfeat inceptionv3 inception4 resnet50 resnet101 resnet152
32 625.35 371.94 186.38 579.01 318.30 213.04
64 1194.50 430.77 210.41 667.62 379.37 259.16
128 1934.71 462.09 - 746.73 - -
256 2690.65 - - - - -
512 3267.15 - - - - -

2x NVlink Tesla V100

Batch size Alexnet vgg11 vgg16 vgg19 lenet googlenet
32 3743.79 775.95 417.22 360.08 12460.77 1250.49
64 5514.97 904.65 447.46 386.92 28038.87 1546.01
128 6990.88 982.62 465.05 401.43 50064.03 1791.36
256 7960.86 805.59 - - 94842.75 1895.35
512 8786.56 - - - 131914.42 2158.45
Batch size overfeat inceptionv3 inception4 resnet50 resnet101 resnet152
32 1404.21 397.70 195.51 602.97 341.20 236.90
64 2216.08 450.75 220.00 698.97 395.01 272.37
128 3005.20 475.38 - 781.50 - -
256 3656.48 - - - - -
512 4073.38 - - - - -