Seminarium: Systemy Rozproszone
30. kwietnia 2020, godzina 12:15, sala uhk-xpuc-bda
Julia Bazińska

Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads



Z powodu nadejścia ery głębokich sieci neuronowych, centra obliczeniowe zapełniły się maszynami wyposażonymi w GPU. Specyfika trenowania modeli uczenia maszynowego jest jednak zgoła inna niż tradycyjne zadania rozwiązywane na klastrach. Wcześniej używane metody schedulowania jobów na klastrach niekoniecznie nadal mają zastosowanie.

Przedstawię case study dwumiesięcznego działania klastra obliczeniowego w Microsofcie. Na jego podstawie opowiem, z jakimi trade-offami trzeba się zmagać, jak konkretne decyzje wpływają na wykorzystanie GPU i z jakiego rodzaju błędami infrastruktury trzeba się zmagać.

Zapraszam!
Julia Bazińska



Bibliografia: