Seminarium: Systemy Rozproszone
30. kwietnia 2020, godzina 12:15,
sala
Z powodu nadejścia ery głębokich sieci neuronowych, centra obliczeniowe zapełniły się maszynami wyposażonymi w GPU. Specyfika trenowania modeli uczenia maszynowego jest jednak zgoła inna niż tradycyjne zadania rozwiązywane na klastrach. Wcześniej używane metody schedulowania jobów na klastrach niekoniecznie nadal mają zastosowanie.
Przedstawię case study dwumiesięcznego działania klastra obliczeniowego w Microsofcie. Na jego podstawie opowiem, z jakimi trade-offami trzeba się zmagać, jak konkretne decyzje wpływają na wykorzystanie GPU i z jakiego rodzaju błędami infrastruktury trzeba się zmagać.
Zapraszam!
Julia Bazińska
Bibliografia: