Burst buffer w SLURMie, Tytuł 2

Seminarium: Systemy Rozproszone
20 kwietnia 2017, godzina 12:15, sala 4070
Paweł Kura, Paweł Mechliński

Burst buffers w SLURMie

SLURM (Simple Linux Utility for Resource Management) to open sourcowy i wysoko skalowalny system do zarządzania klastrem i schedulowania zadań dla dużych i małych klastrów używających systemu operacyjnego Linux. Zajmuje się przydzielaniem zasobów do poszczególnych zadań, udostępnia wygodny interfejs użytkownika do wysyłania i monitorowania wykonujących się skryptów oraz próbuje optymalizować kolejność wykonywanych zadań. Jest używany m.in. przez superkomputery Tianhe-2 i IBM-Sequoia - odpowiednio pierwszy i trzeci najszybszy superkomputer na świecie.

W celu zwiększenia wydajności operacji I/O w SLURMie wprowadzona została obsługa burst buffers - dodatkowej warstwy dysków SSD między aplikacją, a macierzami dyskowymi. Podczas prezentacji opowiem o wykorzystaniu burst bufferów w SLURMie oraz związanymi z nimi niedoskonałościami w schedulerze, a następnie o tym, jakie poprawki można wprowadzić.

Zapraszam!
Paweł Kura

DieHard: reliable scheduling to survive correlated failures in cloud data centers

Usterka jednego urządzenia w centrum danych może za sobą ponieść daleko idące konsekwencje dla działania całego systemu. Rozpatrywanie niezawodności jedynie pod kątem awarii niezależnych od siebie urządzeń takich jak dyski twarde powoduje istotne przeszacowanie bezpieczeństwa systemu.

W trakcie swojej prezentacji przedstawię przykładową topologię centrum danych oraz matematyczny model niezawodności w którym uwzględnione zostały usterki dużej skali zasilania oraz sieci. Na podstawie pracy [1] przedstawię również efektywny algorytm rozpraszenia obliczeń w celu minimalizacji redundancji przy jednoczesnym spełnieniu pewnego określonego poziomu niezawodności.

Bibliografia:

[1] M.Sedaghat, E.Wadbro, J.Wilkes, O.Seleznjev. DieHard: reliable scheduling to survive correlated failures in cloud data centers

Zapraszam!
Paweł Mechliński