Seminarium: Systemy Rozproszone
21 stycznia 2021, godzina 12:15, Karol Waszczuk

Slurm a sprawa buforów impulsowych



SLURM (Simple Linux Utility for Resource Management) to open sourcowy i wysoce skalowalny system do zarządzania klastrem i szeregowania zadań dla dużych i małych klastrów używających systemu operacyjnego Linux. Zajmuje się przydzielaniem zasobów do poszczególnych zadań, udostępnia wygodny interfejs użytkownika do wysyłania i monitorowania wykonujących się skryptów oraz próbuje optymalizować kolejność wykonywanych zadań. Jest używany w około 60% pięciuset najszybszych superkomputerów na świecie, w tym przez Sunway TaihuLight oraz Tianhe-2, czyli kolejno czwarty i szósty najszybszy superkomputer na świecie.

W ciągu ostatnich lat, branża HPC (high-performance computing) co raz częściej zaczyna wykorzystywać tzw. bufory impulsowe, czyli dodatkową warstwę pamięci zbudowanej z dysków SSD lub pamięci NVRAM. W związku ze wzrostem popularności tej technologii, dzisiejsze, rozwijane latami rozwiązania do obsługi klastrów, muszą dostosować się do tego trendu, rozszerzając swoje funkcjonalności o możliwość optymalnego zarządzania nowym typem zasobu, jakim są bufory impulsowe.

W trakcie prezentacji, przedstawię architekturę oraz model działania systemu Slurma i dokładniej opiszę ideę stojącą za wykorzystywaniem buforów impulsowych. Ponadto, pokaże w jaki sposób aktualnie bufory te są wspierane w Slurmie i dlaczego wybrane podejście nie jest idealne, wskazując jego problemy i pomysły na usprawnienie.

Zapraszam,
Karol Waszczuk



Bibliografia: