Seminarium: Systemy Rozproszone
31 października 2019, godzina 12:15, sala 4070
Karol Waszczuk

Gray Failure & Fail-Slow at scale



Dostępność usługi to, z biznesowego jak i informatycznego punktu widzenia, jedna z najistotniejszych metryk rozbudowanych infrastruktur i systemów rozproszonych. Jej spadek często niesie za sobą niezliczone straty finansowe, marketingowe i czasowe. Można zatem powiedzieć, że zapewnienie wysokiego poziomu dostępności jest fundamentem umożliwiającym powstanie odnoszącego globalne sukcesy produktu.

Na przestrzeni lat opracowano wiele technik i narzędzi, których zadaniem jest błyskawiczne wykrywanie i reagowanie na incydenty w architekturze rozproszonej. Zdecydowana większość tych rozwiązań operuje na jednym konkretnym modelu awarii o nazwie fail-stop, przez co ich skuteczność w radzeniu sobie z usterkami spoza tej rodziny bywa często zadziwiająco niska. Przykładem takich awarii jest właśnie gray failure oraz fail-slow.

W trakcie swojej prezentacji opiszę zagadnienie awarii z rodziny gray failure i fail-slow, przedstawię krótkie opisy prawdziwych incydentów opartych na tych usterkach oraz postaram się przedstawić potencjalne rozwiązania, dzięki którym dzisiejsze systemy mogą stać się bardziej odporne na wspomniany typ awarii.

Zapraszam,
Karol Waszczuk



Bibliografia: