Seminarium: Systemy Rozproszone
13 listopada 2014, godzina 12:15, sala 4070
Maciej Borsz

MillWheel: Fault-Tolerant Stream Processing at Internet Scale



MillWheel to platforma do budowania aplikacji przetwarzających duże zbiory danych. Użytkownicy platformy dostarczają kod poszczególnych węzłów oraz skierowany graf przepływu danych pomiędzy nimi. System odpowiedzialny jest za zapewnienie odporności na awarie oraz utrwalanie stanu poszczególnych węzłów. W przeciwieństwie do techniki MapReduce, framework ten jest skupiony na przetwarzaniu strumieniowym — wyniki przetwarzania otrzymujemy w miarę napływających danych. Taka kombinacja cech powoduje, że MillWheel jest powszechnie stosowany przez firmę Google do rozwiązywania różnorakich problemów.

Na seminarium opowiem o motywacjach stojących za projektowaniem kolejnego frameworku do przetwarzania dużych danych. Postaram się go porównać z istniejącymi rozwiązaniami typu open source, opowiedzieć o tym jak został zaprojektowany oraz jakie gwarancje dotyczące przetwarzania zapewnia. Opowiem trochę o zastosowanej implementacji środowiska oraz o otrzymanych wynikach wydajnościowych.

Zapraszam!
Maciej Borsz



Bibliografia: