Seminarium: Systemy Rozproszone
7 kwietnia 2016, godzina 12:15, sala 4070
Paweł Janus

FlumeJava: Easy, Efficient Data-Parallel Pipelines



MapReduce i podobne systemy znacząco ułatwiły zadanie pisania kodu do współbieżnego przetwarzania danych. Jednakże wiele rzeczywistych obliczeń wymaga łączenia programów MapReduce w potoki, których to napisanie oraz utrzymywanie może być już trudne. Z pomocą przychodzi FlumeJava, biblioteka Javy ułatwiająca rozwijanie, testowanie oraz uruchamianie takich potoków. Biblioteka ta została opracowana przez inżynierów Google'a i od razu zyskała sobie wysoką popularność wewnątrz firmy.

Na seminarium zaprezentuję jak programuje się we Flume oraz przedstawię główne komponenty biblioteki. Opowiem również o szczegółach jej implementacji oraz porównam wydajność wybranych programów napisanych we Flume z odpowiadającymi im ręcznie zoptymalizowanymi potokami MapReduce.

Zapraszam!
Paweł Janus



Bibliografia: