Seminarium: Systemy Rozproszone
11 stycznia 2018, godzina 12:15, sala 4070
Jarosław Kuśmierek

Google Dataflow/Apache Beam



Apache Beam jest platformą do budowania rozproszonych i skalowalnych zadań przetwarzających duże ilości danych - w modelu wsadowym i strumieniowym. Umożliwia programowanie przekształceń danych na wysokim poziomie - abstrahując od wielu szczegółów - w tym umożliwiając uruchomienie tego samego obliczenia na jednej porcji danych w trybie wsadowym i strumieniowo. Dataflow jest plaformą wewnątrz Google Cloud Platform, która umożliwia uruchamianie obliczeń Apache Beam w sposób w pełni zautomatyzowany - zdejmując z użytkownika wiele zadań. Podczas prezentacji opowiem o podstawowych koncepcjach modelu obliczeniowego Apache Beam oraz o tym jaka jest wartość dodana ze stosowania Dataflow.

Zapraszam!
Jarek Kuśmierek