Seminarium: Systemy Rozproszone
16 maja 2013, godzina 12:15, sala 4070
Adam Kawa, Spotify

Apache Hadoop w teorii i praktyce



Apache Hadoop jest jedną z najbardziej ekscytujących technologii w dzisiejszym świecie IT, która z sukcesem została już wdrożona przez setki, a może i tysiące firm, po to by przechowywać i przetwarzać naprawdę duże ilości danych w rozproszony sposób. Wszystko to dzięki takim zaletom jak niewygórowane koszty wdrożenia, liniowa skalowalność, odporność na awarie, przystępny interfejs programisty, a także ciągle rosnąca społeczność open-source.

W czasie prezentacji skupię się na dwóch głównych komponentach Hadoop-a, czyli HDFS (rozproszony system plików) oraz MapReduce (warstwa rozpraszająca obliczenia). Opowiem jak one wyglądają w teorii (założenia koncepcyjne, sposoby ich realizacji), a także w praktyce (na podstawie doświadczeń z klastrem złożonym z 190 maszyn, przechowującym 4PB danych i uruchamiającym ponad 10K obliczeń dziennie).

Zapraszam!
Adam Kawa