Seminarium: Systemy Rozproszone
3 kwietnia 2014, godzina 12:15, sala 4070
Marta Drozdek

Wysokopoziomowe MapReduce'owe języki zapytań i ich implementacje

W obecnych czasach kluczowa dla wielu firm i instytucji jest możliwość przechowywania i przetwarzania ogromnej ilości danych. Coraz chętniej wybieranym rozwiązaniem jest Apache Hadoop - otwarta implementacja paradygmatu MapReduce. Pomimo swoich zalet (niski koszt, obsługa awarii sprzętowych, itp.) rozwiązanie to ma wiele wad. Paradygmat MapReduce jest dla wiele zbyt niskopoziomowy, a schemat przepływu danych zbyt sztywny. Ponadto system nie dostarcza wbudowanej implementacji dla żadnych popularnych operacji bazodanowych (projekcja, filtracja, join). Zmusza to użytkowników do pisania dużej ilości własnego kodu, który w konsekwencji jest często mało czytelny, zawiera dużo błędów i rzadko nadaje się do ponownego użycia.

Rozwiązaniem tych problemów są wysokopoziomowe MapReduce'owe języki zapytań, o których opowiem w swojej prezentacji. Ogólnie są to języki, które mają taką samą siłę wyrazy jak MapReduce, ale są czytelniejsze i łatwiejsze w użyciu. Podczas seminarium zaprezentuje dwa takie języki PigLatin i HiveQL, pokażę ich wady i zalety, opowiem o ich, opartej na Hadoop, implementacji. Na końcu opiszę język NRC (Nested Relational Calculus) i krótko opowiem o próbach jego implementacji.

Zapraszam!
Marta Drozdek