Seminarium: Systemy Rozproszone
16 kwietnia 2009, godzina 12:15, sala 4070
Kornel Jakubczyk


Systemy archiwizacji danych - znajdowanie duplikatów



Aplikacje i serwisy klientów przetwarzają i przechowują coraz większe ilości informacji, które trzeba archiwizować. Często kolejne wersje kopii bezpieczeństwa są do siebie dość podobne. Powstały więc systemy archiwizacji oparte o tzw. adresowanie zawartością, wykorzystujące mechanizm dzielenia strumienia danych na fragmenty, dzięki czemu nie przechowujemy powtórzonych bloków. Pozwala to oszczędzać przestrzeń dyskową i zajętość pasma sieci, co zmniejsza koszty przechowywania i czas trwania archiwizacji.

Prezentacja poświęcona więc będzie temu, co można zrobić z danymi zanim trafią do zapewne rozproszonego systemu ich przechowywania. Opowiem o algorytmach dzielenia strumienia nowej wersji danych, tak aby minimalizować rozmiar nowych bloków, jak również o skalowalnych metodach pozwalających na sprawdzanie, czy dany blok jest już zapamiętany.

Prezentacja oparta będzie głównie na artykułach:

Serdecznie zapraszam!
Kornel Jakubczyk