Seminarium: Systemy Rozproszone
23 maja 2013, godzina 12:00, sala 4070
Krzysztof Rusek

Budowa systemu plików na bazie bloków adresowanych zawartością



Obecne serwery przechowują olbrzymie ilości danych, których składowanie wymaga znacznych przestrzeni dyskowych, co przekłada się bezpośrednio na koszty. Jednym z rozwiązań, szczególnie efektywnym w przypadku danych pochodzących z regularnie wykonywanych kopii zapasowych, jest deduplikacja: dzielenie danych na bloki, a następnie wykrywanie bloków o tej samej zawartości i zastępowanie ich wskaźnikami do pojedynczej kopii.

Tak zorganizowane magazyny danych mają poważną wadę: brakuje im ustandaryzowanego API, które pozwalałoby na łatwe dodawanie, modyfikację i usuwanie bloków. W trakcie prezentacji pokażę, jak można ten problem rozwiązać wykorzystując znany wszystkim interfejs systemu plików, co pozwala na bezproblemową integrację z istniejącymi aplikacjami. Postaram się przybliżyć trudności, przed którymi stanęli projektanci systemu plików HydraFS, a także przedstawić zaproponowane przez nich i zaimplementowane strategie radzenia sobie z wysoką latencją dostępu do danych, często występującymi aktualizacjami metadanych oraz usuwaniem niepotrzebnych już plików.

Zapraszam!
Krzysztof Rusek



Bibliografia: