Seminarium: Systemy Rozproszone
23 maja 2013, godzina 12:00,
sala
Obecne serwery przechowują olbrzymie ilości danych, których składowanie wymaga znacznych przestrzeni dyskowych, co przekłada się bezpośrednio na koszty. Jednym z rozwiązań, szczególnie efektywnym w przypadku danych pochodzących z regularnie wykonywanych kopii zapasowych, jest deduplikacja: dzielenie danych na bloki, a następnie wykrywanie bloków o tej samej zawartości i zastępowanie ich wskaźnikami do pojedynczej kopii.
Tak zorganizowane magazyny danych mają poważną wadę: brakuje im ustandaryzowanego API, które pozwalałoby na łatwe dodawanie, modyfikację i usuwanie bloków. W trakcie prezentacji pokażę, jak można ten problem rozwiązać wykorzystując znany wszystkim interfejs systemu plików, co pozwala na bezproblemową integrację z istniejącymi aplikacjami. Postaram się przybliżyć trudności, przed którymi stanęli projektanci systemu plików HydraFS, a także przedstawić zaproponowane przez nich i zaimplementowane strategie radzenia sobie z wysoką latencją dostępu do danych, często występującymi aktualizacjami metadanych oraz usuwaniem niepotrzebnych już plików.
Zapraszam!
Krzysztof Rusek
Bibliografia: