Seminarium: Systemy Rozproszone
23 maja 2013, godzina 12:00, sala 4070
Krzysztof Rusek

Budowa systemu plików na bazie bloków adresowanych zawartością

Obecne serwery przechowują olbrzymie ilości danych, których składowanie wymaga znacznych przestrzeni dyskowych, co przekłada się bezpośrednio na koszty. Jednym z rozwiązań, szczególnie efektywnym w przypadku danych pochodzących z regularnie wykonywanych kopii zapasowych, jest deduplikacja: dzielenie danych na bloki, a następnie wykrywanie bloków o tej samej zawartości i zastępowanie ich wskaźnikami do pojedynczej kopii.

Tak zorganizowane magazyny danych mają poważną wadę: brakuje im ustandaryzowanego API, które pozwalałoby na łatwe dodawanie, modyfikację i usuwanie bloków. W trakcie prezentacji pokażę, jak można ten problem rozwiązać wykorzystując znany wszystkim interfejs systemu plików, co pozwala na bezproblemową integrację z istniejącymi aplikacjami. Postaram się przybliżyć trudności, przed którymi stanęli projektanci systemu plików HydraFS, a także przedstawić zaproponowane przez nich i zaimplementowane strategie radzenia sobie z wysoką latencją dostępu do danych, często występującymi aktualizacjami metadanych oraz usuwaniem niepotrzebnych już plików.

Zapraszam!
Krzysztof Rusek

Bibliografia:

Cristian Ungureanu, Benjamin Atkin, Akshat Aranya, Salil Gokhale, Stephen Rago, Grzegorz Całkowski, Cezary Dubnicki, Aniruddha Bohra. HydraFS: a High-Throughput File System for the HYDRAstor Content-Addressable Storage System
Przemyslaw Strzelczak, Elzbieta Adamczyk, Urszula Herman-Izycka, Jakub Sakowicz, Lukasz Slusarczyk, Jaroslaw Wrona, Cezary Dubnicki. Concurrent Deletion in a Distributed Content-Addressable Storage System with Global Deduplication
Cezary Dubnicki, Leszek Gryz, Lukasz Heldt, Michal Kaczmarczyk, Wojciech Kilian, Przemyslaw Strzelczak, Jerzy Szczepkowski, Cristian Ungureanu, Michal Welnicki. HYDRAstor: a Scalable Secondary Storage