Seminarium: Systemy Rozproszone
14 października 2021, godzina 12:15, sala 4070
Wojciech Matusiak

MFDedup: Management Friendly Deduplication (FAST'21)

Przechowywanie regularnie wykonywanych kopii zapasowych wymaga dużej ilości przestrzeni. Logiczna pojemność systemu przechowującego takie dane musi kilkukrotnie przekraczać pojemność nośników, których kopie chcemy wykonywać, ale dane pochodzące z kolejnych wersji tego będą miały w większości przypadków dużą część identyczną z poprzednią kopią. Dzięki wykrywaniu tych powtarzających się części jesteśmy w stanie znacząco obniżyć koszty ich przechowywania.

Niestety naturalną konsekwencją deduplikowania danych jest fragmentacja danych na dysku — układają się one według kolejności zapisu raczej niż faktycznej kolejności, w jakiej powinny być odczytywane podczas przywracania. W przeciągu ostatnich kilkunastu lat sporo wysiłku poświęcono badaniom, w jaki sposób można przeciwdziałać temu zjawisku. Nie można jednak w prosty sposób przenieść dyskowej defragmentacji na ten przypadek — pojedynczy blok danych może być potrzebny w połączeniu z różnymi innymi blokami w zależności od tego, którą wersję chcemy przywrócić (zob. rysunek poniżej).

W ramach referatu chciałbym przedstawić nieco dokładniej zagadnienie przeciwdziałania fragmentacji w przypadku systemów z deduplikacją, a przede wszystkim opowiedzieć o metodzie zaproponowanej na tegorocznej USENIX Conference on File and Storage Technologies (FAST'21). Pomysł na Management Friendly Deduplication został przedstawiony w ramach wystąpienia „The Dilemma between Deduplication and Locality: Can Both be Achieved?”.

Zapraszam,
Wojciech Matusiak

Bibliografia: