Seminarium: Systemy Rozproszone
14 października 2021, godzina 12:15,
sala
Przechowywanie regularnie wykonywanych kopii zapasowych wymaga dużej ilości przestrzeni. Logiczna pojemność systemu przechowującego takie dane musi kilkukrotnie przekraczać pojemność nośników, których kopie chcemy wykonywać, ale dane pochodzące z kolejnych wersji tego będą miały w większości przypadków dużą część identyczną z poprzednią kopią. Dzięki wykrywaniu tych powtarzających się części jesteśmy w stanie znacząco obniżyć koszty ich przechowywania.
Niestety naturalną konsekwencją deduplikowania danych jest fragmentacja danych na dysku — układają się one według kolejności zapisu raczej niż faktycznej kolejności, w jakiej powinny być odczytywane podczas przywracania. W przeciągu ostatnich kilkunastu lat sporo wysiłku poświęcono badaniom, w jaki sposób można przeciwdziałać temu zjawisku. Nie można jednak w prosty sposób przenieść dyskowej defragmentacji na ten przypadek — pojedynczy blok danych może być potrzebny w połączeniu z różnymi innymi blokami w zależności od tego, którą wersję chcemy przywrócić (zob. rysunek poniżej).
W ramach referatu chciałbym przedstawić nieco dokładniej zagadnienie przeciwdziałania fragmentacji w przypadku systemów z deduplikacją, a przede wszystkim opowiedzieć o metodzie zaproponowanej na tegorocznej USENIX Conference on File and Storage Technologies (FAST'21). Pomysł na Management Friendly Deduplication został przedstawiony w ramach wystąpienia „The Dilemma between Deduplication and Locality: Can Both be Achieved?”.
Zapraszam,
Wojciech Matusiak
Bibliografia: