Seminarium: Systemy Rozproszone
14 października 2021, godzina 12:15, sala 4070
Wojciech Matusiak

MFDedup: Management Friendly Deduplication (FAST'21)

Przechowywanie regularnie wykonywanych kopii zapasowych wymaga dużej ilości przestrzeni. Logiczna pojemność systemu przechowującego takie dane musi kilkukrotnie przekraczać pojemność nośników, których kopie chcemy wykonywać, ale dane pochodzące z kolejnych wersji tego będą miały w większości przypadków dużą część identyczną z poprzednią kopią. Dzięki wykrywaniu tych powtarzających się części jesteśmy w stanie znacząco obniżyć koszty ich przechowywania.

Niestety naturalną konsekwencją deduplikowania danych jest fragmentacja danych na dysku — układają się one według kolejności zapisu raczej niż faktycznej kolejności, w jakiej powinny być odczytywane podczas przywracania. W przeciągu ostatnich kilkunastu lat sporo wysiłku poświęcono badaniom, w jaki sposób można przeciwdziałać temu zjawisku. Nie można jednak w prosty sposób przenieść dyskowej defragmentacji na ten przypadek — pojedynczy blok danych może być potrzebny w połączeniu z różnymi innymi blokami w zależności od tego, którą wersję chcemy przywrócić (zob. rysunek poniżej).

16FA BC2A DF00 01C3 ABCD 16FA BC2A DF00 C63D ABCD ECDA 1123 DF00 01C3 08C1 Wersja 1: Wersja 2: Wersja 3:

W ramach referatu chciałbym przedstawić nieco dokładniej zagadnienie przeciwdziałania fragmentacji w przypadku systemów z deduplikacją, a przede wszystkim opowiedzieć o metodzie zaproponowanej na tegorocznej USENIX Conference on File and Storage Technologies (FAST'21). Pomysł na Management Friendly Deduplication został przedstawiony w ramach wystąpienia „The Dilemma between Deduplication and Locality: Can Both be Achieved?”.

Zapraszam,
Wojciech Matusiak

Bibliografia:

  1. The Dilemma between Deduplication and Locality: Can Both be Achieved?
  2. A Comprehensive Study of the Past, Present, and Future of Data Deduplication
  3. Improving Restore Speed for Backup Systems that Use Inline Chunk-Based Deduplication
  4. Reducing impact of data fragmentation caused by in-line deduplication
  5. Characteristics of Backup Workloads in Production Systems
  6. Reducing fragmentation impact with forward knowledge in backup systems with deduplication