Seminarium: Systemy Rozproszone
7 kwietnia 2022, godzina 12:15, sala Google Meeting https://meet.google.com/wnz-hxms-xhk
Dominik Gryboś , Wojciech Matusiak

Implementacja interfejsu object storage w systemach z deduplikacją

Wraz z rozwojem firm rośnie potrzeba przechowywania plików archiwalnych/backup'ów. Własnością tego typu danych jest ich duża powtarzalność, dlatego jedną z technik ograniczającą przestrzeń dyskową potrzebną do przechowywania danych jest deduplikacja.

Ważne jest, aby system z deduplikacją wspierał najbardziej popularne protokoły wymiany danych. W ostatich latach niewątpliwie jednym z takich protokołów jest interfejs object storage, dostarczany między innymi przez AWS S3, Google Cloud Storage, MINIO.

W ramach seminarium chciałbym opowiedzieć o wyzwaniach w implementacji obiektowego interfejsu w systemach z deduplikacją. W szczególności skupie się na zagadnieniach związanych z wydajnością, ponieważ są związane z tematem mojej pracy magisterskiej.

Zapraszam, Dominik Gryboś

Online defragmentacja w systemach z deduplikacją

Na poprzedniej prezentacji omówiłem jeden z nowych algorytmów zwalczania fragmentacji przez układanie bloków na dysku w optymalnym porządku. Niestety nie zawsze takiej podejście jest możliwe, na przykład w sytuacji, kiedy chcemy przeprowadzać globalną deduplikację, kiedy jeden backup może mieć kilka kolejnych wersji, które dalej zmieniają się niezależnie.

Tym razem opowiem dwóch uzupełniających się rozwiązaniach zaprojektowanych z myślą o takim właśnie systemie: defragmentacji polegającej na wybieraniu /niewielkiej/ części bloków, których przepisanie w inne miejsce może znacząco poprawić szybkość odczytu backupu, oraz metodzie cacheowania danych, która dobrze obsługuje przypadki, z którymi ta defragmentacja sobie nie radzi.

Zapraszam,
Wojciech Matusiak

Bibliografia:

"Reducing fragmentation impact with forward knowledge in backup systems with deduplication", 2015
"Reducing Impact of Data Fragmentation Caused By In-Line Deduplication", 2012
"Generating Realistic Datasets for Deduplication Analysis", 2012
"A Long-Term User-Centric Analysis of Deduplication Patterns", 2016