Seminarium: Systemy Rozproszone
7 kwietnia 2022, godzina 12:15, sala Google Meeting
Wraz z rozwojem firm rośnie potrzeba przechowywania plików archiwalnych/backup'ów. Własnością tego typu danych jest ich duża powtarzalność, dlatego jedną z technik ograniczającą przestrzeń dyskową potrzebną do przechowywania danych jest deduplikacja.
Ważne jest, aby system z deduplikacją wspierał najbardziej popularne protokoły wymiany danych. W ostatich latach niewątpliwie jednym z takich protokołów jest interfejs object storage, dostarczany między innymi przez AWS S3, Google Cloud Storage, MINIO.
W ramach seminarium chciałbym opowiedzieć o wyzwaniach w implementacji obiektowego interfejsu w systemach z deduplikacją. W szczególności skupie się na zagadnieniach związanych z wydajnością, ponieważ są związane z tematem mojej pracy magisterskiej.
Zapraszam, Dominik Gryboś
Na poprzedniej prezentacji omówiłem jeden z nowych algorytmów zwalczania fragmentacji przez układanie bloków na dysku w optymalnym porządku. Niestety nie zawsze takiej podejście jest możliwe, na przykład w sytuacji, kiedy chcemy przeprowadzać globalną deduplikację, kiedy jeden backup może mieć kilka kolejnych wersji, które dalej zmieniają się niezależnie.
Tym razem opowiem dwóch uzupełniających się rozwiązaniach zaprojektowanych z myślą o takim właśnie systemie: defragmentacji polegającej na wybieraniu /niewielkiej/ części bloków, których przepisanie w inne miejsce może znacząco poprawić szybkość odczytu backupu, oraz metodzie cacheowania danych, która dobrze obsługuje przypadki, z którymi ta defragmentacja sobie nie radzi.
Zapraszam,
Wojciech Matusiak
Bibliografia: