Дедупликация с использованием файловой системы SDFS

Это просто создание двойного массива (16 байтов), который - если интерпретировать его как массив символов - создает коды ASCII для строки «C ++ Sucks»

Однако код не работая с каждой системой, она опирается на некоторые из следующих неопределенных фактов:

2
задан 07.05.2020, 08:50

1 ответ

В sdfs используются два способа дедупликации : :

  • Дедупликация с фиксированным блоком

    • Требует, чтобы выровненных блоков из 4096 байт были одинаковыми
    • , что просто не часто случается с вашими данными.
  • Дедупликация блока переменных

    • Также требуется, чтобы блоки по 4096 байт были одинаковыми, но они делают не нужно выравнивать .
    • Я предполагаю, что ваши тестовые файлы («Подобные файлы PDF») имеют только очень несколько одинаковых диапазонов из 4096 байт или более.

Так что для вашего вида данных ,
просто нет дедупликации !
Тем не менее, я ожидаю, что он будет действительно хорошо работать с данными, которые они намеревались поддерживать:


Из Руководство администратора по версии 2.0 :

Дедупликация фиксированных и переменных блоков

SDFS Может выполнять дедупликацию как фиксированных, так и переменных блоков. Фиксированная дедупликация блоков берет фиксированные блоки данных и хэширует эти блоки. Дедупликация блоков переменных пытается найти естественные разрывы в потоке данных и создает переменные блоки в этих точках останова.

Фиксированная дедупликация блоков выполняется в объеме, определенном фиксированными байтовыми буферами в SDFS. Эти фиксированные блоки определяются при создании тома и по умолчанию установлены на 4 КБ, но может быть установлено максимальное значение 128 КБ. Фиксированная дедупликация блоков очень полезна для активных структурированных данных, таких как VMDK или базы данных. Фиксированная дедупликация блоков проста для выполнения и поэтому может быть очень быстрой для большинства приложений.

Дедупликация переменных блоков выполняется с использованием границ окна Рабина ( http://en.wikipedia.org/wiki/Rabin_fingerprint ). SDFS использует фиксированные буферы размером 128 КБ, а затем запускает скользящий хеш по этому буферу, чтобы найти естественные разрывы. Минимальный размер переменного блока составляет 4 КБ, а максимальный - 128 КБ. Дедупликация переменных блоков очень хороша при обнаружении дедуплицирующих блоков в неструктурированных данных, таких как несжатые tar-файлы и документы. Дедупликация переменных блоков обычно создает блоки размером от 10 до 16 тысяч. Это делает дедупликацию переменных блоков более масштабируемой, чем дедупликация фиксированных блоков, когда она выполняется с размерами блоков 4k. Недостатком дедупликации блока переменных является то, что он может быть вычислительно интенсивным и иногда медленнее для обработки записи.

Дедупликация переменных блоков может быть включена только при создании тома с использованием --hash-type = VARIABLE_MURMUR3.

1
ответ дан 07.05.2020, 08:51

Теги

Похожие вопросы