Исходный пост 2008-го года: https://mpd.livejournal.com/5302.html или https://dememax.dreamwidth.org/4730.html

Отправная мысль проста (в исходном посте это выражено по-другому):
  1. Архиватор должен найти повторяющиеся последовательности.
  2. А что, если они очень далеко?
  3. А что, если очень велики?
Т.к. предложенный метод для простоты оперирует одним файлом, который дублируется, то в нашем случае 2 и 3 — величины одного и того же порядка, рассматривается более конкретный случай.
Производительность и эффективное использование ресурсов (память, процессор, использование всех ядер процессора, место на диске, и т.д., и т.п.)нас не интересует вообще, исключительно факт сжатия очевидного повторения в исходном потоке.

Размер: в прошлый раз я брал файл 8'677'260 байт, в этот раз (всё ж таки 12 лет прошло!) - 94'883'920 байт (некий ELF 64-bit LSB shared object, x86-64, dynamically linked, stripped).

В результате: получилось определить первый пункт с новым файлом только с помощью zstd.

Теперь подробнее.Read more... )
Вторая часть: https://dememax.dreamwidth.org/163615.html

К сожалению, не для всех интуитивно понятно, что потоковые архиваторы не такие уж и крутые в плане сжатия, что можно сжимать ещё лучше, что есть ещё "место подвигу".
Недавно был в гостях у [livejournal.com profile] itman, где один из гостей был удивлён этой мыслью (не знаю, насколько серьёзно).
А доказать сей факт очень просто... )
Обратные ссылки: http://v-shabanoff.livejournal.com/13612.html
Дайджест всего блога '11

Profile

dememax

May 2023

S M T W T F S
 123456
78910111213
14151617181920
21 2223 24252627
28293031   

Syndicate

RSS Atom

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 15th, 2025 07:07 am
Powered by Dreamwidth Studios