Извлечь файл ZSTD

Без ограничений заданий. Размер файлов до 2.5ГБ. Бесплатно, вечно.

Перетащите и отпустите или нажмите для выбора

Конфиденциально и безопасно

Все происходит в вашем браузере. Ваши файлы никогда не попадают на наши серверы.

Молниеносно

Никаких загрузок, никаких ожиданий. Конвертируйте в тот момент, когда вы перетаскиваете файл.

Действительно бесплатно

Не требуется учетная запись. Никаких скрытых платежей. Никаких уловок с размером файла.

Что такое формат ZSTD?

Zstandard

ZSTD, сокращение от Zstandard, — это быстрый и эффективный алгоритм сжатия без потерь и формат файла, разработанный Янном Коллет в Facebook. Он предназначен для обеспечения высокой степени сжатия при сохранении высокой скорости сжатия и распаковки, что делает его подходящим для сценариев сжатия в реальном времени и сжатия больших наборов данных.

Формат ZSTD основан на комбинации быстрого этапа энтропии и мощного этапа сжатия без потерь. Этап энтропии использует кодирование конечного состояния энтропии (FSE) и кодирование Хаффмана, в то время как этап сжатия без потерь использует вариант алгоритма LZ77, называемый сжатием словаря Zstandard (ZDIC).

Одной из ключевых особенностей ZSTD является его способность создавать и использовать словарь во время сжатия. Словарь — это предварительно совместно используемый набор данных, который как компрессор, так и декомпрессор используют для улучшения коэффициентов сжатия. ZSTD поддерживает два типа словарей: словари, определяемые содержимым, и словари, предоставляемые пользователем.

Словари, определяемые содержимым, автоматически генерируются компрессором ZSTD на основе входных данных. Компрессор анализирует данные, чтобы определить повторяющиеся шаблоны, и создает словарь, который представляет эти шаблоны. Затем словарь используется во время сжатия для замены повторяющихся шаблонов ссылками на словарь, что приводит к более высоким коэффициентам сжатия.

С другой стороны, словари, предоставляемые пользователем, создаются пользователем и могут совместно использоваться несколькими сжатыми файлами. Эти словари полезны при сжатии похожих или связанных данных, поскольку они позволяют компрессору использовать имеющиеся знания о шаблонах данных. Словарями, предоставляемыми пользователем, можно значительно улучшить коэффициенты сжатия, особенно для небольших файлов или файлов с общими структурами данных.

ZSTD поддерживает несколько уровней сжатия от 1 до 22, причем более высокие уровни обеспечивают лучшие коэффициенты сжатия за счет более низкой скорости сжатия. Уровень сжатия по умолчанию — 3, который обеспечивает хороший баланс между коэффициентом сжатия и скоростью. ZSTD также включает специальный уровень сжатия под названием «ультра», который обеспечивает наивысший коэффициент сжатия, но со значительным увеличением времени сжатия.

Формат ZSTD состоит из заголовка, за которым следует один или несколько сжатых кадров. Заголовок содержит метаданные о сжатых данных, такие как идентификатор словаря, размер окна и количество кадров. Каждый сжатый кадр является независимым и может быть распакован отдельно, что позволяет выполнять параллельную распаковку и произвольный доступ к сжатым данным.

Сжатые кадры в ZSTD используют комбинацию литеральных блоков и последовательных блоков. Литеральные блоки содержат необработанные несжатые данные, в то время как последовательные блоки содержат ссылки на словарь или ранее просмотренные данные. Последовательные блоки кодируются с использованием кодирования FSE или Хаффмана для минимизации размера ссылок.

ZSTD использует несколько методов для повышения эффективности и скорости сжатия. Одним из таких методов является использование хэш-таблицы для быстрого поиска совпадающих последовательностей в словаре или ранее просмотренных данных. Хэш-таблица постоянно обновляется по мере того, как компрессор обрабатывает входные данные, что позволяет эффективно искать потенциальные совпадения.

Еще одним методом оптимизации, используемым ZSTD, является стратегия ленивого сопоставления. Вместо того, чтобы сразу кодировать совпадение, компрессор продолжает искать более длинные совпадения. Если найдено более длинное совпадение, компрессор может вместо этого закодировать более длинное совпадение, что приводит к лучшим коэффициентам сжатия.

ZSTD также включает быстрый режим, называемый «сопоставление на большом расстоянии» (LDM), который позволяет обнаруживать совпадения на большом расстоянии. LDM использует вторичную хэш-таблицу для хранения совпадений, которые находятся далеко друг от друга во входных данных. Рассматривая эти совпадения на большом расстоянии, ZSTD может улучшить коэффициенты сжатия для определенных типов данных, таких как сильно повторяющиеся или периодические данные.

В дополнение к своим возможностям сжатия ZSTD также обеспечивает обнаружение и исправление ошибок с помощью контрольных сумм. Каждый сжатый кадр включает контрольную сумму несжатых данных, что позволяет декомпрессору проверить целостность данных во время распаковки. Если обнаружена ошибка, ZSTD может попытаться восстановить ее, отбросив поврежденный кадр и продолжив работу со следующим кадром.

ZSTD получил широкое распространение благодаря своей впечатляющей производительности и гибкости. Он используется в различных приложениях, включая системы хранения данных, механизмы баз данных, решения для резервного копирования и протоколы передачи данных. Многие популярные форматы файлов, такие как Zstandard Archive (ZSTD), Zstandard Seekable Format (ZST) и Zstandard Dictionary Format (ZDICT), основаны на сжатии ZSTD.

Одним из преимуществ ZSTD является его совместимость с широким спектром платформ и языков программирования. Эталонная реализация ZSTD написана на C и является высокопереносимой, что позволяет использовать ее в различных операционных системах и архитектурах. Кроме того, для ZSTD доступно множество привязок и портов для разных языков программирования, что упрощает интеграцию сжатия ZSTD в существующие приложения.

ZSTD также предоставляет инструмент командной строки (CLI), который позволяет пользователям сжимать и распаковывать файлы с помощью ZSTD. Инструмент CLI поддерживает различные параметры и параметры, такие как установка уровня сжатия, указание словаря и настройка использования памяти. Инструмент CLI особенно полезен для сжатия и распаковки файлов в пакетных или скриптовых средах.

Подводя итог, ZSTD — это высокоэффективный и универсальный алгоритм сжатия и формат файла, который обеспечивает высокую скорость сжатия и распаковки, высокие коэффициенты сжатия и возможность использования словарей для повышения производительности. Сочетание скорости и эффективности сжатия делает его подходящим для широкого спектра приложений, от сжатия в реальном времени до сжатия больших наборов данных. Благодаря своему обширному набору функций, совместимости с платформами и растущему внедрению ZSTD стал популярным выбором для сжатия данных в различных областях.

Сжатие файлов уменьшает избыточность, чтобы те же данные занимали меньше бит. Верхняя граница задаётся теорией информации: для без потерь пределом является энтропия источника (см. теорему кодирования источника Шеннона source coding theorem и его оригинальную статью 1948 года «A Mathematical Theory of Communication»). Для сжатия с потерями компромисс между битрейтом и качеством описывает теория rate–distortion.

Два столпа: моделирование и кодирование

Большинство компрессоров работают в два этапа. Сначала модель предсказывает или выявляет структуру данных. Затем кодер превращает эти предсказания в почти оптимальные шаблоны битов. Классическая семья моделей — Lempel–Ziv LZ77 (1977) и LZ78 (1978) находят повторяющиеся подстроки и излучают ссылки вместо сырых байтов. На стороне кодирования кодирование Хаффмана (см. статью 1952 года) назначает более короткие коды вероятным символам. Арифметическое кодирование и range coding ещё точнее приближаются к пределу энтропии, а современные Asymmetric Numeral Systems (ANS) дают схожие коэффициенты при табличных реализациях.

Что делают популярные форматы

DEFLATE (используют gzip, zlib, ZIP) сочетает LZ77 и Хаффмана. Спецификации открыты: DEFLATE RFC 1951, оболочка zlib RFC 1950и формат gzip RFC 1952. Gzip ориентирован на потоковую передачу и явно не обеспечивает произвольный доступ. PNG закрепляет DEFLATE как единственный метод (окно до 32 КиБ) согласно спецификации «Compression method 0…» и W3C/ISO PNG 2nd Edition.

Zstandard (zstd): современный универсальный компрессор с высокими коэффициентами и очень быстрой декомпрессией. Формат описан в RFC 8878 (и HTML-зеркале) и в референс-спеке на GitHub. Как и gzip, базовый фрейм не предполагает произвольного доступа. Главное преимущество zstd — словари: маленькие образцы корпуса, резко улучшающие сжатие множества крошечных или похожих файлов (см.документацию словарей python-zstandard и пример Nigela Tao). Реализации принимают «unstructured» и «structured» словари (обсуждение).

Brotli: оптимизирован для веб-контента (WOFF2, HTTP). Совмещает статический словарь и DEFLATE-подобное ядро LZ+энтропия. Спецификация — RFC 7932, где указано окно 2^WBITS−16 с WBITS в [10, 24] и то, что формат не предоставляет произвольный доступ. Brotli часто превосходит gzip на веб-тексте и быстро декодируется.

Контейнер ZIP: ZIP — файловый архив, поддерживающий разные методы (deflate, store, zstd и др.). Де-факто стандарт — APPNOTE PKWARE (см.портал APPNOTE, размещённую копиюи обзоры LC ZIP File Format (PKWARE) / ZIP 6.3.3).

Скорость vs коэффициент

LZ4 ориентирован на максимальную скорость при умеренных коэффициентах. См. страницу проекта и формат фреймов. Подходит для кэшей в памяти, телеметрии и горячих путей, где декомпрессия должна быть почти со скоростью RAM.

XZ / LZMA гнётся за плотностью (высоким коэффициентом), но компрессует медленнее. XZ — контейнер; основную работу делают LZMA/LZMA2 (моделирование наподобие LZ77 + range coding). См.формат .xz, спецификацию LZMA (Павлов)и заметки ядра Linux про XZ Embedded. XZ обычно сжимает лучше gzip и соперничает с современными кодеками высокой плотности, но кодирует дольше.

bzip2 использует преобразование Бэрроуза–Уилера (BWT), move-to-front, RLE и Хаффмана. Обычно даёт файлы меньше, чем gzip, но медленнее; см.официальный мануал и man-страницу (Linux).

Окна, блоки и произвольный доступ

Важен размер окна. Ссылки DEFLATE смотрят максимум на 32 КиБ назад (RFC 1951) и ограничение PNG 32 КиБ здесь. Brotli поддерживает окна от ~1 КиБ до 16 МиБ (RFC 7932). Zstd настраивает окно и глубину поиска уровнями (RFC 8878). Базовые потоки gzip/zstd/brotli спроектированы для последовательного чтения; сами форматы не гарантируют произвольный доступ, хотя контейнеры (индексы tar, блочное фреймирование, форматные индексы) могут его добавить.

Lossless vs lossy

Форматы выше — lossless: можно восстановить те же байты. Медиа-кодеки часто lossy: они отбрасывают незаметные детали ради меньших битрейтов. Для изображений классический JPEG (DCT, квантование, энтропийное кодирование) стандартизован в ITU-T T.81 / ISO/IEC 10918-1. В аудио MP3 (MPEG-1 Layer III) и AAC (MPEG-2/4) используют перцепционные модели и MDCT (см.ISO/IEC 11172-3, ISO/IEC 13818-7и обзор MDCT здесь). Lossy и lossless могут сосуществовать (PNG для UI, веб-кодеки для изображений/видео/аудио).

Практические советы

Выбирайте под задачу. Текст и шрифты для веба brotli. Общие файлы и бэкапы zstd (быстрая декомпрессия и уровни для обмена временем на коэффициент). Сверхбыстрые каналы и телеметрия lz4. Максимальная плотность для долгосрочных архивов, если время кодирования приемлемо xz/LZMA.
Мелкие файлы? Тренируйте и поставляйте словари для zstd (доки) / (пример). Они значительно ужимают десятки маленьких похожих объектов.
Интероперабельность. При обмене множеством файлов используйте контейнер (ZIP, tar) плюс компрессор. APPNOTE для ZIP задаёт идентификаторы методов и возможности; смотрите PKWARE APPNOTE и обзоры LC здесь.
Мерьте на своих данных. Коэффициенты и скорости зависят от корпуса. Многие репозитории публикуют бенчмарки (например, README LZ4 ссылается на корпус Silesia здесь), но всегда проверяйте локально.

Ключевые источники (углубиться)

Теория Shannon 1948 · Rate–distortion · Кодирование Huffman 1952 · Арифметическое кодирование · Range coding · ANS. Форматы DEFLATE · zlib · gzip · Zstandard · Brotli · LZ4 frame · XZ format. Стек BWT Burrows–Wheeler (1994) · руководство bzip2. Медиа JPEG T.81 · MP3 ISO/IEC 11172-3 · AAC ISO/IEC 13818-7 · MDCT.

Итог: подбирайте компрессор под свои данные и ограничения, измеряйте на реальных входах и не забывайте о выгоде словарей и умного фрейминга. С удачной парой получите меньшие файлы, быстрые передачи и отзывчивые приложения без ущерба корректности и переносимости.

Часто задаваемые вопросы

Что такое сжатие файлов?

Сжатие файлов - это процесс, который уменьшает размер файла или файлов, обычно для экономии места на диске или ускорения передачи по сети.

Как работает сжатие файлов?

Сжатие файлов работает путем идентификации и удаления избыточности в данных. Оно использует алгоритмы для кодирования исходных данных в более маленьком пространстве.

Какие существуют типы сжатия файлов?

Два основных типа сжатия файлов: без потерь и с потерями. Сжатие без потерь позволяет восстановить исходный файл целиком, в то время как сжатие с потерями обеспечивает более значительное уменьшение размера за счет небольшой потери в качестве данных.

Приведите пример инструмента для сжатия файлов?

Популярным примером инструмента для сжатия файлов является WinZip, который поддерживает несколько форматов сжатия, включая ZIP и RAR.

Влияет ли сжатие файлов на качество файлов?

При сжатии без потерь качество остается неизменным. Однако при сжатии с потерями может быть заметное снижение качества, поскольку оно удаляет менее важные данные для более значительного уменьшения размера файла.

Безопасно ли сжатие файлов?

Да, сжатие файлов безопасно с точки зрения целостности данных, особенно при сжатии без потерь. Однако, как и любые файлы, сжатые файлы могут стать целью для вредоносного ПО или вирусов, поэтому всегда важно иметь надежное программное обеспечение безопасности.

Какие типы файлов можно сжимать?

Почти все типы файлов можно сжимать, включая текстовые файлы, изображения, аудио, видео и программные файлы. Однако уровень достижимого сжатия может значительно варьироваться в зависимости от типа файла.

Что такое ZIP-файл?

ZIP-файл - это тип формата файла, который использует сжатие без потерь для уменьшения размера одного или нескольких файлов. Несколько файлов в ZIP-файле фактически объединяются в один файл, что также упрощает обмен данными.

Могу ли я сжать уже сжатый файл?

Технически, да, хотя дополнительное уменьшение размера может быть минимальным или даже противопродуктивным. Сжатие уже сжатого файла иногда может увеличить его размер из-за метаданных, добавленных алгоритмом сжатия.

Как я могу распаковать файл?

Чтобы распаковать файл, обычно вам нужен инструмент для распаковки или разархивации, такой как WinZip или 7-Zip. Эти инструменты могут извлечь исходные файлы из сжатого формата.

Извлечь файл ZSTD

Перетащите и отпустите или нажмите для выбора

Конфиденциально и безопасно

Все происходит в вашем браузере. Ваши файлы никогда не попадают на наши серверы.

Молниеносно

Никаких загрузок, никаких ожиданий. Конвертируйте в тот момент, когда вы перетаскиваете файл.

Действительно бесплатно

Не требуется учетная запись. Никаких скрытых платежей. Никаких уловок с размером файла.

Что такое формат ZSTD?

Zstandard

Два столпа: моделирование и кодирование

Что делают популярные форматы

Скорость vs коэффициент

Окна, блоки и произвольный доступ

Lossless vs lossy

Практические советы

Ключевые источники (углубиться)

Часто задаваемые вопросы

Что такое сжатие файлов?

Как работает сжатие файлов?

Какие существуют типы сжатия файлов?

Приведите пример инструмента для сжатия файлов?

Влияет ли сжатие файлов на качество файлов?

Безопасно ли сжатие файлов?

Какие типы файлов можно сжимать?

Что такое ZIP-файл?

Могу ли я сжать уже сжатый файл?

Как я могу распаковать файл?

Поддерживаемые форматы

7zip.7z

Семь Zip

APK.apk

Android пакет

AR.ar

ar (Unix архив)

BIN.bin

бинарный

BSD TAR.tar

BSD tar

CPIO.cpio

Архив CPIO

CRX.crx

Расширение Chrome

DEB.deb

Пакет Debian

EGG.egg

Яйцо

GNU TAR.tar

GNU tar

IPA.ipa

Приложение iOS

ISO.iso

Образ ISO

JAR.jar

Архив Java

LHA.lha

Архив LHA

LXF.lxf

Формат обмена Lego (LXF)

LZH.lzh

Архив LZH

PAX.pax

Обмен портативными архивами

PAXR.pax

Сокращённый обмен портативными архивами

PKZ.zip

PKZ (PKZip)

POSIX.tar

POSIX

PWB.cpio

Рабочая станция программиста (PWB)

RAR.rar

Архив RAR

RAW.img

Необработанный формат

RPAX.rpax

Избыточный PAX (обмен портативными архивами)

SHAR.shar

Shell архив

TARGZ.tar.gz