Формат архива Programmable Web Binary (PWB) — это формат файла, используемый для эффективной упаковки, сжатия и распространения кода и ресурсов веб-приложений. Он был разработан для решения проблемы растущей сложности и размера современных веб-приложений, которые используют множество файлов JavaScript, CSS, HTML, изображений и других ресурсов. Формат PWB позволяет объединить эти файлы в один двоичный архив, что сокращает требования к хранилищу и обеспечивает более быструю передачу по сетям.
В своей основе архив PWB состоит из заголовка файла, за которым следует ряд записей файлов. Каждая запись файла содержит метаданные об отдельном файле, хранящемся в архиве, такие как его имя, сжатый и несжатый размер и контрольная сумма CRC32 для проверки целостности данных. Фактические данные файла хранятся после метаданных и сжимаются с помощью алгоритма Deflate, который представляет собой комбинацию кодирования LZ77 и Хаффмана.
Заголовок PWB начинается с 4-байтового магического числа (0x50574221), чтобы идентифицировать файл как архив PWB. За магическим числом следует 2-байтовое номер версии, указывающий версию формата PWB. Текущая версия — 1.0. После версии есть 4 байта, зарезервированные для будущего использования, за которыми следует 8-байтовое целое число, представляющее общее количество записей файлов в архиве.
Каждая запись файла в архиве PWB начинается с 4-байтового целого числа, указывающего длину метаданных файла. Метаданные хранятся как объект JSON и включают такие свойства, как имя файла, тип MIME, временные метки и сжатие. За длиной метаданных следует фактическая строка метаданных в кодировке JSON.
После метаданных хранятся сжатые данные файла. Данным предшествует 8-байтовое целое число, указывающее сжатый размер данных, за которым следует еще одно 8-байтовое целое число для несжатого размера. Затем данные кодируются с помощью алгоритма сжатия Deflate, который может значительно уменьшить размер текстовых ресурсов, таких как файлы JavaScript, CSS и HTML.
Одним из ключевых преимуществ формата PWB является его способность эффективно хранить и сжимать ресурсы веб-приложений. Используя сжа тие Deflate, архивы PWB могут достигать высоких коэффициентов сжатия для текстовых файлов, которые составляют большую часть ресурсов веб-приложений. Это сокращает требования к хранилищу и ускоряет передачу файлов, поскольку по сети необходимо передавать меньше данных.
Еще одним преимуществом PWB является поддержка произвольного доступа к отдельным файлам в архиве. Поскольку метаданные каждого файла включают его смещение и размер в архиве, файлы можно быстро найти и извлечь без необходимости распаковывать весь архив. Это особенно полезно для больших веб-приложений со множеством ресурсов, поскольку позволяет эффективно загружать определенные ресурсы по запросу.
Чтобы создать архив PWB, разработчики могут использовать такие инструменты, как PWB Packager, который доступен как утилита командной строки и как библиотека для программного использования. PWB Packager принимает в качестве входных данных каталог файлов веб-приложения и генерирует архив PWB, содержащий все файлы и их метаданные. Разработчики также могут указать параметры конфигурации, такие как исключение определенных файлов или каталогов, установка пользовательских типов MIME и настройка уровней сжатия.
Когда веб-приложение, упакованное в архив PWB, развертывается, сервер, на котором размещено приложение, может использовать PWB Converter для извлечения и обслуживания отдельных файлов по мере необходимости. PWB Converter — это серверный инструмент, который эффективно извлекает файлы из архивов PWB и кэширует их в памяти или на диске для последующих запросов. Это позволяет серверу быстро отвечать на запросы клиентов на определенные ресурсы приложения без необходимости каждый раз извлекать весь архив.
Формат PWB также поддерживает цифровую подпись архивов для обеспечения их целостности и подлинности. Разработчики могут включить цифровую подпись в заголовок PWB, которую сервер или клиент могут проверить, чтобы подтвердить, что архив не был изменен и исходит из надежного источника. Это помогает предотвратить несанкционированное изменение кода и ресурсов веб-приложения, повышая безопасность.
Подводя итог, формат архива PWB является мощным инструментом для эффективной упаковки, сжатия и распространения ресурсов веб-приложений. Объединяя несколько файлов в один архив с метаданными и сжатием, PWB сокращает требования к хранилищу, ускоряет передачу файлов и обеспечивает произвольный доступ к отдельным ресурсам. По мере того как веб-приложения продолжают расти в размерах и сложности, формат PWB помогает разработчикам оптимизировать свои приложения для более быстрой загрузки и улучшенной производительности.
Сжатие файлов уменьшает избыточность, чтобы те же данные занимали меньше бит. Верхняя граница задаётся теорией информации: для без потерь пределом является энтропия источника (см. теорему кодирования источника Шеннона source coding theorem и его оригинальную статью 1948 года «A Mathematical Theory of Communication»). Для сжатия с потерями компромисс между битрейтом и качеством описывает теория rate–distortion.
Большинство компрессоров работают в два этапа. Сначала модель предсказывает или вы являет структуру данных. Затем кодер превращает эти предсказания в почти оптимальные шаблоны битов. Классическая семья моделей — Lempel–Ziv LZ77 (1977) и LZ78 (1978) находят повторяющиеся подстроки и излучают ссылки вместо сырых байтов. На стороне кодирования кодирование Хаффмана (см. статью 1952 года) назначает более короткие коды вероятным символам. Арифметическое кодирование и range coding ещё точнее приближаются к пределу энтропии, а современные Asymmetric Numeral Systems (ANS) дают схожие коэффициенты при табличных реализациях.
DEFLATE (используют gzip, zlib, ZIP) сочетает LZ77 и Хаффмана. Спецификации открыты: DEFLATE RFC 1951, оболочка zlib RFC 1950и формат gzip RFC 1952. Gzip ориентирован на потоковую передачу и явно не обеспечивает произвольный доступ. PNG закрепляет DEFLATE как единственный метод (окно до 32 КиБ) согласно спецификации «Compression method 0…» и W3C/ISO PNG 2nd Edition.
Zstandard (zstd): современный универсальный компрессор с высокими коэффициентами и очень быстрой декомпрессией. Формат описан в RFC 8878 (и HTML-зеркале) и в референс-спеке на GitHub. Как и gzip, базовый фрейм не предполагает произвольного доступа. Главное преимущество zstd — словари: маленькие образцы корпуса, резко улучшающие сжатие множества крошечных или похожих файлов (см.документацию словарей python-zstandard и пример Nigela Tao). Реализации принимают «unstructured» и «structured» словари (обсуждение).
Brotli: оптимизирован для веб-контента (WOFF2, HTTP). Совмещает статический словарь и DEFLATE-подобное ядро LZ+энтропия. Спецификация — RFC 7932, где указано окно 2WBITS−16 с WBITS в [10, 24] и то, что формат не предоставляет произвольный доступ. Brotli часто превосходит gzip на веб-тексте и быстро декодируется.
Контейнер ZIP: ZIP — файловый архив, поддерживающий разные методы (deflate, store, zstd и др.). Де-факто стандарт — APPNOTE PKWARE (см.портал APPNOTE, размещённую копиюи обзоры LC ZIP File Format (PKWARE) / ZIP 6.3.3).
LZ4 ориентирован на максимальную скорость при умеренных коэффициентах. См. страницу проекта и формат фреймов. Подходит для кэшей в памяти, телеметрии и горячих путей, где декомпрессия должна быть почти со скоростью RAM.
XZ / LZMA гнётся за плотностью (высоким коэффициентом), но компрессует медленнее. XZ — контейнер; основную работу делают LZMA/LZMA2 (моделирование наподобие LZ77 + range coding). См.формат .xz, спецификацию LZMA (Павлов)и заметки ядра Linux про XZ Embedded. XZ обычно сжимает лучше gzip и соперничает с современными кодеками высокой плотности, но кодирует дольше.
bzip2 использует преобразование Бэрроуза–Уилера (BWT), move-to-front, RLE и Хаффмана. Обычно даёт файлы меньше, чем gzip, но медленнее; см.официальный мануал и man-страницу (Linux).
Важен размер окна. Ссылки DEFLATE смотрят максимум на 32 КиБ назад (RFC 1951) и ограничение PNG 32 КиБ здесь. Brotli поддерживает окна от ~1 КиБ до 16 МиБ (RFC 7932). Zstd настраивает окно и глубину поиска уровнями (RFC 8878). Базовые потоки gzip/zstd/brotli спроектированы для последовательного чтения; сами форматы не гарантируют произвольный доступ, хотя контейнеры (индексы tar, блочное фреймирование, форматные индексы) могут его добавить.
Форм аты выше — lossless: можно восстановить те же байты. Медиа-кодеки часто lossy: они отбрасывают незаметные детали ради меньших битрейтов. Для изображений классический JPEG (DCT, квантование, энтропийное кодирование) стандартизован в ITU-T T.81 / ISO/IEC 10918-1. В аудио MP3 (MPEG-1 Layer III) и AAC (MPEG-2/4) используют перцепционные модели и MDCT (см.ISO/IEC 11172-3, ISO/IEC 13818-7и обзор MDCT здесь). Lossy и lossless могут сосуществовать (PNG для UI, веб-кодеки для изображений/видео/аудио).
Теория Shannon 1948 · Rate–distortion · Кодирование Huffman 1952 · Арифметическое кодирование · Range coding · ANS. Форматы DEFLATE · zlib · gzip · Zstandard · Brotli · LZ4 frame · XZ format. Стек BWT Burrows–Wheeler (1994) · руководство bzip2. Медиа JPEG T.81 · MP3 ISO/IEC 11172-3 · AAC ISO/IEC 13818-7 · MDCT.
Итог: подбирайте компрессор под свои данные и ограничения, измеряйте на реальных входах и не забывайте о выгоде словарей и умного фрейминга. С удачной парой получите меньшие файлы, быстрые передачи и отзывчивые приложения без ущерба корректности и переносимости.
Сжатие файлов - это процесс, который уменьшает размер файла или файлов, обычно для экономии места на диске или ускорения передачи по сети.
Сжатие файлов работает путем идентификации и удаления избыточности в данных. Оно использует алгоритмы для кодирования исходных данных в более маленьком пространстве.
Два основных типа сжатия файлов: без потерь и с потерями. Сжатие без потерь позволяет восстановить исходный файл целиком, в то время как сжатие с потерями обеспечивает более значительное уменьшение размера за счет небольшой потери в качестве данных.
Популярным примером инструмента для сжатия файлов является WinZip, который поддерживает несколько форматов сжатия, включая ZIP и RAR.
При сжатии без потерь качество остается неизменным. Однако при сжатии с потерями может быть заметное снижение качества, поскольку оно удаляет менее важные данные для более значительного уменьшения размера файла.
Да, сжатие файлов безопасно с точки зрения целостности данных, особенно при сжатии без потерь. Однако, как и любые файлы, сжатые файлы могут стать целью для вредоносного ПО или вирусов, поэтому всегда важно иметь надежное программное обеспечение безопасности.
Почти все типы файлов можно сжимать, включая текстовые файлы, изображения, аудио, видео и программные файлы. Однако уровень достижимого сжатия может значительно варьироваться в зависимости от типа файла.
ZIP-файл - это тип формата файла, который использует сжатие без потерь для уменьшения размера одного или нескольких файлов. Несколько файлов в ZIP-файле фактически объединяются в один файл, что также упрощает обмен данными.
Технически, да, хотя дополнительное уменьшение размера может быть минимальным или даже противопродуктивным. Сжатие уже сжатого файла иногда может увеличить его размер из-за метаданных, добавленных алгоритмом сжатия.
Чтобы распаковать файл, обычно вам нужен инструмент для распаковки или разархивации, такой как WinZip или 7-Zip. Эти инструменты могут извлечь исходные файлы из сжатого формата.