XAR (eXtensible ARchive) — это формат файла, разработанный Apple Inc. для объединения и распространения программного обеспечения в macOS. Он служит заменой для более старых форматов, таких как .pkg и .dmg, предлагая несколько преимуществ, таких как улучшенная безопасность, меньшие размеры файлов и лучшая производительность. Файлы XAR используют расширение файла .xar и могут быть созданы и извлечены с помощью утилиты командной строки xar, входящей в состав macOS.
Формат XAR основан на стандарте XML (eXtensible Markup Language). Архив XAR состоит из трех основных компонентов: таблицы содержимого (TOC) в формате XML, описывающей содержимое архива, фактических файлов и каталогов, хранящихся в архиве, и цифровых подписей для обеспечения безопасности. TOC действует как индекс, определяющий путь, размер и другие метаданные для каждого файла в архиве. Эта структура на основе XML обеспечивает расширяемость, поскольку Apple или третьи стороны могут добавлять пользовательские теги для поддержки новых функций.
Одним из ключевых аспектов формата XAR является использование сжатия. По умолчанию XAR использует сжатие zlib для уменьшения размера архивированных файлов. Сама таблица содержимого также сжата. Это приводит к уменьшению размеров архива по сравнению со старыми форматами, такими как .pkg, которые хранят файлы несжатыми. Однако XAR также поддерживает хранение файлов в несжатом виде, если это необходимо. Сжатие, применяемое к каждому файлу, можно указать индивидуально в таблице содержимого.
Для обеспечения целостности и подлинности архивов XAR формат включает цифровые подписи. Каждый файл XAR содержит одну или н есколько подписей, которые охватывают всю таблицу содержимого. Эти подписи создаются с использованием криптографии с открытым ключом, обычно с алгоритмами RSA или DSA. Подписи позволяют получателям проверить, что архив не был изменен и что он исходит из надежного источника. Apple использует подписи XAR для распространения обновлений программного обеспечения и приложений в Mac App Store.
Когда архив XAR открывается, таблица содержимого сначала распаковывается и анализируется. Таблица содержимого предоставляет структуру каталогов и метаданные файлов, аналогично формату «tar», используемому в системах Unix. Фактические данные файла хранятся после таблицы содержимого в архиве. Данные каждого файла могут быть сжаты или несжаты, как указано в соответствующей записи в таблице содержимого. Чтобы извлечь файл, его данные находятся с использованием информации о смещении и размере из таблицы содержимого.
Формат XAR поддерживает несколько расширенных функций помимо базового архивирования. Одной из таких функций является возможность включать несколько таблиц содержимого в один архив. Это позволяет создавать инкрем ентные обновления, в которых только измененные файлы должны быть включены в архив обновления. Несколько таблиц содержимого могут описывать состояние архива в разных версиях программного обеспечения. Механизмы интеллектуального обновления могут использовать эту информацию для эффективного применения инкрементных исправлений.
Кроме того, архивы XAR могут хранить расширенные атрибуты и списки управления доступом (ACL), связанные с архивированными файлами. Расширенные атрибуты — это пары «ключ-значение», которые могут хранить метаданные, специфичные для приложения. ACL определяют детальные разрешения для доступа к файлам. Сохраняя эту информацию в архиве, XAR гарантирует, что исходные атрибуты файла будут восстановлены при извлечении на целевой системе.
Формат XAR также включает положения для подписи кода. В дополнение к подписям на уровне архива, охватывающим таблицу содержимого, отдельные файлы в архиве могут иметь свои собственные подписи. Это полезно для распространения компонентов программного обеспечения, которые должны быть проверены независимо. Например, архитектура плагинов может использовать подпись кода, чтобы гарантировать, что приложение загружает только доверенные плагины.
Еще одной особенностью XAR является возможность хранить жесткие ссылки. Жесткие ссылки позволяют нескольким записям каталога ссылаться на одни и те же данные файла на диске. В таблице содержимого XAR жесткие ссылки представлены с помощью специальных элементов XML, которые указывают на исходную запись файла. Когда архив извлекается, жесткие ссылки воссоздаются, экономя дисковое пространство и сохраняя исходную структуру каталогов.
Для работы с архивами XAR программно разработчики могут использовать инструмент командной строки xar или библиотеки, такие как libxar. Инструмент xar предоставляет команды для создания, извлечения и управления архивами XAR. Он поддерживает различные параметры для сжатия, подписи и проверки. Libxar — это библиотека C, которая реализует формат XAR и предоставляет API для чтения и записи архивов XAR. Она позволяет разработчикам интегрировать поддержку XAR в свои собственные приложения.
Подводя итог, формат XAR предлагает современный и расширяемый подход к упаковке и распространению прогр аммного обеспечения в macOS. Использование XML для таблицы содержимого, сжатие для уменьшения размера файлов, цифровые подписи для обеспечения безопасности и поддержка расширенных функций, таких как инкрементные обновления и подпись кода, делают его мощным инструментом для разработчиков и системных администраторов. Поскольку Apple продолжает совершенствовать и продвигать формат, XAR, вероятно, станет стандартом для распространения программного обеспечения в macOS.
Сжатие файлов уменьшает избыточность, чтобы те же данные занимали меньше бит. Верхняя граница задаётся теорией информации: для без потерь пределом является энтропия источника (см. теорему кодирования источника Шеннона source coding theorem и его оригинальную статью 1948 года «A Mathematical Theory of Communication»). Для сжатия с потерями компромисс между битрейтом и качеством описывает теория rate–distortion.
Большинство компрессоров работают в два этапа. Сначала модель предсказывает или выявляет структуру данных. Затем кодер превращает эти предсказания в почти оптимальные шаблоны битов. Классическая семья моделей — Lempel–Ziv LZ77 (1977) и LZ78 (1978) находят повторяющиеся подстроки и излучают ссылки вместо сырых байтов. На стороне кодирования кодирование Хаффмана (см. статью 1952 года) назначает более короткие коды вероятным символам. Арифметическое кодирование и range coding ещё точнее приближаются к пределу энтропии, а современные Asymmetric Numeral Systems (ANS) дают схожие коэффициенты при табличных реализациях.
DEFLATE (используют gzip, zlib, ZIP) сочетает LZ77 и Хаффмана. Спецификации открыты: DEFLATE RFC 1951, оболочка zlib RFC 1950и формат gzip RFC 1952. Gzip ориентирован на потоковую передачу и явно не обеспечивает произвольный доступ. PNG закрепляет DEFLATE как единственный метод (окно до 32 КиБ) согласно спецификации «Compression method 0…» и W3C/ISO PNG 2nd Edition.
Zstandard (zstd): современный универсальный компрессор с высокими коэффициентами и очень быстрой декомпрессией. Формат описан в RFC 8878 (и HTML-зеркале) и в референс-спеке на GitHub. Как и gzip, базовый фрейм не предполагает произвольного доступа. Главное преимущество zstd — словари: маленькие образцы корпуса, резко улучшающие сжатие множества крошечных или похожих файлов (см.документацию словарей python-zstandard и пример Nigela Tao). Реализации принимают «unstructured» и «structured» словари (обсуждение).
Brotli: оптимизирован для веб-контента (WOFF2, HTTP). Совмещает статический словарь и DEFLATE-подобное ядро LZ+энтропия. Спецификация — RFC 7932, где указано окно 2WBITS−16 с WBITS в [10, 24] и то, что формат не предоставляет произвольный доступ. Brotli часто превосходит gzip на веб-тексте и быстро декодируется.
Контейнер ZIP: ZIP — файловый архив, поддерживающий разные методы (deflate, store, zstd и др.). Де-факто стандарт — APPNOTE PKWARE (см.портал APPNOTE, размещённую копиюи обзоры LC ZIP File Format (PKWARE) / ZIP 6.3.3).
LZ4 ориентирован на максимальную скорость при умеренных коэффициентах. См. страницу проекта и формат фреймов. Подходит для кэшей в памяти, телеметрии и горячих путей, где декомпрессия должна быть почти со скоростью RAM.
XZ / LZMA гнётся за плотностью (высоким коэффициентом), но компрессует медленнее. XZ — контейнер; основную работу делают LZMA/LZMA2 (моделирование наподобие LZ77 + range coding). См.формат .xz, спецификацию LZMA (Павлов)и заметки ядра Linux про XZ Embedded. XZ обычно сжимает лучше gzip и соперничает с современными кодеками высокой плотности, но кодирует дольше.
bzip2 использует преобразование Бэрроуза–Уилера (BWT), move-to-front, RLE и Хаффмана. Обычно даёт файлы меньше, чем gzip, но медленнее; см.официальный мануал и man-страницу (Linux).
Важен размер окна. Ссылки DEFLATE смотрят максимум на 32 КиБ назад (RFC 1951) и ограничение PNG 32 КиБ здесь. Brotli поддерживает окна от ~1 КиБ до 16 МиБ (RFC 7932). Zstd настраивает окно и глубину поиска уровнями (RFC 8878). Базовые потоки gzip/zstd/brotli спроектированы для последовательного чтения; сами форматы не гарантируют произвольный доступ, хотя контейнеры (индексы tar, блочное фреймирование, форматные индексы) могут его добавить.
Форматы выше — lossless: можно восстановить те же байты. Медиа-кодеки часто lossy: они отбрасывают незаметные детали ради меньших битрейтов. Для изображений классический JPEG (DCT, квантование, энтропийное кодирование) стандартизован в ITU-T T.81 / ISO/IEC 10918-1. В аудио MP3 (MPEG-1 Layer III) и AAC (MPEG-2/4) используют перцепционные модели и MDCT (см.ISO/IEC 11172-3, ISO/IEC 13818-7и обзор MDCT здесь). Lossy и lossless могут сосуществовать (PNG для UI, веб-кодеки для изображений/видео/аудио).
Теория Shannon 1948 · Rate–distortion · Кодирование Huffman 1952 · Арифметическое кодирование · Range coding · ANS. Форматы DEFLATE · zlib · gzip · Zstandard · Brotli · LZ4 frame · XZ format. Стек BWT Burrows–Wheeler (1994) · руководство bzip2. Медиа JPEG T.81 · MP3 ISO/IEC 11172-3 · AAC ISO/IEC 13818-7 · MDCT.
Итог: подбирайте компрессор под свои данные и ограничения, измеряйте на реальных входах и не забывайте о выгоде словарей и умного фрейминга. С удачной парой получите меньшие файлы, быстрые передачи и отзывчивые приложения без ущерба корректности и переносимости.
Сжатие файлов - это процесс, который уменьшает размер файла или файлов, обычно для экономии места на диске или ускорения передачи по сети.
Сжатие файлов работает путем идентификации и удаления избыточности в данных. Оно использует алгоритмы для кодирования исходных данных в более маленьком пространстве.
Два основных типа сжатия файлов: без потерь и с потерями. Сжатие без потерь позволяет восстановить исходный файл целиком, в то время как сжатие с потерями обеспечивает более значительное уменьшение размера за счет небольшой потери в качестве данных.
Популярным примером инструмента для сжатия файлов является WinZip, который поддерживает несколько форматов сжатия, включая ZIP и RAR.
При сжатии без потерь качество остается неизменным. Однако при сжатии с потерями может быть заметное снижение качества, поскольку оно удаляет менее важные данные для более значительного уменьшения размера файла.
Да, сжатие файлов безопасно с точки зрения целостности данных, особенно при сжатии без потерь. Однако, как и любые файлы, сжатые файлы могут стать целью для вредоносного ПО или вирусов, поэтому всегда важно иметь надежное программное обеспечение безопасности.
Почти все типы файлов можно сжимать, включая текстовые файлы, изображения, аудио, видео и программные файлы. Однако уровень достижимого сжатия может значительно варьироваться в зависимости от типа файла.
ZIP-файл - это тип формата файла, который использует сжатие без потерь для уменьшения размера одного или нескольких файлов. Несколько файлов в ZIP-файле фактически объединяются в один файл, что также упрощает обмен данными.
Технически, да, хотя дополнительное уменьшение размера может быть минимальным или даже противопродуктивным. Сжатие уже сжатого файла иногда может увеличить его размер из-за ме таданных, добавленных алгоритмом сжатия.
Чтобы распаковать файл, обычно вам нужен инструмент для распаковки или разархивации, такой как WinZip или 7-Zip. Эти инструменты могут извлечь исходные файлы из сжатого формата.