PAX (Pre-Allocate eXtension) est un format d'archive compressée open source développé par Microsoft comme une alternative moderne aux formats existants tels que ZIP, RAR et tar. Il a été conçu pour répondre aux limites et améliorer la compression, les performances, la sécurité et la fonctionnalité de la gestion des archives sur les systèmes et appareils modernes.
Les principales caractéristiques distinctives du format PAX incluent une compression améliorée à l'aide d'algorithmes modernes, un accès aléatoire efficace aux fichiers dans les archives, une prise en charge native du multithreading, des métadonnées extensibles, un chiffrement intégré et une vérification d'intégrité, ainsi qu'une spécification ouverte documentée pour encourager une large adoption et une interopérabilité.
Les archives PAX utilisent l'extension de fichier .pax et ont une structure interne en plusieurs parties comprenant un en-tête, un répertoire central, des blocs de données compressées et un pied de page. Cela permet de stocker séparément les informations clés telles que le contenu de l'archive, les paramètres de compression et les hachages d'intégrité des données de fichier compressées réelles.
L'en-tête PAX commence par un nombre magique de 4 octets (50 41 58 00 en hexadécimal) pour l'identification. Il contient ensuite des champs pour la version PAX, la méthode de compression, la méthode de chiffrement, la méthode de hachage, la taille du bloc, le nombre de threads de compression parallèles et divers indicateurs. L'en-tête se termine par des métadonnées XML extensibles fournissant des détails sur l'archive.
Après l'en-tête se trouve le répertoire central PAX. Il contient une entrée pour chaque fichier/dossier compressé dans l'archive, stockant le chemin complet, les attributs, les tailles, les décalages de bloc et les hachages. Le fait d'avoir cela en un seul endroit permet de répertorier efficacement le contenu de l'archive et d'accéder aléatoirement à des fichiers individuels sans avoir à analyser les données compressées.
La majeure partie d'une archive PAX est une série de blocs de données compressées. Chaque bloc a un petit en-tête indiquant la taille décompressée et compressée, suivi d'un morceau de données de fichier compressé avec l'algorithme configuré. La taille par défaut des blocs est de 1 Mo, mais cela peut être réglé dans l'en-tête de l'archive.
Les blocs de données compressées sont éventuellement chiffrés si une méthode de chiffrement est spécifiée. PAX prend en charge les schémas de chiffrement modernes tels que AES-256. Le mot de passe de l'archive est utilisé pour dériver une clé qui chiffre chaque bloc indépendamment, permettant un accès aléatoire efficace. Pour l'authentification, PAX hache les mots de passe avec un KDF sécurisé.
Pour la compression, PAX prend en charge une variété de codecs modernes à usage général optimisés pour une décompression rapide : LZMA, LZ4, Brotli, Zstandard, etc. Il permet également des préprocesseurs pour une réduction de taille supplémentaire sur des types de fichiers spécifiques (par exemple, encodage Delta sur les EXE/DLL, encodage E8E9 sur le code x86). Les codecs et les préprocesseurs sont appliqués dans un pipeline.
Pour permettre une compression multithread efficace, les fichiers sont partitionnés en blocs compressés indépendamment qui peuvent être traités par des instances de codec parallèles. Le compresseur PAX s'adapte automatiquement pour utiliser tous les cœurs de processeur disponibles. Un partitionnement similaire permet une décompression parallèle pour une extraction plus rapide.
PAX fournit l'intégrité des données et la détection des altérations en stockant les hachages des données originales et compressées. Les archives portent un hachage d'en-tête pour détecter la troncature. Le répertoire central est également haché pour empêcher toute altération des métadonnées du fichier. La détérioration des bits dans les données compressées est détectée en hachant chaque bloc.
À la fin d'une archive PAX se trouve le pied de page. Il contient une copie des champs d'en-tête, le décalage/la taille du répertoire central et un hachage de l'archive entière. Le pied de page est de taille fixe et toujours à la fin du fichier, ce qui permet de localiser et de vérifier facilement les archives PAX.
Les archives PAX peuvent être efficacement mises à jour en modifiant le répertoire central et en ajoutant des blocs de données modifiés, plutôt que de réécrire des archives entières comme ZIP. Des fichiers entiers peuvent être insérés, supprimés ou remplacés en mettant à jour les métadonnées et en ajoutant/supprimant les blocs pertinents. Les archives peuvent également être rapidement ajoutées.
Pour atténuer les vulnérabilités de zip-slip, PAX requiert des chemins explicites (pas de traversée ../) et empêche l'écriture en dehors de la racine d'extraction. Les longs champs de métadonnées ZIP qui permettaient le déni de service sont restreints. Les bombes de compression sont atténuées via des limites sur le taux de compression et l'utilisation de la mémoire.
Les horodatages des fichiers dans les archives PAX utilisent un format standard de 64 bits couvrant une large gamme de dates avec une précision d'une seconde. Les attributs pour les autorisations POSIX et les ACL Windows sont pris en charge. PAX peut stocker des flux de données alternatifs NTFS et des forks de ressources. Les liens symboliques et les liens physiques sont également représentables.
Le SDK PAX open source fournit des API simples pour créer, extraire, mettre à jour et vérifier des archives PAX par programmation. Il gère tous les détails de bas niveau du format PAX. Le SDK est disponible dans plusieurs langages, notamment C, C++, C#, Java, Python, JavaScript, Go et Rust.
En résumé, le format d'archive PAX s'appuie sur les fondations de formats éprouvés comme ZIP tout en introduisant des fonctionnalités et des optimisations modernes - compression efficace, multithreading, accès aléatoire, sécurité et une spécification ouverte. Cela rend PAX idéal pour un large éventail de scénarios d'archivage sur les systèmes actuels.
La compression de fichiers réduit la redondance afin que la même information prenne moins de bits. La limite supérieure de ce que vous pouvez faire est régie par la théorie de l'information : pour la compression sans perte, la limite est l'entropie de la source (voir le théorème de codage de source et son article original de 1948 « Une théorie mathématique de la communication »). Pour la compression avec perte, le compromis entre le débit et la qualité est capturé par la théorie du débit-distorsion.
La plupart des compresseurs ont deux étapes. Premièrement, un modèle prédit ou expose la structure des données. Deuxièmement, un codeur transforme ces prédictions en modèles de bits quasi optimaux. Une famille de modélisation classique est Lempel-Ziv : LZ77 (1977) et LZ78 (1978) détectent les sous-chaînes répétées et émettent des références au lieu d'octets bruts. Du côté du codage, le codage de Huffman (voir l'article original de 1952) attribue des codes plus courts aux symboles les plus probables. Le codage arithmétique et le codage par plage sont des alternatives plus fines qui se rapprochent de la limite de l'entropie, tandis que les systèmes de numération asymétriques (ANS) modernes permettent une compression similaire avec des implémentations rapides basées sur des tables.
DEFLATE (utilisé par gzip, zlib et ZIP) combine LZ77 avec le codage de Huffman. Ses spécifications sont publiques : DEFLATE RFC 1951, wrapper zlib RFC 1950, et format de fichier gzip RFC 1952. Gzip est conçu pour le streaming et explicitement ne tente pas de fournir un accès aléatoire. Les images PNG normalisent DEFLATE comme leur seule méthode de compression (avec une fenêtre maximale de 32 Kio), conformément à la spécification PNG « Méthode de compression 0… dégonfler/gonfler… au plus 32768 octets » et W3C/ISO PNG 2e édition.
Zstandard (zstd) : un compresseur polyvalent plus récent conçu pour des taux de compression élevés avec une décompression très rapide. Le format est documenté dans la RFC 8878 (également miroir HTML) et la spécification de référence sur GitHub. Comme gzip, la trame de base ne vise pas l'accès aléatoire. L'un des superpouvoirs de zstd réside dans les dictionnaires : de petits échantillons de votre corpus qui améliorent considérablement la compression sur de nombreux fichiers minuscules ou similaires (voir la documentation du dictionnaire python-zstandard et l'exemple pratique de Nigel Tao). Les implémentations acceptent à la fois les dictionnaires « non structurés » et « structurés » (discussion).
Brotli : optimisé pour le contenu Web (par exemple, les polices WOFF2, HTTP). Il mélange un dictionnaire statique avec un noyau d'entropie+LZ de type DEFLATE. La spécification est la RFC 7932, qui note également une fenêtre glissante de 2WBITS−16 avec WBITS dans [10, 24] (1 Kio−16 B jusqu'à 16 Mio−16 B) et qu'il ne tente pas d'accès aléatoire. Brotli surpasse souvent gzip sur le texte Web tout en décodant rapidement.
Conteneur ZIP : ZIP est une archive de fichiers qui peut stocker des entrées avec diverses méthodes de compression (deflate, store, zstd, etc.). La norme de facto est l'APPNOTE de PKWARE (voir le portail APPNOTE, une copie hébergée, et les aperçus de la LC Format de fichier ZIP (PKWARE) / ZIP 6.3.3).
LZ4 vise la vitesse brute avec des ratios modestes. Voir sa page de projet (« compression extrêmement rapide ») et son format de trame. Il est idéal pour les caches en mémoire, la télémétrie ou les chemins d'accès très sollicités où la décompression doit être proche de la vitesse de la RAM.
XZ / LZMA visent la densité (excellents ratios) avec une compression relativement lente. XZ est un conteneur ; le gros du travail est généralement effectué par LZMA/LZMA2 (modélisation de type LZ77 + codage par plage). Voir le format de fichier .xz, la spécification LZMA (Pavlov), et les notes du noyau Linux sur XZ Embedded. XZ surcompresse généralement gzip et rivalise souvent avec les codecs modernes à haut ratio, mais avec des temps d'encodage plus lents.
bzip2 applique la transformée de Burrows-Wheeler (BWT), move-to-front, RLE et le codage de Huffman. Il est généralement plus petit que gzip mais plus lent ; voir le manuel officiel et les pages de manuel (Linux).
La « taille de la fenêtre » est importante. Les références DEFLATE ne peuvent remonter que de 32 Kio (RFC 1951 et la limite de 32 Kio de PNG notée ici). La fenêtre de Brotli va d'environ 1 Kio à 16 Mio (RFC 7932). Zstd ajuste la fenêtre et la profondeur de recherche par niveau (RFC 8878). Les flux de base gzip/zstd/brotli sont conçus pour un décodage séquentiel ; les formats de base ne promettent pas d'accès aléatoire, bien que des conteneurs (par exemple, des index tar, un tramage en morceaux ou des index spécifiques au format) puissent l'ajouter.
Les formats ci-dessus sont sans perte : vous pouvez reconstruire les octets exacts. Les codecs multimédias sont souvent avec perte : ils suppriment les détails imperceptibles pour atteindre des débits binaires inférieurs. Dans les images, le JPEG classique (DCT, quantification, codage entropique) est normalisé dans ITU-T T.81 / ISO/IEC 10918-1. En audio, MP3 (MPEG-1 Layer III) et AAC (MPEG-2/4) reposent sur des modèles perceptuels et des transformées MDCT (voir ISO/IEC 11172-3, ISO/IEC 13818-7, et un aperçu de la MDCT ici). Avec et sans perte peuvent coexister (par exemple, PNG pour les ressources de l'interface utilisateur ; codecs Web pour les images/vidéo/audio).
Théorie : Shannon 1948 · Débit-distorsion · Codage : Huffman 1952 · Codage arithmétique · Codage par plage · ANS. Formats : DEFLATE · zlib · gzip · Zstandard · Brotli · Trame LZ4 · Format XZ. Pile BWT : Burrows–Wheeler (1994) · manuel bzip2. Médias : JPEG T.81 · MP3 ISO/IEC 11172-3 · AAC ISO/IEC 13818-7 · MDCT.
Conclusion : choisissez un compresseur qui correspond à vos données et à vos contraintes, mesurez sur des entrées réelles et n'oubliez pas les gains des dictionnaires et du tramage intelligent. Avec la bonne combinaison, vous pouvez obtenir des fichiers plus petits, des transferts plus rapides et des applications plus réactives, sans sacrifier la correction ou la portabilité.
La compression de fichiers est un processus qui réduit la taille d'un fichier ou de fichiers, généralement pour économiser de l'espace de stockage ou accélérer la transmission sur un réseau.
La compression de fichiers fonctionne en identifiant et en supprimant les redondances dans les données. Elle utilise des algorithmes pour encoder les données originales dans un espace plus petit.
Les deux types principaux de compression de fichiers sont la compression sans perte et la compression avec pertes. La compression sans perte permet de restaurer parfaitement le fichier original, tandis que la compression avec pertes permet une réduction de taille plus significative au détriment de la perte de qualité des données.
Un exemple populaire d'un outil de compression de fichiers est WinZip, qui prend en charge de multiples formats de compression dont ZIP et RAR.
Avec la compression sans perte, la qualité reste inchangée. Cependant, avec la compression avec pertes, il peut y avoir une diminution notable de la qualité car elle élimine les données moins importantes pour réduire de manière plus significative la taille du fichier.
Oui, la compression de fichiers est sûre en termes d'intégrité des données, surtout avec la compression sans perte. Cependant, comme tout fichier, les fichiers compressés peuvent être ciblés par des logiciels malveillants ou des virus, il est donc toujours important d'avoir un logiciel de sécurité de confiance en place.
Presque tous les types de fichiers peuvent être compressés, y compris les fichiers texte, images, audio, vidéo, et les fichiers logiciels. Cependant, le niveau de compression réalisable peut varier considérablement selon les types de fichiers.
Un fichier ZIP est un type de format de fichier qui utilise la compression sans perte pour réduire la taille d'un ou de plusieurs fichiers. Plusieurs fichiers dans un fichier ZIP sont effectivement regroupés en un seul fichier, ce qui facilite également le partage.
Techniquement, oui, bien que la réduction de taille supplémentaire puisse être minime voire contre-productive. Compresser un fichier déjà compressé peut parfois augmenter sa taille en raison des métadonnées ajoutées par l'algorithme de compression.
Pour décompresser un fichier, il vous faut généralement un outil de décompression ou de dézippage, comme WinZip ou 7-Zip. Ces outils peuvent extraire les fichiers originaux à partir du format compressé.