ZIPX는 널리 사용되는 ZIP 포맷을 기반으로 확장한 아카이브 파일 포맷입니다. ZIPX는 기존 ZIP 도구와의 호환성을 유지하면서 고급 압축 및 암호화 기능을 추가하는 방법으로 원래 ZIP 포맷을 만든 회사인 PKWARE에서 개발했습니다. ZIPX는 기존 ZIP 아카이브에 비해 더 나은 압축률, 더 강력한 보안, 더 큰 파일 크기 지원을 목표로 합니다.
ZIPX의 주요 기능 중 하나는 여러 압축 방법을 지원한다는 것입니다. ZIP 파일에서 사용되는 표준 DEFLATE 압축 외에도 ZIPX는 여러 새로운 압축 알고리즘을 도입합니다. 여기에는 우수한 압축률로 유명한 고성능 압축 방법인 BZIP2와 더 나은 압축 결과를 얻을 수 있는 컨텍스트 기반 통계 압축 알고리즘인 PPMd가 포함됩니다. ZIPX는 또한 Lempel-Ziv-Markov 체인 알고리즘을 기반으로 하며 압축률과 속도 사이의 균형을 잘 맞춘 LZMA 압축 방법도 지원합니다.
ZIPX의 또 다른 중요한 향상은 고급 암호화 기능이 도입된 것입니다. ZIP 파일은 오랫동안 비교적 약한 ZipCrypto 알고리즘을 사용한 기본 암호 보호를 지원했지만 ZIPX는 강력한 암호화 방법을 통합하여 보안 게임을 한 단계 끌어올렸습니다. 128, 192 또는 256비트 키 길이의 AES(고급 암호화 표준) 사용을 지원합니다. AES는 널리 인정되고 안전한 암호화 알고리즘으로 아카이브 내용에 대한 무단 액세스에 대해 강력한 보호를 제공합니다.
ZIPX는 또한 파일 크기 측면에서 원래 ZIP 포맷의 한계를 해결합니다. 기존 ZIP 파일은 파일 크기와 오프셋을 저장하는 데 32비트 필드를 사용하여 개별 파일의 최대 크기와 전체 아카이브를 4GB로 제한합니다. 이는 이 한계를 초과하는 대용량 파일이나 파일 모음을 처리할 때 문제가 됩니다. ZIPX는 64비트 확장을 도입하여 파일 크기와 아카이브 크기를 최대 18엑사바이트(약 1800만 테라바이트)까지 허용하여 이러한 한계를 극복합니다. 이를 통해 ZIPX는 매우 큰 데이터 세트를 처리하고 끊임없이 커지는 디지털 파일 크기를 수용하는 데 적합합니다.
파일 포맷 구조 측면에서 ZIPX는 새로운 기능과 확장을 도입하면서 기본 ZIP 포맷과의 호환성을 유지합니다. ZIPX 파일은 각각 압축된 파일이나 디렉토리를 나타내는 일련의 파일 레코드로 구성됩니다. 파일 레코드 뒤에는 아카이브된 파일의 이름, 크기, 압축 방법 등의 메타데이터가 포함된 중앙 디렉토리가 있습니다. ZIPX는 고급 기능을 수용하기 위해 새로운 레코드 유형과 추가 필드를 도입합니다.
ZIPX의 새로운 레코드 유형 중 하나는 '추가 필드' 레코드입니다. 이 레코드를 통해 선택한 압축 방법, 암호화 알고리즘, 기타 관련 정보와 같이 ZIPX에 고유한 추가 메타데이터를 포함할 수 있습니다. 추가 필드는 고유한 헤더 ID로 식별되며 ZIPX 인식 소프트웨어에서 쉽게 구문 분석할 수 있습니다.
ZIPX는 또한 대용량 아카이브를 더 작고 관리하기 쉬운 부분으로 분할할 수 있는 새로운 '분할 아카이브' 기능을 도입합니다. 이는 크기 제한이 있는 네트워크나 저장 매체를 통해 대용량 ZIPX 파일을 전송할 때 특히 유용합니다. 분할 아카이브 기능을 사용하면 여러 ZIPX 파일을 만들 수 있으며, 이 파일을 다시 연결하여 원래 아카이브를 재구성할 수 있습니다. 각 분할 파일에는 시퀀스에서의 위치와 총 부분 수를 나타내는 특수 헤더가 포함됩니다.
호환성은 아카이브 포맷을 고려할 때 중요한 요소입니다. ZIPX는 기존 ZIP 포맷에 비해 고급 기능과 개선 사항을 제공하지만 어느 정도 이전 버전과의 호환성을 유지합니다. ZIPX 파일은 여전히 많은 기존 ZIP 도구에서 열고 추출할 수 있지만 모든 고급 기능을 지원하지는 않을 수 있습니다. 그러나 향상된 압축과 강력한 암호화와 같은 ZIPX의 기능을 최대한 활용하려면 특수 ZIPX 인식 소프트웨어가 필요합니다.
PKWARE는 'PKZIP SDK'라고 하는 도구 및 라이브러리 세트를 제공하여 ZIPX 파일의 생성 및 조작을 용이하게 합니다. SDK에는 ZIPX 아카이브를 압축하고 추출하는 명령줄 유틸리티와 ZIPX 지원을 사용자 지정 애플리케이션에 통합하기 위한 API 및 라이브러리가 포함됩니다. 이러한 도구는 다양한 프로그래밍 언어와 플랫폼을 지원하여 개발자가 소프트웨어 프로젝트에서 ZIPX를 더 쉽게 사용할 수 있도록 합니다.
ZIPX의 도입은 대량의 데이터를 처리하는 사용자와 조직에 여러 가지 이점을 제공합니다. ZIPX의 향상된 압축 방법은 파일 크기를 줄여 저장 요구 사항을 줄이고 네트워크를 통한 더 빠른 데이터 전송을 용이하게 합니다. 강력한 암호화 기능은 ZIPX 아카이브에 저장된 민감한 정보의 기밀성과 무결성을 보장합니다. 또한 대용량 파일을 처리할 수 있는 기능은 번거로운 해결 방법의 필요성을 없애고 대규모 데이터 세트의 효율적인 아카이빙 및 배포를 가능하게 합니다.
이러한 장점에도 불구하고 ZIPX의 채택은 유비쿼터스 ZIP 포맷에 비해 상대적으로 느렸습니다. 이는 ZIP에 대한 광범위한 지원과 친숙함, 그리고 많은 사용자가 ZIPX가 제공하는 고급 기능이 필요하지 않을 수 있다는 사실에 기인할 수 있습니다. 그러나 데이터 볼륨이 계속 증가하고 보안이 점점 더 중요해지면서 ZIPX와 같은 더 유능한 아카이브 포맷에 대한 수요가 증가할 가능성이 높습니다.
결론적으로 ZIPX는 ZIP 포맷의 유산을 기반으로 구축된 강력하고 기능이 풍부한 아카이브 파일 포맷입니다. 고급 압축 방법, 강력한 암호화, 대용량 파일 크기 지원을 통해 ZIPX는 기존 ZIP 아카이브에 비해 상당한 개선 사항을 제공합니다. 기존 ZIP 도구와의 호환성은 어느 정도 유지되지만 ZIPX의 모든 잠재력은 특수 소프트웨어와 라이브러리를 사용하여 활용할 수 있습니다. 데이터 저장 및 전송 요구 사항이 계속해서 진화함에 따라 ZIPX는 개인용 컴퓨팅에서 엔터프라이즈 데이터 관리에 이르기까지 다양한 도메인에서 효율적이고 안전한 아카이빙을 위한 가치 있는 도구가 됩니다.
파일 압축은 동일한 정보가 더 적은 비트를 차지하도록 중복성을 줄입니다. 얼마나 멀리 갈 수 있는지에 대한 상한선은 정보 이론에 의해 결정됩니다. 무손실 압축의 경우, 한계는 소스의 엔트로피입니다(섀넌의 소스 코딩 정리 와 그의 1948년 원본 논문 “통신의 수학적 이론”참조). 손실 압축의 경우, 속도와 품질 간의 절충은 속도-왜곡 이론에 의해 포착됩니다.
대부분의 압축기에는 두 단계가 있습니다. 첫째, 모델이 데이터의 구조를 예측하거나 노출합니다. 둘째, 코더가 이러한 예측을 거의 최적의 비트 패턴으로 변환합니다. 고전적인 모델링 계열은 렘펠-지브입니다. LZ77 (1977) 과 LZ78 (1978)은 반복되는 하위 문자열을 감지하고 원시 바이트 대신 참조를 내보냅니다. 코딩 측면에서는 허프만 코딩 (원본 논문 1952참조)이 더 가능성 있는 기호에 더 짧은 코드를 할당합니다. 산술 코딩 과 범위 코딩 은 엔트로피 한계에 더 가깝게 압축하는 더 세분화된 대안이며, 현대적인 비대칭 숫자 체계(ANS) 는 빠른 테이블 기반 구현으로 유사한 압축을 달성합니다.
DEFLATE(gzip, zlib, ZIP에서 사용)는 LZ77과 허프만 코딩을 결합합니다. 사양은 공개되어 있습니다. DEFLATE RFC 1951, zlib 래퍼 RFC 1950, gzip 파일 형식 RFC 1952. Gzip은 스트리밍을 위해 구성되었으며 명시적으로 임의 접근을 시도하지 않습니다. PNG 이미지는 PNG 사양에 따라 DEFLATE를 유일한 압축 방법으로 표준화합니다(최대 32KiB 창). “압축 방법 0… deflate/inflate… 최대 32768바이트” 및 W3C/ISO PNG 제2판.
Zstandard (zstd): 매우 빠른 압축 해제와 높은 비율을 위해 설계된 최신 범용 압축기입니다. 형식은 RFC 8878 (또한 HTML 미러) 및 참조 사양 GitHub에 문서화되어 있습니다. gzip과 마찬가지로 기본 프레임은 임의 접근을 목표로 하지 않습니다. zstd의 초능력 중 하나는 사전입니다. 코퍼스에서 가져온 작은 샘플로, 작거나 유사한 많은 파일에서 압축을 극적으로 향상시킵니다( python-zstandard 사전 문서 및 Nigel Tao의 작업 예제참조). 구현은 “비정형” 및 “정형” 사전을 모두 허용합니다 (토론).
Brotli: 웹 콘텐츠(예: WOFF2 글꼴, HTTP)에 최적화되어 있습니다. 정적 사전과 DEFLATE와 유사한 LZ+엔트로피 코어를 혼합합니다. 사양은 RFC 7932이며, WBITS가 [10, 24]인 2WBITS−16의 슬라이딩 윈도우(1KiB−16B ~ 16MiB−16B)와 임의 접근을 시도하지 않음을 명시합니다. Brotli는 웹 텍스트에서 gzip을 자주 능가하며 빠르게 디코딩됩니다.
ZIP 컨테이너: ZIP은 다양한 압축 방법 (deflate, store, zstd 등)으로 항목을 저장할 수 있는 파일 아카이브입니다. 사실상의 표준은 PKWARE의 APPNOTE입니다( APPNOTE 포털, 호스팅된 사본, LC 개요 ZIP 파일 형식(PKWARE) / ZIP 6.3.3참조).
LZ4는 적당한 비율로 원시 속도를 목표로 합니다. 프로젝트 페이지 (「매우 빠른 압축」)와 프레임 형식을 참조하십시오. 압축 해제가 RAM 속도에 가까워야 하는 인메모리 캐시, 원격 측정 또는 핫 경로에 이상적입니다.
XZ / LZMA는 비교적 느린 압축으로 밀도(훌륭한 비율)를 추구합니다. XZ는 컨테이너입니다. 무거운 작업은 일반적으로 LZMA/LZMA2(LZ77과 유사한 모델링 + 범위 코딩)에 의해 수행됩니다. .xz 파일 형식, LZMA 사양(Pavlov), 리눅스 커널 노트 XZ 임베디드를 참조하십시오. XZ는 일반적으로 gzip보다 압축률이 높으며 종종 높은 비율의 최신 코덱과 경쟁하지만 인코딩 시간이 더 깁니다.
bzip2는 버로우즈-휠러 변환(BWT), move-to-front, RLE 및 허프만 코딩을 적용합니다. 일 반적으로 gzip보다 작지만 느립니다. 공식 설명서 와 man 페이지 (리눅스)를 참조하십시오.
“창 크기”가 중요합니다. DEFLATE 참조는 32KiB만 되돌아볼 수 있습니다 (RFC 1951 및 PNG의 32KiB 상한 여기에 명시됨). Brotli의 창은 약 1KiB에서 16MiB까지 다양합니다 (RFC 7932). Zstd는 레벨별로 창과 검색 깊이를 조정합니다 (RFC 8878). 기본 gzip/zstd/brotli 스트림은 순차적 디코딩을 위해 설계되었습니다. 기본 형식은 임의 접근을 약속하지 않습니다. 하지만 컨테이너(예: tar 인덱스, 청크 프레이밍 또는 형식별 인덱스)를 통해 계층화할 수 있습니다.
위의 형식은 무손실입니다. 정확한 바이트를 재구성할 수 있습니다. 미디어 코덱은 종종 손실입니다. 더 낮은 비트 전송률을 달성하기 위해 감지할 수 없는 세부 정보를 버립니다. 이미지에서 클래식 JPEG(DCT, 양자화, 엔트로피 코딩)는 ITU-T T.81 / ISO/IEC 10918-1에 표준화되어 있습니다. 오디오에서 MP3(MPEG-1 Layer III) 및 AAC(MPEG-2/4)는 지각 모델 및 MDCT 변환에 의존합니다( ISO/IEC 11172-3, ISO/IEC 13818-7, MDCT 개요 여기참조). 손실 및 무손실은 공존할 수 있습니다(예: UI 자산용 PNG, 이미지/비디오/오디오용 웹 코덱).
이론: 섀넌 1948 · 속도-왜곡 · 코딩: 허프만 1952 · 산술 코딩 · 범위 코딩 · ANS. 형식: DEFLATE · zlib · gzip · Zstandard · Brotli · LZ4 프레임 · XZ 형식. BWT 스택: 버로우즈-휠러(1994) · bzip2 설명서. 미디어: JPEG T.81 · MP3 ISO/IEC 11172-3 · AAC ISO/IEC 13818-7 · MDCT.
결론: 데이터와 제약 조건에 맞는 압축기를 선택하고, 실제 입력으로 측정하고, 사전과 스마트 프레이밍의 이점을 잊지 마십시오. 올바른 조합으로 정확성이나 이식성을 희생하지 않고 더 작은 파일, 더 빠른 전송, 더 빠른 앱을 얻을 수 있습니다.
파일 압축은 파일 또는 파일들의 크기를 줄이는 과정으로, 일반적으로 저장 공간을 절약하거나 네트워크를 통한 전송을 가속화하기 위해 사용됩니다.
파일 압축은 데이터의 중복성을 식별하고 제거함으로써 작동합니다. 원래의 데이터를 더 작은 공간에 인코딩하기 위해 알고리즘을 사용합니다.
파일 압축의 두 가지 주요 유형은 손실 없는 압축과 손실 압축입니다. 손실 없는 압축은 원래 파일을 완벽하게 복원할 수 있게 하는 반면, 손실 압축은 데이터 품질의 일부 손실을 감수하면서 더 큰 크기 축소를 가능하게 합니다.
파일 압축 도구의 인기 있는 예는 ZIP과 RAR 같은 다양한 압축 형식을 지원하는 WinZip입니다.
손실 없는 압축에서는 품질이 변하지 않습니다. 그러나 손실 압축에서는 파일 크기를 더욱 크게 줄이기 위해 중요하지 않은 데이터를 제거하기 때문에 품질 저하가 눈에 띄게 될 수 있습니다.
네, 특히 손실 없는 압축에서는 데이터 무결성 측면에서 파일 압축이 안전합니다. 그러 나 모든 파일과 마찬가지로, 압축된 파일도 멀웨어나 바이러스의 대상이 될 수 있으므로, 항상 신뢰할 수 있는 보안 소프트웨어를 갖추는 것이 중요합니다.
거의 모든 종류의 파일들은 압축이 가능하며, 이에는 텍스트 파일, 이미지, 오디오, 비디오, 소프트웨어 파일이 포함됩니다. 그러나, 압축 가능한 수준은 파일 유형에 따라 크게 달라질 수 있습니다.
ZIP 파일은 파일의 크기를 줄이는 데 손실 없는 압축을 사용하는 파일 형식의 일종입니다. ZIP 파일 안에는 여러 파일이 효과적으로 한 개의 파일로 묶여 있어 공유가 더욱 쉽습니다.
기술적으로는 가능합니다, 그러나 추가적인 크기 줄임은 최소한이거나 심지어 역효과일 수 있습니다. 이미 압축된 파일을 다시 압축하려고 하면, 압축 알고리즘이 추가하는 메타데이터 때문에 파일의 크기가 증가하기도 합니다.
파일을 압축 해제하려면 일반적으로 압축 해제 또는 압축 풀기 도구, 예를 들면 WinZip이나 7-Zip 같은 도구가 필요합니다. 이러한 도구들은 원래의 파일을 압축된 형식에서 추출할 수 있습니다.