LZH는 Lempel-Ziv-Huffman 알고리즘을 기반으로 하는 무손실 데이터 압축 아카이브 형식으로, 이 알고리즘의 이름을 따서 명명되었습니다. 1987년에 하루야스 요시자키가 1970년대 후반에 아브라함 렘펠과 제이콥 지브가 개발한 이전의 LZ77 및 LZ78 압축 형식을 개선한 것으로 처음 출시되었습니다. LZH는 빠른 압축 해제를 허용하면서도 더 효율적인 압 축률을 제공했습니다.
LZH에서 사용되는 핵심 압축 알고리즘은 사전 기반으로, 이전에 본 데이터를 활용하여 미래 데이터를 더 컴팩트하게 인코딩합니다. 인코더는 가장 최근에 처리된 데이터의 슬라이딩 윈도우 버퍼를 유지합니다. 새로운 데이터가 발생하면 인코더는 슬라이딩 윈도우에서 가장 긴 일치 시퀀스를 검색합니다. 일치 항목이 발견되면 데이터는 리터럴 데이터가 아니라 일치하는 윈도우 위치와 길이를 참조하는 것으로 인코딩됩니다. 이 참조는 일반적으로 원래 콘텐츠보다 공간을 덜 차지합니다.
LZH의 기반으로 사용되는 LZ77은 다음과 같은 인코딩 루프를 갖습니다. 1. 다가오는 입력과 가장 긴 일치 항목을 슬라이딩 윈도우에서 검색 2. 일치 항목을 참조하는 (오프셋, 길이) 쌍 출력 3. 일치 항목이 발견되지 않으면 리터럴 바이트 출력 4. 일치 길이만큼 윈도우를 앞으로 이동
1986년에 테리 웰치는 LZ78의 작업을 응용한 개선된 LZW 알고리즘을 발표했습니다. LZ77보다 더 많은 밀도를 얻기 위해 문자열 사전에 인덱스 번호를 사용했습니다. 그 다음 해에 LZH가 출시되었는데, LZ77 슬라이딩 사전 접근 방식을 통합했지만 압축률을 개선하기 위한 추가 단계로 LZ77 심볼에 허프만 코딩을 추가했습니다.
허프만 코딩은 자주 사용되는 심볼에 짧은 비트 시퀀스를 할당하고 드문 심볼에 긴 시퀀스를 할당합니다. LZH에서 가능한 심볼은 리터럴 바이트, 블록 끝 마커, 슬라이딩 윈도우 사전에 대한 일치 참조입니다. 허프만 코딩 모델은 각 데이터 블록의 심볼 빈도 분포를 기반으로 각 데이터 블록에 대해 고유하게 계산됩니다. 더 빈번한 일치 참조에는 더 짧은 비트 코드가 할당됩니다. 이 엔트로피 인코딩 단계는 슬라이딩 윈도우와 일치한 후에 적용됩니다.
압축 해제는 입력 스트림에서 가변 길이 허프만 코드를 파싱하여 리터럴 바이트와 일치 참조로 다시 변환합니다. 참조는 디코딩된 데이터의 윈도우 버퍼를 되돌아보고 일치 항목을 출력에 복사하여 해결됩니다. 각 심볼 후에 윈도우가 앞으로 이동합니다. 일치 항목을 검색할 필요가 없으므로 압축 해제가 빠릅니다.
LZH 파일에는 이 LZ77+허프만 모델로 독립적으로 압축된 일련의 블록이 포함되어 있습니다. 별도의 블록을 통해 임의 액세스와 오류 복구가 가능합니다. 각 블록은 해당 블록의 데이터를 디코딩하는 데 필요한 허프만 코딩 테이블을 저장하는 헤더로 시작합니다.
표준 LZH 형식은 13비트 슬라이딩 윈도우 크기 또는 8,192바이트를 허용합니다. 윈도우는 일반적으로 각 블록의 시작 부분에서 모든 0바이트로 초기화됩니다. 사전 설정 사전은 사용되지 않으며 이전에 압축된 데이터만 사용됩니다. 일치 참조의 길이는 최대 256바이트로 제한됩니다.
넬슨 H.F. 비비는 LZH를 확장하여 임의로 큰 슬라이딩 윈도우 크기를 지원하고 그의 형식을 LZHXa라고 명명했습니다. 윈도우 크기는 2의 거듭제곱으로 제한되며, 2^15(32,768) 및 2^16(65,536)바이트가 일반적입니다. 윈도우를 늘리면 더 많은 기록 데이터를 검색할 수 있으므로 압축이 향상되지만 인코딩 속도가 느려지고 메모리 사용량이 늘어납니다.
LZH에는 데이터 무결성을 검증하는 체크섬이 포함되어 있습니다. 각 블록은 16비트 CRC 코드로 끝납니다. 다중 파일 아카이브는 각 완전한 파일에 대한 추가 CRC를 저장합니다. 대부분의 구현은 다항식 x^16 + x^15 + x^2 + 1을 사용하는 CRC-16을 사용하지만 일부는 CRC-16-CCITT를 사용합니다.
압축된 LZH 아카이브는 일반적으로 .lzh 파일 확장자를 사용합니다. 이 형식은 일본에서 가장 널리 채택되었으며 1990년대 초반에 ZIP 및 ARJ와 경쟁하면서 인기가 절정에 달했습니다. LHA로 알려진 비공식 표준이 발전하여 인기 있는 LArc 및 LHarc 아카이버에서 사용되었습니다. 주석, 타임스탬프, 비밀번호, 다중 파일 아카이브에 대한 지원이 추가되었습니다.
LZH의 주요 장점은 ZIP에 비해 압축률이 높고 압축 해제가 빠르다는 것입니다. 그러나 1990년대 중반에 ZIP이 인기를 얻으면서 대부분의 다른 형식을 대체했습니다. Windows에서 표준으로 ZIP이 빠르게 채택되었고 크로스 플랫폼 라이브러리와 도구 지원이 추가되면서 무손실 압축 시장을 지배하게 되었습니다.
오늘날 LZH는 일본과 동아시아 외부에서는 거의 사용되지 않습니다. bzip2, LZMA 등의 새로운 압축 형식은 훨씬 더 나은 압축률을 제공합니다. 일부 레거시 애플리케이션은 여전히 .lzh 파일을 만날 수 있지만 아카이빙에는 최신 ZIP, 7z 또는 xz가 권장됩니다. lhasa와 같은 오픈 소스 도구를 사용하여 이전 .lzh 아카이브를 추출할 수 있습니다.
요약하자면, LZH는 렘펠-지브 사전 코딩과 허프만 비트 감소를 혁신적으로 결합하여 도입 당시 최첨단 압축을 달성했습니다. ZIP 표준에 밀려나기 전에 특히 일본에서 잠시 채택되었습니다. 그러나 데이터 압축의 역사와 최신 아카이브 형식의 개발에 중요한 역할을 했습니다. LZH는 데이터를 효율적으로 압축하는 데 기본이 되는 슬라이딩 윈도우 사전과 심볼 엔트로피 코딩과 같은 기술을 선보였습니다.
파일 압축은 데이터 파일의 크기를 효율적으로 저장하거나 전송하기 위해 줄이는 과정입니다. 다양한 알고리즘을 사용하여 데이터의 중복을 식별하고 제거함으로써 데이터를 압축하며, 이로 인해 종종 원래의 정보를 잃지 않고 데이터의 크기를 상당히 줄일 수 있습니다.
파일 압축에는 크게 두 가지 유형이 있습니다: 손실 없는 압축과 손실성 압축. 손실 없는 압축은 압축된 데이터에서 원래의 데이터를 완벽하게 재구성할 수 있어, 텍스트나 데이터베이스 파일과 같이 모든 비트의 데이터가 중요한 파일에 이상적입니다. 일반적인 예로는 ZIP과 RAR 파일 형식이 있습니다. 반면, 손실성 압축은 덜 중요한 데이터를 제거하여 파일 크기를 더 크게 줄이며, 주로 오디오, 비디오, 이미지 파일에서 사용됩니다. JPEG와 MP3는 일부 데이터 손실이 콘텐츠의 인식 품질을 크게 저하시키지 않는 예입니다.
파일 압축은 여러 가지 방법으로 유익합니다. 장치와 서버의 저장 공간을 절약하고, 비용을 줄이며, 효율성을 향상시킵니다. 또한 네트워크를 통한 파일 전송 속도를 높혀주므로, 특히 큰 파일에 대해 매우 유 valuable 합니다. 또한, 압축된 파일은 하나의 아카이브 파일로 그룹화할 수 있어, 조직화와 다중 파일의 쉬운 이동을 돕습니다.
그러나, 파일 압축에는 몇 가지 단점이 있습니다. 압축 및 해제 과정이 컴퓨팅 자원을 요구하기 때문에, 특히 큰 파일의 경우 시스템 성능을 느리게 할 수 있습니다. 또한, 손실성 압축의 경우, 일부 원래의 데이터가 압축 과정에서 손실되며, 그 결과 품질은 모든 용도, 특히 고품질을 요구하는 전문적인 애플리케이션에 대해 적합하지 않을 수 있습니다.
파일 압축은 오늘날 디지털 세계에서 필수 도구입니다. 이는 효율성을 향상시키며, 저장 공간을 절약하고, 다운로드와 업로드 시간을 줄이지만, 시스템 성능과 품질 저하의 위험 면에서 자체적인 단점을 가지고 있습니다. 따라서, 특정 데이터 요구에 맞는 적절한 압축 기법을 선택하기 위해 이러한 요소들을 유념하는 것이 중요합니다.
파일 압축은 파일 또는 파일들의 크기를 줄이는 과정으로, 일반적으로 저장 공간을 절약하거나 네트워크를 통한 전송을 가속화하기 위해 사용됩니다.
파일 압축은 데이터의 중복성을 식별하고 제거함으로써 작동합니다. 원래의 데이터를 더 작은 공간에 인코딩하기 위해 알고리즘을 사용합니다.
파일 압축의 두 가지 주요 유형은 손실 없는 압축과 손실 압축입니다. 손실 없는 압축은 원래 파일을 완벽하게 복원할 수 있게 하는 반면, 손실 압축은 데이터 품질의 일부 손실을 감수하면서 더 큰 크기 축소를 가능하게 합니다.
파일 압축 도구의 인기 있는 예는 ZIP과 RAR 같은 다양한 압축 형식을 지원하는 WinZip입니다.
손실 없는 압축에서는 품질이 변하지 않습니다. 그러나 손실 압축에서는 파일 크기를 더욱 크게 줄이기 위해 중요하지 않은 데이터를 제거하기 때문에 품질 저하가 눈에 띄게 될 수 있습니다.
네, 특히 손실 없는 압축에서는 데이터 무결성 측면에서 파일 압축이 안전합니다. 그러나 모든 파일과 마찬가지로, 압축된 파일도 멀웨어나 바이러스의 대상이 될 수 있으므로, 항상 신뢰할 수 있는 보안 소프트웨어를 갖추는 것이 중요합니다.
거의 모든 종류의 파일들은 압축이 가능하며, 이에는 텍스트 파일, 이미지, 오디오, 비디오, 소프트웨어 파일이 포함됩니다. 그러나, 압축 가능한 수준은 파일 유형에 따라 크게 달라질 수 있습니다.
ZIP 파일은 파일의 크기를 줄이는 데 손실 없는 압축을 사용하는 파일 형식의 일종입니다. ZIP 파일 안에는 여러 파일이 효과적으로 한 개의 파일로 묶여 있어 공유가 더욱 쉽습니다.
기술적으로는 가능합니다, 그러나 추가적인 크기 줄임은 최소한이거나 심지어 역효과일 수 있습니다. 이미 압축된 파일을 다시 압축하려고 하면, 압축 알고리즘이 추가하는 메타데이터 때문에 파일의 크기가 증가하기도 합니다.
파일을 압축 해제하려면 일반적으로 압축 해제 또는 압축 풀기 도구, 예를 들면 WinZip이나 7-Zip 같은 도구가 필요합니다. 이러한 도구들은 원래의 파일을 압축된 형식에서 추출할 수 있습니다.