Giải nén tệp GNU TAR

Không giới hạn công việc. Kích thước tệp lên đến 2,5GB. Miễn phí, vĩnh viễn.

Tất cả địa phương

Trình chuyển đổi của chúng tôi chạy trong trình duyệt của bạn, vì vậy chúng tôi không bao giờ nhìn thấy dữ liệu của bạn.

Cực nhanh

Không cần tải tệp của bạn lên máy chủ—quá trình chuyển đổi bắt đầu ngay lập tức.

An toàn theo mặc định

Khác với các trình chuyển đổi khác, tệp của bạn không bao giờ được tải lên chúng tôi.

Định dạng GNU TAR là gì?

GNU tar

Định dạng lưu trữ DEB (Gói Debian) là một hệ thống đóng gói được sử dụng rộng rãi để phân phối phần mềm trên Debian và các bản phân phối Linux dựa trên Debian, chẳng hạn như Ubuntu. Nó cung cấp một phương pháp chuẩn hóa để đóng gói phần mềm cùng với các phụ thuộc, tệp cấu hình và siêu dữ liệu của nó, giúp người dùng dễ dàng cài đặt, nâng cấp và xóa các gói phần mềm.

Lưu trữ DEB về cơ bản là một tệp lưu trữ nén có cấu trúc và quy ước đặt tên cụ thể. Nó thường có phần mở rộng tệp `.deb` và được tạo bằng tiện ích lưu trữ `ar`. Lưu trữ chứa ba thành phần chính: tệp `debian-binary`, lưu trữ `control.tar.gz` và lưu trữ `data.tar.gz`.

Tệp `debian-binary` là tệp văn bản thuần túy chỉ định phiên bản định dạng DEB được sử dụng trong lưu trữ. Nó thường chứa một dòng duy nhất với số phiên bản, chẳng hạn như `2.0`.

Lưu trữ `control.tar.gz` chứa siêu dữ liệu gói và thông tin kiểm soát. Nó là một lưu trữ tar nén gzip bao gồm một số tệp và thư mục. Tệp quan trọng nhất trong lưu trữ này là tệp `control`, chứa thông tin cần thiết về gói, chẳng hạn như tên, phiên bản, kiến trúc, phụ thuộc, người bảo trì và mô tả.

Các tệp khác trong lưu trữ `control.tar.gz` có thể bao gồm: - `preinst`: Một tập lệnh được thực thi trước khi gói được cài đặt. - `postinst`: Một tập lệnh được thực thi sau khi gói được cài đặt. - `prerm`: Một tập lệnh được thực thi trước khi gói bị xóa. - `postrm`: Một tập lệnh được thực thi sau khi gói bị xóa. - `conffiles`: Danh sách các tệp cấu hình thuộc về gói. - `shlibs`: Danh sách các phụ thuộc thư viện dùng chung. - `triggers`: Một tệp xác định các kích hoạt gói.

Lưu trữ `data.tar.gz` chứa các tệp và thư mục thực tế tạo nên gói phần mềm. Nó cũng là một lưu trữ tar nén gzip. Khi gói được cài đặt, nội dung của lưu trữ này được giải nén vào thư mục gốc của hệ thống tệp.

Định dạng lưu trữ DEB sử dụng một quy ước đặt tên cụ thể cho các tệp gói được tạo. Tên tệp gói bao gồm một số phần: `<tên>_<phiên bản>-<sửa đổi>_<kiến trúc>.deb`. `<tên>` biểu thị tên gói, `<phiên bản>` là số phiên bản của phần mềm, `<sửa đổi>` là bản sửa đổi đóng gói (được sử dụng khi cùng một phiên bản phần mềm được đóng gói nhiều lần) và `<kiến trúc>` chỉ định kiến trúc đích (ví dụ: amd64, i386, arm64).

Khi một gói DEB được cài đặt, trình quản lý gói (chẳng hạn như `apt` hoặc `dpkg`) thực hiện một số bước. Nó giải nén nội dung của lưu trữ `data.tar.gz` vào hệ thống tệp, thực thi bất kỳ tập lệnh tiền cài đặt nào được xác định trong lưu trữ `control.tar.gz` và cập nhật cơ sở dữ liệu gói để ghi lại quá trình cài đặt. Trình quản lý gói cũng giải quyết và cài đặt bất kỳ phụ thuộc nào mà gói yêu cầu.

Một trong những lợi thế chính của định dạng lưu trữ DEB là khả năng xử lý các phụ thuộc. Tệp `control` trong lưu trữ `control.tar.gz` chỉ định các phụ thuộc của gói, bao gồm các gói bắt buộc và ràng buộc phiên bản của chúng. Khi cài đặt một gói DEB, trình quản lý gói sẽ tự động giải quyết và cài đặt các phụ thuộc cần thiết, đảm bảo rằng phần mềm có tất cả các thành phần cần thiết để hoạt động bình thường.

Định dạng lưu trữ DEB cũng hỗ trợ phiên bản gói và nâng cấp. Mỗi gói có một số phiên bản được chỉ định trong tệp `control`. Khi một phiên bản mới của gói được phát hành, nó có thể được cài đặt trên phiên bản hiện có. Trình quản lý gói xử lý quá trình nâng cấp, thực thi bất kỳ tập lệnh tiền xóa và hậu cài đặt nào cần thiết và cập nhật cơ sở dữ liệu gói cho phù hợp.

Ngoài các thành phần chính, các gói DEB cũng có thể bao gồm các tệp và thư mục bổ sung, chẳng hạn như tài liệu, ví dụ và tệp bản địa hóa. Các tệp này thường được đặt trong các thư mục cụ thể trong lưu trữ `data.tar.gz`, theo Tiêu chuẩn phân cấp hệ thống tệp (FHS).

Định dạng lưu trữ DEB có một hệ sinh thái phong phú các công cụ và tiện ích để tạo, quản lý và phân phối các gói. Công cụ dòng lệnh `dpkg-deb` thường được sử dụng để tạo các gói DEB từ mã nguồn hoặc tệp nhị phân. Nó tự động hóa quá trình tạo các tệp kiểm soát cần thiết và nén dữ liệu thành định dạng lưu trữ DEB.

Các công cụ khác, chẳng hạn như `dh_make` và `debhelper`, cung cấp các lớp trừu tượng và tự động hóa cấp cao hơn để xây dựng các gói DEB. Chúng đơn giản hóa quá trình đóng gói bằng cách tạo các tệp mẫu, xử lý các tác vụ chung và thực thi các biện pháp đóng gói tốt nhất.

Định dạng lưu trữ DEB cũng hỗ trợ chữ ký số và xác thực gói. Các gói có thể được ký bằng khóa riêng để đảm bảo tính toàn vẹn và tính xác thực của chúng. Trình quản lý gói xác minh các chữ ký trong quá trình cài đặt để ngăn chặn việc giả mạo và đảm bảo rằng các gói đến từ các nguồn đáng tin cậy.

Tóm lại, định dạng lưu trữ DEB là một hệ thống đóng gói mạnh mẽ và được sử dụng rộng rãi cho các bản phân phối Linux dựa trên Debian. Nó cung cấp một cách chuẩn hóa để phân phối phần mềm, xử lý các phụ thuộc và quản lý các cài đặt và nâng cấp gói. Bằng cách hiểu cấu trúc và các thành phần của các gói DEB, các nhà phát triển và quản trị viên hệ thống có thể đóng gói và phân phối phần mềm của họ một cách hiệu quả và đáng tin cậy cho người dùng.

Nén tệp giảm độ dư thừa để cùng một lượng thông tin sử dụng ít bit hơn. Giới hạn trên được quyết định bởi lý thuyết thông tin: với nén không mất dữ liệu, giới hạn là entropy của nguồn (xem định lý mã nguồn của Shannon source coding theorem và bài báo gốc năm 1948 “A Mathematical Theory of Communication”). Với nén mất dữ liệu, sự đánh đổi giữa bitrate và chất lượng được mô tả bởi lý thuyết rate–distortion.

Hai trụ cột: mô hình hóa và mã hóa

Hầu hết bộ nén có hai giai đoạn. Đầu tiên một mô hình dự đoán hoặc lộ ra cấu trúc trong dữ liệu. Sau đó một bộ mã biến các dự đoán đó thành mẫu bit gần tối ưu. Gia đình kinh điển là Lempel–Ziv LZ77 (1977) và LZ78 (1978) phát hiện chuỗi lặp rồi phát các tham chiếu thay vì byte thô. Ở phía mã hóa mã Huffman (bài gốc 1952) gán mã ngắn hơn cho ký hiệu có xác suất cao. Mã hóa số học range coding tiến gần hơn nữa tới giới hạn entropy, trong khi Asymmetric Numeral Systems (ANS) hiện đại đạt được tỷ lệ tương tự với các bảng tra cứu nhanh.

Các định dạng phổ biến thực sự làm gì

DEFLATE (dùng bởi gzip, zlib, ZIP) kết hợp LZ77 và Huffman. Đặc tả đều mở: DEFLATE RFC 1951, lớp bọc zlib RFC 1950và định dạng gzip RFC 1952. Gzip được thiết kế cho streaming và không cung cấp truy cập ngẫu nhiên. PNG chuẩn hóa DEFLATE là phương pháp duy nhất (cửa sổ tối đa 32 KiB) theo đặc tả “Compression method 0…” W3C/ISO PNG 2nd Edition.

Zstandard (zstd): bộ nén đa dụng mới cung cấp tỷ lệ cao và giải nén cực nhanh. Định dạng có trong RFC 8878 (cùng bản HTML) và đặc tả tham chiếu trên GitHub. Như gzip, frame cơ bản không nhắm tới truy cập ngẫu nhiên. Siêu năng lực của zstd là từ điển: mẫu nhỏ từ tập dữ liệu giúp hàng loạt tệp nhỏ/giống nhau nén tốt hơn (xem tài liệu python-zstandard ví dụ của Nigel Tao). Triển khai hỗ trợ cả từ điển “unstructured” lẫn “structured” (thảo luận).

Brotli: tối ưu cho nội dung web (font WOFF2, HTTP). Kết hợp từ điển tĩnh và lõi LZ+entropy giống DEFLATE. Đặc tả là RFC 7932, mô tả cửa sổ 2WBITS−16 với WBITS [10, 24] (1 KiB−16 B tới 16 MiB−16 B) và rằng nó không cung cấp truy cập ngẫu nhiên. Brotli thường vượt gzip trên văn bản web và giải nén nhanh.

Vỏ chứa ZIP: ZIP là kho tệp có thể lưu nhiều phương pháp nén (deflate, store, zstd...). Chuẩn thực tế là APPNOTE của PKWARE (xem cổng APPNOTE, bản lưu trữvà tóm tắt của LC ZIP File Format (PKWARE) / ZIP 6.3.3).

Tốc độ so với tỷ lệ

LZ4 ưu tiên tốc độ tuyệt đối với tỷ lệ vừa phải. Xem trang dự án định dạng frame. Lý tưởng cho cache trong RAM, telemetri hoặc đường nóng cần giải nén gần tốc độ bộ nhớ.

XZ / LZMA hướng đến mật độ cao (tỷ lệ tốt) với thời gian nén chậm hơn. XZ là vỏ chứa; công việc chính do LZMA/LZMA2 (mô hình LZ77 + range coding) đảm nhiệm. Xem định dạng .xz, đặc tả LZMA (Pavlov)và ghi chú kernel Linux về XZ Embedded. XZ thường nén tốt hơn gzip và cạnh tranh với codec hiện đại, nhưng mã hóa lâu hơn.

bzip2 dùng Biến đổi Burrows–Wheeler (BWT), move-to-front, RLE và Huffman. Thường nhỏ hơn gzip nhưng chậm hơn; xem hướng dẫn chính thức và trang man (Linux).

Cửa sổ, khối và truy cập ngẫu nhiên

Kích thước “cửa sổ” rất quan trọng. Tham chiếu DEFLATE chỉ nhìn lại 32 KiB (RFC 1951) và giới hạn 32 KiB của PNG được nêu ở đây. Brotli hỗ trợ cửa sổ từ ~1 KiB đến 16 MiB (RFC 7932). Zstd điều chỉnh cửa sổ và độ sâu tìm kiếm theo level (RFC 8878). Dòng cơ sở của gzip/zstd/brotli hướng tới giải nén tuần tự; bản thân định dạng không hứa truy cập ngẫu nhiên, nhưng các vỏ chứa (tar có chỉ mục, framing theo khối, chỉ mục chuyên biệt) có thể bổ sung.

Lossless và lossy

Các định dạng trên là lossless: bạn khôi phục đúng byte ban đầu. Codec media thường lossy: loại bỏ chi tiết khó nhận biết để giảm bitrate. Với ảnh, JPEG cổ điển (DCT, lượng tử hóa, mã entropy) được chuẩn hóa trong ITU-T T.81 / ISO/IEC 10918-1. Với âm thanh, MP3 (MPEG-1 Layer III) và AAC (MPEG-2/4) dùng mô hình cảm nhận và biến đổi MDCT (xem ISO/IEC 11172-3, ISO/IEC 13818-7và tổng quan MDCT tại đây). Lossy và lossless có thể cùng tồn tại (ví dụ PNG cho UI, codec web cho ảnh/video/audio).

Mẹo thực tế

  • Chọn đúng việc. Văn bản/font web brotli. Tệp chung và sao lưu zstd (giải nén nhanh, nhiều mức để đổi thời gian lấy tỷ lệ). Đường truyền siêu nhanh và telemetri lz4. Mật độ tối đa cho lưu trữ dài hạn khi thời gian mã hóa chấp nhận được xz/LZMA.
  • Tệp nhỏ? Huấn luyện và gửi kèm từ điển zstd (tài liệu) / (ví dụ). Có thể thu nhỏ mạnh hàng chục đối tượng nhỏ tương tự.
  • Tính tương thích. Khi trao đổi nhiều tệp, hãy dùng vỏ chứa (ZIP, tar) + bộ nén. APPNOTE của ZIP định nghĩa phương thức và tính năng; xem PKWARE APPNOTE và tóm tắt LC tại đây.
  • Đo trên dữ liệu của bạn. Tỷ lệ và tốc độ phụ thuộc tập dữ liệu. Nhiều repo công bố benchmark (ví dụ README LZ4 dẫn corpus Silesia tại đây), nhưng luôn kiểm chứng nội bộ.

Tài liệu tham khảo chính (đào sâu)

Lý thuyết Shannon 1948 · Rate–distortion · Mã hóa Huffman 1952 · Mã số học · Range coding · ANS. Định dạng DEFLATE · zlib · gzip · Zstandard · Brotli · LZ4 frame · định dạng XZ. Chuỗi BWT Burrows–Wheeler (1994) · hướng dẫn bzip2. Media JPEG T.81 · MP3 ISO/IEC 11172-3 · AAC ISO/IEC 13818-7 · MDCT.

Tóm lại: hãy chọn bộ nén phù hợp dữ liệu và ràng buộc của bạn, đo trên dữ liệu thực và đừng quên lợi ích từ từ điển cùng cách đóng gói thông minh. Khi ghép đúng, bạn sẽ có tệp nhỏ hơn, truyền nhanh hơn và ứng dụng phản hồi hơn mà không hy sinh độ chính xác hay tính di động.

Câu hỏi thường gặp

Nén file là gì?

Nén file là quá trình giảm kích thước của một file hoặc các file, thường để tiết kiệm không gian lưu trữ hoặc tăng tốc độ truyền trên mạng.

Cách nén file hoạt động như thế nào?

Nén file hoạt động bằng cách xác định và loại bỏ sự trùng lặp trong dữ liệu. Nó sử dụng thuật toán để mã hóa dữ liệu gốc trong một không gian nhỏ hơn.

Có những loại nén file nào?

Hai loại chính của nén file là nén lossless và lossy. Nén lossless cho phép phục hồi hoàn toàn file gốc, trong khi nén lossy cho phép giảm kích thước đáng kể hơn nhưng có thể mất một phần chất lượng dữ liệu.

Có thể cho một ví dụ về công cụ nén file?

Một ví dụ phổ biến về công cụ nén file là WinZip, hỗ trợ nhiều định dạng nén bao gồm ZIP và RAR.

Nén file có ảnh hưởng đến chất lượng của file không?

Với nén lossless, chất lượng không thay đổi. Tuy nhiên, với nén lossy, có thể có sự giảm chất lượng rõ rệt do nó loại bỏ dữ liệu ít quan trọng để giảm kích thước file đáng kể hơn.

Nén file có an toàn không?

Có, nén file an toàn về mặt tính toàn vẹn của dữ liệu, đặc biệt với nén lossless. Tuy nhiên, giống như bất kỳ file nào, file nén có thể bị mục tiêu bởi malware hoặc virus, vì vậy luôn quan trọng khi có phần mềm bảo mật uy tín.

Có thể nén những loại file nào?

Hầu như tất cả các loại file đều có thể được nén, bao gồm file văn bản, hình ảnh, audio, video và file phần mềm. Tuy nhiên, mức độ nén có thể thực hiện đáng kể có thể thay đổi giữa các loại file khác nhau.

ZIP file là gì?

ZIP file là một loại định dạng file sử dụng nén lossless để giảm kích thước của một hoặc nhiều file. Nhiều file trong một ZIP file effectively được gói lại thành một file duy nhất, điều này cũng giúp việc chia sẻ dễ dàng hơn.

Tôi có thể nén một file đã được nén không?

Về mặt kỹ thuật, có, mặc dù việc giảm kích thước thêm có thể tối thiểu hoặc thậm chí phản tác dụng. Nén một file đã được nén đôi khi có thể tăng kích thước do metadata được thêm vào bởi thuật toán nén.

Làm thế nào để giải nén một file?

Để giải nén một file, bạn thường cần một công cụ giải nén hoặc giải nén, như WinZip hoặc 7-Zip. Những công cụ này có thể trích xuất các file gốc từ định dạng nén.