Nhận dạng ký tự quang học (OCR) biến hình ảnh văn bản—bản quét, ảnh chụp từ điện thoại thông minh, PDF—thành các chuỗi máy có thể đọc được và, ngày càng nhiều, dữ liệu có cấu trúc. OCR hiện đại là một quy trình làm sạch hình ảnh, tìm văn bản, đọc nó và xuất siêu dữ liệu phong phú để các hệ thống hạ nguồn có thể tìm kiếm, lập chỉ mục hoặc trích xuất các trường. Hai tiêu chuẩn đầu ra được sử dụng rộng rãi là hOCR, một định dạng vi mô HTML cho văn bản và bố cục, và ALTO XML, một lược đồ hướng thư viện/lưu trữ; cả hai đều bảo toàn vị trí, thứ tự đọc và các tín hiệu bố cục khác và được hỗ trợ bởi các công cụ phổ biến như Tesseract.
Tiền xử lý. Chất lượng OCR bắt đầu bằng việc dọn dẹp hình ảnh: chuyển đổi thang độ xám, khử nhiễu, ngưỡng (nhị phân hóa), và chỉnh lệch. Các hướng dẫn OpenCV kinh điển bao gồm toàn cục, thích ứng và Otsu ngưỡng—những yếu tố chính cho các tài liệu có ánh sáng không đồng đều hoặc biểu đồ hai mode. Khi độ sáng thay đổi trong một trang (hãy nghĩ đến ảnh chụp bằng điện thoại), các phương pháp thích ứng thường hoạt động tốt hơn một ngưỡng toàn cục duy nhất; Otsu tự động chọn một ngưỡng bằng cách phân tích biểu đồ. Chỉnh sửa độ nghiêng cũng quan trọng không kém: chỉnh lệch dựa trên Hough (Biến đổi dòng Hough) kết hợp với nhị phân hóa Otsu là một công thức phổ biến và hiệu quả trong các quy trình tiền xử lý sản xuất.
Phát hiện và nhận dạng. OCR thường được chia thành phát hiện văn bản (văn bản ở đâu ?) và nhận dạng văn bản (nó nói gì?). Trong các cảnh tự nhiên và nhiều bản quét, các bộ phát hiện tích chập hoàn toàn như EAST dự đoán hiệu quả các tứ giác ở cấp độ từ hoặc dòng mà không cần các giai đoạn đề xuất nặng nề và được triển khai trong các bộ công cụ phổ biến (ví dụ: hướng dẫn phát hiện văn bản của OpenCV). Trên các trang phức tạp (báo, biểu mẫu, sách), việc phân đoạn các dòng/vùng và suy luận thứ tự đọc rất quan trọng:Kraken triển khai phân đoạn vùng/dòng truyền thống và phân đoạn đường cơ sở thần kinh, với sự hỗ trợ rõ ràng cho các tập lệnh và hướng khác nhau (LTR/RTL/dọc).
Mô hình nhận dạng. Công cụ mã nguồn mở cổ điển Tesseract (do Google mở nguồn, có nguồn gốc từ HP) đã phát triển từ một bộ phân loại ký tự thành một bộ nhận dạng chuỗi dựa trên LSTM và có thể phát hành các tệp PDF có thể tìm kiếm, đầu ra thân thiện với hOCR/ALTO, và nhiều hơn nữa từ CLI. Các bộ nhận dạng hiện đại dựa vào mô hình hóa chuỗi mà không cần các ký tự được phân đoạn trước. Phân loại thời gian kết nối (CTC) vẫn là nền tảng, học các sự sắp xếp giữa các chuỗi đặc trưng đầu vào và chuỗi nhãn đầu ra; nó được sử dụng rộng rãi trong các quy trình xử lý chữ viết tay và văn bản cảnh.
Trong vài năm qua, Transformers đã định hình lại OCR. TrOCR sử dụng một bộ mã hóa Vision Transformer cộng với một bộ giải mã Text Transformer, được đào tạo trên các kho ngữ liệu tổng hợp lớn sau đó được tinh chỉnh trên dữ liệu thực, với hiệu suất mạnh mẽ trên các tiêu chuẩn văn bản in, viết tay và cảnh (xem thêm tài liệu Hugging Face). Song song đó, một số hệ thống bỏ qua OCR để hiểu biết hạ nguồn: Donut (Document Understanding Transformer) là một bộ mã hóa-giải mã không có OCR, trực tiếp xuất ra các câu trả lời có cấu trúc (như JSON khóa-giá trị) từ tài liệu hình ảnh (repo, thẻ mô hình), tránh tích lũy lỗi khi một bước OCR riêng biệt cung cấp cho một hệ thống IE.
Nếu bạn muốn đọc văn bản có sẵn trên nhiều tập lệnh, EasyOCR cung cấp một API đơn giản với hơn 80 mô hình ngôn ngữ, trả về các hộp, văn bản và độ tin cậy—tiện dụng cho các nguyên mẫu và các tập lệnh không phải tiếng Latinh. Đối với các tài liệu lịch sử, Kraken tỏa sáng với phân đoạn đường cơ sở và thứ tự đọc nhận biết tập lệnh; để đào tạo cấp dòng linh hoạt, Calamari xây dựng trên dòng dõi Ocropy (Ocropy) với các bộ nhận dạng (đa)LSTM+CTC và một CLI để tinh chỉnh các mô hình tùy chỉnh.
Sự khái quát hóa phụ thuộc vào dữ liệu. Đối với chữ viết tay, Cơ sở dữ liệu chữ viết tay IAM cung cấp các câu tiếng Anh đa dạng về người viết để đào tạo và đánh giá; đó là một bộ tham chiếu lâu đời cho nhận dạng dòng và từ. Đối với văn bản cảnh, COCO-Text đã xếp lớp các chú thích mở rộng trên MS-COCO, với các nhãn cho văn bản in/viết tay, dễ đọc/khó đọc, tập lệnh và bản ghi đầy đủ (xem thêm trang dự án ban đầu). Lĩnh vực này cũng phụ thuộc nhiều vào việc đào tạo trước tổng hợp: SynthText in the Wild kết xuất văn bản thành các bức ảnh với hình học và ánh sáng thực tế, cung cấp khối lượng dữ liệu khổng lồ để đào tạo trước các bộ phát hiện và nhận dạng (tham khảo mã và dữ liệu).
Các cuộc thi dưới chiếc ô Đọc mạnh mẽ của ICDAR giữ cho việc đánh giá có cơ sở. Các nhiệm vụ gần đây nhấn mạnh việc phát hiện/đọc từ đầu đến cuối và bao gồm việc liên kết các từ thành các cụm từ, với mã chính thức báo cáo độ chính xác/độ thu hồi/F-score, giao nhau trên hợp nhất (IoU), và các số liệu khoảng cách chỉnh sửa cấp ký tự—phản ánh những gì các nhà thực hành nên theo dõi.
OCR hiếm khi kết thúc ở văn bản thuần túy. Các kho lưu trữ và thư viện số thích ALTO XML vì nó mã hóa bố cục vật lý (các khối/dòng/từ có tọa độ) cùng với nội dung, và nó kết hợp tốt với bao bì METS. hOCR định dạng vi mô, ngược lại, nhúng cùng một ý tưởng vào HTML/CSS bằng cách sử dụng các lớp như ocr_line và ocrx_word, giúp dễ dàng hiển thị, chỉnh sửa và chuyển đổi bằng các công cụ web. Tesseract phơi bày cả hai—ví dụ: tạo hOCR hoặc PDF có thể tìm kiếm trực tiếp từ CLI (hướng dẫn xuất PDF); Các trình bao bọc Python như pytesseract thêm sự tiện lợi. Các bộ chuyển đổi tồn tại để dịch giữa hOCR và ALTO khi các kho lưu trữ có các tiêu chuẩn nhập liệu cố định —xem danh sách được tuyển chọn này của công cụ định dạng tệp OCR.
Xu hướng mạnh mẽ nhất là sự hội tụ: phát hiện, nhận dạng, mô hình hóa ngôn ngữ và thậm chí cả giải mã cho tác vụ cụ thể đang hợp nhất thành các ngăn xếp Transformer thống nhất. Đào tạo trước trên các kho ngữ liệu tổng hợp lớn vẫn là một hệ số nhân. Các mô hình không có OCR sẽ cạnh tranh quyết liệt ở bất cứ đâu mục tiêu là các đầu ra có cấu trúc thay vì các bản ghi nguyên văn. Cũng mong đợi các triển khai kết hợp: một bộ phát hiện nhẹ cộng với một bộ nhận dạng kiểu TrOCR cho văn bản dạng dài, và một mô hình kiểu Donut cho các biểu mẫu và biên lai.
Tesseract (GitHub) · Tài liệu Tesseract · Thông số kỹ thuật hOCR · Nền tảng ALTO · Bộ phát hiện EAST · Phát hiện văn bản OpenCV · TrOCR · Donut · COCO-Text · SynthText · Kraken · Calamari OCR · ICDAR RRC · pytesseract · Chữ viết tay IAM · Công cụ định dạng tệp OCR · EasyOCR
Optical Character Recognition (OCR) là một công nghệ được sử dụng để chuyển đổi các loại tài liệu khác nhau, như tài liệu giấy đã quét, tệp PDF hoặc hình ảnh được chụp bằng máy ảnh số, thành dữ liệu có thể chỉnh sửa và tìm kiếm.
OCR hoạt động bằng cách quét hình ảnh hoặc tài liệu đầu vào, phân đoạn hình ảnh thành các ký tự riêng lẻ, và so sánh từng ký tự với cơ sở dữ liệu hình dạng ký tự bằng cách sử dụng nhận dạng mô hình hoặc nhận dạng đặc trưng.
OCR được sử dụng trong nhiều lĩnh vực và ứng dụng, bao gồm số hóa tài liệu in, kích hoạt các dịch vụ văn bản thành giọng nói, tự động hóa quá trình nhập dữ liệu, và hỗ trợ người dùng khiếm thị tương tác tốt hơn với văn bản.
Mặc dù đã có những tiến bộ vượt bậc trong công nghệ OCR, nhưng nó không phải lúc nào cũng hoàn hảo. Độ chính xác có thể thay đổi tùy thuộc vào chất lượng của tài liệu gốc và chi tiết của phần mềm OCR đang được sử dụng.
Mặc dù OCR chủ yếu được thiết kế cho văn bản in, một số hệ thống OCR tiên tiến cũng có thể nhận dạng được chữ viết tay rõ ràng, nhất quán. Tuy nhiên, nhận dạng chữ viết tay thường kém chính xác hơn do sự biến đổi lớn trong các kiểu viết của mỗi người.
Có, nhiều hệ thống phần mềm OCR có thể nhận dạng được nhiều ngôn ngữ. Tuy nhiên, điều quan trọng là phải đảm bảo rằng ngôn ngữ cụ thể đó được hỗ trợ bởi phần mềm bạn đang sử dụng.
OCR là viết tắt của Optical Character Recognition và được sử dụng để nhận dạng văn bản in, trong khi ICR, hoặc Intelligent Character Recognition, tiên tiến hơn và được sử dụng để nhận dạng văn bản viết tay.
OCR hoạt động tốt nhất với các phông chữ rõ ràng, dễ đọc và kích cỡ văn bản chuẩn. Mặc dù nó có thể hoạt động với các phông chữ và kích cỡ khác nhau, độ chính xác thường giảm khi đối phó với phông chữ không thông thường hoặc kích cỡ văn bản rất nhỏ.
OCR có thể gặp khó khăn với các tài liệu độ phân giải thấp, phông chữ phức tạp, văn bản in kém, chữ viết tay, và các tài liệu có nền gây ra sự can thiệp với văn bản. Ngoài ra, mặc dù nó có thể hoạt động với nhiều ngôn ngữ, nó có thể không bao phủ hoàn hảo mọi ngôn ngữ.
Có, OCR có thể quét văn bản màu và nền màu, mặc dù nó thường hiệu quả hơn với các sự kết hợp màu đối lập cao, như văn bản đen trên nền trắng. Độ chính xác có thể giảm khi màu văn bản và màu nền không có đủ độ tương phản.
Định dạng hình ảnh PALM, còn được gọi là Palm Bitmap, là định dạng tệp đồ họa raster liên quan đến các thiết bị Palm OS. Nó được thiết kế để lưu trữ hình ảnh trên PDA Palm OS (Trợ lý kỹ thuật số cá nhân), phổ biến vào cuối những năm 1990 và đầu những năm 2000. Định dạng này được thiết kế riêng cho màn hình và giới hạn bộ nhớ của các thiết bị cầm tay này, đó là lý do tại sao nó được tối ưu hóa cho hình ảnh màu được lập chỉ mục, độ phân giải thấp có thể hiển thị nhanh chóng trên màn hình thiết bị.
Hình ảnh PALM được đặc trưng bởi sự đơn giản và hiệu quả của chúng. Định dạng này hỗ trợ bảng màu hạn chế, thường lên đến 256 màu, đủ cho màn hình nhỏ của PDA. Phương pháp màu được lập chỉ mục này có nghĩa là mỗi pixel trong hình ảnh không được biểu diễn bằng giá trị màu riêng của nó mà bằng chỉ mục đến bảng màu chứa các giá trị RGB (Đỏ, Xanh lục, Xanh lam) thực tế. Phương pháp biểu diễn màu này rất hiệu quả về mặt bộ nhớ, rất quan trọng đối với các thiết bị có RAM và dung lượng lưu trữ hạn chế.
Cấu trúc cơ bản của tệp hình ảnh PALM bao gồm một tiêu đề, một bảng màu (nếu hình ảnh không phải là đơn sắc), dữ liệu bitmap và có thể là thông tin về độ trong suốt. Tiêu đề chứa siêu dữ liệu về hình ảnh, chẳng hạn như chiều rộng và chiều cao của nó tính bằng pixel, độ sâu bit (xác định số lượng màu) và các cờ chỉ ra liệu hình ảnh có chỉ mục độ trong suốt hay được nén hay không.
Nén là một tính năng khác của định dạng hình ảnh PALM. Để tiết kiệm nhiều không gian hơn nữa, hình ảnh PALM có thể được nén bằng thuật toán mã hóa độ dài chạy (RLE). RLE là một dạng nén dữ liệu không mất dữ liệu trong đó các chuỗi có cùng giá trị dữ liệu (chạy) được lưu trữ dưới dạng một giá trị dữ liệu duy nhất và một số đếm. Điều này đặc biệt hiệu quả đối với các hình ảnh có vùng màu đồng nhất lớn, thường thấy trong các biểu tượng và các thành phần giao diện người dùng được sử dụng trong PDA.
Độ trong suốt trong hình ảnh PALM được xử lý thông qua chỉ mục độ trong suốt. Chỉ mục này trỏ đến một màu trong bảng màu được chỉ định là trong suốt, cho phép chồng hình ảnh trên các nền khác nhau mà không có hình chữ nhật đục, mờ xung quanh hình ảnh. Tính năng này rất cần thiết để tạo giao diện người dùng liền mạch, nơi các biểu tượng và đồ họa khác cần hòa trộn với nền của chúng.
Bảng màu trong hình ảnh PALM là một thành phần quan trọng, vì nó xác định tập hợp các màu được sử dụng trong hình ảnh. Bảng màu là một mảng các mục màu, trong đó mỗi mục thường là giá trị 16 bit biểu diễn màu RGB. Độ sâu bit của hình ảnh xác định số lượng màu tối đa trong bảng màu. Ví dụ: hình ảnh có độ sâu 1 bit sẽ có bảng màu 2 màu (thường là đen và trắng), trong khi hình ảnh có độ sâu 8 bit có thể có tới 256 màu.
Dữ liệu bitmap trong tệp hình ảnh PALM là biểu diễn từng pixel của hình ảnh. Mỗi pixel được lưu trữ dưới dạng chỉ mục vào bảng màu. Việc lưu trữ dữ liệu này có thể ở định dạng thô, chưa nén hoặc được nén bằng RLE. Ở định dạng chưa nén, dữ liệu bitmap chỉ đơn giản là một chuỗi các chỉ mục, một chỉ mục cho mỗi pixel, được sắp xếp thành các hàng từ trên xuống dưới và các cột từ trái sang phải.
Một trong những khía cạnh độc đáo của định dạng hình ảnh PALM là hỗ trợ nhiều độ sâu bit trong một hình ảnh duy nhất. Điều này có nghĩa là một hình ảnh có thể chứa các vùng có độ phân giải màu khác nhau. Ví dụ: hình ảnh PALM có thể có biểu tượng độ sâu màu cao (8 bit) cùng với một phần tử trang trí độ sâu màu thấp (1 bit). Tính linh hoạt này cho phép sử dụng bộ nhớ hiệu quả bằng cách chỉ sử dụng độ sâu bit cao hơn khi cần thiết cho chất lượng hình ảnh.
Định dạng hình ảnh PALM cũng bao gồm hỗ trợ cho các biểu tượng tùy chỉnh và đồ họa menu, rất cần thiết cho giao diện người dùng của các ứng dụng Palm OS. Những hình ảnh này có thể được tích hợp vào mã ứng dụng và hiển thị trên thiết bị bằng API Palm OS (Giao diện lập trình ứng dụng). API cung cấp các hàm để tải, hiển thị và thao tác hình ảnh PALM, giúp các nhà phát triển dễ dàng đưa đồ họa vào ứng dụng của họ.
Mặc dù hiệu quả và tiện ích trong bối cảnh các thiết bị Palm OS, định dạng hình ảnh PALM có một số hạn chế khi so sánh với các định dạng hình ảnh hiện đại hơn. Ví dụ: nó không hỗ trợ hình ảnh màu thật (24 bit trở lên), điều này hạn chế việc sử dụng nó trong các ứng dụng yêu cầu đồ họa có độ trung thực cao. Ngoài ra, định dạng này không hỗ trợ các tính năng nâng cao như lớp, kênh alpha (ngoài độ trong suốt đơn giản) hoặc siêu dữ liệu như EXIF (Định dạng tệp hình ảnh có thể trao đổi) thường thấy ở các định dạng như JPEG hoặc PNG.
Định dạng hình ảnh PALM không được sử dụng rộng rãi bên ngoài các thiết bị và ứng dụng Palm OS. Với sự suy giảm của PDA Palm OS và sự gia tăng của điện thoại thông minh và các thiết bị di động khác có hệ điều hành và khả năng đồ họa tiên tiến hơn, định dạng PALM đã trở nên lỗi thời phần lớn. Các thiết bị di động hiện đại hỗ trợ nhiều định dạng hình ảnh, bao gồm JPEG, PNG và GIF, cung cấp độ sâu màu lớn hơn, nén tốt hơn và nhiều tính năng hơn định dạng PALM.
Vì mục đích lịch sử và lưu trữ, có thể cần phải chuyển đổi hình ảnh PALM sang các định dạng hiện đại hơn. Điều này có thể được thực hiện bằng cách sử dụng các công cụ phần mềm chuyên dụng có thể đọc định dạng PALM và chuyển đổi nó thành định dạng như PNG hoặc JPEG. Các công cụ này thường phân tích cú pháp cấu trúc tệp PALM, trích xuất dữ liệu bitmap và bảng màu, sau đó tái tạo hình ảnh ở định dạng đích, bảo toàn càng nhiều chất lượng hình ảnh ban đầu càng tốt.
Về phần mở rộng tệp, hình ảnh PALM thường sử dụng phần mở rộng '.pdb' (Cơ sở dữ liệu Palm), vì chúng thường được lưu trữ trong các tệp Cơ sở dữ liệu Palm, là các vùng chứa cho các loại dữ liệu khác nhau được các ứng dụng Palm OS sử dụng. Dữ liệu hình ảnh được lưu trữ trong một bản ghi cụ thể trong tệp PDB, có thể được ứng dụng truy cập khi cần. Tích hợp này với hệ thống Cơ sở dữ liệu Palm giúp dễ dàng đóng gói hình ảnh với các dữ liệu ứng dụng khác, chẳng hạn như văn bản hoặc cài đặt cấu hình.
Việc tạo và thao tác hình ảnh PALM yêu cầu phải hiểu các thông số kỹ thuật và hạn chế của định dạng. Các nhà phát triển làm việc với Palm OS thường sử dụng bộ công cụ phát triển phần mềm (SDK) do Palm cung cấp, bao gồm các công cụ và tài liệu để làm việc với hình ảnh PALM. Các SDK này sẽ cung cấp các thư viện để xử lý hình ảnh, cho ph ép các nhà phát triển tạo, sửa đổi và hiển thị hình ảnh PALM trong ứng dụng của họ mà không cần phải quản lý các chi tiết cấp thấp của định dạng tệp.
Tóm lại, định dạng hình ảnh PALM đóng một vai trò quan trọng trong kỷ nguyên PDA Palm OS bằng cách cung cấp một cách đơn giản và hiệu quả để xử lý đồ họa trên các thiết bị có tài nguyên hạn chế. Mặc dù nó đã bị các định dạng hình ảnh tiên tiến hơn vượt qua trong bối cảnh công nghệ ngày nay, nhưng việc hiểu định dạng PALM cung cấp thông tin chi tiết về các cân nhắc về thiết kế và hạn chế của các nền tảng điện toán di động trước đó. Đối với những người xử lý các ứng dụng hoặc thiết bị Palm OS cũ, kiến thức về định dạng PALM vẫn có liên quan để duy trì và chuyển đổi các tài sản hình ảnh cũ.
Bộ chuyển đổi này chạy hoàn toàn trong trình duyệt của bạn. Khi bạn chọn một tệp, nó sẽ được đọc vào bộ nhớ và chuyển đổi sang định dạng đã chọn. Sau đó, bạn có thể tải xuống tệp đã chuyển đổi.
Việc chuyển đổi bắt đầu ngay lập tức và hầu hết các tệp được chuyển đổi trong vòng chưa đầy một giây. Các tệp l ớn hơn có thể mất nhiều thời gian hơn.
Các tệp của bạn không bao giờ được tải lên máy chủ của chúng tôi. Chúng được chuyển đổi trong trình duyệt của bạn và sau đó tệp đã chuyển đổi sẽ được tải xuống. Chúng tôi không bao giờ thấy các tệp của bạn.
Chúng tôi hỗ trợ chuyển đổi giữa tất cả các định dạng hình ảnh, bao gồm JPEG, PNG, GIF, WebP, SVG, BMP, TIFF, v.v.
Bộ chuyển đổi này hoàn toàn miễn phí và sẽ luôn miễn phí. Bởi vì nó chạy trong trình duyệt của bạn, chúng tôi không phải trả tiền cho máy chủ, vì vậy chúng tôi không cần tính phí bạn.
Đúng! Bạn có thể chuyển đổi bao nhiêu tệp tùy thích cùng một lúc. Chỉ cần chọn nhiều tệp khi bạn thêm chúng.