การรู้จำอักขระด้วยแสง (OCR) เปลี่ยนรูปภาพของข้อความ—สแกน, ภาพถ่ายจากสมาร์ทโฟน, PDF—เป็นสตริงที่เครื่องอ่านได้ และ, เพิ่มมากขึ้น, ข้อมูลที่มีโครงสร้าง. OCR สมัยใหม่เป็นไปป์ไลน์ที่ทำความสะอาดรูปภาพ, ค้นหาข้อความ, อ่าน, และส่งออกเมทาดาทาที่สมบูรณ์ เพื่อให้ระบบดาวน์สตรีมสามารถค้นหา, จัดทำดัชนี, หรือดึงข้อมูลฟิลด์ได้. สองมาตรฐานเอาต์พุตที่ใช้กันอย่างแพร่หลายคือ hOCR, ไมโครฟอร์แมต HTML สำหรับข้อความและเลย์เอาต์, และ ALTO XML, สกีมาที่มุ่งเน้นไลบรารี/หอจดหมายเหตุ; ทั้งสองรักษาสถานะ, ลำดับการอ่าน, และสัญลักษณ์เลย์เอาต์อื่น ๆ และ ได้รับการสนับสนุนจากเครื่องมือยอดนิยมเช่น Tesseract.
การประมวลผลเบื้องต้น. คุณภาพของ OCR เริ่มต้นด้วยการทำความสะอาดภาพ: การแปลงเป็นสีเทา, การลดสัญญาณรบกวน, การกำหนดค่าขีดแบ่ง (การทำให้เป็นไบนารี), และการปรับแก้ความเอียง. บทเรียน OpenCV แบบบัญญัติครอบคลุมทั่วโลก, การปรับตัว และ Otsu การกำหนดค่าขีดแบ่ง—ซึ่งเป็นส่วนสำคัญสำหรับเอกสารที่มีแสงไม่สม่ำเสมอหรือฮิสโตแกรมแบบสองโหมด. เมื่อความสว่างแตกต่างกันไป ภายในหน้า (นึกถึงภาพถ่ายจากโทรศัพท์), วิธีการปรับตัวมักจะทำงานได้ดีกว่าการกำหนดค่าขีดแบ่งทั่วโลกเพียงค่าเดียว; Otsu จะเลือกค่าขีดแบ่งโดยอัตโนมัติโดยการวิเคราะห์ฮิสโตแกรม. การแก้ไขความเอียงก็มีความสำคัญเท่าเทียมกัน: การปรับแก้ความเอียงโดยใช้ Hough (การแปลงเส้นตรง Hough) ควบคู่กับการทำให้เป็นไบนารีของ Otsu เป็นสูตรทั่วไปและมีประสิทธิภาพในไปป์ไลน์การประมวลผลเบื้องต้นในการผลิต.
การตรวจจับกับการรู้จำ. OCR โดยทั่วไปแบ่งออกเป็น การตรวจจับข้อความ (ข้อความอยู่ที่ไหน ?) และ การรู้จำข้อความ (มันพูดว่าอะไร?). ในฉากธรรมชาติและการสแกนจ ำนวนมาก, ตัวตรวจจับแบบคอนโวลูชันเต็มรูปแบบ เช่น EAST ทำนายรูปสี่เหลี่ยมระดับคำหรือบรรทัดได้อย่างมีประสิทธิภาพโดยไม่มีขั้นตอนการเสนอที่หนักหน่วงและถูกนำไปใช้ใน ชุดเครื่องมือทั่วไป (เช่น, บทแนะนำการตรวจจับข้อความของ OpenCV). บนหน้าที่ซับซ้อน (หนังสือพิมพ์, แบบฟอร์ม, หนังสือ), การแบ่งส่วนของบรรทัด/ภูมิภาคและการอนุมานลำดับการอ่านมีความสำคัญ:Kraken ใช้การแบ่งส่วนโซน/บรรทัดแบบดั้งเดิมและการแบ่งส่วน เส้นฐาน แบบประสาท, พร้อมการสนับสนุนที่ชัดเจน สำหรับสคริปต์และทิศทางที่แตกต่างกัน (LTR/RTL/แนวตั้ง).
โมเดลการรู้จำ. ม้างานโอเพนซอร์สคลาสสิก Tesseract (โอเพนซอร์สโดย Google, มีรากฐานที่ HP) พัฒน าจากตัวแยกประเภทอักขระเป็นตัวรู้จำลำดับ ที่ใช้ LSTM และสามารถส่งออก PDF ที่ค้นหาได้, เอาต์พุตที่เป็นมิตรกับ hOCR/ALTO, และอื่น ๆ จาก CLI. ตัวรู้จำสมัยใหม่พึ่งพาการสร้างแบบจำลองลำดับโดยไม่มีอักขระที่แบ่งส่วนไว้ล่วงหน้า. Connectionist Temporal Classification (CTC) ยังคงเป็นพื้นฐาน, เรียนรู้การจัดตำแหน่งระหว่างลำดับคุณลักษณะอินพุตและสตริงป้ายกำกับเอาต์พุต; มันถูกใช้อย่างกว้างขวาง ในไปป์ไลน์การเขียนด้วยลายมือและข้อความในฉาก.
ในช่วงไม่กี่ปีที่ผ่านมา, Transformers ได้ปรับเปลี่ยน OCR. TrOCR ใช้ตัวเข้ารหัส Vision Transformer บวกกับตัวถอดรหัส Text Transformer, ฝึกฝนบนคลังข้อมูลสังเคราะห์ขนาดใหญ่แล้ว ปรับละเอียดบนข้อมูลจริง, พร้อมประสิทธิภาพที่แข็งแกร่งในเกณฑ์มาตรฐานก ารพิมพ์, การเขียนด้วยลายมือ และข้อความในฉาก (ดูเพิ่มเติมที่ เอกสาร Hugging Face). ในขณะเดียวกัน, บางระบบข้าม OCR เพื่อความเข้าใจดาวน์สตรีม: Donut (Document Understanding Transformer) เป็นตัวเข้ารหัส-ถอดรหัสที่ไม่มี OCR ซึ่งส่งออกคำตอบที่มีโครงสร้างโดยตรง (เช่น JSON คีย์-ค่า) จากเอกสาร รูปภาพ (repo, การ์ดโมเดล), หลีกเลี่ยงการสะสมข้อผิดพลาดเมื่อขั้นตอน OCR แยกต่างหากป้อนระบบ IE.
หากคุณต้องการการอ่านข้อความแบบครบวงจรในหลายสคริปต์, EasyOCR มี API ที่เรียบง่ายพร้อมโมเดลภาษามากกว่า 80 ภาษา, ส่งคืนกล่อง, ข้อความ, และความเชื่อมั่น—มีประโยชน์สำหรับต้นแบบและ สคริปต์ที่ไม่ใช่ภาษาละติน. สำหรับเอกสารทางประวัติศาสตร์, Kraken โดดเด่นด้วยการแบ่งส่วนเส้นฐานและการอ่านตามลำดับที่คำนึงถึงสคริปต์; สำหรับการฝึกอบรมระดับบรรทัดที่ยืดหยุ่น, Calamari สร้างขึ้นจากสายเลือด Ocropy (Ocropy) ด้วยตัวรู้จำ (หลาย)LSTM+CTC และ CLI สำหรับการปรับละเอียดโมเดลที่กำหนดเอง.
การสรุปผลขึ้นอยู่กับข้อมูล. สำหรับการเขียนด้วยลายมือ, ฐานข้อมูลการเขียนด้วยลายมือ IAM ให้ประโยคภาษาอังกฤษที่หลากหลายสำหรับผู้เขียนสำหรับการฝึกอบรมและการประเมิน; มันเป็นชุดอ้างอิงที่มีมายาวนานสำหรับ การรู้จำบรรทัดและคำ. สำหรับข้อความในฉาก, COCO-Text ได้ ใส่คำอธิบายประกอบอย่างกว้างขวางทับ MS-COCO, พร้อมป้ายกำกับสำหรับพิมพ์/เขียนด้วยลายมือ, อ่านได้/อ่านไม่ได้, สคริปต์, และ การถอดความแบบเต็ม (ดูเพิ่มเติมที่หน้า โครงการดั้งเดิม). สาขานี้ยังพึ่งพาการฝึกอบรมล่วงหน้าแบบสังเคราะห์อย่างมาก: SynthText in the Wild แสดงข้อความลงในภาพถ่ายด้วยรูปทรงเรขาคณิตและแสงที่สมจริง, ให้ข้อมูลจำนวนมหาศาลเพื่อฝึกอบรมล่วงหน้า ตัวตรวจจับและตัวรู้จำ (อ้างอิง โค้ดและข้อมูล).
การแข่งขันภายใต้ ICDAR’s Robust Reading ร่มช่วยให้การประเมินผลเป็นไปอย่างมีเหตุผล. งานล่าสุดเน้นการตรวจจับ/การอ่านแบบ end-to-end และรวมถึงการเชื่อมโยงคำ เป็นวลี, พร้อมโค้ดอย่างเป็นทางการที่รายงาน ความแม่นยำ/การเรียกคืน/F-score, intersection-over-union (IoU), และเมตริกระยะห่างการแก้ไขระดับอักขระ—สะท้อนสิ่งที่ผู้ปฏิบัติงานควรติดตาม.
OCR ไม่ค่อยจบลงที่ข้อความธรรมดา. หอจดหมายเหตุและห้องสมุดดิจิทัลต้องการ ALTO XML เพราะมันเข้ารหัสเลย์เอาต์ทางกายภาพ (บล็อก/บรรทัด/คำพร้อมพิกัด) ควบคู่ไปกับเนื้อหา, และมันเข้ากันได้ดี กับแพ็คเกจ METS. hOCR ไมโครฟอร์แมต, ในทางตรงกันข้าม, ฝังแนวคิดเดียวกันลงใน HTML/CSS โดยใช้คลาสเช่น ocr_line และ ocrx_word, ทำให้ง่ายต่อการแสดง, แก้ไข, และแปลงด้วยเครื่องมือเว็บ. Tesseract เปิดเผยทั้งสอง—เช่น, การสร้าง hOCR หรือ PDF ที่ค้นหาได้โดยตรงจาก CLI (คู่มือการส่ งออก PDF); ตัวห่อหุ้ม Python เช่น pytesseract เพิ่มความสะดวก. มีตัวแปลงเพื่อแปลระหว่าง hOCR และ ALTO เมื่อที่เก็บมีมาตรฐานการนำเข้าที่ตายตัว —ดูรายการที่คัดสรรมานี้ของ เครื่องมือรูปแบบไฟล์ OCR.
แนวโน้มที่แข็งแกร่งที่สุดคือการบรรจบกัน: การตรวจจับ, การรู้จำ, การสร้างแบบจำลองภาษา, และแม้แต่การถอดรหัสเฉพาะงาน กำลังรวมกันเป็นสแต็ก Transformer ที่เป็นหนึ่งเดียว. การฝึกอบรมล่วงหน้าบน คลังข้อมูลสังเคราะห์ขนาดใหญ่ ยังคงเป็นตัวคูณกำลัง. โมเดลที่ไม่มี OCR จะแข่งขันอย่างดุเดือดทุกที่ที่เป้าหมายเป็นเอาต์พุตที่มีโครงสร้าง แทนที่จะเป็นการถอดความแบบคำต่อคำ. คาดหวังการปรับใช้แบบไฮบริดด้วย: ตัวตรวจจับน้ำหนักเบาบวกกับตัวรู้จำสไตล์ TrOCR สำหรับข้อความยาว, และโมเดลสไตล์ Donut สำหรับแบบฟอร์มและใบเสร็จ.
Tesseract (GitHub) · เอกสาร Tesseract · ข้อมูลจำเพาะ hOCR · พื้นหลัง ALTO · ตัวตรวจจับ EAST · การตรวจจับข้อความ OpenCV · TrOCR · Donut · COCO-Text · SynthText · Kraken · Calamari OCR · ICDAR RRC · pytesseract · การเขียนด้วยลายมือ IAM · เครื่องมือรูปแบบไฟล์ OCR · EasyOCR
Optical Character Recognition (OCR) เป็นเทคโนโลยีที่ใช้ในการแปลงประเภทต่าง ๆ ของเอกสาร เช่น ผลงานที่สแกนด้วยกระดาษ PDF ไฟล์หรือภาพที่ถ่ายด้วยกล้องดิจิตอล ให้เป็นข้อมูลที่สามารถแก้ไขและค้นหาได้
OCR ทำงานโดยการสแกนภาพนำเข้าต่างๆหรือเอกสาร การแบ่งภาพออกเป็นตัวอักษรแต่ละตัว แล้วเปรียบเทียบแต่ละตัวอักษรกับฐานข้อมูลแบบรูปของตัวอักษรโดยใช้การจดจำรูปแบบหรือจดจำลักษณะ
OCR ถูกนำไปใช้ในหลายภาคและการประยุกต์ใช้ เช่น การเปลี่ยนเอกสารที่พิมพ์ออกมาเป็นดิจิตอล การเปิดให้บริการอักษรเป็นเสียง การทำให้กระบวนการกรอกข้อมูลเป็นอัตโนมัติ และสนับสนุนผู้ที่ มีความบกพร่องทางการมองเห็นให้สามารถสัมผัสปฏิสัมพันธ์กับข้อความได้ตรงตามความต้องการ
อย่างไรก็ตาม ทั้งที่เทคโนโลยี OCR ได้พัฒนามาอย่างมาก แต่ยังไม่มีความสมบูรณ์ การมีความแม่นยำมักจะขึ้นอยู่กับคุณภาพของเอกสารเดิมและรายละเอียดของซอฟต์แวร์ OCR ที่ใช้
ถึงแม้ว่า OCR ถูกออกแบบมาสำหรับข้อความที่พิมพ์ แต่ระบบ OCR ที่ระดับสูงบางระบบสามารถจดจำลายมือที่ชัดเจน สอดคล้องได้ อย่างไรก็ดี ทั่วไปแล้วการจดจำลายมือมีความแม่นยำน้อยกว่า เนื่องจากมีการผันแปรของรูปแบบการเขียนของแต่ละคน
ใช่ ซอฟต์แวร์ OCR หลายระบบสามารถจดจำภาษาหลายภาษา อย่างไรก็ตาม สำคัญที่จะต้องดูว ่าภาษาที่ต้องการได้รับการสนับสนุนโดยซอฟต์แวร์ที่คุณใช้
OCR ย่อมาจาก Optical Character Recognition และใช้ในการจดจำข้อความที่พิมพ์ขณะที่ ICR หรือ Intelligent Character Recognition ที่ทันสมัยยิ่งขึ้นและใช้สำหรับการจดจำข้อความที่เขียนด้วยมือ
OCR ทำงานได้ดีที่สุดกับแบบอักษรที่ชัดเจน, สามารถอ่านได้ง่ายและมีขนาดข้อความมาตรฐาน ในขณะที่มันสามารถทำงานได้กับแบบอักษรและขนาดที่หลากหลาย แต่ความถูกต้องมักจะลดลงเมื่อจัดการกับแบบอักษรที่ไม่ปกติหรือขนาดข้อความที่เล็กมาก
OCR อาจพบปัญหากับเอกสารที่มีความละเอียดต่ำ, แบบอักษรซับซ้อน, ข้อความที่พิมพ์ไม่ดี, ลา ยมือ และเอกสารที่มีพื้นหลังที่แทรกซ้อนกับข้อความ นอกจากนี้ อย่างไรก็ตาม อาจใช้งานกับภาษาหลายภาษาได้ มันอาจไม่ครอบคลุมทุกภาษาอย่างสมบูรณ์
ใช่ OCR สามารถสแกนข้อความที่มีสีและพื้นหลังที่มีสี แม้ว่าจะมีประสิทธิภาพมากขึ้นด้วยสีที่มีความเปรียบเทียบความตัดกัน เช่น ข้อความดำบนพื้นหลังสีขาว ความถูกต้องอาจลดลงเมื่อสีข้อความและสีพื้นหลังไม่มีความคมชัดเพียงพอ
รูปแบบภาพ PCX ย่อมาจาก 'Picture Exchange' เป็นรูปแบบไฟล์กราฟิกแบบแรสเตอร์ที่ใช้กันอย่างแพร่หลายบนคอมพิวเตอร์ที่ใช้ DOS และ Windows ในช่วงปลายทศวรรษ 1980 และ 1990 พัฒนาโดย ZSoft Corporation เป็นหนึ่งใน รูปแบบแรกๆ ที่ได้รับการยอมรับอย่างกว้างขวางสำหรับภาพสีบนคอมพิวเตอร์ที่เข้ากันได้กับ IBM PC รูปแบบ PCX เป็นที่รู้จักในเรื่องความเรียบง่ายและใช้งานง่าย ซึ่งมีส่วนทำให้ได้รับการยอมรับอย่างแพร่หลายในช่วงแรกๆ ของการประมวลผลส่วนบุคคล เป็นที่นิยมอย่างมากสำหรับการใช้งานในซอฟต์แวร์ต่างๆ เช่น Microsoft Paintbrush ซึ่งต่อมากลายเป็น Microsoft Paint และยังใช้สำหรับการจับภาพหน้าจอ ผลลัพธ์จากเครื่องสแกน และวอลเปเปอร์บนเดสก์ท็อป
รูปแบบไฟล์ PCX ออกแบบมาเพื่อแสดงภาพที่สแกนและข้อมูลภาพประเภทอื่นๆ รองรับความลึกของสีต่างๆ รวมถึงภาพขาวดำ 2 สี 4 สี 16 สี 256 สี และภาพสีจริง 24 บิต รูปแบบนี้รองรับความละเอียดและอัตราส่วนภาพที่หลากหลาย ทำให้ใช้งานได้หลากหลายสำหรับอุปกรณ์แสดงผลและความต้องการในการพิมพ์ที่แตกต่างกัน แม้จะมีความยืดหยุ่น แต่รูปแบบ PCX ก็ถูกแทนที่ด้ วยรูปแบบภาพที่ทันสมัยกว่า เช่น JPEG, PNG และ GIF ซึ่งให้การบีบอัดและการรองรับสีที่ดีกว่า อย่างไรก็ตาม ความเข้าใจในรูปแบบ PCX ยังคงมีความเกี่ยวข้องสำหรับผู้ที่ทำงานกับระบบเก่าหรือคลังข้อมูลดิจิทัลที่มีไฟล์ PCX
ไฟล์ PCX ประกอบด้วยส่วนหัว ข้อมูลภาพ และพาเล็ตสี 256 สีแบบเลือกได้ ส่วนหัวมีความยาว 128 ไบต์และมีข้อมูลสำคัญเกี่ยวกับภาพ เช่น เวอร์ชันของรูปแบบ PCX ที่ใช้ ขนาดของภาพ จำนวนระนาบสี จำนวนบิตต่อพิกเซลต่อระนาบสี และวิธีการเข้ารหัส วิธีการเข้ารหัสที่ใช้ในไฟล์ PCX คือการเข้ารหัสความยาวการทำงาน (RLE) ซึ่งเป็นรูปแบบง่ายๆ ของการบีบอัดข้อมูลแบบไม่สูญเสียที่ลดขนาดไฟล์โดยไม่ลดทอนคุณภาพของภาพ RLE ทำงานโดยการบีบอัดลำดับของไบต์ที่เหมือนกันเป็นไบต์เดียวตามด้วยไบต์นับ ซึ่งระบุจำนวนครั้งที่ควรทำซ้ำไบต์
ข้อมูลภาพในไฟล์ PCX จัดเป็นระนาบ โดยแ ต่ละระนาบแสดงถึงส่วนประกอบสีที่แตกต่างกัน ตัวอย่างเช่น ภาพสี 24 บิตจะมีสามระนาบ ระนาบละหนึ่งระนาบสำหรับส่วนประกอบสีแดง เขียว และน้ำเงิน ข้อมูลภายในแต่ละระนาบจะถูกเข้ารหัสโดยใช้ RLE และจัดเก็บเป็นแถว โดยแต่ละแถวแสดงถึงเส้นพิกเซลแนวนอน แถวจะถูกจัดเก็บจากบนลงล่าง และภายในแต่ละแถว พิกเซลจะถูกจัดเก็บจากซ้ายไปขวา สำหรับภาพที่มีความลึกของสีน้อยกว่า 24 บิต อาจมีส่วนพาเล็ตเพิ่มเติมที่ส่วนท้ายของไฟล์ ซึ่งกำหนดสีที่ใช้ในภาพ
พาเล็ตสี 256 สีแบบเลือกได้เป็นคุณสมบัติหลักของรูปแบบ PCX สำหรับภาพที่มี 8 บิตต่อพิกเซลหรือน้อยกว่า พาเล็ตนี้โดยปกติจะอยู่ที่ส่วนท้ายของไฟล์ ถัดจากข้อมูลภาพ และประกอบด้วยรายการของรายการ 3 ไบต์ โดยแต่ละรายการแสดงถึงส่วนประกอบสีแดง เขียว และน้ำเงินของสีเดียว พาเล็ตช่วยให้สามารถแสดงสีได้หลากหลายในภาพ แม้ว่าแต่ละพิกเซลจะอ้างอิงดัชนีสีแทนที่จะจัดเก็บค่าสีเต็ม รูปแบบสีที่จัดทำดัชนีนี้มีประสิทธิภาพในแง่ของขนาดไฟล์ แต่จำกัดความเที่ยงตรงของสีเมื่อเปรียบเทียบกับภาพสีจริง
ข้อดีอย่างหนึ่งของรูปแบบ PCX คือความเรียบง่าย ซึ่งทำให้นักพัฒนาสามารถนำไปใช้ในซอฟต์แวร์ของตนได้ง่าย ส่วนหัวของรูปแบบมีขนาดและเค้าโครงที่คงที่ ซึ่งช่วยให้สามารถวิเคราะห์และประมวลผลข้อมูลภาพได้อย่างตรงไปตรงมา นอกจากนี้ การบีบอัด RLE ที่ใช้ในไฟล์ PCX นั้นค่อนข้างง่ายเมื่อเปรียบเทียบกับอัลกอริธึมการบีบอัดที่ซับซ้อนกว่าที่ใช้ในรูปแบบอื่น ความเรียบง่ายนี้หมายความว่าไฟล์ PCX สามารถสร้างและจัดการได้อย่างง่ายดายบนฮาร์ดแวร์ที่มีจำกัดในเวลานั้น โดยไม่จำเป็นต้องใช้พลังในการประมวลผลหรือหน่วยความจำจำนวนมาก
แม้จะมีความเรียบง่าย แต่รูปแบบ PCX ก็มีข้อจำกัดบางประการ ข้อเสียเปรียบหลักประการหนึ่งคือการขาดการรองรับความโปร่งใสหรือช่องอัลฟา ซึ่งจำเป็นสำหรับงานกราฟิกสมัยใหม่ เช่น การออกแบบไอคอนหรือกราฟิกวิดีโอเกม นอกจากนี้ การบีบอัด RLE แม้ว่าจะมีประสิทธิภาพสำหรับภาพบางประเภท แต่ก็ไม่มีประสิทธิภาพเท่ากับอัลกอริธึมการบีบอัดที่ใช้ในรูปแบบต่างๆ เช่น JPEG หรือ PNG ซึ่งอาจส่งผลให้ไฟล์ PCX มีขนาดใหญ่ขึ้น โดยเฉพาะอย่างยิ่งเมื่อจัดการกับภาพความละเอียดสูงหรือภาพสีจริง
ข้อจำกัดอีกประการหนึ่งของรูปแบบ PCX คือการขาดการรองรับเมตาดาต้า ซึ่งแตกต่างจากรูปแบบต่างๆ เช่น TIFF หรือ JPEG ซึ่งสามารถรวมเมตาดาต้าเกี่ยวกับภาพได้หลากหลาย เช่น การตั้งค่ากล้องที่ใช้ในการถ่ายภาพหรือวันที่และเวลาที่สร้างภาพ ไฟล์ PCX มีเพียงข้อมูลพื้นฐานที่จำเป็นสำหรับการแสดงภาพเท่านั้น ซึ่งทำให้รูปแบบนี้ไม่เหมาะสำหรับการถ่ายภาพระดับมืออาชีพหรือแอปพลิเคชันใดๆ ที่การเก็บรักษาข้อมูลดังกล่าวมีความสำคัญ
แม้จะมีข้อจำกัดเหล่านี้ แต่รูปแบบ PCX ก็ถูกใช้อย่างแพร่หลายในอดีตและยังคงได้รับการยอมรับจากโปรแกรมแก้ไขและดูภาพจำนวนมากในปัจจุบัน มรดกของรูปแบบนี้เห็นได้ชัดจากการรองรับรูปแบบอย่างต่อเนื่องในซอฟต์แวร์ต่างๆ เช่น Adobe Photoshop, GIMP และ CorelDRAW สำหรับผู้ใช้ที่ทำงานกับระบบเก่าหรือต้องการเข้าถึงเนื้อหาดิจิทัลในอดีต ความสามารถในการจัดการไฟล์ PCX ยังคงมีความเกี่ยวข้อง นอกจากนี้ ความเรียบง่ายของรูปแบบยังทำให้เป็นกรณีศึกษาที่มีประโยชน์สำหรับผู้ที่เรียนรู้เกี่ยวกับรูปแบบไฟล์ภาพและเทคนิคการบีบอัดข้อมูล
รูปแบบ PCX ยังมีบทบาทในช่วงแรกๆ ของการเผยแพร่บนเดสก์ท็อปและการออกแบบกราฟิก การรองรับความละเอียดและความลึกของสีหลายระดับทำใ ห้เป็นตัวเลือกที่ยืดหยุ่นสำหรับการสร้างและแลกเปลี่ยนกราฟิกระหว่างแพลตฟอร์มซอฟต์แวร์และฮาร์ดแวร์ที่แตกต่างกัน ในช่วงเวลาที่รูปแบบกรรมสิทธิ์อาจสร้างอุปสรรคต่อการทำงานร่วมกัน รูปแบบ PCX ทำหน้าที่เป็นตัวส่วนร่วมที่อำนวยความสะดวกในการแบ่งปันภาพระหว่างระบบต่างๆ
ในแง่ของการนำไปใช้ทางเทคนิค การสร้างไฟล์ PCX เกี่ยวข้องกับการเขียนส่วนหัว 128 ไบต์ด้วยค่าที่ถูกต้องสำหรับคุณสมบัติของภาพ ตามด้วยข้อมูลภาพที่บีบอัดด้วย RLE สำหรับแต่ละระนาบสี หากภาพใช้พาเล็ต ข้อมูลพาเล็ตจะถูกผนวกเข้าที่ส่วนท้ายของไฟล์ เมื่ออ่านไฟล์ PCX กระบวนการจะย้อนกลับ: อ่านส่วนหัวเพื่อกำหนดคุณสมบัติของภาพ ข้อมูล RLE จะถูกคลายการบีบอัดเพื่อสร้างภาพใหม่ และหากมี จะอ่านพาเล็ตเพื่อแมปดัชนีสีไปยังค่า RGB ที่สอดคล้องกัน
ส่วนหัว PCX มีฟิลด์หลายฟิลด์ที่สำคัญส ำหรับการตีความข้อมูลภาพ ซึ่งรวมถึงผู้ผลิต (ตั้งค่าเป็น 10 สำหรับ ZSoft เสมอ) เวอร์ชัน (ระบุเวอร์ชันของรูปแบบ PCX) การเข้ารหัส (ตั้งค่าเป็น 1 สำหรับการบีบอัด RLE เสมอ) บิตต่อพิกเซล (ระบุความลึกของสี) ขนาดของภาพ (กำหนดโดยฟิลด์ Xmin, Ymin, Xmax และ Ymax) ความละเอียดแนวนอนและแนวตั้ง จำนวนระนาบสี ไบต์ต่อบรรทัด (ระบุจำนวนไบต์ในแต่ละแถวของระนา
ตัวแปลงนี้ทำงานอย่างสมบูรณ์ในเบราว์เซอร์ของคุณ เมื่อคุณเลือกไฟล์ ไฟล์จะถูกอ่านเข้าไปในหน่วยความจำและแปลงเป็นรูปแบบที่เลือก จากนั้นคุณสามารถดาวน์โหลดไฟล์ที่แปลงแล้วได้
การแปลงจะเริ่มขึ้นทันที และไฟล์ส่วนใหญ่จะถูกแปลงภายในเวลาไม่ถึงหน ึ่งวินาที ไฟล์ขนาดใหญ่อาจใช้เวลานานกว่านั้น
ไฟล์ของคุณจะไม่ถูกอัปโหลดไปยังเซิร์ฟเวอร์ของเรา ไฟล์เหล่านั้นจะถูกแปลงในเบราว์เซอร์ของคุณ จากนั้นไฟล์ที่แปลงแล้วจะถูกดาวน์โหลด เราไม่เคยเห็นไฟล์ของคุณ
เรารองรับการแปลงระหว่างรูปแบบภาพทั้งหมด รวมถึง JPEG, PNG, GIF, WebP, SVG, BMP, TIFF และอื่นๆ
ตัวแปลงนี้ฟรีโดยสมบูรณ์ และจะฟรีตลอดไป เนื่องจากทำงานในเบราว์เซอร์ของคุณ เราจึงไม่ต้องจ่ายค่าเซิร์ฟเวอร์ ดังนั้นเราจึงไม่เรียกเก็บเงินจากคุณ
ใช่! คุณสามารถแปลงไฟล์ได้มากเท่าที่คุณต้องการในคราวเดียว เพียงเลือกหลายไฟล์เมื่อคุณเพิ่ม