Optik Karakter Tanıma (OCR) metin resimlerini—taramaları, akıllı telefon fotoğraflarını, PDF'leri—makine tarafından okunabilir dizelere ve giderek artan bir şekilde yapılandırılmış verilere dönüştürür. Modern OCR, bir görüntüyü temizleyen, metni bulan, okuyan ve zengin meta verileri dışa aktaran bir boru hattıdır böylece alt sistemler alanları arayabilir, dizine ekleyebilir veya çıkarabilir. Yaygın olarak kullanılan iki çıktı standardı şunlardır: hOCR, metin ve düzen için bir HTML mikroformatı ve ALTO XML, bir kütüphane/arşiv odaklı şema; her ikisi de konumları, okuma sırasını ve diğer düzen ipuçlarını korur ve gibi popüler motorlar tarafından desteklenir Tesseract.
Ön işleme. OCR kalitesi görüntü temizleme ile başlar: gri tonlamaya dönüştürme, gürültü giderme, eşikleme (ikili hale getirme) ve eğrilik düzeltme. Kanonik OpenCV eğitimleri küresel, uyarlanabilir ve Otsu eşikleme—düzensiz aydınlatmalı veya bimodal histogramlı belgeler için temel unsurlar. Bir sayfa içinde aydınlatma değiştiğinde (telefon fotoğraflarını düşünün), uyarlanabilir yöntemler genellikle tek bir küresel eşikten daha iyi performans gösterir; Otsu histogramı analiz ederek otomatik olarak bir eşik seçer. Eğim düzeltme de aynı derecede önemlidir: Hough tabanlı eğrilik düzeltme (Hough Çizgi Dönüşümü) Otsu ikilileştirmesi ile eşleştirilmiş, üretim ön işleme boru hatlarında yaygın ve etkili bir reçetedir.
Tespit ve tanıma. OCR tipik olarak metin tespiti (metin nerede ?) ve metin tanıma (ne diyor?) olarak ikiye ayrılır. Doğal sahnelerde ve birçok taramada, tamamen evrişimli dedektörler gibi EAST ağır teklif aşamaları olmadan kelime veya satır düzeyinde dörtgenleri verimli bir şekilde tahmin eder ve yaygın araç setlerinde (ör. OpenCV’nin metin tespiti eğitimi) uygulanır. Karmaşık sayfalarda (gazeteler, formlar, kitaplar), satırların/bölgelerin segmentasyonu ve okuma sırası çıkarımı önemlidir:Kraken geleneksel bölge/satır segmentasyonunu ve sinirsel temel çizgi segmentasyonunu uygular, farklı komut dosyaları ve yönler (LTR/RTL/dikey) için açık destek ile.
Tanıma modelleri. Klasik açık kaynaklı iş gücü Tesseract (Google tarafından açık kaynaklı hale getirildi, kökleri HP'ye dayanıyor) bir karakter sınıflandırıcısından LSTM tabanlı bir dizi tanıyıcıya dönüştü ve aranabilir PDF'ler, hOCR/ALTO dostu çıktılarve daha fazlasını CLI'den yayabilir. Modern tanıyıcılar, önceden bölümlenmiş karakterler olmadan dizi modellemesine güvenir. Bağlantıcı Geçici Sınıflandırma (CTC) temel olmaya devam ediyor, girdi özellik dizileri ve çıktı etiket dizileri arasındaki hizalamaları öğreniyor; el yazısı ve sahne metni boru hatlarında yaygın olarak kullanılıyor.
Son birkaç yılda, Transformer'lar OCR'yi yeniden şekillendirdi. TrOCR bir görüş Transformer kodlayıcı artı bir metin Transformer kod çözücü kullanır, büyük sentetik korpuslar üzerinde eğitilmiş ve ardından gerçek veriler üzerinde ince ayar yapılmış, basılı, el yazısı ve sahne metni karşılaştırmalarında güçlü performansla (ayrıca bkz. Hugging Face belgeleri). Paralel olarak, bazı sistemler alt akım anlama için OCR'yi atlar: Donut (Belge Anlama Transformer'ı) doğrudan yapılandırılmış cevaplar (anahtar-değer JSON gibi) üreten OCR'siz bir kodlayıcı-kod çözücüdür belge resimlerinden (repo, model kartı), ayrı bir OCR adımı bir IE sistemini beslediğinde hata birikimini önler.
Birçok komut dosyasında pille birlikte metin okuma istiyorsanız, EasyOCR 80'den fazla dil modeliyle basit bir API sunar, kutular, metin ve güvenilirlikler döndürür—prototipler ve Latin olmayan komut dosyaları için kullanışlıdır. Tarihi belgeler için, Kraken temel çizgi segmentasyonu ve komut dosyasına duyarlı okuma sırası ile parlar; esnek satır düzeyinde eğitim için, Calamari Ocropy soyundan gelir (Ocropy) (çoklu)LSTM+CTC tanıyıcıları ve özel modelleri ince ayarlamak için bir CLI ile.
Genelleme verilere bağlıdır. El yazısı için, IAM El Yazısı Veritabanı eğitim ve değerlendirme için yazar açısından çeşitli İngilizce cümleler sağlar; bu, satır ve kelime tanıma için uzun süredir devam eden bir referans setidir. Sahne metni için, COCO-Text MS-COCO üzerine kapsamlı ek açıklamalar katmanladı, basılı/el yazısı, okunaklı/okunaksız, komut dosyası ve tam transkripsiyonlar için etiketlerle (ayrıca orijinal proje sayfasınabakın). Alan ayrıca sentetik ön eğitime de büyük ölçüde güvenir: Vahşi Doğada SynthText gerçekçi geometri ve aydınlatma ile fotoğraflara metin işler, önceden eğitmek için büyük hacimli veriler sağlar dedektörler ve tanıyıcılar (referans kod ve veri).
ICDAR’ın Sağlam Okuma şemsiyesi altındaki yarışmalar değerlendirmeyi temellendirir. Son görevler uçtan uca tespit/okumayı vurgular ve kelimeleri ifadelere bağlamayı içerir, resmi kod raporlaması kesinlik/geri çağırma/F-skoru, kesişim-üzeri-birleşim (IoU) ve karakter düzeyinde düzenleme mesafesi metrikleri—uygulayıcıların izlemesi gerekenleri yansıtır.
OCR nadiren düz metinle biter. Arşivler ve dijital kütüphaneler ALTO XML 'i tercih eder çünkü içeriğin yanı sıra fiziksel düzeni (koordinatlı bloklar/satırlar/kelimeler) kodlar ve METS paketlemesiyle iyi eşleşir. hOCR mikroformatı ise aynı fikri ocr_line ve ocrx_word gibi sınıfları kullanarak HTML/CSS'ye gömer, bu da web araçlarıyla görüntülemeyi, düzenlemeyi ve dönüştürmeyi kolaylaştırır. Tesseract her ikisini de sunar—örneğin, doğrudan CLI'den hOCR veya aranabilir PDF'ler oluşturma (PDF çıktı kılavuzu); pytesseract gibi Python sarmalayıcıları kolaylık sağlar. Depoların sabit alım standartları olduğunda hOCR ve ALTO arasında çeviri yapmak için dönüştürücüler mevcuttur—bu derlenmiş listeye bakın OCR dosya formatı araçları.
En güçlü eğilim yakınsamadır: tespit, tanıma, dil modelleme ve hatta göreve özgü kod çözme birleşik Transformer yığınlarında birleşiyor. büyük sentetik korpuslar üzerinde ön eğitim bir güç çarpanı olmaya devam ediyor. OCR'siz modeller, hedefin kelimesi kelimesine transkriptler yerine yapılandırılmış çıktılar olduğu her yerde agresif bir şekilde rekabet edecektir. Hibrit dağıtımlar da bekleyin: uzun biçimli metin için hafif bir dedektör artı bir TrOCR tarzı tanıyıcı ve formlar ve makbuzlar için bir Donut tarzı model.
Tesseract (GitHub) · Tesseract belgeleri · hOCR özellikleri · ALTO arka planı · EAST dedektörü · OpenCV metin tespiti · TrOCR · Donut · COCO-Text · SynthText · Kraken · Calamari OCR · ICDAR RRC · pytesseract · IAM el yazısı · OCR dosya formatı araçları · EasyOCR
Optical Character Recognition (OCR), tarama yapılan kağıt belgeler, PDF dosyaları veya dijital bir kamera ile çekilen fotoğraflar gibi çeşitli belgeleri düzenlenebilir ve aranabilir bilgilere çevirmek için kullanılan bir teknolojidir.
OCR, giriş görüntüsünü veya belgeyi tarayarak, görüntüyü bireysel karakterlere ayırarak ve her karakteri bir karakter şekli veritabanı ile pattern recognition veya feature recognition kullanarak karşılaştırarak çalışır.
OCR, basılı belgelerin dijitalleştirilmesi, metinden sesli hizmetlerin etkinleştirilmesi, veri giriş süreçlerinin otomatikleştirilmesi ve görme engelli kullanıcıların metinle daha iyi etkileşim kurması gibi farklı sektörlerde ve uygulamalarda kullanılır.
OCR teknolojisinde büyük gelişmeler kaydedilmiş olmasına rağmen, hâlâ hatalar olabilir. Doğruluk, orijinal belgenin kalitesine ve kullanılan OCR yazılımının özelliklerine bağlı olarak değişir.
OCR, temel olarak basılmış metin için tasarlanmıştır, ancak bazı gelişmiş OCR sistemleri, net ve tutarlı el yazısını da tanıyabilir. Ancak, bireysel yazı stillerindeki büyük varyasyonlar nedeniyle, genellikle el yazısının tanınması daha az doğrudur.
Evet, birçok OCR yazılım sistemi birden fazla dili tanıyabilir. Ancak, belirli bir dilin desteklendiğinden emin olmak için kullanılan yazılımı kontrol etmek önemlidir.
OCR, Optical Character Recognition anlamına gelir ve basılı metni tanımak için kullanılır, ICR ise Intelligent Character Recognition anlamına gelir ve daha gelişmiş olup el yazısını tanımak için kullanılır.
OCR, açık, okunabilir fontlar ve standart metin boyutlarıyla en iyi sonucu verir. Farklı fontlar ve boyutlarla da çalışabilir, ancak alışılmadık fontlar veya çok küçük metin boyutlarıyla karşılaştığında doğruluk genellikle azalır.
OCR, düşük çözünürlüklü belgeler, karmaşık fontlar, zayıf basılan metinler, el yazısı ve metni engelleyen arka planları olan belgelerle zorlanabilir. Ayrıca, birçok dili destekleyebilme özelliğine rağmen, her dili mükemmel bir şekilde kapsayamayabilir.
Evet, OCR, renkli metin ve arka planları tarayabilir, ancak genellikle yüksek kontrastlı renk kombinasyonları, örneğin beyaz arka plan üzerinde siyah metin, ile daha etkilidir. Metin ve arka plan rengi yeterli kontrast oluşturmadığında doğruluk düşebilir.
PCL (Yazıcı Komut Dili) görüntü formatı, JPEG veya PNG gibi bağımsız bir görüntü formatı değil, Hewlett-Packard (HP) tarafından geliştirilen PCL yazıcı dilinin bir parçasıdır. PCL, yazdırma aygıtlarını kontrol etmek için kullanılan bir sayfa tanımlama dilidir (PDL) ve birçok farklı yazıcı modeli tarafından yaygın olarak desteklenir. Bir yazıcıya metin, yazı tipleri, grafikler ve görüntüler dahil olmak üzere bir belgeyi nasıl yazdıracağını söylemek için kullanılır. PCL dili, basılı sayfadaki metnin ve grafiklerin düzenini tanımlamak için kullanılır ve yazıcının grafiksel durumunu kontrol etmek ve görüntüleri rasterleştirmek (piksellere dönüştürmek) için komutlar içerir.
PCL ilk olarak 1980'lerde tanıtıldı ve zamanla gelişti, birkaç sürüm yayınlandı. En yaygın sürümler PCL 5, PCL 5e ve PCL 6'dır (PCL XL olarak da bilinir). PCL 5, makrolar, daha büyük bit eşlemli yazı tipleri ve grafik yetenekleri sundu. PCL 5e (geliştirilmiş), yazıcı ile PC arasında çift yönlü iletişim ekledi ve yazdırma hızını ve görüntü kalitesini artırdı. Karmaşık grafikler için verimli bir protokol olacak şekilde tasarlanan PCL 6, veri iletmek için sıkıştırılmış bir protokol kullanır ve Windows gibi grafiksel kullanıcı arayüzlerinden yazdırma için optimize edilmiştir.
PCL bağlamında, bir görüntü, kağıda basılabilen bir nokta deseni olarak temsil edilir. PCL, görüntüleri temsil etmek için vektör komutları ve raster grafiklerin bir kombinasyonunu kullanır. Vektör komutları şekiller ve çizgiler çizmek için kullanılırken, raster grafikler daha karmaşık görüntüler veya fotoğraflar için kullanılır. Bir PCL yazıcı bir belge aldığında, son basılı çıktıyı oluşturmak için bu komutları işler.
PCL'deki raster görüntüler, görüntü verilerinin çözünürlüğünü, boyutunu ve kodlamasını belirten bir dizi komut kullanılarak tanımlanır. Bir PCL görüntüsünün çözünürlüğü tipik olarak inç başına nokta (DPI) olarak belirtilir ve yazıcının görüntüyü bir inçlik kağıt üzerinde temsil etmek için kullanacağı nokta sayısını gösterir. Görüntünün boyutu, nokta satır ve sütun sayısı cinsinden tanımlanır.
PCL, raster görüntü verilerini kodlamak için çeşitli yöntemleri destekler. Yaygın bir yöntem, aynı rengin dizilerini tek bir değer ve bir sayımla değiştirerek görüntü verilerini sıkıştıran basit bir koşu uzunluğu kodlaması (RLE) kullanmaktır. Bu, tek bir renge sahip geniş alanlara sahip görüntüler için özellikle etkilidir. PCL ayrıca, yalnızca bitişik piksel satırları arasındaki farkları kodlayan delta satır sıkıştırması ve görüntünün farklı bölümleri için farklı sıkıştırma yöntemleri arasında geçiş yapabilen uyarlanabilir sıkıştırma gibi daha karmaşık sıkıştırma şemalarını da destekler.
Bir PCL belgesine bir görüntü eklemek için, görüntü verileri önce PCL formatına dönüştürülmelidir. Bu, görüntüyü rasterleştirmeyi, yani orijinal formatından (JPEG veya PNG gibi) yazıcının anlayabileceği bir nokta ızgarasına dönüştürmeyi içerir. Rasterleştirilmiş görüntü daha sonra desteklenen sıkıştırma yöntemlerinden biri kullanılarak kodlanır ve uygun PCL komutları kullanılarak PCL belgesine gömülür.
Bir görüntüyü gömme işlemi için PCL komutları, bir raster görüntünün başlangıcını işaret eden 'Raster Moduna Gir' komutunu ve gerçek görüntü verilerini yazıcıya göndermek için kullanılan 'Raster Veri Aktarımı' komutunu içerir. Ayrıca görüntünün çözünürlüğünü ve renk derinliğini ayarlama ve görüntüyü sayfada konumlandırma komutları da vardır.
PCL görüntülerindeki renk, renk paletleri veya doğrudan renk belirtimi kullanılarak işlenir. Bir renk paletinde, görüntüde kullanılan her renk, bir renk değeri tablosundaki bir indekse göre tanımlanır. Yazıcı, her nokta için yazdırılacak gerçek rengi belirlemek için bu tabloyu kullanır. Doğrudan renk belirtimi, her noktanın renginin açıkça belirtilmesine izin verir, genellikle kırmızı, yeşil ve mavi (RGB) değerlerinin bir kombinasyonu olarak.
PCL ayrıca, farklı renk tonlarını simüle etmek için nokta desenini değiştirerek kullanılan yarı tonlama desteği de içerir. Yarı tonlama gereklidir çünkü çoğu yazıcı yazdırabilecekleri sınırlı sayıda renge sahiptir (genellikle sadece siyah, camgöbeği, macenta ve sarı). Bu temel renklerin noktalarını dikkatlice düzenleyerek, çok çeşitli tonlar ve renkler simüle edilebilir. PCL, bu efekti elde etmek için düzenli titreşim ve hata yayılımı dahil olmak üzere çeşitli yarı tonlama algoritmaları kullanır.
PCL görüntüleri içeren bir belge yazdırırken, bilgisayardaki yazıcı sürücüsü belgeyi PCL komutlarına dönüştürür, buna gömülü görüntüler için komutlar da dahildir. Sürücü ayrıca, RGB renklerini yazıcının kullandığı renk alanına (genellikle CMYK - camgöbeği, macenta, sarı ve anahtar/siyah) dönüştürme gibi gerekli tüm renk dönüşümlerini de gerçekleştirir. Ortaya çıkan PCL veri akışı daha sonra yazdırma için yazıcıya gönderilir.
PCL'nin avantajlarından biri, birçok farklı yazıcı modeli ve üreticisi arasında yaygın olarak desteklenmesidir. Bu, PCL komutlarıyla biçimlendirilmiş belgelerin, her yazıcı için yeniden biçimlendirilmesine veya ayarlanmasına gerek kalmadan çok çeşitli yazıcılarda yazdırılabileceği anlamına gelir. Ancak PCL nispeten düşük seviyeli bir dil olduğundan, PCL belgelerini doğrudan oluşturmak karmaşık olabilir ve PCL komut setinin iyi anlaşılmasını gerektirir.
Bu nedenle, çoğu kullanıcı PCL komutlarıyla doğrudan etkileşime girmez. Bunun yerine, PCL çıktısı oluşturabilen bir yazıcı sürücüsü veya bir yazılım uygulaması kullanırlar. Örneğin, bir kelime işlemciden veya bir grafik programından yazdırırken, uygulama belgeyi yazıcı sürücüsüne gönderir ve bu da belgeyi yazdırma için PCL komutlarına dönüştürür.
Yaşına rağmen PCL, verimliliği ve güvenilirliği nedeniyle bugün hala kullanılmaktadır. Metin ve basit grafiklerin yazdırılmasının baskın olduğu ve yazıcıların birçok kullanıcı arasında paylaşıldığı ofis ortamları için özellikle uygundur. PCL'nin makrolar ve yazı tipleri desteği, standart formların ve tekrarlayan öğeler içeren belgelerin hızlı bir şekilde yazdırılmasına da olanak tanır.
Bununla birlikte, PCL'nin bazı sınırlamaları vardır, özellikle karmaşık grafikler veya yüksek çözünürlüklü görüntüler yazdırma söz konusu olduğunda. PCL 6 (PCL XL) bu sorunların bazılarını gidermek için tasarlanmış olsa da, PCL'nin önceki sürümleri kadar yaygın olarak desteklenmiyor ve bazı kullanıcılar belirli yazıcılarda uyumluluk sorunları bildirdi. Ayrıca PCL, masaüstü yayıncılık yazılımı gibi grafiklerin düzeni ve kalitesi üzerinde hassas kontrol gerektiren uygulamalardan yazdırma için uygun değildir.
Sonuç olarak, PCL görüntü formatı, onlarca yıldır baskı endüstrisinde bir standart olan PCL yazıcı dilinin ayrılmaz bir parçasıdır. Tasarımı, çok çeşitli yazıcılarda gömülü görüntüler içeren belgelerin verimli ve güvenilir bir şekilde yazdırılmasına olanak tanır. Yüksek kaliteli grafik baskısı için en iyi seçim olmasa da, kullanım kolaylığı ve çeşitli yazdırma görevleri için desteği, onu birçok işletme ve birey için değerli bir araç haline getirmektedir. PCL'nin teknik yönlerini ve görüntüleri nasıl işlediğini anlamak, BT uzmanları, yazılım geliştiricileri ve basılı belgelerin oluşturulması veya bakımıyla ilgilenen herkes için faydalı olabilir.
Bu dönüştürücü tamamen tarayıcınızda çalışır. Bir dosya seçtiğinizde, belleğe okunur ve seçilen biçime dönüştürülür. Ardından dönüştürülen dosyayı indirebilirsiniz.
Dönüştürmeler anında başlar ve çoğu dosya bir saniyeden kısa sürede dönüştürülür. Daha büyük dosyalar daha uzun sürebilir.
Dosyalarınız asla sunucularımıza yüklenmez. Tarayıcınızda dönüştürülürler ve dönüştürülen dosya daha sonra indirilir. Dosyalarınızı asla görmeyiz.
JPEG, PNG, GIF, WebP, SVG, BMP, TIFF ve daha fazlası dahil olmak üzere tüm resim formatları arasında dönüştürmeyi destekliyoruz.
Bu dönüştürücü tamamen ücretsizdir ve her zaman ücretsiz olacaktır. Tarayıcınızda çalıştığı için sunucular için ödeme yapmamıza gerek yoktur, bu nedenle sizden ücret almamıza gerek yoktur.
Evet! İstediğiniz kadar dosyayı aynı anda dönüştürebilirsiniz. Sadece eklerken birden fazla dosya seçin.