Optik Karakter Tanıma (OCR) metin resimlerini—taramaları, akıllı telefon fotoğraflarını, PDF'leri—makine tarafından okunabilir dizelere ve giderek artan bir şekilde yapılandırılmış verilere dönüştürür. Modern OCR, bir görüntüyü temizleyen, metni bulan, okuyan ve zengin meta verileri dışa aktaran bir boru hattıdır böylece alt sistemler alanları arayabilir, dizine ekleyebilir veya çıkarabilir. Yaygın olarak kullanılan iki çıktı standardı şunlardır: hOCR, metin ve düzen için bir HTML mikroformatı ve ALTO XML, bir kütüphane/arşiv odaklı şema; her ikisi de konumları, okuma sırasını ve diğer düzen ipuçlarını korur ve gibi popüler motorlar tarafından desteklenir Tesseract.
Ön işleme. OCR kalitesi görüntü temizleme ile başlar: gri tonlamaya dönüştürme, gürültü giderme, eşikleme (ikili hale getirme) ve eğrilik düzeltme. Kanonik OpenCV eğitimleri küresel, uyarlanabilir ve Otsu eşikleme—düzensiz aydınlatmalı veya bimodal histogramlı belgeler için temel unsurlar. Bir sayfa içinde aydınlatma değiştiğinde (telefon fotoğraflarını düşünün), uyarlanabilir yöntemler genellikle tek bir küresel eşikten daha iyi performans gösterir; Otsu histogramı analiz ederek otomatik olarak bir eşik seçer. Eğim düzeltme de aynı derecede önemlidir: Hough tabanlı eğrilik düzeltme (Hough Çizgi Dönüşümü) Otsu ikilileştirmesi ile eşleştirilmiş, üretim ön işleme boru hatlarında yaygın ve etkili bir reçetedir.
Tespit ve tanıma. OCR tipik olarak metin tespiti (metin nerede ?) ve metin tanıma (ne diyor?) olarak ikiye ayrılır. Doğal sahnelerde ve birçok taramada, tamamen evrişimli dedektörler gibi EAST ağır teklif aşamaları olmadan kelime veya satır düzeyinde dörtgenleri verimli bir şekilde tahmin eder ve yaygın araç setlerinde (ör. OpenCV’nin metin tespiti eğitimi) uygulanır. Karmaşık sayfalarda (gazeteler, formlar, kitaplar), satırların/bölgelerin segmentasyonu ve okuma sırası çıkarımı önemlidir:Kraken geleneksel bölge/satır segmentasyonunu ve sinirsel temel çizgi segmentasyonunu uygular, farklı komut dosyaları ve yönler (LTR/RTL/dikey) için açık destek ile.
Tanıma modelleri. Klasik açık kaynaklı iş gücü Tesseract (Google tarafından açık kaynaklı hale getirildi, kökleri HP'ye dayanıyor) bir karakter sınıflandırıcısından LSTM tabanlı bir dizi tanıyıcıya dönüştü ve aranabilir PDF'ler, hOCR/ALTO dostu çıktılarve daha fazlasını CLI'den yayabilir. Modern tanıyıcılar, önceden bölümlenmiş karakterler olmadan dizi modellemesine güvenir. Bağlantıcı Geçici Sınıflandırma (CTC) temel olmaya devam ediyor, girdi özellik dizileri ve çıktı etiket dizileri arasındaki hizalamaları öğreniyor; el yazısı ve sahne metni boru hatlarında yaygın olarak kullanılıyor.
Son birkaç yılda, Transformer'lar OCR'yi yeniden şekillendirdi. TrOCR bir görüş Transformer kodlayıcı artı bir metin Transformer kod çözücü kullanır, büyük sentetik korpuslar üzerinde eğitilmiş ve ardından gerçek veriler üzerinde ince ayar yapılmış, basılı, el yazısı ve sahne metni karşılaştırmalarında güçlü performansla (ayrıca bkz. Hugging Face belgeleri). Paralel olarak, bazı sistemler alt akım anlama için OCR'yi atlar: Donut (Belge Anlama Transformer'ı) doğrudan yapılandırılmış cevaplar (anahtar-değer JSON gibi) üreten OCR'siz bir kodlayıcı-kod çözücüdür belge resimlerinden (repo, model kartı), ayrı bir OCR adımı bir IE sistemini beslediğinde hata birikimini önler.
Birçok komut dosyasında pille birlikte metin okuma istiyorsanız, EasyOCR 80'den fazla dil modeliyle basit bir API sunar, kutular, metin ve güvenilirlikler döndürür—prototipler ve Latin olmayan komut dosyaları için kullanışlıdır. Tarihi belgeler için, Kraken temel çizgi segmentasyonu ve komut dosyasına duyarlı okuma sırası ile parlar; esnek satır düzeyinde eğitim için, Calamari Ocropy soyundan gelir (Ocropy) (çoklu)LSTM+CTC tanıyıcıları ve özel modelleri ince ayarlamak için bir CLI ile.
Genelleme verilere bağlıdır. El yazısı için, IAM El Yazısı Veritabanı eğitim ve değerlendirme için yazar açısından çeşitli İngilizce cümleler sağlar; bu, satır ve kelime tanıma için uzun süredir devam eden bir referans setidir. Sahne metni için, COCO-Text MS-COCO üzerine kapsamlı ek açıklamalar katmanladı, basılı/el yazısı, okunaklı/okunaksız, komut dosyası ve tam transkripsiyonlar için etiketlerle (ayrıca orijinal proje sayfasınabakın). Alan ayrıca sentetik ön eğitime de büyük ölçüde güvenir: Vahşi Doğada SynthText gerçekçi geometri ve aydınlatma ile fotoğraflara metin işler, önceden eğitmek için büyük hacimli veriler sağlar dedektörler ve tanıyıcılar (referans kod ve veri).
ICDAR’ın Sağlam Okuma şemsiyesi altındaki yarışmalar değerlendirmeyi temellendirir. Son görevler uçtan uca tespit/okumayı vurgular ve kelimeleri ifadelere bağlamayı içerir, resmi kod raporlaması kesinlik/geri çağırma/F-skoru, kesişim-üzeri-birleşim (IoU) ve karakter düzeyinde düzenleme mesafesi metrikleri—uygulayıcıların izlemesi gerekenleri yansıtır.
OCR nadiren düz metinle biter. Arşivler ve dijital kütüphaneler ALTO XML 'i tercih eder çünkü içeriğin yanı sıra fiziksel düzeni (koordinatlı bloklar/satırlar/kelimeler) kodlar ve METS paketlemesiyle iyi eşleşir. hOCR mikroformatı ise aynı fikri ocr_line ve ocrx_word gibi sınıfları kullanarak HTML/CSS'ye gömer, bu da web araçlarıyla görüntülemeyi, düzenlemeyi ve dönüştürmeyi kolaylaştırır. Tesseract her ikisini de sunar—örneğin, doğrudan CLI'den hOCR veya aranabilir PDF'ler oluşturma (PDF çıktı kılavuzu); pytesseract gibi Python sarmalayıcıları kolaylık sağlar. Depoların sabit alım standartları olduğunda hOCR ve ALTO arasında çeviri yapmak için dönüştürücüler mevcuttur—bu derlenmiş listeye bakın OCR dosya formatı araçları.
En güçlü eğilim yakınsamadır: tespit, tanıma, dil modelleme ve hatta göreve özgü kod çözme birleşik Transformer yığınlarında birleşiyor. büyük sentetik korpuslar üzerinde ön eğitim bir güç çarpanı olmaya devam ediyor. OCR'siz modeller, hedefin kelimesi kelimesine transkriptler yerine yapılandırılmış çıktılar olduğu her yerde agresif bir şekilde rekabet edecektir. Hibrit dağıtımlar da bekleyin: uzun biçimli metin için hafif bir dedektör artı bir TrOCR tarzı tanıyıcı ve formlar ve makbuzlar için bir Donut tarzı model.
Tesseract (GitHub) · Tesseract belgeleri · hOCR özellikleri · ALTO arka planı · EAST dedektörü · OpenCV metin tespiti · TrOCR · Donut · COCO-Text · SynthText · Kraken · Calamari OCR · ICDAR RRC · pytesseract · IAM el yazısı · OCR dosya formatı araçları · EasyOCR
Optical Character Recognition (OCR), tarama yapılan kağıt belgeler, PDF dosyaları veya dijital bir kamera ile çekilen fotoğraflar gibi çeşitli belgeleri düzenlenebilir ve aranabilir bilgilere çevirmek için kullanılan bir teknolojidir.
OCR, giriş görüntüsünü veya belgeyi tarayarak, görüntüyü bireysel karakterlere ayırarak ve her karakteri bir karakter şekli veritabanı ile pattern recognition veya feature recognition kullanarak karşılaştırarak çalışır.
OCR, basılı belgelerin dijitalleştirilmesi, metinden sesli hizmetlerin etkinleştirilmesi, veri giriş süreçlerinin otomatikleştirilmesi ve görme engelli kullanıcıların metinle daha iyi etkileşim kurması gibi farklı sektörlerde ve uygulamalarda kullanılır.
OCR teknolojisinde büyük gelişmeler kaydedilmiş olmasına rağmen, hâlâ hatalar olabilir. Doğruluk, orijinal belgenin kalitesine ve kullanılan OCR yazılımının özelliklerine bağlı olarak değişir.
OCR, temel olarak basılmış metin için tasarlanmıştır, ancak bazı gelişmiş OCR sistemleri, net ve tutarlı el yazısını da tanıyabilir. Ancak, bireysel yazı stillerindeki büyük varyasyonlar nedeniyle, genellikle el yazısının tanınması daha az doğrudur.
Evet, birçok OCR yazılım sistemi birden fazla dili tanıyabilir. Ancak, belirli bir dilin desteklendiğinden emin olmak için kullanılan yazılımı kontrol etmek önemlidir.
OCR, Optical Character Recognition anlamına gelir ve basılı metni tanımak için kullanılır, ICR ise Intelligent Character Recognition anlamına gelir ve daha gelişmiş olup el yazısını tanımak için kullanılır.
OCR, açık, okunabilir fontlar ve standart metin boyutlarıyla en iyi sonucu verir. Farklı fontlar ve boyutlarla da çalışabilir, ancak alışılmadık fontlar veya çok küçük metin boyutlarıyla karşılaştığında doğruluk genellikle azalır.
OCR, düşük çözünürlüklü belgeler, karmaşık fontlar, zayıf basılan metinler, el yazısı ve metni engelleyen arka planları olan belgelerle zorlanabilir. Ayrıca, birçok dili destekleyebilme özelliğine rağmen, her dili mükemmel bir şekilde kapsayamayabilir.
Evet, OCR, renkli metin ve arka planları tarayabilir, ancak genellikle yüksek kontrastlı renk kombinasyonları, örneğin beyaz arka plan üzerinde siyah metin, ile daha etkilidir. Metin ve arka plan rengi yeterli kontrast oluşturmadığında doğruluk düşebilir.
JPEG 2000 Kod Akışı olarak da bilinen J2C görüntü formatı, JPEG 2000 standartları paketinin bir parçasıdır. JPEG 2000'in kendisi, Joint Photographic Experts Group komitesi tarafından orijinal JPEG standardının yerini almak amacıyla oluşturulmuş bir görüntü sıkıştırma standardı ve kodlama sistemidir. JPEG 2000 standardı, JPEG'e göre yüksek esnekliğe ve gelişmiş performansa sahip yeni bir görüntü kodlama sistemi sağlama hedefi ile oluşturulmuştur. JPEG formatının düşük bit hızlarında zayıf performans ve ölçeklenebilirlik eksikliği gibi bazı sınırlamalarını gidermek için tasarlanmıştır.
JPEG 2000, orijinal JPEG standardında kullanılan ayrık kosinüs dönüşümü (DCT) yerine dalgacık dönüşümü kullanır. Dalgacık dönüşümü, daha yüksek bir ölçeklenebilirlik derecesi ve kayıpsız sıkıştırma gerçekleştirme olanağı sağlar; bu da orijinal görüntünün sıkıştırılmış verilerden mükemmel bir şekilde yeniden oluşturulabileceği anlamına gelir. Bu, sıkıştırma işlemi sırasında kalıcı olarak bazı görüntü bilgilerini kaybeden orijinal JPEG'in kayıplı sıkıştırmasına göre önemli bir avantajdır.
J2C dosya formatı, özellikle JPEG 2000'in kod akışını ifade eder. Bu kod akışı, JP2 (JPEG 2000 Bölüm 1 dosya formatı), JPX (JPEG 2000 Bölüm 2, genişletilmiş dosya formatı) ve MJ2 (video için Motion JPEG 2000 dosya formatı) gibi çeşitli kapsayıcı formatlara gömülebilen gerçek kodlanmış görüntü verileridir. J2C formatı, esasen bir kapsayıcı format tarafından sağlanabilecek herhangi bir ek meta veri veya yapı içermeyen ham, kodlanmış görüntü verileridir.
J2C formatının temel özelliklerinden biri, aynı dosya içinde hem kayıpsız hem de kayıplı sıkıştırmayı desteklemesidir. Bu, kayıpsız sıkıştırma için tersinir bir dalgacık dönüşümü ve kayıplı sıkıştırma için tersinmez bir dalgacık dönüşümü kullanılmasıyla elde edilir. Kayıpsız ve kayıplı sıkıştırma arasındaki seçim, görüntünün fayans bazında yapılabilir ve içeriğin önemine bağlı olarak yüksek kaliteli ve düşük kaliteli bölgelerin bir karışımına olanak tanır.
J2C formatı ayrıca, "ilerici kod çözme" olarak bilinen bir özelliği destekleyerek oldukça ölçeklenebilirdir. Bu, görüntünün düşük çözünürlüklü bir sürümünün önce kodunun çözülebileceği ve görüntü verilerinin daha fazlası alındıkça veya işlendikçe daha yüksek çözünürlüklü ardışık katmanların takip edebileceği anlamına gelir. Bu, bant genişliğinin sınırlı olabileceği ağ uygulamaları için özellikle kullanışlıdır, çünkü tam, yüksek çözünürlüklü görüntü hala indirilirken görüntünün hızlı bir önizlemesine olanak tanır.
J2C formatının bir diğer önemli yönü, ilgi alanlarını (ROI) desteklemesidir. ROI kodlamasıyla, görüntünün belirli bölümleri görüntünün geri kalanından daha yüksek bir kalitede kodlanabilir. Bu, görüntünün belirli alanlarının daha önemli olduğu ve daha yüksek doğrulukla korunması gerektiği durumlarda, örneğin bir portredeki yüzler veya bir belgedeki metin gibi durumlarda kullanışlıdır.
J2C formatı ayrıca, iletim sırasında veri kaybına karşı daha dayanıklı hale getiren gelişmiş hata dayanıklılığı özelliklerini de içerir. Bu, hata düzeltme kodlarının kullanılması ve kod akışının kayıp paketlerin kurtarılmasına izin verecek şekilde yapılandırılmasıyla elde edilir. Bu, J2C'yi güvenilmez ağlar üzerinden görüntü iletmek veya potansiyel veri bozulmasının etkisini en aza indirecek şekilde görüntü depolamak için iyi bir seçim haline getirir.
J2C'deki renk uzayı işleme de orijinal JPEG'e göre daha gelişmiştir. Format, gri tonlama, RGB, YCbCr ve diğerleri dahil olmak üzere çok çeşitli renk uzaylarını destekler. Ayrıca, aynı görüntünün farklı fayanslarında farklı renk uzaylarının kullanılmasına izin vererek görüntülerin nasıl kodlandığı ve temsil edildiği konusunda ek esneklik sağlar.
J2C formatının sıkıştırma verimliliği, bir diğer güçlü yönüdür. Dalgacık dönüşümü ve aritmetik kodlama gibi gelişmiş entropi kodlama tekniklerini kullanarak J2C, özellikle daha düşük bit hızlarında orijinal JPEG'e göre daha yüksek sıkıştırma oranları elde edebilir. Bu, depolama alanı veya bant genişliğinin önemli olduğu mobil cihazlar veya web uygulamaları gibi uygulamalar için onu çekici bir seçenek haline getirir.
Birçok avantajına rağmen, J2C formatı orijinal JPEG formatına kıyasla yaygın bir şekilde benimsenmemiştir. Bunun nedeni kısmen, görüntü kodlamak ve kodunu çözmek için daha fazla hesaplama kaynağı gerektiren JPEG 2000 standardının daha büyük karmaşıklığından kaynaklanmaktadır. Ek olarak, orijinal JPEG formatı birçok sistemde derinlemesine yerleşmiştir ve yeni bir standardın yer edinmesini zorlaştıran çok sayıda yazılım ve donanım desteğine sahiptir.
Bununla birlikte, belirli uzmanlık alanlarında, J2C formatı özel özellikleri nedeniyle tercih edilen seçim haline gelmiştir. Örneğin, tıbbi görüntülemede kayıpsız sıkıştırma gerçekleştirme yeteneği ve yüksek dinamik aralık ve yüksek bit derinliğine sahip görüntüleri destekleme, J2C'yi ideal bir format haline getirir. Benzer şekilde, dijital sinema ve video arşivlemede, formatın yüksek sıkıştırma oranlarında yüksek kalitesi ve ölçeklenebilirlik özellikleri oldukça değerlidir.
Bir J2C görüntüsünün kodlama süreci birkaç adımı içerir. İlk olarak, görüntü bağımsız olarak işlenebilen fayanslara bölünür. Bu fayanslama, paralel işlemeyi sağlar ve kodlama ve kod çözme işlemlerinin verimliliğini artırabilir. Daha sonra her fayans, kayıpsız veya kayıplı sıkıştırmanın istenip istenmediğine bağlı olarak tersinir veya tersinmez bir dalgacık dönüşümü kullanılarak dönüştürülür.
Dalgacık dönüşümünden sonra, katsayılar nicelenir; bu, dalgacık katsayılarının hassasiyetinin azaltılmasını içerir. Kayıpsız sıkıştırmada, niceleme bu adımı atlar, çünkü niceleme hatalara neden olur. Nicelenmiş katsayılar daha sonra, görüntü içeriğinin istatistiksel özelliklerinden yararlanarak verilerin boyutunu azaltan aritmetik kodlama kullanılarak entropi kodlanır.
Kodlama sürecindeki son adım, kod akışının birleştirilmesidir. Her fayans için entropi kodlu veriler, görüntüyü ve nasıl kodlandığını tanımlayan başlık bilgileriyle birleştirilir. Bu, görüntünün boyutu, fayans sayısı, kullanılan dalgacık dönüşümü, niceleme parametreleri ve diğer ilgili veriler hakkındaki bilgileri içerir. Ortaya çıkan kod akışı daha sonra bir J2C dosyasında saklanabilir veya bir kapsayıcı formata gömülebilir.
Bir J2C görüntüsünün kodunu çözmek, esasen kodlama sürecini tersine çevirmeyi içerir. Kod akışı, başlık bilgilerini ve her fayans için entropi kodlu verileri çıkarmak üzere ayrıştırılır. Entropi kodlu veriler daha sonra nicelenmiş dalgacık katsayılarını kurtarmak için kodunun çözülür. Görüntü kayıplı sıkıştırma kullanılarak sıkıştırılmışsa, katsayılar daha sonra orijinal değerlerine yaklaştırmak için nicelenir. Ters dalgacık dönüşümü, görüntüyü dalgacık katsayılarından yeniden oluşturmak için uygulanır ve fayanslar son görüntüyü oluşturmak için bir araya getirilir.
Sonuç olarak, J2C görüntü formatı, daha iyi sıkıştırma verimliliği, ölçeklenebilirlik ve kayıpsız sıkıştırma gerçekleştirme yeteneği de dahil olmak üzere orijinal JPEG formatına göre çeşitli avantajlar sunan güçlü ve esnek bir görüntü kodlama sistemidir. JPEG ile aynı yaygınlık düzeyine ulaşmamış olsa da, yüksek kaliteli görüntüler gerektiren veya belirli teknik gereksinimleri olan uygulamalar için oldukça uygundur. Teknolojinin gelişmeye devam etmesi ve daha gelişmiş görüntü kodlama sistemlerine olan ihtiyacın artmasıyla birlikte, J2C formatı çeşitli alanlarda daha fazla benimsenme görebilir.
Bu dönüştürücü tamamen tarayıcınızda çalışır. Bir dosya seçtiğinizde, belleğe okunur ve seçilen biçime dönüştürülür. Ardından dönüştürülen dosyayı indirebilirsiniz.
Dönüştürmeler anında başlar ve çoğu dosya bir saniyeden kısa sürede dönüştürülür. Daha büyük dosyalar daha uzun sürebilir.
Dosyalarınız asla sunucularımıza yüklenmez. Tarayıcınızda dönüştürülürler ve dönüştürülen dosya daha sonra indirilir. Dosyalarınızı asla görmeyiz.
JPEG, PNG, GIF, WebP, SVG, BMP, TIFF ve daha fazlası dahil olmak üzere tüm resim formatları arasında dönüştürmeyi destekliyoruz.
Bu dönüştürücü tamamen ücretsizdir ve her zaman ücretsiz olacaktır. Tarayıcınızda çalıştığı için sunucular için ödeme yapmamıza gerek yoktur, bu nedenle sizden ücret almamıza gerek yoktur.
Evet! İstediğiniz kadar dosyayı aynı anda dönüştürebilirsiniz. Sadece eklerken birden fazla dosya seçin.