光学文字認識(OCR)は、テキストの画像(スキャン、スマートフォンの写真、PDF)を機械が読み取れる文字列に、そしてますます 構造化データに変換します。現代のOCRは、画像をクリーンアップし、テキストを見つけ、それを読み取り、豊富なメタデータをエクスポートするパイプラインであり、 下流のシステムがフィールドを検索、索引付け、または抽出できるようにします。広く使用されている2つの出力標準は、 hOCR、テキストとレイアウトのためのHTMLマイクロフォーマット、および ALTO XML、図書館/アーカイブ指向のスキーマです。どちらも位置、読み取り順序、その他のレイアウトの合図を保持し、Tesseractのような人気のあるエンジンでサポートされています。
前処理。 OCRの品質は、画像のクリーンアップから始まります:グレースケール変換、ノイズ除去、 しきい値処理(二値化)、および傾き補正。標準的なOpenCVのチュートリアルでは、グローバル、 適応型 および Otsu のしきい値処理が扱われています。これらは、不均一な照明やバイモーダルなヒストグラムを持つドキュメントの定番です。ページ内で照明が変化する場合 (電話のスナップショットを考えてみてください)、適応型メソッドは単一のグローバルしきい値よりも優れていることがよくあります。Otsu はヒストグラムを分析して自動的にしきい値を選択します。傾き補正も同様に重要です:Houghベースの 傾き補正(ハフライン変換)とOtsuの二値化を組み合わせることは、生産前処理パイプラインで一般的で効果的なレシピです。
検出と認識。 OCRは通常、テキスト検出(テキストはどこにあるか ?)とテキスト認識(何が書かれているか?)に分けられます。自然なシーンや多くのスキャンでは、 EAST のような完全畳み込み検出器は、重い提案段階なしで単語または行レベルの四辺形を効 率的に予測し、 一般的なツールキット(例: OpenCVのテキスト検出チュートリアル)に実装されています。複雑なページ(新聞、フォーム、書籍)では、行/領域のセグメンテーションと読み取り順序の推論が重要です:Kraken は、従来のゾーン/ラインセグメンテーションとニューラルベースラインセグメンテーションを実装しており、さまざまなスクリプトと方向(LTR / RTL /垂直)を明示的にサポートしています。
認識モデル。 古典的なオープンソースの主力製品である Tesseract (Googleによってオープンソース化され、HPにルーツを持つ)は、文字分類器からLSTMベースのシーケンス 認識器に進化し、検索可能なPDF、 hOCR / ALTOフレンドリーな出力などをCLIから出力できます。現代の認識器は、事前にセグメント化された文字なしでシーケンスモデリングに依存しています。 コネクショニスト時間分類(CTC) は、入力特徴シーケンスと出力ラベル文字列間のアライメントを学習する基礎であり続け、手書きおよびシーンテキストパイプラインで広く 使用されています。
過去数年間で、TransformerはOCRを再構築しました。 TrOCR は、ビジョントランスフォーマーエンコーダーとテキストトランスフォーマーデコーダーを使用し、大規模な合成コーパスでトレーニングされた後、 実際のデータで微調整され、印刷、手書き、シーンテキストのベンチマークで強力なパフォーマンスを発揮します( Hugging Faceのドキュメントも参照)。並行して、一部のシステムは下流の理解のためにOCRを回避します: Donut(Document Understanding Transformer) は、ドキュメント 画像から直接構造化された回答(キーと値のJSONなど)を出力するOCRフリーのエンコーダーデコーダーです(リポジトリ、 モデルカード)、別のOCRステップがIEシステムにフィードされるときのエラー蓄積を回避します。
多くのスクリプトでバッテリー付属のテキスト読み取りが必要な場合は、 EasyOCR が80以上の言語モデルを備えたシンプルなAPIを提供し、ボックス、テキスト、信頼度を返します。これはプロトタイプや 非ラテン文字のスクリプトに便利です。歴史的な文書の場合、 Kraken はベースラインセグメンテーションとスクリプト対応の読み取り順序で 優れています。柔軟な行レベルのトレーニングには、 Calamari がOcropyの系統に基づいて構築されています(Ocropy)(マルチ)LSTM + CTC認識器とカスタムモデルを微調整するためのCLIを備えています。
一般化はデータにかかっています。手書きの場合、 IAM手書きデータベース は、トレーニングと評価のために作家の多様な英語の文章を提供します。これは、 行と単語の認識のための長年の参照セットです。シーンテキストの場合、 COCO-Text は、MS-COCOに広範な注釈を重ね、印刷/手書き、判読可能/判読不能、スクリプト、および 完全な転写のラベルを付けました(元の プロジェクトページも参照)。この分野はまた、合成事前トレーニングに大きく依存しています: SynthText in the Wild は、リアルなジオメトリと照明でテキストを写真にレンダリングし、事前トレーニング 検出器と認識器に大量のデータを提供します(参照 コードとデータ)。
ICDARのRobust Reading の傘下での競争は、評価を現実的なものに保ちます。最近のタスクは、エンドツーエンドの検出/読み取りを強調し、単語を フレーズにリンクすることを含み、公式コードは 精度/再現率/ Fスコア、和集合上の積集合 (IoU)、および文字レベルの編集距離メトリックを報告します。これは、実践者が追跡すべきことを反映しています。
OCRはめったにプレーンテキストで終わりません。アーカイブやデジタルライブラリは ALTO XML を好みます。なぜなら、コンテンツとともに物理的なレイアウト(座標を持つブロック/行/単語)をエンコードし、 METSパッケージングとうまく連携するからです。 hOCR マイクロフォーマットは、対照的に、ocr_lineや ocrx_wordなどのクラスを使用して同じアイデアをHTML / CSSに埋め込み、Webツールで簡単に表示、編集、変換できるようにします。Tesseractは両方を公開しています。たとえば、 CLIから直接hOCRまたは検索可能なPDFを生成します(PDF出力ガイド)。 pytesseract のようなPythonラッパーは利便性を高めます。リポジトリに固定の取り込み 標準がある場合、hOCRとALTOの間で変換するためのコンバーターが存在します。この厳選されたリスト を参照してください OCRファイル形式ツール。
最も強力なトレンドは収束です:検出、認識、言語モデリング、さらにはタスク固有のデコードまで が統一されたTransformerスタックに統合されています。 大規模な合成コーパス での事前トレーニングは、依然として力の乗数です。OCRフリーモデルは、ターゲットが逐語的な転写ではなく構造化された出力である場所ならどこでも積極的に競争します。 ハイブリッド展開も期待してください:長文テキスト用の軽量検出器とTrOCRスタイルの 認識器、およびフォームとレシート用のDonutスタイルのモデル。
Tesseract (GitHub) · Tesseractドキュメント · hOCR仕様 · ALTOの背景 · EAST検出器 · OpenCVテキスト検出 · TrOCR · Donut · COCO-Text · SynthText · Kraken · Calamari OCR · ICDAR RRC · pytesseract · IAM手書き · OCRファイル形式ツール · EasyOCR
光学的文字認識(OCR)は、さまざまな形式のドキュメント(スキャンされた紙のドキュメント、PDFファイル、デジタルカメラで撮影された画像など)を編集可能で検索可能なデータに変換するために使用される技術です。
OCRは入力画像またはドキュメントをスキャンし、画像を個々の文字に分割し、各文字を形状認識または特徴認識を使用して文字形状のデータベースと比較します。
OCRは印刷文書のデジタル化、テキストから音声へのサービスの活用、デ ータ入力プロセスの自動化、視覚障害のあるユーザーがテキストとより良く対話できるようにするなど、さまざまな業界とアプリケーションで使用されています。
OCR技術は大幅に進歩していますが、それが無敵ではありません。精度は、元のドキュメントの品質と使用されているOCRソフトウェアの特性によって異なることがあります。
OCRは主に印刷されたテキストを認識するように設計されていますが、一部の高度なOCRシステムは明瞭で一貫性のある手書き文字も認識することができます。ただし、個々の文字スタイルの変動幅が広いため、手書き文字の認識は通常、印刷されたテキストの認識よりも精度が低いです。
はい、 多くのOCRソフトウェアは複数の言語を認識できます。ただし、特定の言語がサポートされていることを確認する必要があります。
OCRはOptical Character Recognition(光学的文字認識)の略で、印刷されたテキストを認識します。一方、ICRはIntelligent Character Recognition(知能的文字認識)の略で、より進んだ技術を使用して手書きのテキストを認識します。
OCRはクリアで読みやすいフォントと標準的な文字サイズを処理するのに最も適しています。それはさまざまなフォントとサイズを処理する能力を持っていますが、非常に小さい文字サイズや一般的でないフォントを処理するときには、その精度が下がる可能性があります。
OCRは低解像度のドキュメント、複雑なフォント、印刷品質が悪いテキスト、手書きのテキスト、またはテキストが含まれている背景からの混乱を処理するのに問題を抱えている可能性があります。さらに、それは多言語を处理する能力を持っていますが、すべての言語を完全にカバーすることはできない可能性があります。
はい、OCRはカラーテキストとカラーバックグラウンドをスキャンすることができますが、通常は黒いテキストと白いバックグラウンドといった高いコントラストの色の組み合わせに対して最も効果的です。テキストとバックグラウンドの色のコントラストが不十分な場合、その精度が下がる可能性があります。
ポータブルフロートマップ(PFM)ファイル形式は、あまり知られていないものの、特に画像データに高い忠実度と精度が求められる分 野では非常に重要な画像形式です。一般的な用途や Web グラフィックス用に設計された JPEG や PNG などの一般的な形式とは異なり、PFM 形式はハイダイナミックレンジ(HDR)画像データを格納して処理するために特別に設計されています。つまり、従来の 8 ビットまたは 16 ビットの画像形式よりもはるかに広い輝度レベルの範囲を表すことができます。PFM 形式は、各ピクセルの強度を表すために浮動小数点を使用することでこれを達成し、最も暗い影から最も明るいハイライトまで、ほぼ無制限の明るさの値を可能にします。
PFM ファイルは、HDR データを格納する際のシンプルさと効率性によって特徴付けられます。PFM ファイルは、本質的にヘッダーセクションとピクセルデータで構成されるバイナリファイルです。ヘッダーは人間が読める ASCII テキストで、画像の幅と高さなどの重要な情報を指定し、ピクセルデータがグレースケール形式または RGB 形式で格納されているかどうかを指定します。ヘッダーに続いて、ピクセルデータはバイナリ形式で格納され、各ピクセルの値は 32 ビット(グレースケール画像の場合)または 96 ビット(RGB 画像の場合)の IEEE 浮動小数点として表されます。この構造により、HDR 画像処理に必要な精度を提供しながら、ソフトウェアで形式を簡単に実装できます。
PFM 形式のユニークな側面の 1 つは、リトルエンディアンとビッグエンディアンの両方のバイトオーダーをサポートしていることです。この柔軟性により、互換性の問題なしにさまざまなコンピューティングプラットフォームで形式を使用できます。バイトオーダーは、ヘッダーの形式識別子で示されます。RGB 画像の場合は「PF」、グレースケール画像の場合は「Pf」です。識別子が大文字の場合、ファイルはビッグエンディアンバイトオーダーを使用することを意味します。小文字の場合は、ファイルはリトルエンディアンを使用します。このメカニズムはエレガントであるだけでなく、バイトオーダーが異なるシステム間でファイルが共有されるときに浮動小数点データの精度を維持するために不可欠です。
HDR 画像を表すという利点にもかかわらず、PFM 形式は、各ピクセルに浮動小数点表現を使用することによって生じる大きなファイルサイズのために、コンシューマーアプリケーションや Web グラフィックスでは広く使用されていません。さらに、ほとんどの表示デバイスとソフトウェアは、PFM ファイルが提供する高いダイナミックレンジと精度を処理するように設計されていません。その結果、PFM ファイルは、最高の画質と忠実度が求められるコンピューターグラフィックス研究、視覚効果制作、科学的視覚化などの専門分野で主に使用されています。
PFM ファイルの処理には、浮動小数点データを正確に読み書きできる特殊なソフトウェアが必要です。この形式の採用が限られているため、このようなソフトウェアはより普及している画像形式のツールよりも一般的ではありません。それにもかかわらず、いくつかのプロフェッショナルグレードの画像編集および処理アプリケーションは PFM ファイルをサポートしており、ユーザーは HDR コンテンツを操作できます。これらのツールは、表示や編集だけでなく、トーンマッピングやその他のテクニックを使用して可能な限りダイナミックレンジを維持しながら、PFM ファイルをより従来の形式に変換するための機能を備えていることがよくあります。
PFM ファイルを扱う上で最も重要な課題の 1 つは、コンシューマーハードウェアとソフトウェアで HDR コンテンツが広くサポートされていないことです。近年、HDR サポートは徐々に増加しており、より新しいディスプレイやテレビはより広い範囲の輝度レベルを表示できますが、エコシステムはまだ追いつきつつあります。この状況により、PFM ファイルをより広く互換性のある形式に変換する必要が生じることがよくありますが、PFM 形式を専門的な用途で非常に価値のあるものにするダイナミックレンジと精度のいくつかが失われます。
HDR 画像を格納するという主な役割に加えて、PFM 形式はシンプルさも特徴であり、コンピューターグラフィックスや画像処理の教育目的や実験プロジェクトに最適な選択肢となっています。その単純な構造により、学生や研究者は複雑なファイル形式の仕様に煩わされることなく、HDR データを簡単に理解して操作できます。この使いやすさは、形式の精度と柔軟性と相まって、PFM を学術および研究の設定において貴重なツールにしています。
PFM 形式のもう 1 つの技術的な特徴は、IEEE 浮動小数点表現を使用しているため、無限数とサブノーマル数をサポートしていることです。この機能は、極端な値や非常に細かいデータの階調を表現する必要がある科学的視覚化や特定の種類のコンピューターグラフィックス作業で特に役立ちます。たとえば、物理現象のシミュレーションや非常に明るい光源のあるシーンのレンダリングでは、非常に高いまたは非常に低い強度値を正確に表現する機能が不可欠になる場合があります。
ただし、PFM 形式の浮動小数点精度の利点は、特に大きな画像の場合、これらのファイルを処理するときの計算需要の増加を伴います。各ピクセルの値は浮動小数点であるため、画像のスケーリング、フィルタリング、またはトーンマッピングなどの操作は、従来の整数ベースの画像形式よりも計算負荷が高くなる可能性があります。この処理能力の要件は、リアルタイムアプリケーションや機能が限られたハードウェアでは制限になる可能性があります。それにもかかわらず、最高の画質が最優先されるアプリケーションでは、これらの計算上の課題よりも利点がはるかに大きくなります。
PFM 形式には、ヘッダーにスケールファクターとエンディアンネスを指定するための規定も含まれており、さらに汎用性が高まります。スケールファクターは、ファイルのピクセル値の数値範囲によって表される物理的な明るさの範囲をファイルが示すことができる浮動小数点です。この機能は、PFM ファイルがさまざまなプロジェクトで使用されたり、共同作業者間で共有されたりする場合に、ピクセル値が現実世界の輝度値とどのように関連するかを明確に理解するために不可欠です。
PFM 形式の技術的な利点にもかかわらず、ニッチな専門的および学術的環境を超えて広く採用されるという点で大きな課題に直面しています。PFM ファイルを処理するための特殊なソフトウェアの必要性と、大きなファイルサイズと計算需要が相まって、その使用はより普及している形式と比較して限定されています。PFM 形式がより広く受け入れられるためには、HDR コンテンツを表 示できる利用可能なハードウェアと、高忠実度、高ダイナミックレンジの画像をサポートするソフトウェアエコシステムの両方で大きな変化が必要になります。
将来を見据えると、PFM 形式と HDR 画像処理の未来は、ディスプレイ技術と画像処理アルゴリズムの進歩に関連しています。より広い範囲の輝度レベルを提示できるディスプレイが普及し、計算リソースがよりアクセスしやすくなると、PFM などの HDR 形式を使用することの障害が軽減される可能性があります。さらに、浮動小数点画像データを処理するためのより効率的なアルゴリズムの継続的な研究により、PFM ファイルと従来の画像形式の処理間の性能差が縮小し、より広範なアプリケーションで HDR 画像処理の採用がさらに促進される可能性があります。
結論として、ポータブルフロートマップ(PFM)形式は、ハイダイナミックレンジ画像処理の分野における重要なテクノロジーであり、幅広い輝度レベルを表すために比類のない精度と柔軟性を提供します。その複雑さと、特殊なソフトウェアとハードウェアの必要性により、専門的および学術的なコンテキストへの採用が制限されていますが、PFM 形式の機能は、画像の忠実度が最優先される場合に非常に貴重な資産となります。テクノロジーエコシステムが進化し続けるにつれて、PFM と HDR コンテンツが主流のアプリケーションにさらに統合され、より幅広い視聴者に視覚体験が豊かになる可能性があります。
このコンバーターはブラウザ内で完全に動作します。ファイルを選択すると、メモリに読み込まれ、選択したフォーマットに変換されます。その後、変換されたファイルをダウンロードできます。
変換は瞬時に開始され、ほとんどのファイルは1秒以内に変換されます。大きなファイルの場合、時間がかかる場合があります。
ファイルは決してサーバにアップロードされません。ブラウザ内で変換され、変換されたファイルがダウンロードされます。ファイルは見られません。
画像フォーマット間の変換すべてに対応しています。JPEG、PNG、GIF、WebP、SVG、BMP、TIFFなどです。
このコンバーターは完全に無料で、永久に無料のままです。ブラウザ内で動作するため、サーバを用意する必要がないので、料金を請求する必要がありません。
はい、一度に複数のファイルを変換できます 。追加時に複数のファイルを選択してください。