光学文字認識(OCR)は、テキストの画像(スキャン、スマートフォンの写真、PDF)を機械が読み取れる文字列に、そしてますます 構造化データに変換します。現代のOCRは、画像をクリーンアップし、テキストを見つけ、それを読み取り、豊富なメタデータをエクスポートするパイプラインであり、 下流のシステムがフィールドを検索、索引付け、または抽出できるようにします。広く使用されている2つの出力標準は、 hOCR、テキストとレイアウトのためのHTMLマイクロフォーマット、および ALTO XML、図書館/アーカイブ指向のスキーマです。どちらも位置、読み取り順序、その他のレイアウトの合図を保持し、Tesseractのような人気のあるエンジンでサポートされています。
前処理。 OCRの品質は、画像のクリーンアップから始まります:グレースケール変換、ノイズ除去、 しきい値処理(二値化)、および傾き補正。標準的なOpenCVのチュートリアルでは、グローバル、 適応型 および Otsu のしきい値処理が扱われています。これらは、不均一な照明やバイモーダルなヒストグラムを持つドキュメントの定番です。ページ内で照明が変化する場合 (電話のスナップショットを考えてみてください)、適応型メソッドは単一のグローバルしきい値よりも優れていることがよくあります。Otsu はヒストグラムを分析して自動的にしきい値を選択します。傾き補正も同様に重要です:Houghベースの 傾き補正(ハフライン変換)とOtsuの二値化を組み合わせることは、生産前処理パイプラインで一般的で効果的なレシピです。
検出と認識。 OCRは通常、テキスト検出(テキストはどこにあるか ?)とテキスト認識(何が書かれているか?)に分けられます。自然なシーンや多くのスキャンでは、 EAST のような完全畳み込み検出器は、重い提案段階なしで単語または行レベルの四辺形を効 率的に予測し、 一般的なツールキット(例: OpenCVのテキスト検出チュートリアル)に実装されています。複雑なページ(新聞、フォーム、書籍)では、行/領域のセグメンテーションと読み取り順序の推論が重要です:Kraken は、従来のゾーン/ラインセグメンテーションとニューラルベースラインセグメンテーションを実装しており、さまざまなスクリプトと方向(LTR / RTL /垂直)を明示的にサポートしています。
認識モデル。 古典的なオープンソースの主力製品である Tesseract (Googleによってオープンソース化され、HPにルーツを持つ)は、文字分類器からLSTMベースのシーケンス 認識器に進化し、検索可能なPDF、 hOCR / ALTOフレンドリーな出力などをCLIから出力できます。現代の認識器は、事前にセグメント化された文字なしでシーケンスモデリングに依存しています。 コネクショニスト時間分類(CTC) は、入力特徴シーケンスと出力ラベル文字列間のアライメントを学習する基礎であり続け、手書きおよびシーンテキストパイプラインで広く 使用されています。
過去数年間で、TransformerはOCRを再構築しました。 TrOCR は、ビジョントランスフォーマーエンコーダーとテキストトランスフォーマーデコーダーを使用し、大規模な合成コーパスでトレーニングされた後、 実際のデータで微調整され、印刷、手書き、シーンテキストのベンチマークで強力なパフォーマンスを発揮します( Hugging Faceのドキュメントも参照)。並行して、一部のシステムは下流の理解のためにOCRを回避します: Donut(Document Understanding Transformer) は、ドキュメント 画像から直接構造化された回答(キーと値のJSONなど)を出力するOCRフリーのエンコーダーデコーダーです(リポジトリ、 モデルカード)、別のOCRステップがIEシステムにフィードされるときのエラー蓄積を回避します。
多くのスクリプトでバッテリー付属のテキスト読み取りが必要な場合は、 EasyOCR が80以上の言語モデルを備えたシンプルなAPIを提供し、ボックス、テキスト、信頼度を返します。これはプロトタイプや 非ラテン文字のスクリプトに便利です。歴史的な文書の場合、 Kraken はベースラインセグメンテーションとスクリプト対応の読み取り順序で 優れています。柔軟な行レベルのトレーニングには、 Calamari がOcropyの系統に基づいて構築されています(Ocropy)(マルチ)LSTM + CTC認識器とカスタムモデルを微調整するためのCLIを備えています。
一般化はデータにかかっています。手書きの場合、 IAM手書きデータベース は、トレーニングと評価のために作家の多様な英語の文章を提供します。これは、 行と単語の認識のための長年の参照セットです。シーンテキストの場合、 COCO-Text は、MS-COCOに広範な注釈を重ね、印刷/手書き、判読可能/判読不能、スクリプト、および 完全な転写のラベルを付けました(元の プロジェクトページも参照)。この分野はまた、合成事前トレーニングに大きく依存しています: SynthText in the Wild は、リアルなジオメトリと照明でテキストを写真にレンダリングし、事前トレーニング 検出器と認識器に大量のデータを提供します(参照 コードとデータ)。
ICDARのRobust Reading の傘下での競争は、評価を現実的なものに保ちます。最近のタスクは、エンドツーエンドの検出/読み取りを強調し、単語を フレーズにリンクすることを含み、公式コードは 精度/再現率/ Fスコア、和集合上の積集合 (IoU)、および文字レベルの編集距離メトリックを報告します。これは、実践者が追跡すべきことを反映しています。
OCRはめったにプレーンテキストで終わりません。アーカイブやデジタルライブラリは ALTO XML を好みます。なぜなら、コンテンツとともに物理的なレイアウト(座標を持つブロック/行/単語)をエンコードし、 METSパッケージングとうまく連携するからです。 hOCR マイクロフォーマットは、対照的に、ocr_lineや ocrx_wordなどのクラスを使用して同じアイデアをHTML / CSSに埋め込み、Webツールで簡単に表示、編集、変換できるようにします。Tesseractは両方を公開しています。たとえば、 CLIから直接hOCRまたは検索可能なPDFを生成します(PDF出力ガイド)。 pytesseract のようなPythonラッパーは利便性を高めます。リポジトリに固定の取り込み 標準がある場合、hOCRとALTOの間で変換するためのコンバーターが存在します。この厳選されたリスト を参照してください OCRファイル形式ツール。
最も強力なトレンドは収束です:検出、認識、言語モデリング、さらにはタスク固有のデコードまで が統一されたTransformerスタックに統合されています。 大規模な合成コーパス での事前トレーニングは、依然として力の乗数です。OCRフリーモデルは、ターゲットが逐語的な転写ではなく構造化された出力である場所ならどこでも積極的に競争します。 ハイブリッド展開も期待してください:長文テキスト用の軽量検出器とTrOCRスタイルの 認識器、およびフォームとレシート用のDonutスタイルのモデル。
Tesseract (GitHub) · Tesseractドキュメント · hOCR仕様 · ALTOの背景 · EAST検出器 · OpenCVテキスト検出 · TrOCR · Donut · COCO-Text · SynthText · Kraken · Calamari OCR · ICDAR RRC · pytesseract · IAM手書き · OCRファイル形式ツール · EasyOCR
光学的文字認識(OCR)は、さまざまな形式のドキュメント(スキャンされた紙のドキュメント、PDFファイル、デジタルカメラで撮影された画像など)を編集可能で検索可能なデータに変換するために使用される技術です。
OCRは入力画像またはドキュメントをスキャンし、画像を個々の文字に分割し、各文字を形状認識または特徴認識を使用して文字形状のデータベースと比較します。
OCRは印刷文書のデジタル化、テキストから音声へのサービスの活用、デ ータ入力プロセスの自動化、視覚障害のあるユーザーがテキストとより良く対話できるようにするなど、さまざまな業界とアプリケーションで使用されています。
OCR技術は大幅に進歩していますが、それが無敵ではありません。精度は、元のドキュメントの品質と使用されているOCRソフトウェアの特性によって異なることがあります。
OCRは主に印刷されたテキストを認識するように設計されていますが、一部の高度なOCRシステムは明瞭で一貫性のある手書き文字も認識することができます。ただし、個々の文字スタイルの変動幅が広いため、手書き文字の認識は通常、印刷されたテキストの認識よりも精度が低いです。
はい、 多くのOCRソフトウェアは複数の言語を認識できます。ただし、特定の言語がサポートされていることを確認する必要があります。
OCRはOptical Character Recognition(光学的文字認識)の略で、印刷されたテキストを認識します。一方、ICRはIntelligent Character Recognition(知能的文字認識)の略で、より進んだ技術を使用して手書きのテキストを認識します。
OCRはクリアで読みやすいフォントと標準的な文字サイズを処理するのに最も適しています。それはさまざまなフォントとサイズを処理する能力を持っていますが、非常に小さい文字サイズや一般的でないフォントを処理するときには、その精度が下がる可能性があります。
OCRは低解像度のドキュメント、複雑なフォント、印刷品質が悪いテキスト、手書きのテキスト、またはテキストが含まれている背景からの混乱を処理するのに問題を抱えている可能性があります。さらに、それは多言語を处理する能力を持っていますが、すべての言語を完全にカバーすることはできない可能性があります。
はい、OCRはカラーテキストとカラーバックグラウンドをスキャンすることができますが、通常は黒いテキストと白いバックグラウンドといった高いコントラストの色の組み合わせに対して最も効果的です。テキストとバックグラウンドの色のコントラストが不十分な場合、その精度が下がる可能性があります。
Photoshopドキュメントを表すPSD形式は、広く使用されているPhotoshopソフトウェア用にAdobe Inc.によって開発された独自のファイルタイプです。その誕生以来、デジタルアートやグラフィックデザイン業界の定番となり、その柔軟性とさまざまな画像編集テクニックに対する包括的なサポートで有名です。この形式は、レイヤー、マスク、色、さらには履歴状態など、画像の完全な編集履歴を格納するように特別に設計されており、非破壊的な編集ワークフローを提供します。これにより、アーティストやデザイナーは、元のデータを失うことなく、プロジェクトのあらゆる側面を再訪して変更できます。
PSD形式の特徴の1つは、そのレイヤー構造です。すべての要素を1つのレイヤーに平坦化する従来の画像形式とは異なり、PSDファイルは各要素を個別のレイヤーとして保持します。これには、テキスト、シェイプ、調整レイヤーから、スマートオブジェクトやレイヤー効果などのより複雑な要素までが含まれます。このレイヤーアプローチは、より洗練されたデザインや編集戦略を可能にするだけでなく、より整理された効率的なワークフローも促進します。ユーザーは要素を個別に操作し、可視性を調整し、画像の残りの部分に影響を与えることなくそれらを並べ替えることができます。
レイヤーに加えて、PSDファイルは透明度もサポートしています。これは、可変可視性で画像を合成したり、複雑な切り抜きでグラフィックを作成したりするために不可欠です。PSDファイルの透明度は、画像のさまざまな部分の不透明度に関する情報を格納するアルファチャンネルを通じて管理されます。この機能は、ビジュアルに奥行きと複雑さを加えるために不可欠であり、Webデザイン、アニメーション、ビデオ制作における特殊効果など、精度と詳細な操作を必 要とするタスクにこの形式が非常に好まれるようになっています。
PSD形式のもう1つの重要な利点は、洗練されたテキスト編集をサポートしていることです。テキストをPSDファイルに追加すると、完全に編集可能になり、ユーザーはテキストをラスタライズしたり、画像レイヤーに変換したりすることなく、フォントのプロパティ、配置、色、効果を変更できます。これは、テキストを頻繁に調整する必要があるデザイン作業に特に役立ちます。テキストを編集する回数に関係なく、テキストの鮮明さと明瞭さを維持します。さらに、パスまたはシェイプ上のテキストなどのPhotoshopの高度なテキスト機能、および他のアプリケーションで使用するためにテキストをインポートおよびエクスポートする機能により、PSDファイルは複雑なタイポグラフィを含むプロジェクトに非常に汎用性があります。
PSDファイルは、さまざまなカラーモデルと深度との広範な互換性でも知られています。グレースケールからRGB、CMYK、Labカラーを含むマルチチャンネルカラーモードまで、すべてをサポートしています。これにより、画面で表示できるデジタルデザインから、CMYKカラー仕様を必要とする印刷可能なプロジェクトまで、さまざまな用途に非常に適応できます。さらに、PSDファイルはチャンネルあたり最大32ビットという印象的なカラー深度を格納でき、高いダイナミックレンジを提供し、より正確な色補正とグレーディング技術を可能にします。
調整レイヤーを含める機能は、PSD形式を際立たせるもう1つの機能です。これらのレイヤーには、色補正、露出、コントラスト、および元の画像データを永続的に変更 することなく、下位レイヤーに適用できるその他の強化機能の設定が含まれています。つまり、編集プロセスのどの段階でも調整を微調整したり削除したりすることができ、比類のない柔軟性が得られます。調整レイヤーはレイヤーマスクと連携して機能し、効果を選択的に適用でき、PSD形式の非破壊的な精神をさらに強調します。
PSDファイルは、シェイプやテキストなどのベクター要素を含めることもサポートしており、品質を損なうことなく完全にスケーリングできます。これは、解像度に依存しないベクターグラフィックスの数学的性質によるものです。PSDのような主にラスターベースの形式にベクターテクノロジーを統合することで、スケーラビリティと詳細な編集との調和が実現します。この組み合わせは、ロゴデザイン、Webグラフィックス、スケーラブルな合成など、あらゆるサイズでの明瞭さとピクセルレベルのディテールが求められるアプリケーションに不可欠です。
PSDファイルにスマートオブジェクトを含めることは、洗練された画像編集におけるもう1つの飛躍です。スマートオブジェクトは、元のすべての特性を備えた画像のソースコンテンツを保持し、非破壊的なスケーリング、回転、ワープを可能にします。外部ファイルにリンクすることもでき、外部ファイルが更新されると、PSDファイルはこれらの更新を自動的に反映します。この機能は、コラボレーションワークフローや、複数のファイルにわたって更新が必要になる可能性のある反復的な要素を含むプロジェクトに特に役立ちます。
Photoshopの自動化機能は、PSD形式と密接に関連しています。ユーザーによって記録され たタスクのシーケンスであるアクションは、PSDファイル内に保存して反復処理に使用でき、複数のファイルでサイズ変更、フォーマット設定、フィルターの適用などのタスクのワークフローを大幅に高速化できます。同様に、より複雑で条件付きロジックと洗練された処理が可能なPhotoshopスクリプトもPSDファイルに適用でき、ソフトウェアのルーチンタスクと複雑なプロシージャを自動化する機能をさらに拡張できます。
その数多くの利点にもかかわらず、PSD形式の豊富な機能セットにはファイルサイズのトレードオフが伴います。PSDファイルは、複数のレイヤー、高いカラー深度、スマートオブジェクトなどの追加機能を備えた大きな画像を保存する場合、特に大量のストレージスペースを占有することがよくあります。これは、レイヤー圧縮などの機能を使用し、コンテンツを複製する代わりに調整レイヤーの使用を最大化することで、ある程度軽減できます。ただし、長期的な保存や共有のために、多くのユーザーは画像を平坦化したり、配布用にJPEGやPNGなどのよりサイズ効率の良い形式でコピーを保存したりしながら、編集目的で元のPSDを保持します。
相互運用性は、PSD形式の強みの1つです。Adobeの独自形式であるにもかかわらず、PSDファイルは、さまざまなサードパーティソフトウェアアプリケーションで開くことができ、さまざまな程度で編集できます。これは、Adobeによる形式のドキュメント化と、ソフトウェア開発コミュニティ内の互換性を維持するための努力のおかげです。ただし、すべてのアプリケーションがPSD機能の全範囲をサポートしているわけではなく、レイヤー効果や調整レイヤーなどの要素が異なるソフトウェア間で完全に変換されない場合があるため、アプリケーション間でファイルを移動する際には注意が必要です。
Adobeは、非常に大きな画像に対する現代の要求に対応するために、PSDの拡張機能としてPSB(Photoshop Big)形式を導入しました。PSBは、PSDファイルの30,000ピクセルの制限とは対照的に、任意の寸法で最大300,000ピクセルのドキュメントに対応する、本質的に無制限のファイルサイズをサポートします。これは、高解像度の写真、大規模な合成画像、詳細なデジタルペイントに特に役立ちます。これらの違いにもかかわらず、PSBはPSDファイルで利用可能な機能のほとんどとの互換性を維持し、PSD形式の制限を超えるプロジェクトにシームレスなワークフローを提供します。
結論として、PSD画像形式は、デジタルアートやグラフィックデザインコミュニティのニーズに応えるように設計された、複雑で用途の広いファイルタイプです。非破壊的な編集、レイヤー構成、透明度、広範なカラーモデル、調整レイヤー、ベクター要素、スマートオブジェクトをサポートしているため、プロフェッショナルなワークフローに不可欠なツールとなっています。その複雑さとファイルサイズは課題となる可能性がありますが、柔軟性と品質の点で提供する利点は他に類を見ません。PSD形式を取り巻く継続的な開発と互換性への取り組みは、それが創造的な職業の中心であり続け、シンプルなデザインから複雑なデジタルアート作品まで幅広いプロジェクトを支えていることを保証します。
このコンバーターはブラウザ内で完全に動作します。ファイルを選択すると、メモリに読み込まれ、選択したフォーマットに変換されます。その後、変換されたファイルをダウンロードできます。
変換は瞬時に開始され、ほとんどのファイルは1秒以内に変換されます。大きなファイルの場合、時間がかかる場合があります。
ファイルは決してサーバにアップロードされません。ブラウザ内で変換され、変換されたファイルがダウンロードされます。ファイルは見られません。
画像フォーマット間の変換すべてに対応しています。JPEG、PNG、GIF、WebP、SVG、BMP、TIFFなどです。
このコンバーターは完全に無料で、永久に無料のままです。ブラウザ内で動作するため、サーバを用意する必要がないので、料金を請求する必要がありません。
はい、一度に複数のファイルを変換できます。追加時に複数のファイルを選択してください。