スキャンした文書、カメラ画像、画像のみの PDF からデータを抽出して再利用するのは難しい場合があります。
ただし、技術的に高度な ML ベースの OCR エンジンは、タスクを効率的に実行できます。
この記事では、OCR エンジンの仕組みと、OCR SDK がニーズに適している理由について説明します。
光学式文字認識 (OCR) とは何ですか?
OCR – 光学式文字認識 – テキスト画像を AI 対応の機械可読テキスト形式に変換します。
OCR は、テキスト エディターを使用して画像ファイル内の単語を編集、検索、またはカウントできないため、単純なスキャンに比べて非常に大きな利点があります。
ただし、OCR は画像をテキスト ドキュメントに変換し、その内容をテキスト データとして保存できます。
OCR エンジンの重要性とは何でしょうか?
今日、ビジネスワークフローの大部分は、印刷媒体からの情報の受け取りを伴います。請求書、紙のフォーム、スキャンされた法的文書、印刷された契約書などは、ビジネスプロセスの一部です。
こうした大量の書類を保管し管理するには、多くの時間とスペースがかかります。
ここで、OCR は、面倒で時間のかかる手動介入よりもペーパーレスのドキュメント管理の利点を提供します。
改良された AI ベースの OCR テクノロジーは、テキスト画像を他のビジネス ソフトウェアで分析できるテキスト データに変換することでこの問題を解決します。
処理されたデータは、分析の実行、業務の合理化、プロセスの自動化に組み込まれ、最終的に生産性が向上します。
OCR エンジンはどのように動作するのでしょうか?
画像取得
画像取得は最初のステップです。スキャナーは文書を読み取り、バイナリデータに変換します。明るい部分を背景、暗い部分をテキストとして分類し、スキャンした画像を分析します。
画像の前処理
取得プロセスには汚れやエラーがつきものです。そのため、OCRエンジンはまず画像をクリーンアップし、エラーを除去してから読み取ります。
これらのクリーニング技術:
- デスキュー or 傾ける: スキャン中の位置合わせの問題を修正しました。
- 斑点除去: テキスト画像のエッジを滑らかにするデジタル画像スポットを削除します。
- 画像内のボックスと線が消去されます。
- 多言語 OCR テクノロジーによるスクリプトの認識。
テキスト認識
パターン マッチングと特徴抽出は、OCR ソフトウェアが主にテキスト認識に使用する 2 つの主要な OCR アルゴリズムです。
パターンマッチング
次のステップは、 グリフ 同様に保存されたグリフと比較します。
このプロセスは、保存されたグリフのフォントとスケールが入力グリフに類似している場合にのみ機能します。
特徴抽出
次のステップは特徴抽出です。このプロセスでは、グリフを線、閉ループ、線の方向、線の交差などの特徴に分解します。
これらの機能は、保存されているさまざまなグリフの中から最適な一致または最も近いグリフを見つけます。
後処理
最後に、分析後、システムは抽出されたテキスト データをコンピューター ファイルに変換します。
一般的な OCR の使用例は何ですか?
- バンキングOCRテクノロジーは、銀行業界における融資書類、預金小切手、その他の金融取引における書類の処理と検証を支援します。これにより、不正防止と取引セキュリティが向上します。
- 健康OCRは医療業界に革命をもたらしました。治療、検査、入院記録、保険金支払いなど、患者の記録を処理します。最近では、ワークフローの合理化と病院の手作業の削減に貢献し、記録を最新の状態に保ちます。
- 法的文書OCR技術により、重要な承認済み法務文書をスキャンして電子データベースに保存し、簡単に検索できるようになります。また、文書は多くの人々が閲覧・共有できるようになります。
- 物流OCRテクノロジー導入以前、物流業界は効率が低かった。以前は、業務文書の手入力は時間がかかり、ミスが発生しやすかった。しかし、OCRの導入により、従業員は複数の会計システムにデータを入力する必要があった。物流企業はOCRを活用して、荷物のラベル、請求書、領収書などの文書をより効率的に追跡している。Amazon Textractを導入することで、Foresightソフトウェアは様々なレイアウトで文字をより正確に読み取ることができるようになり、業務効率の向上につながる。
OCR エンジンが今日のビジネスに役立つ主な方法は何ですか?
- ワークフローの自動化
- 読み取り専用ファイルを編集可能なテキストに変換する
- 可聴ファイルの作成
- 外国語の翻訳
- フォームとアンケートの管理
- より速く、より正確なデータ入力を実現
OCR SDK をどのように統合できますか?
FileStack の OCR SDK を使用すると、ドキュメントをデジタル化し、クレジットカード、パスポート、運転免許証、納税証明書から指を動かすことなくデータを抽出して整理できます。
FileStack の OCR はデータ キャプチャ プロセスを整理して合理化するため、ユーザーが行う必要はありません。
画像内の複雑な文書内のテキストを抽出するために、FileStack には正確に機能する 2 つの異なる機械学習ベースのソリューションがあります。
- インテリジェント画像処理による教師なし学習
- 教師ありセグメンテーション
高度なドキュメント検出および前処理ツールは、精度を向上させることができる FileStack の最新機能です。
まず、FileStackのAPIが画像をデータベースにアップロードします。次に、画像を統一されたフォーマットに変換し、標準サイズにリサイズします。
その後、これらのテキストはドキュメント検出および前処理ツールに送られ、OCRエンジン向けに画像が鮮明化されます。その結果、抽出されたテキストのすべての情報が元の画像に含まれたJSONレスポンスが生成されます。
処理APIでは、OCRは同期操作として利用できます。このタスクを実行すると、次のようになります。
| OCR |
それに応じて、応答は次のようになります。
| { "書類": { 「テキストエリア」: [ { 「バウンディングボックス」: [ { 「x」: 834、 「y」:478 }, { 「x」: 3372、 「y」:739 }, { 「x」: 3251、 「y」:1907 }, { 「x」: 714、 「y」:1646 } ], 「行」: [ { 「バウンディングボックス」: [ { 「x」: 957、 「y」:490 }, { 「x」: 3008、 「y」:701 }, { 「x」: 2977、 「y」:1009 }, { 「x」: 925、 「y」:797 } ], 「テキスト」:「ファイルスタックは検出できます」 「言葉」: [ { 「バウンディングボックス」: [ { 「x」: 957、 「y」:490 }, { 「x」: 1833、 「y」:580 }, { 「x」: 1802、 「y」:888 }, { 「x」: 925、 「y」:797 } ], 「テキスト」: 「ファイルスタック」 }, { 「バウンディングボックス」: [ { 「x」: 1916、 「y」:589 }, { 「x」: 2266、 「y」:625 }, { 「x」: 2235、 「y」:932 }, { 「x」: 1884、 「y」:896 } ], 「テキスト」:「できる」 }, { 「バウンディングボックス」: [ { 「x」: 2336、 「y」:632 }, { 「x」: 3008、 「y」:701 }, { 「x」: 2977、 「y」:1009 }, { 「x」: 2304、 「y」:939 } ], 「テキスト」:「検出」 } ] }, { 「バウンディングボックス」: [ { 「x」: 860、 「y」:858 }, { 「x」: 3330、 「y」:1049 }, { 「x」: 3301、 「y」:1421 }, { 「x」: 831、 「y」:1229 } ], 「テキスト」:「印刷された手書きのテキスト」 「言葉」: [ { 「バウンディングボックス」: [ { 「x」: 860、 「y」:858 }, { 「x」: 1550、 「y」:912 }, { 「x」: 1521、 「y」:1283 }, { 「x」: 831、 「y」:1229 } ], 「テキスト」:「印刷」 }, { 「バウンディングボックス」: [ { 「x」: 1677、 「y」:922 }, { 「x」: 2047、 「y」:951 }, { 「x」: 2018、 「y」:1321 }, { 「x」: 1648、 「y」:1292 } ], 「テキスト」:「そして」 }, { 「バウンディングボックス」: [ { 「x」: 2107、 「y」:954 }, { 「x」: 3330、 「y」:1049 }, { 「x」: 3301、 「y」:1421 }, { 「x」: 2078、 「y」:1326 } ], 「テキスト」:「手書き」 } ] }, { 「バウンディングボックス」: [ { 「x」: 749、 「y」:1305 }, { 「x」: 2504、 「y」:1486 }, { 「x」: 2469、 「y」:1826 }, { 「x」: 714、 「y」:1645 } ], 「テキスト」:「OCRを使用したテキスト」 「言葉」: [ { 「バウンディングボックス」: [ { 「x」: 749、 「y」:1305 }, { 「x」: 1233、 「y」:1355 }, { 「x」: 1198、 「y」:1695 }, { 「x」: 714、 「y」:1645 } ], 「テキスト」:「テキスト」 }, { 「バウンディングボックス」: [ { 「x」: 1317、 「y」:1364 }, { 「x」: 1910、 「y」:1425 }, { 「x」: 1875、 「y」:1765 }, { 「x」: 1282、 「y」:1704 } ], 「テキスト」:「使用」 }, { 「バウンディングボックス」: [ { 「x」: 1972、 「y」:1431 }, { 「x」: 2504、 「y」:1486 }, { 「x」: 2469、 「y」:1826 }, { 「x」: 1937、 「y」:1771 } ], 「テキスト」:「OCR」 } ] } ], 「テキスト」: 「Filestack は OCR を使用して印刷されたテキストと手書きのテキストを検出できます」 } ] }, 「テキスト」: 「FilestackはOCRを使用して印刷されたテキストと手書きのテキストを検出できます」 「テキスト面積の割合」: 23.40692449819434 } |
応答パラメータに応じて、次のように画像の OCR 応答を取得できます。
| https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE> |
OCR は、doc_detection などの他のタスクと連携して使用できます。
| https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE> |
また、外部 URL で OCR を使用します。
| https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL> |
最後に、ストレージ エイリアスで OCR を使用します。
| https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE> |



