OCR誤認識リスクと対応

変更日 火, 28 10月 で 3:21 午後

OCR(文字認識)とは

OCR(文字認識)はスキャンデータや画像からテキスト情報を抽出する便利な技術ですが、撮影条件や書類の状態によっては誤認識が発生する場合があります。

ここでは、証憑突合においてOCRエラーによって不一致を一致として判定してしまう偽陽性の誤突合リスクを最小限に抑えるポイントをご紹介します。


1. 紙面書類のデータ品質を向上させる

  • 原本や画像の状態を整える
  • スキャン設定を最適化する

詳しくは「証憑の文字を正確に読み込めない場合の対処法」をご参照ください。


※PDF書類の注意点

  • 元々PDFで作成されている書類には文字データが埋め込まれているため、OCRエラーは発生しません。
  • 文字データが埋め込まれている書類で文字の読み取りエラーが発生している場合、埋め込まれた文字データに問題が発生していますので、証憑の再解析を実行してください。

2. OCR後のチェックを仕組み化する

  • OCR精度には限界があり、手作業による確認が必要な場合があります。
  • 特にかすれ文字やクセの強い手書き文字は誤認識されやすいです。


(A)証憑突合機能に搭載されているチェック

  • 数値や日付などフォーマットが決まっている項目は、OCRエラーを不一致として自動検出できます。
    ※ 表記ゆれがあっても一致となるため、OCRエラーと実質的な不一致のみが検知されます。


※吸収できる表記ゆれの例


表記ゆれ例

表記例1

表記例2

小数点以下の桁数

123.40

123.4

3桁区切りカンマの有無

1,000

1000

年号と西暦

令和5年

2023年

年月日とスラッシュ(/)

2025年10月27日

2025/10/27


このような列は多くの場合、OCRエラーに起因する偽陽性の誤突合が発生しません。

※ 同じ値が複数箇所にあるので関係のない箇所を一致と判定して偽陽性が発生する可能性があることにご留意ください。


(B)証憑突合機能に搭載されていないチェック

  1. 自動チェックができない項目

    1. 住所や商品名などの一般的な文字列はフォーマットチェックが適用されないため、目視確認が必要です。
    2. 特に初回や新しい証憑では、数件を目視確認して傾向を把握することが効果的です。
  2. 目視確認の進め方
    1. 突合列ごとに数件を確認
    2. 偽陽性が発生している場合は、その列を全件確認
  3. Excelセルとの関係
    1. ジーニアルAIは、一般的な文字列について、Excelセルの値を証憑が含んでいる場合に一致と判定します。
    2. このため、Excelセルに短い文字列があり、証憑に長い文字列があるときは、実質的に一致していなくても一致と判定される場合があります。
  4. 類似一致の取り扱い
    1. Excelセルの外枠が赤い線で囲われている場合は類似一致が検出されています。
    2. 表現の揺れや誤字・脱字がある場合でも、対象証憑を素早く見つける支援となります。
    3. 厳密に突合したい場合は、一括で類似一致のハイライト表示を削除してください。

このように、OCRエラーは完全にゼロにすることは難しいですが、書類のデータ品質向上やチェックの仕組化で対応することで、リスクを大幅に抑えることができます。


この記事は役に立ちましたか?

それは素晴らしい!

フィードバックありがとうございます

お役に立てず申し訳ございません!

フィードバックありがとうございます

この記事に改善できることがあれば教えてください。

少なくとも一つの理由を選択してください
CAPTCHA認証が必要です。

フィードバックを送信しました

記事の改善におけるご協力ありがとうございます。