バージョン間差分で差が出るときのOCR対策

変更日 火, 28 10月 で 11:47 午前

ジーニアルAIおよびジーニアルAI開示チェックは、対象とした資料の状態によってOCR処理実行の是非が決まります。


OCR処理が実行される・されない条件


  • OCR処理が実行される場合:紙資料をスキャンした画像ベースのPDFファイル
  • OCR処理が実行されない場合:システムが出力した文字が埋め込まれたPDFファイル(埋め込まれた文字情報を利用)


OCR処理の有無による差異の発生


旧バージョンと新バージョンのうち、一方でOCR処理が実行され、もう一方で実行されない場合、OCR処理の有無に起因するバージョン間差異が発生します。


例:

  • 文字が埋め込まれたPDFでは金額が「全角数値」として認識
  • 画像ベースのPDFではOCR処理により「半角数値」として認識


このように半角・全角の違いなどが原因で、不要な差分が大量に検出されることがあります。その結果、差分のレビューに多くの時間がかかってしまいます。


差異を抑える方法

  1. 方法①:文字が埋め込まれたPDF同士で比較する(推奨)
    1. 紙資料をスキャンした画像ベースのPDFの代わりとなる、システムが同じ内容を出力した文字が埋め込まれたPDFを再取得します。
    2. これにより、文字が埋め込まれたPDF同士の比較が可能となり、本来の差分のみを効率的に検出できます。
  2. 方法②:PDFの再取得が難しい場合
    1. 文字が埋め込まれたPDFファイルを一度印刷し、スキャンして画像ベースのPDFに変換します。
    2. この方法では、OCR処理された結果同士を比較できるため、半角・全角などの差異をある程度減らすことができます。

※ 方法②ではOCR処理に起因する差異を完全にゼロにはできませんので、方法②よりも方法①が推奨されます。

この記事は役に立ちましたか?

それは素晴らしい!

フィードバックありがとうございます

お役に立てず申し訳ございません!

フィードバックありがとうございます

この記事に改善できることがあれば教えてください。

少なくとも一つの理由を選択してください
CAPTCHA認証が必要です。

フィードバックを送信しました

記事の改善におけるご協力ありがとうございます。