バージョン間差分で差が出るときのOCR対策

変更日金, 21 11月, 2025 で 5:20 午後

ジーニアルAIおよびジーニアルAI開示チェックは、対象とした資料の状態によってOCR処理実行の是非が決まります。

OCR処理が実行される・されない条件

旧バージョンと新バージョンのうち、一方でOCR処理が実行され、もう一方で実行されない場合、OCR処理の有無に起因するバージョン間差異が発生します。

例：

このように半角・全角の違いなどが原因で、不要な差分が大量に検出されることがあります。その結果、差分のレビューに多くの時間がかかってしまいます。

方法①：文字が埋め込まれたPDF同士で比較する（推奨）
1. 紙資料をスキャンした画像ベースのPDFの代わりとなる、システムが同じ内容を出力した文字が埋め込まれたPDFを再取得します。
2. これにより、文字が埋め込まれたPDF同士の比較が可能となり、本来の差分のみを効率的に検出できます。
方法②：PDFの再取得が難しい場合
1. 文字が埋め込まれたPDFファイルを一度印刷し、スキャンして画像ベースのPDFに変換します。
  (Windowsを使用している場合、プリンターとして[Microsoft Print to PDF]を選択することで、文字が埋め込まれたPDFから画像ベースのPDFへ直接変換することができます。)
2. この方法では、OCR処理された結果同士を比較できるため、半角・全角などの差異をある程度減らすことができます。

※ 方法②ではOCR処理に起因する差異を完全にゼロにはできませんので、方法②よりも方法①が推奨されます。