ジーニアルAIおよびジーニアルAI開示チェックは、対象とした資料の状態によってOCR処理実行の是非が決まります。
OCR処理が実行される・されない条件
- OCR処理が実行される場合:紙資料をスキャンした画像ベースのPDFファイル
- OCR処理が実行されない場合:システムが出力した文字が埋め込まれたPDFファイル(埋め込まれた文字情報を利用)
OCR処理の有無による差異の発生
旧バージョンと新バージョンのうち、一方でOCR処理が実行され、もう一方で実行されない場合、OCR処理の有無に起因するバージョン間差異が発生します。
例:
- 文字が埋め込まれたPDFでは金額が「全角数値」として認識
- 画像ベースのPDFではOCR処理により「半角数値」として認識
このように半角・全角の違いなどが原因で、不要な差分が大量に検出されることがあります。その結果、差分のレビューに多くの時間がかかってしまいます。

差異を抑える方法
- 方法①:文字が埋め込まれたPDF同士で比較する(推奨)
- 紙資料をスキャンした画像ベースのPDFの代わりとなる、システムが同じ内容を出力した文字が埋め込まれたPDFを再取得します。
- これにより、文字が埋め込まれたPDF同士の比較が可能となり、本来の差分のみを効率的に検出できます。
- 方法②:PDFの再取得が難しい場合
- 文字が埋め込まれたPDFファイルを一度印刷し、スキャンして画像ベースのPDFに変換します。
- この方法では、OCR処理された結果同士を比較できるため、半角・全角などの差異をある程度減らすことができます。
※ 方法②ではOCR処理に起因する差異を完全にゼロにはできませんので、方法②よりも方法①が推奨されます。
この記事は役に立ちましたか?
それは素晴らしい!
フィードバックありがとうございます
お役に立てず申し訳ございません!
フィードバックありがとうございます
フィードバックを送信しました
記事の改善におけるご協力ありがとうございます。