OCR原稿の校正
書籍の改訂版を出すために、現行の版のテキストデータを用意しています。
20年前に出された本で、その当時は写研組版でした。印刷所によると、その印刷所では写研組版の運用は終了していて、前のデータを流用して改訂版を作成することができず、テキストデータも用意できるものがありませんとのことでした。
今回は少しでも改訂の作業が捗るよう、最新の刷りの本に対し印刷所にOCRをかけてもらい、テキストが付与されたPDFを作成してもらいました。
そのPDFをテキスト化して終わりなら簡単なのですが、OCRの精度が以前よりも上がっているとはいえ、苦手な部分がまだ多くあるようです。そのため、文字に誤認識がないか、校正の作業が必要になります。
印刷所の方のご説明ではOCRの認識には書体デザインが大きく関わるそうで、1とl、0とOなど、判別がつきにくいフォントだと誤って認識される確率が高いそうです。
判別がつきにくい文字に変換されている可能性が高いので目視だけでのチェックは見落としがありそうです。今回はPDFの読み上げ機能も使ってチェックをしてみました。例えば、「金田ーは」のところ「かなだ〜は」と読み上げてくれるので、漢数字の一が音引きになっているとわかります。
8割がたチェックを終え、今回間違って認識されやすい文字をリストアップしてみました。
・1(いち) → l(エル)
・漢数字の一(いち) → 音引き
・2 → E
・平仮名の「く」 → <(小なり記号)
・中黒 → ピリオド
・語彙の「彙」→ 梨 とか違う文字になっている
・九州の「州」→ 「九小卜I」のように高確率でおかしくなる
・○(丸) → 0(ゼロ)
・口(くち) → カタカナのロ
・IPAは全て正しく認識されない
・カタカナの「カ」が「力」(ちから)になる
・小さな文字は認識しにくい様子
印刷所の方とも話していましたが、今後、機械学習を取り入れたOCRが普及してくるかもしれないとのこと、ぜひお願いします。
IPAが正しく認識されるOCRがあるとなお嬉しいです。
|