ひつじスタッフ日誌2024年1月

2024.1.23（火）

OCR原稿の校正

書籍の改訂版を出すために、現行の版のテキストデータを用意しています。

20年前に出された本で、その当時は写研組版でした。印刷所によると、その印刷所では写研組版の運用は終了していて、前のデータを流用して改訂版を作成することができず、テキストデータも用意できるものがありませんとのことでした。

今回は少しでも改訂の作業が捗るよう、最新の刷りの本に対し印刷所にOCRをかけてもらい、テキストが付与されたPDFを作成してもらいました。

そのPDFをテキスト化して終わりなら簡単なのですが、OCRの精度が以前よりも上がっているとはいえ、苦手な部分がまだ多くあるようです。そのため、文字に誤認識がないか、校正の作業が必要になります。

印刷所の方のご説明ではOCRの認識には書体デザインが大きく関わるそうで、1とl、0とOなど、判別がつきにくいフォントだと誤って認識される確率が高いそうです。

判別がつきにくい文字に変換されている可能性が高いので目視だけでのチェックは見落としがありそうです。今回はPDFの読み上げ機能も使ってチェックをしてみました。例えば、「金田ーは」のところ「かなだ〜は」と読み上げてくれるので、漢数字の一が音引きになっているとわかります。

8割がたチェックを終え、今回間違って認識されやすい文字をリストアップしてみました。

・1（いち）　→　l（エル）
・漢数字の一（いち）　→　音引き
・2　→　E
・平仮名の「く」 →　＜（小なり記号）
・中黒　→　ピリオド
・語彙の「彙」→　梨　とか違う文字になっている
・九州の「州」→　「九小卜I」のように高確率でおかしくなる
・○（丸）　→　0（ゼロ）
・口（くち）　→　カタカナのロ
・IPAは全て正しく認識されない
・カタカナの「カ」が「力」（ちから）になる
・小さな文字は認識しにくい様子

印刷所の方とも話していましたが、今後、機械学習を取り入れたOCRが普及してくるかもしれないとのこと、ぜひお願いします。 IPAが正しく認識されるOCRがあるとなお嬉しいです。

2024.1.10（水）

2024年

年末年始休暇が終わると、ひつじ書房は一気に慌ただしいムードに突入します。
1月、2月、3月は繁忙期で、年度末までに刊行しなくてはいけない書籍の追い込みに入っていきます。ノンストップです。

今年はいつもながら「寝正月」を満喫しました。ぐーたらしているばかりでは無く、英気を養いのんびりと体を休めることが出来たと思います。

5日の仕事始めからアクセルベタ踏みで業務を進めており、頭の中では「あれをして、これをして･･･」と考えていることがたくさんあるのですが、昨年開催したセールの発送がまだ終わっておらず、まずはそちらが落ち着いてから着実に進めていきたいと思います。

本年もどうぞよろしくお願いいたします。