Adobe-Japan1-6およびJIS2004対応の外字チェッカーを作成
日本語EPUBの作成で結構面倒なのが「使える文字と使えない文字のチェック」です。何せ単行本1冊で10万文字くらいはあったりしますので、それを目視でチェックして使えない文字を見分けるなどというのは普通に考えて無理があるわけです。また、例えベテランの作業者なら対処できるとしても、そういう機械的な処理に関しては極力機械に任せて省力化したいところです。ということで自前のチェッカー内に組み込む目的で「Adobe-Japan1-6」および「JIS X 0213:2004(JIS2004)」を対象として外字のチェッカーを作りました。
ターミナルで
1 |
perl /ローカルパス/AJ1-6check.pl チェックしたいEPUBファイルのパス |
のような形で指定すると、以下のようなチェックログのファイルを出力します。上の例はAdobe-Japan1-6用チェッカーの指定例ですが、JIS2004用チェッカーも使い方は同じです。
普段ならリストを貼って公開するところなのですが、なにせ膨大な文字をリスト化しているためとんでもない長さになるため、ダウンロードリンクを貼る形とします。
AJ1-6_JIS2004characheck.zip
なお、Adobe-Japan1-6用のリストは@monokanoさんのご厚意により、テキストエディタ「浮紙」用の特定文字項目ファイル内のリスト(正規表現のパターン)を流用させていただいています。
JIS2004用のものは自前で調べて書きました。しんどかった(笑)。
Mac用のアプリに統合したものはこちら。Epubcheckのバージョンも4.2.2に上がっています。
(2020.1.17)