「異体字」問題・その2 〜対策編〜

前回の投稿ではInDesign等の組版ソフト内でOpentypeフォントの内包する異体字字形を使っていた場合の電子書籍化に伴う問題について書かせていただきましたが、今回は実際にどういった対策をとって異体字化が必要な文字を探し出すかを考えてみました。

外字化が必要な文字の目視確認の難しさ

字形差を目視で確認するのは難しい

字形差を目視で確認するのは難しい

InDesignはOpentypeのフォントが内部に持っているさまざまな「異体字」字形を「字形パレット」を通して呼び出し、ドキュメント内で用いることができます。ただし、そうして呼び出した異体字の中に、外字画像にしないと電子書籍で表示できない字形が多く含まれることは前回指摘した通りです。これは技術的には「Adobe1-6などの印刷用フォント規格とUNICODE(UTF-8など)のグリフ(字形)数の差異」に起因しています。(ドットブックなどのように文字コードがShift_JISの場合はさらに問題が大きくなります。)このあたりの問題を根本的に解決するためにAdobe1-6をベースに「文字図形共有基盤」を制定し、字形を統一番号で管理しようとする動きもあります※1が、いずれにしても今すぐに使用できるわけではなく、時間はかかりそうです。そしてこうした印刷用Opentypeフォントの内包する「エキスパート字形」などの異体字字形を存分に使って作り込んだInDesignデータから電子書籍を製作する際に大きな問題になってくるのが、「InDesign内のどの文字が外字にしなければならない文字なのか、目視で簡単に確認できない」ことです。

テキスト化すると付加属性が消える

テキスト化すると付加属性が消える

そもそもがほとんど変わらない字形のバリエーションだからこそ同じ文字コードが当てられ、出版社からの字形差の要求に応えることを想定したInDesignなどのプロ向け組版ソフトからのみ呼び出せるようになっていたわけで、そうした微細な字形差を目視で確認し、外字化が必要な文字を的確に判断することを全てのオペレータに求めることはちょっと難しいです。そうなると一度異体字の付加属性を捨て、あらためて外字を指定し直す前提でプレーンテキスト化したデータと原本を1文字ずつ照合することになりますが、これがコスト的に相当高くつくのは誰が見ても明らかです。

AppleScriptで対象文字をあぶり出す

さて、どうにかならないものか。少なくとも「Pr6N」などの最近のフォントを用いているドキュメント位はどうにかしたい。理屈で言えばテキストがInDesign内に存在する状態であれば付加属性は残っているわけですから、ここで何らかのマークをつけてやればいいわけです。1文字1文字人間が確認すればとんでもない時間がかかりますが、そういう「機械的」な作業はそれこそコンピュータに任せてしまえば良い。

外字化が必要な文字を自動チェック

外字化が必要な文字を自動チェック

というわけで、以前「ものかの」さんで公開されていた「異体字チェッカー」をもとに、電子書籍用異体字チェックのAppleScriptを考案してみました。「エキスパート字形」「すべての異体字」といった「異体字チェッカー」でもともとチェック機能があった異体字字形に加え、「複数の文字を組み合わせて表示している合字」および「UNICODE/Shift_JISにコードが存在せず、InDesign内の字形パレット等からしか呼び出せない字形(51以上の丸数字など)」といった外字化が必要な文字を自動チェックし、文字色を変更します。

また、出版デジタル機構の「電子書籍制作仕様書 第一次素案」では、中間形式の文字コードとして現状Shift_JISを想定しているようですので、別途「Shift_JISにコード割り当てのないUNICODEのみの文字」をチェックできるスクリプトも製作してみました。AppleScriptですので処理速度が速いとは言い難いですが、少なくとも目で追って全文字確認するよりは効率的です。どこかのソフトハウスさんがきちんとしたアプリを開発してくれることを期待しつつ、現状でのとりあえずの対策として提供させていただきます。

なお、InDesign内で外字化する文字を書き出すためのスクリプトもテスト的に作成はしてみたのですが、現状ではまだ出版デジタル機構の制作仕様書自体が「素案」の段階であり、正式仕様では画像形式・解像度等が変更される可能性がありますので、現状での公開は差し控えさせていただきます。

各スクリプトは以下のリンクからダウンロードしていただけます。Mac OS10.7/InDesign CS5にてテスト済みです。なお、スクリプトを使用したことによって発生したコンテンツの破損等に関して一切の責任を負いかねますので、あくまで自己責任でご使用ください。


※1 「文字図形共有基盤」調査検討報告書:http://www.jepa.or.jp/material/files/20120125.pdf

(2012.4.5)

コメント / トラックバック 2 件

  1. uske_s より:

    ダウンロードファイルが2つとも破損しているといわれてしまって起動できませんでした。
    改めてダウンロードさせていただくことは可能でしょうか?
    MacOS 10.10

  2. Jun Tajima より:

    こちらでもご指摘の現象を確認しました。おそらくスクリプト制作時の環境が古すぎるためと思われます。いずれ直したいのですがしばらくお待ちください。

コメントをどうぞ

プロフィール
Jun Tajima

こちらにて、電子書籍&Web制作を担当しています。
このブログは、EPUB3をはじめとした電子書籍制作担当オペレータからの、「電子書籍の制作時にたとえばこんな問題が出てきていますよ」的な「現地レポート」です。少しでも早い段階で快適な電子書籍閲覧・制作環境が整うことを願って、現場からの声を発信していこうと目論んでおります。

当ブログ内の記事・資料は、私の所属しております組織の許諾を得て掲載していますが、内容は私個人の見解に基づくものであり、所属する組織の見解を代表するものではありません。また、本ブログの情報・ツールを利用したことにより、直接的あるいは間接的に損害や債務が発生した場合でも、私および私の所属する組織は一切の責任を負いかねます。