印刷データ→電子書籍で外字化が必要な文字のまとめ
以前のエントリーでDTPデータ内で使われているOpentypeグリフ字形(Adobe1-6)の一部が、電子書籍では外字画像にしないと表現できない問題について書かせていただきました。出版デジタル機構(pubridge)もいよいよ動き始め、実際に電子書籍を作るための環境づくりに入っている方も多いかと思いますので、印刷用DTPデータ→電子書籍で字形が変わってしまう文字についての現時点でのまとめをあらためて掲載しておきたく思います。電子書籍制作環境づくりのお役に立てていただければ幸いです。なお、検証に使用した環境はMac OS 10.7/InDesign CS5です。InDesign以外のアプリケーションでもAdobe1-6グリフ字形を呼び出せるインターフェースを持ったものであれば同様の字形変化が起きるものと思われます。
確実に外字化が必要になると思われる文字
CID/GID番号のみしか割り当てられていない文字
UNICODE/Shift_JISの双方に文字コードの割り当てがなく、InDesignなど対応アプリケーション内部からのみ呼び出すことができる文字です。囲み数字や丸数字などを中心に、ざっと数えた限りでは約700文字あるようです。これはそもそもUNICODEにもコード割り当てがない文字のため、確実に外字にする必要があります。InDesign内でこれらの文字を選択し、テキストエディタ等にコピー&ペーストすると「1A」という文字に化けます。合字
複数の文字コードで構成された文字をInDesign等の対応アプリ内でOpenTypeの機能を呼び出して「合字」として表示している文字です。InDesign字形パレットの分類では、「任意の合字(dlig)」「分数(afrc)」「欧文合字(liga)」などがこれにあたります。InDesign内でこれらの文字を選択し、テキストエディタ等にコピー&ペーストすると、内包している複数の文字に展開されて表示されます。現時点では外字化した方が無難と思われる文字
サロゲートペア領域の文字
InDesignの字形パレットの表示でUnicodeのコード番号の表示が「2xxxx」と、先頭に2の付いた5桁になっている文字群です。調べた限りでは303文字あります(参照)。ATOKの文字パレットでは、「CJK統合漢字拡張B」「CJK互換漢字補助」となっています。内部的に2つの文字コードの組み合わせで1つの字形を表示しており(サロゲートペア)、多くのリーディングシステムでは問題なく表示されますが、未対応のリーディングシステムが存在するため現時点では外字化した方が無難と思われます。JIS第3水準・JIS第4水準の文字の他、JIS割り当てのない文字も多数含まれています。使用頻度の高い文字はほとんどありませんが、U+20B9Fの「叱」(印刷標準字体)や、U+20BB7の「吉」(つちよし)などは問題になるかもしれません。全てUnicodeのみに割り当てがある文字のため、ドットブック/XMDFなどではいずれにせよ外字化が必要になりそうです。「EPUB日本語基準研究グループ」のホームページから参照できる、「EPUB3日本語ベーシック基準v1.0」の28ページにこれに関しての記述があります。外字にするかどうか出版社サイドの判断が必要になる文字
同じ文字コードに2つ以上の字形バリエーションが割り当てられている文字
旧字体/エキスパート字形/すべての異体字/修飾字形 など、ひとつの文字コードに複数の字形が割り当てられ、InDesignなど対応アプリケーション内部から字形パレット等で呼び出していた文字です。これらに関しては以前のエントリーで詳しく書きましたのでそちらを参照していただければ幸いです。人名・地名等の固有名詞以外では問題になりにくいとは思いますが、一般に字形差がとても微細なため、目で追って確認するのが難しい文字群です。フォントのバージョンによって字形の変わる可能性がある文字
以前のエントリーでも少し触れましたが、Pr6/Pr5などJIS90字形を基準としたフォントを用いて作られたDTPデータを元データとして電子書籍を制作する場合に、JIS規格の例示字形の変化の影響で字形の変わる可能性のある文字が168文字あります(フォントによって変化に差があるようです)。こちらにも字形差が微細なため、目で追って確認するのが難しいものが多く含まれます。一点しんにょう→二点しんにょうへの例示字形変更なども行われたため、人名漢字などで問題になるパターンが多くありそうです。JIS90→JIS2004の例示字形変化について、詳しくはこちらをご参照ください。ドットブック/XMDFなどで外字化が必要になる可能性のある文字
Shift_JISに割り当てがなく、UNICODEのみで使える文字
文字コードがShift_JISのドットブック、Unicodeが仕様上は使えるものの、おそらく既存のリーディングシステムの互換性の問題でShift_JISが使われることが多いと思われるXMDFで外字化が必要になりそうな文字群です(HTMLのように数値文字参照等で表記できるのでしょうか?手元の資料ではちょっとわかりませんでした)。XMDFビルダーではピンク色で表示され、XMDFビルダー内簡易ビューアではゲタ記号に化けて表示されるようです。EPUB3は文字コードがUnicode(UTF-8)のため、外字化しないでそのまま表示できます。◇
このほか、「インライン画像として文字を作り、テキスト内に挿入していた文字」や、「外字の表示用に独自OpenTypeフォントを制作して表示していた文字」、「Biblosなどの市販外字フォントを利用していた文字」など、各ドキュメントごとに対応が必要になる場合も当然ありますが、これらは個々に対応するしかないと思われるため詳しくは書きません。以前フォントメーカーの営業の方にお聞きした話では、望ましい字形をDTPアプリケーションソフト内での操作なしで表示するために、フォントメーカーにカスタムフォントを特注して使用している印刷会社もあるとのことです。このような場合、その印刷会社以外の会社でDTPデータから電子書籍化する場合に、全ての文字を目で追って確認する必要が出てくるため校正費用がとても高くつくことが予想できます。可能であれば元DTPデータを制作した会社での電子書籍化が望まれるところです。
また、出版デジタル機構および緊デジ関係者の方への要望として、特に上述の「基本字形に変化してしまう字形」および「フォントのバージョンによって字形の変わる文字」に関して、どのレベルまでを必ず外字にしなければならないのか(人名・地名のみ外字化するのか、初稿で外字化する文字を確認して指示していただけるのか、あるいは全て外字にするのか)、外字対応のガイドラインを策定し、出版社/制作会社の双方に告知していただきたく思います。
(2012.5.11)
タグ: Adobe1-6, CID/GID, JIS2004, JIS90, XMDF, サロゲートペア, ドットブック, 合字, 外字, 異体字
2012/05/12 10:13
パブリッジ深沢です。ご提言感謝、ぜひ参考にさせていただきます。外字のガイドラインは必要ですね。どうするのがいちばん良いか考えます!ありがとうございました!
2012/05/12 12:05
コメントありがとうございます。こうした字形のバリエーションの対応などはこれまで「印刷屋の領分」で、多くの版元さんは認識していなかった部分もあるように思い、おせっかいとは思いながら書かせていただきました。調べるほどに今まで無意識に使ってきた、総合的な「紙印刷物」制作システムの完成度の高さ、複雑さにため息が出ます。ある意味これを凌駕しなければ次の時代は来ないように思います。
2012/05/12 16:16
『合字』の図中に、U+2668「♨」とかU+309F「ゟ」とかU+30FF「ヿ」とか入ってるんですが、InDesignはこういう「Unicodeにある文字」もバラして処理してるんでしょうか?
2012/05/12 21:47
コメントありがとうございます。
ちょっと検証してみたのですが、「♨」は「温泉」とInDesign内で入力し、文字パレットのOpenType機能で「任意の合字」にチェックを入れることで「♨」で表示されるようです。この方法で入力した「♨」をInDesign内で選択し、テキストエディタ等にペーストすると「温泉」という文字に変わります。
一方で、ATOK、ことえりなどのIME側であらかじめ「♨」に変換した上で入力した場合はペーストしても「♨」のままになるようです。「ゟ」(より)、「ヿ」(コト)も同様の挙動なようです。