‘異体字’ タグのついている投稿

印刷データ→電子書籍で外字化が必要な文字のまとめ

2012/05/10

 以前のエントリーでDTPデータ内で使われているOpentypeグリフ字形(Adobe1-6)の一部が、電子書籍では外字画像にしないと表現できない問題について書かせていただきました。出版デジタル機構(pubridge)もいよいよ動き始め、実際に電子書籍を作るための環境づくりに入っている方も多いかと思いますので、印刷用DTPデータ→電子書籍で字形が変わってしまう文字についての現時点でのまとめをあらためて掲載しておきたく思います。電子書籍制作環境づくりのお役に立てていただければ幸いです。なお、検証に使用した環境はMac OS 10.7/InDesign CS5です。InDesign以外のアプリケーションでもAdobe1-6グリフ字形を呼び出せるインターフェースを持ったものであれば同様の字形変化が起きるものと思われます。

確実に外字化が必要になると思われる文字

CID/GID番号のみしか割り当てられていない文字

CID/GIDのみの文字(一部)

CID/GIDのみの文字(一部)

 UNICODE/Shift_JISの双方に文字コードの割り当てがなく、InDesignなど対応アプリケーション内部からのみ呼び出すことができる文字です。囲み数字や丸数字などを中心に、ざっと数えた限りでは約700文字あるようです。これはそもそもUNICODEにもコード割り当てがない文字のため、確実に外字にする必要があります。InDesign内でこれらの文字を選択し、テキストエディタ等にコピー&ペーストすると「1A」という文字に化けます。

合字

任意の合字(一部)

任意の合字(一部)

 複数の文字コードで構成された文字をInDesign等の対応アプリ内でOpenTypeの機能を呼び出して「合字」として表示している文字です。InDesign字形パレットの分類では、「任意の合字(dlig)」「分数(afrc)」「欧文合字(liga)」などがこれにあたります。InDesign内でこれらの文字を選択し、テキストエディタ等にコピー&ペーストすると、内包している複数の文字に展開されて表示されます。

現時点では外字化した方が無難と思われる文字

サロゲートペア領域の文字

サロゲートペア領域の文字(一部)

サロゲートペア領域の文字(一部)

 InDesignの字形パレットの表示でUnicodeのコード番号の表示が「2xxxx」と、先頭に2の付いた5桁になっている文字群です。調べた限りでは303文字あります(参照)。ATOKの文字パレットでは、「CJK統合漢字拡張B」「CJK互換漢字補助」となっています。内部的に2つの文字コードの組み合わせで1つの字形を表示しており(サロゲートペア)、多くのリーディングシステムでは問題なく表示されますが、未対応のリーディングシステムが存在するため現時点では外字化した方が無難と思われます。JIS第3水準・JIS第4水準の文字の他、JIS割り当てのない文字も多数含まれています。使用頻度の高い文字はほとんどありませんが、U+20B9Fの「叱」(印刷標準字体)や、U+20BB7の「吉」(つちよし)などは問題になるかもしれません。全てUnicodeのみに割り当てがある文字のため、ドットブック/XMDFなどではいずれにせよ外字化が必要になりそうです。「EPUB日本語基準研究グループ」のホームページから参照できる、「EPUB3日本語ベーシック基準v1.0」の28ページにこれに関しての記述があります。

外字にするかどうか出版社サイドの判断が必要になる文字

同じ文字コードに2つ以上の字形バリエーションが割り当てられている文字

旧字体(一部)

旧字体(一部)

 旧字体/エキスパート字形/すべての異体字/修飾字形 など、ひとつの文字コードに複数の字形が割り当てられ、InDesignなど対応アプリケーション内部から字形パレット等で呼び出していた文字です。これらに関しては以前のエントリーで詳しく書きましたのでそちらを参照していただければ幸いです。人名・地名等の固有名詞以外では問題になりにくいとは思いますが、一般に字形差がとても微細なため、目で追って確認するのが難しい文字群です。

フォントのバージョンによって字形の変わる可能性がある文字

JIS90字形の文字(一部)

JIS90字形の文字(一部)

 以前のエントリーでも少し触れましたが、Pr6/Pr5などJIS90字形を基準としたフォントを用いて作られたDTPデータを元データとして電子書籍を制作する場合に、JIS規格の例示字形の変化の影響で字形の変わる可能性のある文字が168文字あります(フォントによって変化に差があるようです)。こちらにも字形差が微細なため、目で追って確認するのが難しいものが多く含まれます。一点しんにょう→二点しんにょうへの例示字形変更なども行われたため、人名漢字などで問題になるパターンが多くありそうです。JIS90→JIS2004の例示字形変化について、詳しくはこちらをご参照ください。

ドットブック/XMDFなどで外字化が必要になる可能性のある文字

Shift_JISに割り当てがなく、UNICODEのみで使える文字

Unicodeのみの文字例(色つきのもの)

Unicodeのみの文字例(色つきのもの)

 文字コードがShift_JISのドットブック、Unicodeが仕様上は使えるものの、おそらく既存のリーディングシステムの互換性の問題でShift_JISが使われることが多いと思われるXMDFで外字化が必要になりそうな文字群です(HTMLのように数値文字参照等で表記できるのでしょうか?手元の資料ではちょっとわかりませんでした)。XMDFビルダーではピンク色で表示され、XMDFビルダー内簡易ビューアではゲタ記号に化けて表示されるようです。EPUB3は文字コードがUnicode(UTF-8)のため、外字化しないでそのまま表示できます。

 このほか、「インライン画像として文字を作り、テキスト内に挿入していた文字」や、「外字の表示用に独自OpenTypeフォントを制作して表示していた文字」、「Biblosなどの市販外字フォントを利用していた文字」など、各ドキュメントごとに対応が必要になる場合も当然ありますが、これらは個々に対応するしかないと思われるため詳しくは書きません。以前フォントメーカーの営業の方にお聞きした話では、望ましい字形をDTPアプリケーションソフト内での操作なしで表示するために、フォントメーカーにカスタムフォントを特注して使用している印刷会社もあるとのことです。このような場合、その印刷会社以外の会社でDTPデータから電子書籍化する場合に、全ての文字を目で追って確認する必要が出てくるため校正費用がとても高くつくことが予想できます。可能であれば元DTPデータを制作した会社での電子書籍化が望まれるところです。

 また、出版デジタル機構および緊デジ関係者の方への要望として、特に上述の「基本字形に変化してしまう字形」および「フォントのバージョンによって字形の変わる文字」に関して、どのレベルまでを必ず外字にしなければならないのか(人名・地名のみ外字化するのか、初稿で外字化する文字を確認して指示していただけるのか、あるいは全て外字にするのか)、外字対応のガイドラインを策定し、出版社/制作会社の双方に告知していただきたく思います。

(2012.5.11)

「異体字」問題・その1

2012/03/30

印刷物から電子書籍を作成するにあたって乗り越えなければならない問題はたくさんありますが、まず真っ先に問題となると思われるポイントのひとつ、「異体字」の問題について書いてみたいと思います。

異体字とは何か

日本語文書では実にたくさんの漢字が用いられますが、同じ文字でも微妙に字形が異なる文字を用いる場合があります。特に人名・地名で頻出する「旧字体」などが広く知られた例ですが、印刷物に用いられている異体字形のバリエーションは、到底それだけで収まりきれるようなものではありません。

「辺」の異体字

「辺」の異体字

試みに、「渡辺」の「辺」の字の異体字をInDesignの字形パレットで表示させてみます。1、2、3・・・24種類!これは「Adobe1-6」というグリフ(字形集合)規格に対応したOpenTypeフォントが内包している字形ですが、この字形全てを字形パレットから呼び出して表現できるのが現在の印刷組版システムです。さすがにこの「辺」の文字の字形バリエーションは例外的に多い部類に属しますが、普通の漢字でも「旧字体」「エキスパート字形」「JIS78字形」「JIS83字形」などといった感じで4〜5種類の異体字が存在するものはザラです。

電子書籍化に伴う問題

問題は、この印刷物で用いられている字形の中に、電子書籍でそのまま表現できない字形が多く含まれていることです(外字画像を使うという選択肢はとりあえず除外します)。字形の違いに対して別のユニコード符号が与えられているものは問題ありませんが、同一のユニコード符号位置に対してInDesign/Illustratorなどの対応アプリケーションの中から呼び出して切り替えることを前提として2種類以上のグリフ字形が割り当てられているパターンが存在するため、「電子書籍にしたら人名漢字が基本字形になってしまった」というような問題がおそらく起こってきます。
こういった字形に絡む問題はとても根が深く、電子書籍以前から書籍系印刷会社を悩ませてきた頭痛の種です。JIS規格の改訂がかかるたびに字形の変化を目を皿のようにしてチェックし、対応に血道をあげてきたのはおそらく全国の書籍系印刷会社全てに共通する歴史と思います。

新旧「葛」の字形

新旧「葛」の字形

比較的最近の一例をあげますと、「葛」の字のJIS改訂に伴う字形変化の例などが有名です。JIS2000からJIS2004への改訂の際に標準字形が入れ替わった※1ため、全国の印刷会社の現場が悲鳴をあげました。例えばこの「葛」の文字も、ユニコード番号「845B」に旧JIS/新JIS双方の字形が収録されているパターンに該当するため、JIS2000準拠のフォントで組版された「葛」の字を含んだ印刷データをそのまま電子書籍化し、JIS2004準拠のフォントで文字を表示した場合、紙印刷物と異なった字形で表示されてしまいます。どうしても紙印刷物と同一の字形で表示したければ外字イメージで対応するしかありません。こういった状況を改善するためにUNICODE IVSという規格が現在動き始めてはいますが、これも順当に普及したとしても、現場で実際に使えるようになるのはかなり先の話になりそうです※2

おそらくきちんと事前に出版社サイドに説明を行っておけば本文中の字形変化は許容していただけると思われますが、人名・地名といった固有名詞に関してはそうもいかない状況が出てくるかも知れません。これはもちろん「葛」1文字だけの問題ではなく、JIS2000→JIS2004の例示字形の変化だけでも168文字を数えます。過去の印刷データにはそれ以前のJIS規格に沿ったフォントを用いて組版されたものも当然多数ありますから、「結局紙原本と照合して校正した方が早い」という状況になるのではないかと思われます。このあたりはコスト的にとても頭の痛いところです。

また、OpenTypeフォントが普及する以前は、こうした字形のバリエーションへの対応は「外字フォント」を用いていたわけで、こちらはさらに根が深いのですが……いささかキリがありませんので、外字フォントを多用した古い印刷データの電子書籍化については、いずれ機会を見てあらためて書こうと考えております。

※1 参考:http://pc.nikkeibp.co.jp/article/NPC/20070105/258134/
※2 IVS技術促進協議会:http://ivstpc.jp/default.htm

(2012.3.30)

プロフィール
Jun Tajima

こちらにて、電子書籍&Web制作を担当しています。
このブログは、EPUB3をはじめとした電子書籍制作担当オペレータからの、「電子書籍の制作時にたとえばこんな問題が出てきていますよ」的な「現地レポート」です。少しでも早い段階で快適な電子書籍閲覧・制作環境が整うことを願って、現場からの声を発信していこうと目論んでおります。

当ブログ内の記事・資料は、私の所属しております組織の許諾を得て掲載していますが、内容は私個人の見解に基づくものであり、所属する組織の見解を代表するものではありません。また、本ブログの情報・ツールを利用したことにより、直接的あるいは間接的に損害や債務が発生した場合でも、私および私の所属する組織は一切の責任を負いかねます。