‘未分類’ カテゴリーのアーカイブ

リーダー表示テスト用epubファイル公開についての補足説明など

2014/12/01

 電書ラボの研究発表ページにて、リーダー表示テスト用のepubファイルが公開になりました。
 これは私が制作を担当したものですが、これだけですとプロジェクトの全貌が見えにくいかと思いますので、制作者として以下に補足説明エントリを書きました。ご一読いただければ幸いです。

 このファイル群は、こちらの各社RS表示チェックの項目に沿って、各社のRSの挙動を横断的に調べるためのものです。この項目の番号自体は、電書ラボ制作仕様に準じて付けられています。まだほとんどのRSは未チェックの状態ですが、今後順次埋めていき、それぞれの表示項目に関して横断的に各RSの表示状況をチェックできる状態を目指します。

チェック項目数は約160項目

 チェック項目数は現在160項目ほどあります。電書ラボ制作仕様は基本的に電書協ガイドの仕様に沿ってコンテンツを作ることを目的としておりますので、かなり保守的に割り切った内容になっていますが、こちらのテストはどこまでを仕様に盛り込むかの境界線を探るためのものですので、それなりに踏み込んだものも入っています。
 例えばdisplay:table指定を利用した文字揃えレイアウトや、コンテンツの一部に対しての言語指定z-indexによるオブジェクトの重なり順指定が反映されているか、といったようなテストです。
 これらのテストの結果、ほとんどのRSで使用できることが確認できた項目があった場合には、制作仕様に盛り込むことを検討することになるでしょう。反対に、多くのRSで不具合が出ることが確認された項目があった場合には、制作仕様内で使用を制限する記述を行うことになります。

チェック結果は常に公開、随時更新

 このチェックシートは、現在このブログ内で公開中の「ビューア別EPUB表示テスト」を発展継承させるためのものでもありますので、シートはWeb上で公開し、随時更新することを考えております。
 ただ、現在すでにかなり多くのストアがビューアをマルチデバイス展開しておりますので、私ひとりで全てをチェックし続け、表を更新するといったようなことは既に無理な状態にあります。そのこともあって、複数の人間が空いた時間にチェック作業を行い、表を埋められるようにするために、テストファイルおよびチェックシートを公開する方針としています。同時に、チェックシートを公開することで各RS提供会社の積極的なビューアのアップデートを促したいという意図もあります。

 さらに、どこまでできるかはわかりませんが、数多く存在しているサイドロード(外部ファイル読み込み)の機能を持たないRSについても、電書ラボとして各ストアに連絡を取り、検証を依頼することでチェックを行う体制を取ろうと考えております。

電書ラボチェッカーへの反映ほか今後の展望

 こうしたチェックの結果は、電書ラボ制作仕様の正式公開に向けての材料とするばかりではなく、将来的には機械的なチェックが可能なプロパティに関しては、電書ラボチェッカーへもチェック項目の追加という形で反映させてゆくことになると思います。文字に関するものに代表されるように、例え規約で禁止されていたとしてもおよそ機械的なチェック手段なしではチェックの難しいものもありますので、これは必須のプロセスになるでしょう。

 電書ラボ制作仕様は、今のところ年明けあたりに1.0として正式公開を目指しております。チェックシートはそのときまでに、少なくともシェアの大きなストアでの表示確認を済ませたいところです。

各社RS表示チェック
https://docs.google.com/spreadsheets/d/14X_eFPqtJju80IgklQ4SLV7KF7-05EWWTc6trOUQttQ/pubhtml

電書ラボ:リーダー表示テスト用epubファイル
http://densholab.jp/page-29/page-604
田中さん解説の記述ありがとうございます

電書ラボ制作仕様β0.9(編集中)
https://docs.google.com/spreadsheets/d/1qYE-DPTel4NyGbOgQgyEJk1HL7wImYIhxJlWPR22AiQ/pubhtml
※各社RS表示チェックのチェック結果を受けて内容が変わる可能性があるため「編集中」です

(2014.12.2)

「東大新図書館計画と次世代デジタルアーカイブ」に行ってきた

2014/11/03

 去る10月18日、東京大学図書館で行われたイベント「東大新図書館トークイベント10「東大新図書館計画と次世代デジタルアーカイブ」」に行ってきました。

 これは第13回東京大学ホームカミング・デイの一環として開催されたイベントなのですが、一般の人でも聞けるとのことで、「東大版ヨーロピアナをいかにつくるのか?」という副題にも興味があったので行ってきました。

 Ustreamで公開もされていたということで、本当はもう少し早めに、一度しっかり映像を見直してからエントリを書きたかったのですが、公開期間の2週間をもう過ぎてしまったようで、今見に行っても映像を見ることが出来ませんでした。残念ですが、まあ既に公式のまとめ記事も上がっているようですので、ここでは記憶と、私個人の雑感を中心に書いてみることとします。

「情報の蓄積を発想力に変えられるか」

 まずは、国立情報学研究所の高野明彦先生のセッションから。「文化の深い記憶を呼び戻す連想情報技術」と題して、「Webcat Plus」「新書マップ」「Book Town じんぼう」「文化遺産オンライン」、といった高野先生の数々のお仕事の紹介がありました。さらには、これらの各検索データベースを繋ぐ「想 IMAGINE」というサイトが紹介されました。表層部分の検索・データベース化はGoogleによってあらかた達成されているが、深い場所の情報のネットワーク化はまだ手が届いていない部分が多くあるため、これのデータベース化を目指したとのこと。
 Webcat Plusはちょっと試してみましたが、興味を持ったジャンルの本の類書を探すシーンなどではかなり役に立ちそうでした。これはいずれAmazonのリコメンドをさらに発展させたような、書籍のディスカバラビリティに繋がっていく技術なのだろうと思います。

 高野先生のセッションの中で、特に印象的だった言葉に「水芸から蒸気機関へ」というものがあります。いわゆるビッグデータ的なデータの活用の文脈で語られた言葉だったと思うのですが、現状のビッグデータ活用はまだ「水芸」に過ぎず、今後の情報処理はコンテンツを変換する「蒸気機関」を目指さねばならない、という趣旨の言葉でした。キーワードは「検索から連想へ」とのことです。以前このテーマで高野先生が書かれた論文がこちら

 確かにビッグデータは近年のホットワードですが、まだビッグデータの処理そのものを中核としてビジネスモデルを構築した例はそう多くないようにも思えます。既存のビジネスの補完的な役割に留まっているというのが現状でしょう。今後、全く新しいビジネスモデルがビッグデータの処理を中核として出てくるとすれば、現在米国企業一強と言っていいITの勢力図も、まだまだ今後どう転ぶかわからないとも言えそうです。

「なぜ欧州はグーグルに挑むのか」

 続いて、弁護士の福井健策先生のセッション。国立国会図書館の取り組みなど、日本のアーカイビングの取り組みについての説明があった後、EUの「ヨーロピアナ」の説明がありました。
 そもそもヨーロピアナとは欧州連合(EU)が、2005年から構築を開始した電子図書館ポータルサイトで、現在既に3000万点のコンテンツが閲覧できるとのこと。のみならず、掲載コンテンツの使用条件が明記されていることがとても利便性を高めているとのことで、このあたりはクリエイティブ・コモンズにも通じる考え方です。

 福井先生からも説明がありましたが、現在過去のコンテンツの利用の大きな壁になっているのは、実は権利者に支払うお金そのものというよりも、どこにいるか分からない権利者を探しだし、交渉するコストの方なわけで、その意味でコンテンツの使用条件をあらかじめ明らかにしておくことはとても重要です。
 EUが巨大予算を投じてのヨーロピアナ構築に踏み切った背景には、Googleを中心とした英米企業による「知の寡占」状態に対しての深刻な危機感があったとのことで、このままでは英米による文化侵略が(Googleがそれを意図していないとしても)急速に進みかねないという意識が、この事業の推進を強力に後押ししたとのこと。Googleの検索エンジン利用シェアは現在88%にも上るそうで、確かにこの数字はEUに危機感を抱かせるに十分なものと思えます。私たち日本人にしてもこの点は全く他人事ではないでしょう。

 福井先生からはこのあと、日本のアーカイブ計画における課題として、専門的な職能を持った人員の不足や、欧州や近隣アジア諸国に比べても圧倒的なデジタル化予算の不足、著作権法の整備が進んでいないことなどが挙げられました。
 特に大きな問題として、(昨今良く聞く言葉ですが)「孤児作品」、つまり著作権は切れていないと思われるものの、権利者がどこにいるのか分からない作品の問題について触れています。孤児作品は国立国会図書館によると明治期図書の71%にもなるそうです。

 こうした諸問題を解決に導くために、日本でも「デジタルアーカイブ振興法」の早期成立が必要、との提言がありました。
 この法律のもとで、アーカイブ振興基本計画の作成、全国のデジタルアーカイブのネットワーク化、デジタル化ラボ、字幕化ラボの設置、各国アーカイブとの相互接続、公的資金で制作・収集された情報資産のデジタル公開を義務化・利用ルールの公開、デジタルアーキビストの育成と関連技術開発、孤児作品・絶版作品のデジタル活用促進などの施策を進める必要があり、また、デジタルアーカイブに必要十分な予算を確保するための下準備としても法律が必要とのこと。
 このあたりのことに関しては、近著『誰が「知」を独占するのか』に詳しいようですので、ご一読をおすすめしておきます。

 それから、やはりこれに関連して近日、『アーカイブ立国宣言』という書籍が出版されます(ステマだと非難されるのもヤなんであらかじめ書いてしまいますが、電子化をお手伝いさせていただきました(笑))。こちらは実験的に紙の本を購入した人に対して電子本を無料でダウンロード出来るようにするという取り組みを行うようですので、紙で買う方が多分お得です。

 「見て歩く者」の鷹野凌さんが今年の初めに予告されていたように、今年はやはり図書館関係が熱い年でした。これは市場的な面から見ても当然で、いわゆる専門書・学術書といったような分野の本は、従来もあまり「書店」でたくさん売れるというイメージはなく、主に図書館や大学の研究室によって購入されてきました。つまりここは、Amazon KindleやiBookStoreといった既存の一般書向けの電子書店がカバーしきれていないエリアです。今後、この分野の電子化の進展には大きく期待したいところですが、それにはやはり国会図書館をはじめとした図書館との連携が鍵になってくるのだろうと思っています。

(2014.11.5)

表組みをCSV経由でXHTMLにしてみた

2014/09/16

 InDesignデータからのEPUB制作で、悩ましいポイントのひとつが「表組み」の対応です。InDesignのEPUB書き出し機能を使うことでInDesign内の表をテーブル形式で書き出すことはできますが、InDesignの表組み機能では、そもそもセルの内容が複数ページにまたがるような場合には分割して作る必要があり、これの修正には当然相応の手間がかかります。また、そもそも元データがInDesign内の表作成機能を使用して作られていないケースも多々あります。
 また、現状多くのビューアでテーブル表示の対応が不完全で、これを受けて電書協ガイドではテーブル要素を非対応としているという現状もあります。このため、現在のEPUB作成では、現実的な解として表組みのページを画像として挿入しています。
 ただ、この形では当然文字を拡大することはできませんし、将来的にはアクセシビリティ対応にも支障をきたしそうです。

 そこで、InDesign内の表組みをCSV経由でXHTMLに変換することを考えてみました。CSV(カンマ区切りテキスト)は、ExcelやKeynoteから書き出して生成することができますので、InDesign内の表をコピーしてExcel等にペーストし、CSV形式で書き出してPerlで変換するという流れでワークフロー化することができます。Excel等の表計算ソフトであれば、比較的簡単に表の内容の編集・整理が可能ですので、かなり柔軟な処理ができると思います。

 PerlでCSVを扱う際に問題になるのは各項目の分割(パース)で、項目内にカンマが含まれていないなら普通にsplit関数で分割できるのですが、含まれている場合には結構面倒なことになりますので、今回は素直にCSV用のモジュール「Text::CSV_XS」を使いました。cpanminusがインストール済みの環境であれば、ターミナルで

sudo cpanm Text::CSV_XS

 と入力すればインストールできるはずです。

 また、今回出力するXHTMLファイルは最初の項目と次の項目を全角スペース区切りで並べ、次行との区別のためにぶら下がりインデントを指定する形にしてみました。表ではなくなってしまいますが、これならばまあ表示できないビューアはありません。本当はtable要素なりdiv要素のdisplay:table指定なりを使いたいところですが、現状ではまあ仕方ありません。

変換元データ 変換元データはこんな感じ。なお今回はPerl側で変換元の文字コードにUTF-8を指定しています。ExcelからCSVを出力した場合はShift_Jisで出力されるようですので、一度テキストエディタで開いて文字コードを変換する必要があります。なお、今回利用したNumbersでは出力時に文字コードを指定できる模様です。

 スクリプト的には外部からXHTMLのテンプレートを読み込む形にしても良いのですが、今回はコンパクトにしたかったのでソースコード内部に直にテンプレートを記述する形にしています。こういうのを「ヒアドキュメント」と呼ぶらしいです(初めて使いましたよ)。まあ可読性も良いですし悪くない形かなと思っています。以下が変換スクリプトになります。これに引数としてCSVファイルを食わせてやればXHTMLファイルを出力します。

 出力結果はこんな感じ。

 できたできた。

 やっていることは比較的単純で、読み込んだCSVファイルの各行の項目をモジュールで分割し、各行のテンプレートに入れ込む処理をしてから合成済みのテキストを配列に収納し、最後に配列内の各行を結合しています。その後でヘッダフッタを合成。テンプレート部分を書き換えるだけでそれなりに便利に使えるかと思います。いずれEPUBでテーブルが普通に使用できるようになったとしても、まあ応用は効きそうかなと思っています。

(2014.9.16)

プロフィール
Jun Tajima

こちらにて、電子書籍&Web制作を担当しています。
このブログは、EPUB3をはじめとした電子書籍制作担当オペレータからの、「電子書籍の制作時にたとえばこんな問題が出てきていますよ」的な「現地レポート」です。少しでも早い段階で快適な電子書籍閲覧・制作環境が整うことを願って、現場からの声を発信していこうと目論んでおります。

当ブログ内の記事・資料は、私の所属しております組織の許諾を得て掲載していますが、内容は私個人の見解に基づくものであり、所属する組織の見解を代表するものではありません。また、本ブログの情報・ツールを利用したことにより、直接的あるいは間接的に損害や債務が発生した場合でも、私および私の所属する組織は一切の責任を負いかねます。