未分類 | 電書魂

‘未分類’ カテゴリーのアーカイブ

Epubcheckのバージョンアップで仕様が変わったことについて

2023/07/13

　EPUBをリリースする前には必ずW3Cの公的なチェッカーであるEpubcheckに通してエラー等が出ていないかを確認する必要がありますが、そのEpubcheckに制作サイドとしては結構重要な変更があったようなので書いておきます。

OPFのManifestに記述されていないファイルがパッケージに入っていてもエラーにならなくなった

　どうもEpubcheckのバージョンが4.2.6から5.0.0に上がる際にかなり重要な変更があったようです。具体的には4.2.6まではEPUB内のManifestに記述されていないファイルがパッケージ内にあることは許容されておらず、エラー扱いになっていましたが、5.0.0ではエラーにならなくなりました。

https://github.com/w3c/epubcheck/releases のEpubcheck v5.0.0のFeaturesにある

report as a usage when no reference were found to manifest items (09244a4), closes #1452
report as usage container resources not listed in manifest (f81b423)

が関連するらしいとのこと。

　まあ5.0.0以降でもEpubcheckの実行時に-uオプションを付けることでファイルの混入をチェックすることはできるようなのですが、扱いとして「エラーではない」ことになったということです。

Epubcheckの出してくるアラートの区分

　ここであらためてEpubcheckの出すメッセージの種類を確認しておきます。以下の4種類の分類があるようです。

・Fatal Error（致命的エラー）
・Error（エラー）
・Warnings（警告）
・Usage（利用法情報）

　このうち、Fatal ErrorおよびErrorは修正しないと流通が許されない種類のもので、Warningsは警告程度のニュアンスなので流通させること自体は問題ないはずですが、電子取次の規約を理由に修正を求められることはあるようです。まあ「非推奨」くらいの意味合いかと思いますので新規にデータを作る際には直した方が無難ではあるでしょう。Usageは単なる内部データの状況のレポートなので出ていても問題は無いはずです。とは言え今回のポイントである意図しないファイルがEPUBパッケージ内に入ったまま流通してしまうことはもちろん良くはないので、管理面でチェックしておきたくはあります。
　また、Fatal Error／Error／Warningsは「標準エラー出力」でアラートを出しているようですが、Usageは「標準出力」扱いなので、ターミナル等でepubcheckを直に使う分には問題ないですが、外部言語等でアラートの内容を取得している場合には「2>&1」のような指定を追加してメッセージをマージする必要があるようです。

-uオプションで混入自体は検出できるが･･･

　さて前述したように、

java -jar Epubcheckのフォルダへのパス/epubcheck.jar -u テストファイルへのパス/test.epub

1	java -jar Epubcheckのフォルダへのパス/epubcheck.jar -u テストファイルへのパス/test.epub

のように-uオプションを指定すればmanifestに記述されていないファイルの混入をチェックすることはできます。ただし、電書協ガイドのテンプレートに入っているstyle-check.cssに関連するレポートもたくさんUSAGE扱いで出てきてしまいます。これはEpubcheckの機能での選別はできそうにないので、USAGE扱いの中の特定のメッセージだけを出したければ後からフィルタリングするしかないことにはなります。まあstyle-check.css自体、内容確認の際にだけ有効にして使うためのものですので消しても実害はないはずですが、電子取次の内部チェッカーで引っかかって戻ってくる可能性が無いとも言えないのでできればそのままにしておきたいところです。

Epubcheckのアラートをフィルタリングして必要なものだけ出すようにしてみる

　ということでちょっとコードを書いてみました。

use utf8;
######### Epubcheckを-uオプション付きで実行し、電書協ガイドのstyle-check.css関連のアラートを除外して結果を出力する #########

#Encodeモジュールをインポート
use Encode qw/encode decode/;

#epubcheckのファイルパスを指定
my $epubCheckPath = $ARGV[0];
$epubCheckPath = decode('UTF-8', $epubCheckPath);

#チェックするepubのファイルパスを指定
my $epubFilePath = $ARGV[1];
$epubFilePath = decode('UTF-8', $epubFilePath);

#epubcheckを実行して結果を取得
my $epubFilePathEscaped = "'" . $epubFilePath . "'";
my $epubcheckcommand = "export _JAVA_OPTIONS=-Dfile.encoding=UTF-8;java -jar " . $epubCheckPath . " -u " . $epubFilePathEscaped . " 2>&1";
my $epubcheckResult = `$epubcheckcommand`;

#epubcheck実行結果を出力
my @selectedLogTexts;
$epubcheckResult =~ s@\x0D\x0A@\x0D@g;
$epubcheckResult =~ s@\x0A@\x0D@g;
@epubcheckResultTxts = split("\x0D",$epubcheckResult);
#style-check.css関連のアラートをハネる
foreach (@epubcheckResultTxts) {
	unless ($_ =~ /^USAGE.+?style\-check\.css.+?$/){push(@selectedLogTexts, $_);}
}
$epubcheckResult = join("\x0D\x0A",@selectedLogTexts);
print $epubcheckResult . "\r\n";
exit;

use utf8;

######### Epubcheckを-uオプション付きで実行し、電書協ガイドのstyle-check.css関連のアラートを除外して結果を出力する #########

#Encodeモジュールをインポート

use Encode qw/encode decode/;

#epubcheckのファイルパスを指定

my $epubCheckPath = $ARGV[0];

$epubCheckPath = decode('UTF-8', $epubCheckPath);

#チェックするepubのファイルパスを指定

my $epubFilePath = $ARGV[1];

$epubFilePath = decode('UTF-8', $epubFilePath);

#epubcheckを実行して結果を取得

my $epubFilePathEscaped = "'" . $epubFilePath . "'";

my $epubcheckcommand = "export _JAVA_OPTIONS=-Dfile.encoding=UTF-8;java -jar " . $epubCheckPath . " -u " . $epubFilePathEscaped . " 2>&1";

my $epubcheckResult = `$epubcheckcommand`;

#epubcheck実行結果を出力

my @selectedLogTexts;

$epubcheckResult =~ s@\x0D\x0A@\x0D@g;

$epubcheckResult =~ s@\x0A@\x0D@g;

@epubcheckResultTxts = split("\x0D",$epubcheckResult);

#style-check.css関連のアラートをハネる

foreach (@epubcheckResultTxts) {

unless ($_ =~ /^USAGE.+?style\-check\.css.+?$/){push(@selectedLogTexts, $_);}

}

$epubcheckResult = join("\x0D\x0A",@selectedLogTexts);

print $epubcheckResult . "\r\n";

exit;

　ぐらいの感じでしょうか。ターミナルで

perl このコードのファイルのパス epubcheckのパス チェックするEPUBのパス

1	perl このコードのファイルのパス epubcheckのパスチェックするEPUBのパス

　の形で指定すれば使えます。

　これを取り込んだ「EPUB3トータルデータチェッカー2.5.0」はこちらからダウンロードできます。

（2023.7.13）

タグ: epubcheck
カテゴリー: 未分類 | コメントはまだありません »

ChatGPT3.5でのスクリプティングを試してみた

2023/04/12

　話題の生成系AI、OpenAIのChatGPTでのスクリプトコード作成を遅ればせながら簡単に試してみました。2023年4月現在、無料で使えるのはChatGPT3.5ですのでそちらでのテストになります。なお、Bing Chatはまだ順番待ち状態なので素のChatGPTです。試した言語はAppleScriptとPerlになります。

AppleScript

　まずAppleScriptです。DTP作業で多用する処理を試しました。

・Photoshopの画像のカラーモードをグレースケールに

　結果：×
概要：「convert mode」ではなく「change mode to」にしないとエラーになる。

・Photoshopの画像の解像度を350dpiに

　結果：×
概要：「set resolution to」ではなく「resize image resolution」にしないとエラーになる。

・InDesignドキュメント内のJIS X 0213外の文字だけを赤くする

　結果：×
概要：文法がおかしいらしくスクリプトエディタでの保存自体ができない。JIS X 0213外の文字の判別式もこんなに短いわけがない。

Perl

　次にPerlのテストです。なお何も指定せずにコードを生成させたら内部文字列UTF-16のコードを出してきたので内部文字列UTF-8を指定して再生成しました。条件をちゃんと指定するのは大事ですね。また、動作チェック時に「use utf8;」の指定を書き足しています。

・与えられた文字列内にJIS X 0213外の文字が含まれているかどうかのチェック

　結果：×
概要：JIS X 0213はラテンアルファベットを含んでいるので（参考）、説明自体がおかしい。まあJIS規格は著作物扱いのはずなのでここですんなり出てきてしまったらむしろ問題かもしれない。

・与えられた文字列内にcp932の機種依存文字が含まれているかどうかのチェック

　結果：×
概要：判定ルーチン自体は正しいように見えるのだが、判定のリストがおかしいらしくよく問題になる丸数字やローマ数字が引っかからない。そこを書き換えられれば実用範囲か。

・与えられた文字列内にUnicodeのBMP（基本多言語面）外の文字が含まれているかどうかのチェック

　結果：○
概要：これは問題なかった。

　どうもChatGPT3.5の時点では、AppleScriptのような比較的マイナーな言語やJIS X 0213など日本のローカル規格の学習は足りていないのかもしれません。文法自体はパーツとしては使えそうに見えるのでその辺を割り切って使うなら許容範囲でしょうか。つまり元々コードが書ける人が時短目的で使うのなら有用かもしれないですね。いずれバージョンが進めば今回問題になったような「学習が足りない」ことが原因の間違いは減っていきそうですが、「AIにどういった問いを与えるのか」はおそらく相当先まで人間が考えるしかないので、そこをやれる人が効率化のために使うツールという位置づけになるのかなと思った次第です。

（2023.4.12）

タグ: AI, Applescript, ChatGPT, Perl
カテゴリー: 未分類 | コメントはまだありません »

「EPUB3トータルデータチェッカー」アップル公証対応しました

2022/11/11

　日本語EPUB3用のバリデーションチェックアプリ『EPUB3トータルデータチェッカー』アップル公証対応しました。

http://sanyoshasmds.xsrv.jp/main/?page_id=184

　これは以前から公開していたものですが、macOSのセキュリティ周りの厳格化改訂によって外部に配布して使用してもらうことが難しくなっていたものです。最初の公開時に簡単な説明は書いているのですが、その後チェック項目を追加したりしたこともありますので以下に改めて説明を書いておきます。

動作環境

　Apple silicon/Intel環境ユニバーサル対応
　macOS 12.6（Apple silicon採用Mac）/ macOS10.14（Intel Mac）にて動作確認済です。内部的にPerlおよびJava（Epubcheckで使います）を使っていますので、そちらの環境次第では正しく動作しないかもしれません。

著作権など

　このアプリケーションソフトの権利はJunTajima/三陽社メディア開発室に帰属します。
　また、内包するライブラリ「epubcheck」に関する権利は、同梱したフォルダ「epubchecklicenses」内テキストの記述に従います。

使い方

　アプリケーションを起動すると出てくるドロップウィンドウ内にepubファイルをドラッグ＆ドロップするとepubファイルの各パラメータをチェックし、epubファイルと同じ場所にログファイル「EpubTotalDataCheck.log」を出力します。同名ファイルがすでに存在していた場合はテキスト末尾に追記します。

チェック可能なパラメータ

・SarrogatePair Character Check Result
　UTF-16環境でサロゲートペアとして扱われる文字（Unicodeで基本多言語面外の文字）が入っていないかを見ます。

・Unicode IVS Character Check Result
　Unicode IVS（漢字の異体字セレクタ）の異体字表示文字が入っていないかを見ます。

・Unicode SVS Character Check Result
　Unicode SVS（絵文字など）の異体字表示文字が入っていないかを見ます。

・Irregular Space Character Check Result
　U+2004〜U+200Dの特殊幅スペース文字が入っていないかを見ます。

・Voiced Soundmark Check Result
　濁点半濁点が合字扱いで入っていないかを見ます。macOSがFinder等で濁点半濁点を分離して扱う処理をする（Unicode正規化）ため、そこ由来の文字列が混入していないかを見るためのものです。

・JIS2004Character Check Result
　JIS X 0213：2004（JIS2004）で外字扱いとなる文字が入っていないかを見ます。電書協ガイドではJIS2004内の文字のみを使用するように規定しています。

・Adobe-Japan1-6Character Check Result
　Adobe-Japan1-6で外字扱いとなる文字が入っていないかを見ます。多くのEPUBビューアはAdobe-Japan1-6規格のフォントを採用しているため、そこからはみ出た文字は外字画像等にしないと化けるリスクがあります。

・SVG Wrapping Image Pixel Count Check Result
　SVGラッピング配置ページのViewPort記述サイズと画像の実ピクセル数が一致しているかどうかを見ます。電書協ガイド仕様のフィックス型EPUBおよびKADOKAWAフィックスドハイブリッド仕様のチェック対応です。KADOKAWAの仕様についてはこちらを参照してください。

・ImageFile ColorMode Check Result
　EPUB内で使用されている画像のカラーモードにCMYKが使用されていないかを見ます。

・ImageFile PixelCount Check Result
　EPUB内で画像が400万画素を越える画像が使用されていないかを見ます。「Apple Books アセットガイド」の規約に準じたチェック項目です。

・ImageTagFileName Check Result
　imgタグの属性値srcで指定されている画像ファイル名末尾にスペース文字が入っていないかを見ます。epubcheckでスペースが入っていてもエラー扱いにならなくなったため入れました。

・epubcheckのチェック結果
　epubcheckのチェック結果を出します。

　以上です。なお、epubcheck以外の独自追加項目は通知の性格としてはERRORではなくWARNINGで、制作物の性質上無視してよいと判断できるならそれで構わない性質のものと考えています。ご理解の上でご利用ください。

（2022.11.11）

タグ: epubcheck
カテゴリー: 未分類 | コメントはまだありません »