未分類 | 電書魂

‘未分類’ カテゴリーのアーカイブ

Kindle Paperwhiteがいつの間にか調べ物最強デバイスに化けてた件について

2015/02/25

　数日前の昼間、こんなネタが流れてきました。amazonkindleは存在自体知らなかったんですが、デバイスで付けたハイライトを同期させてWebページから一覧で見られ、しかもPC用のビューアをインストールしてあれば該当箇所に簡単に飛べると。忙しさにかまけてMac版Kindleの動作チェック後回しにしていたんですが、こんな話を聞いては試さずにはいられません。

さっそくやってみた

　まずはMac版Kindleをインストールしてログインし、同期対照の電子書籍をダウンロードしておきます。そしてKindle PaperWhiteでハイライトしたい範囲を選択します。

　次にインターネットに繋がる環境で、設定メニューの「同期してアイテムをチェック」でハイライト箇所を同期。

　その上でamazonkindleにログインし、「Your Hilights」をクリックすると、今ハイライトした箇所が一覧で出てきます。そのテキスト末尾の「Read more at location〜」をクリックすると、見事にMac版Kindleが立ち上がってハイライトした箇所が表示されました。

　素晴らしい！未来、来ましたね。これなら紙の本に付箋を貼りながら読み込み、大事な箇所にマーカーで書き込むのと手間は変わりませんし、ハイライトした箇所を一覧で見られることを思えばむしろこちらの方が利便性は上です。amazonkindleの画面上からならコピー＆ペーストもできますから、調べ物的な読書ならこれは相当に便利です。もちろんハイライトをつけることはiOS版、Android版などのKindleアプリでもできます。最高。

そしてさらに気づいてしまった

　そして昨日、Kindleの表示チェックをしている時に、さらにとんでもないことに気づいてしまいました。いつの間にか、Kindle PaperWhiteのホーム画面上の検索機能から、手持ちのデバイス内に入っている電子書籍全てに対しての串刺し検索ができるようになっていたことを。
　これ、いつごろから実装されていた機能なんでしょうか。ちょっとわかりませんが、どうもそれなりに前からあった機能のようです。PCならそう難しくもないでしょうが、Kindle PaperWhite程度のデバイス処理能力でこれを実装するのは相当大変だったはず。
　これができれば、上記のハイライト同期と合わせて、現状調べ物的な読書には最強の環境が整ったと言えるのではないでしょうか。Amazonが地道に整えてきた単体ではそこまで目を引かない地味な機能の集積が、ここにきてついに繋がり始めた感があります。ここは素直に開発チームに賞賛の気持ちを送りたいです。ついに電子書籍はここで紙の本を超えました。

　さて、そうは言っても私も欲張りな読者の一人ですので、まだまだ不足を感じる点はあります。ということで、ここでAmazon開発チームおよび、他ストアのビューア開発者に対して「次」に望みたい点に関しての要望を出しておきたく思います。

一括検索機能をPC/Mac版Kindleでも使えるように

　まずは当然、Kindle PaperWhiteだけでしか一括検索が使えないという点には不満を覚えます。率直に言いまして、一括串刺し検索はむしろPC/Mac版のKindleアプリと親和性の高い機能なのではないでしょうか。複数の書物にまたがって調べ物をする際に、キーワード一括検索をかけ、該当箇所に自在に飛んだ上でハイライトをつけ、それを自在に抜き出してまとめ文を作るといった行為をする際に、PC/Mac単体で完結させたいと思うのは私だけではないはずです。ぜひ、PC/Mac版のKindleアプリにも早期の機能追加を望みたいところです。

PC/Macアプリ上で選択テキストをコピー＆ペーストしたい

　さらに言えば、現状のPC/Mac版Kindleの「選択箇所のテキストのコピー＆ペーストができない」という仕様も不満点です。おそらくこれは海賊版の流通を警戒する出版社に対して配慮した結果だろうとは思うのですが、長文のコピー＆ペーストをできなくすれば海賊版の流通が減り、出版社の利益が増えるはずというのはおよそ幻想に過ぎないように思えます。利用者の利便性を損ねることで利益が増えるわけがありません。大体OSが標準で持っている機能を制限するということ自体、相当な無理筋です。こういう意味の無い機能制限は早く撤廃して欲しいところです。

書棚内のグループ分け/グループ内検索機能の追加

　現在Kindleで実装されているのは、デバイス内全ての本のみを対象とした一括検索機能のみです。ただこれでは、手持ちの本が1000冊、2000冊と増えていった場合には、検索結果があまりに多くなりすぎ、利便性を損なうことになりそうです。また、そうでなくともKindleのビューアは本の分類や並べ替えといった部分の機能が貧弱で、すぐに本がどこに行ったかわからなくなりがちです。そこで、まずは手持ちの本の分類機能を実装し、合わせて分類したグループ内の本に対しての串刺し検索機能を希望したいところです。

　といったところでしょうか。まああとは「他のストアで購入した本を含めた串刺し検索・ハイライト抽出」なんですが、まあこればっかりは一朝一夕には無理そうかなと・・・

（2015.2.25）

タグ: kindle, Whispersync, ハイライト, 検索
カテゴリー: 未分類 | 1 件のコメント »

濁点のトラブルに遭遇

2015/02/09

　最近あったちょっとしたトラブルについてちょっとメモ代わりに。epubはおおざっぱに言えばxhtmlをzipで固めたようなものなので、各xhtmlファイルには当然ヘッダ部分があり、タイトルがあるわけなのですが、このタイトル部分に含まれている文字の濁点の部分が「非濁点親文字」＋「゛」の合字になっており、一部のビューアで合字をきちんと表示できないため、問題となりました。以前からFinder内で入力された文字がOS XのUnicode正規化処理によって変換される問題があるという話は知っていたのですが、実際にトラブルに遭遇したのは初めてでした。Unicode正規化処理に関しましてはものかの先生が詳しく解説してますのでこちらの記事を。

OS Xの処理によって濁点が分解される

　ざっくり何が起きるのかというと、Finderでファイル名等を入力すると、入力時に例えば「ダ」が「タ」＋「゛」に分解されて収納されるということです。商用アプリ等では通常これを見越して再変換処理を行っていると思いますので、そういったアプリだけを利用して仕事を完結させているとこの現象に気づかないケースも多いかと思いますが、自家製スクリプト等でファイル名、フォルダ名などを取得して処理するようなケースではきちんとした対策が必要になってきます。今回はそれをしていなかったために合字が混入してしまいました。

　やらなきゃならない処理としては簡単で、変化している可能性のある文字をリスト化して順番に置換をかければいいわけです。ということでものかの先生のサイトで公開されているひらくんさんのperlスクリプトを参考に置換処理を実行。

use Unicode::Normalize;
my $myReg = '[^\x{0340}\x{0341}\x{0343}\x{0344}\x{0374}\x{037E}\x{0387}\x{0958}-\x{095F}\x{09DC}\x{09DD}\x{09DF}\x{0A33}\x{0A36}\x{0A59}-\x{0A5B}\x{0A5E}\x{0B5C}\x{0B5D}\x{0F43}\x{0F4D}\x{0F52}\x{0F57}\x{0F5C}\x{0F69}\x{0F73}\x{0F75}\x{0F76}\x{0F78}\x{0F81}\x{0F93}\x{0F9D}\x{0FA2}\x{0FA7}\x{0FAC}\x{0FB9}\x{1F71}\x{1F73}\x{1F75}\x{1F77}\x{1F79}\x{1F7B}\x{1F7D}\x{1FBB}\x{1FBE}\x{1FC9}\x{1FCB}\x{1FD3}\x{1FDB}\x{1FE3}\x{1FEB}\x{1FEE}\x{1FEF}\x{1FF9}\x{1FFB}\x{1FFD}\x{2000}\x{2001}\x{2126}\x{212A}\x{212B}\x{2329}\x{232A}\x{2ADC}\x{F900}-\x{FA0D}\x{FA10}\x{FA12}\x{FA15}-\x{FA1E}\x{FA20}\x{FA22}\x{FA25}\x{FA26}\x{FA2A}-\x{FA6D}\x{FA70}-\x{FAD9}\x{FB1D}\x{FB1F}\x{FB2A}-\x{FB36}\x{FB38}-\x{FB3C}\x{FB3E}\x{FB40}\x{FB41}\x{FB43}\x{FB44}\x{FB46}-\x{FB4E}\x{1D15E}-\x{1D164}\x{1D1BB}-\x{1D1C0}\x{2F800}-\x{2FA1D}]+';
$xxxx =~ s/($myReg)/NFC($1)/eg;

use Unicode::Normalize;

my $myReg = '[^\x{0340}\x{0341}\x{0343}\x{0344}\x{0374}\x{037E}\x{0387}\x{0958}-\x{095F}\x{09DC}\x{09DD}\x{09DF}\x{0A33}\x{0A36}\x{0A59}-\x{0A5B}\x{0A5E}\x{0B5C}\x{0B5D}\x{0F43}\x{0F4D}\x{0F52}\x{0F57}\x{0F5C}\x{0F69}\x{0F73}\x{0F75}\x{0F76}\x{0F78}\x{0F81}\x{0F93}\x{0F9D}\x{0FA2}\x{0FA7}\x{0FAC}\x{0FB9}\x{1F71}\x{1F73}\x{1F75}\x{1F77}\x{1F79}\x{1F7B}\x{1F7D}\x{1FBB}\x{1FBE}\x{1FC9}\x{1FCB}\x{1FD3}\x{1FDB}\x{1FE3}\x{1FEB}\x{1FEE}\x{1FEF}\x{1FF9}\x{1FFB}\x{1FFD}\x{2000}\x{2001}\x{2126}\x{212A}\x{212B}\x{2329}\x{232A}\x{2ADC}\x{F900}-\x{FA0D}\x{FA10}\x{FA12}\x{FA15}-\x{FA1E}\x{FA20}\x{FA22}\x{FA25}\x{FA26}\x{FA2A}-\x{FA6D}\x{FA70}-\x{FAD9}\x{FB1D}\x{FB1F}\x{FB2A}-\x{FB36}\x{FB38}-\x{FB3C}\x{FB3E}\x{FB40}\x{FB41}\x{FB43}\x{FB44}\x{FB46}-\x{FB4E}\x{1D15E}-\x{1D164}\x{1D1BB}-\x{1D1C0}\x{2F800}-\x{2FA1D}]+';

$xxxx =~ s/($myReg)/NFC($1)/eg;

　これを混入の可能性のある各文字列に対して実行するだけです。

チェッカースクリプトにも処理を追記

　ついでに、最終出力EPUBに濁点（U+3099）、半濁点（U+309A）が混入していないかどうかをチェックする処理を以前に作ったスクリプトに追加しました。

ログ出力用変数に

our $finalVoicedSoundmarkOutputLog = "";

1	our $finalVoicedSoundmarkOutputLog = "";

を追記、

最終出力ログの分岐処理部分に

if ($finalVoicedSoundmarkOutputLog eq ""){
	$finalVoicedSoundmarkOutputLog = '##Voiced Soundmark Check Result ： ' . "\r\n" . 'OK! Not Any Voiced Soundmark in EPUB File!';
} else {
	$finalVoicedSoundmarkOutputLog = '##Voiced Soundmark Check Result ： ' . "\r\n" . $finalVoicedSoundmarkOutputLog;
}

if ($finalVoicedSoundmarkOutputLog eq ""){

$finalVoicedSoundmarkOutputLog = '##Voiced Soundmark Check Result ： ' . "\r\n" . 'OK! Not Any Voiced Soundmark in EPUB File!';

} else {

$finalVoicedSoundmarkOutputLog = '##Voiced Soundmark Check Result ： ' . "\r\n" . $finalVoicedSoundmarkOutputLog;

}

を追記、

ログ出力部に

$finalVoicedSoundmarkOutputLog = encode('UTF-8', $finalVoicedSoundmarkOutputLog);
print OUT $finalVoicedSoundmarkOutputLog . "\r\n\r\n";

1 2	$finalVoicedSoundmarkOutputLog = encode('UTF-8', $finalVoicedSoundmarkOutputLog); print OUT $finalVoicedSoundmarkOutputLog . "\r\n\r\n";

を追記、

各キャラクタのチェック用サブルーチン内に

	if ($mychara =~ /[\x{3099}\x{309A}]/){
		$finalVoicedSoundmarkOutputLog = ($finalVoicedSoundmarkOutputLog . 'Caution! VoicedSoundmarkCharactors at ' . '   ' . 'FileName:' . $xhtmlFileName . '   ' . 'Line:' . $lineNumCount . '   ' . 'Character:' . $CharaNumCount . "\n")
	}

if ($mychara =~ /[\x{3099}\x{309A}]/){

$finalVoicedSoundmarkOutputLog = ($finalVoicedSoundmarkOutputLog . 'Caution! VoicedSoundmarkCharactors at ' . ' ' . 'FileName:' . $xhtmlFileName . ' ' . 'Line:' . $lineNumCount . ' ' . 'Character:' . $CharaNumCount . "\n")

}

を追記。

　これでEPUBファイル内に濁点（U+3099）、半濁点（U+309A）が混入していた場合にはチェッカーログに出力されるようになりました。

　以下改訂後の全文です。

use utf8;

#Encodeモジュールをインポート
use Encode qw/encode decode/;
use File::Basename qw/basename dirname/;
use Archive::Zip;
use Archive::Extract;
use File::Path;

#引数1で指定したepubファイルを取得
$epubFilePath = $ARGV[0];
$epubFilePath = decode('UTF-8', $epubFilePath);
my $epubFileName = basename $epubFilePath;

###################チェック用一時epubファイルのパスを取得###################
my $epubpackage = Archive::Zip->new();
die unless $epubpackage->read($epubFilePath) == Archive::Zip::AZ_OK;
#パスリスト変数の定義
my @xhtmlfilePaths;
my @files = $epubpackage->members();
foreach my $file (@files) {
	push(@xhtmlfilePaths,$file->fileName) if ($file->fileName =~ /^(.*?)\.xhtml$/);
}

###################チェック用一時ファイル解凍処理###################
my $uniqueFolderPath = '/tmp/' . $epubFileName;
#同一フォルダが存在したら連番をつける処理
my $mynum = 1;
if (-d $uniqueFolderPath){
	while (-d $uniqueFolderPath){
		$uniqueFolderPath = ('/tmp/' . $epubFileName . '_' . $mynum);
		$mynum++;
	}
}

#解凍実行

my $epubArchive = Archive::Extract->new(archive => $epubFilePath,type => 'zip') or die;
$epubArchive->extract(to => $uniqueFolderPath);

###################文字チェック処理###################
#ログ出力用変数定義
our $finalSarrogatePairOutputLog = "";
our $finalIVSOutputLog = "";
our $finalIrregularSpaceOutputLog = "";
our $finalVoicedSoundmarkOutputLog = "";

#各xhtmlファイルを展開

foreach $myXhtmlfilePath (@xhtmlfilePaths){
&eachFileProceed($myXhtmlfilePath);
}

###################ログにタイトル部分を合成###################
if ($finalSarrogatePairOutputLog eq ""){
	$finalSarrogatePairOutputLog = '##SarrogatePair Character Check Result ： ' . "\r\n" . 'OK! Not Any SarrogatePair Characters in EPUB File!';
} else {
	$finalSarrogatePairOutputLog = '##SarrogatePair Character Check Result ： ' . "\r\n" . $finalSarrogatePairOutputLog;
}
if ($finalIVSOutputLog eq ""){
	$finalIVSOutputLog = '##Unicode IVS Character Check Result ： ' . "\r\n" . 'OK! Not Any Unicode IVS Characters in EPUB File!';
} else {
	$finalIVSOutputLog = '##Unicode IVS Character Check Result ： ' . "\r\n" . $finalIVSOutputLog;
}
if ($finalIrregularSpaceOutputLog eq ""){
	$finalIrregularSpaceOutputLog = '##Irregular Space Character Check Result ： ' . "\r\n" . 'OK! Not Any Irregular Space Characters in EPUB File!';
} else {
	$finalIrregularSpaceOutputLog = '##Irregular Space Character Check Result ： ' . "\r\n" . $finalIrregularSpaceOutputLog;
}
if ($finalVoicedSoundmarkOutputLog eq ""){
	$finalVoicedSoundmarkOutputLog = '##Voiced Soundmark Check Result ： ' . "\r\n" . 'OK! Not Any Voiced Soundmark in EPUB File!';
} else {
	$finalVoicedSoundmarkOutputLog = '##Voiced Soundmark Check Result ： ' . "\r\n" . $finalVoicedSoundmarkOutputLog;
}


###################チェック用一時ファイルの削除###################
rmtree($uniqueFolderPath);

###################ログ出力###################
my $logOutputPath = (dirname $epubFilePath) . '/EpubTotalDataCheck.log';
$logOutputPath = encode('UTF-8', $logOutputPath);
open(OUT,">> $logOutputPath");
#チェックしたepubファイル名を出力
my $finalFilename = '####Checked FileName ： ' . "\r\n" . $epubFileName;
$finalFilename = encode('UTF-8', $finalFilename);
print OUT $finalFilename . "\r\n\r\n";
#サロゲートペア文字の有無を出力
$finalSarrogatePairOutputLog = encode('UTF-8', $finalSarrogatePairOutputLog);
print OUT $finalSarrogatePairOutputLog . "\r\n\r\n";
#Unicode IVS文字の有無を出力
$finalIVSOutputLog = encode('UTF-8', $finalIVSOutputLog);
print OUT $finalIVSOutputLog . "\r\n\r\n";
#特殊スペース文字の有無を出力
$finalIrregularSpaceOutputLog = encode('UTF-8', $finalIrregularSpaceOutputLog);
print OUT $finalIrregularSpaceOutputLog . "\r\n\r\n";
#濁点半濁点の有無を出力
$finalVoicedSoundmarkOutputLog = encode('UTF-8', $finalVoicedSoundmarkOutputLog);
print OUT $finalVoicedSoundmarkOutputLog . "\r\n\r\n";
close (OUT);

exit;

###################サブルーチン###################
#各xhtmlファイルのチェック
sub eachFileProceed {
	my $myXhtmlfilePath = $_[0];
	#各xhtmlファイル名を取得
	our $xhtmlFileName = basename $myXhtmlfilePath;
	my $eachFilePath = ($uniqueFolderPath . "/" . $myXhtmlfilePath);
	open(IN,"$eachFilePath");
	#改行コードの統一処理
	@myCHECKFILEtxts = <IN>;
	$myCHECKFILEtxts = join("",@myCHECKFILEtxts);
	$myCHECKFILEtxts =~ s@\x0D\x0A@\x0D@g;
	$myCHECKFILEtxts =~ s@\x0A@\x0D@g;
	$myCHECKFILEtxts = decode('UTF-8', $myCHECKFILEtxts);
	@eachLine = split("\x0D",$myCHECKFILEtxts);
	close (IN);
	
	our $lineNumCount = 1;
	#各ファイル内各行にIVS/サロゲートペア文字が含まれているかどうかのチェック
	foreach $myLine (@eachLine){
	&eachLineProceed($myLine);
	$lineNumCount++;
	}
}

#各xhtmlファイル内各行のチェック
sub eachLineProceed {
	my $myLine = $_[0];
###サロゲートペア文字参照のチェック、ログに追記###
#16進数
while($myLine =~ /&\#x2[0-9A-Z]{4};/ig) {
	$matchPlace = pos($myLine);
	$finalSarrogatePairOutputLog = ($finalSarrogatePairOutputLog . 'Caution! SarrogatePairCharacterRefernce at ' . '   ' . 'FileName:' . $xhtmlFileName . '   ' . 'Line:' . $lineNumCount . '   ' . 'Character:' . $matchPlace . "\n")
}
#10進数
while($myLine =~ /&\#(1[0-9]{5});/ig) {
	$matchPlace = pos($myLine);
	if ($1 >= 131072 && $1 <= 196607) {
		$finalSarrogatePairOutputLog = ($finalSarrogatePairOutputLog . 'Caution! SarrogatePairCharacterRefernce at ' . '   ' . 'FileName:' . $xhtmlFileName . '   ' . 'Line:' . $lineNumCount . '   ' . 'Character:' . $matchPlace . "\n")
	}
}

###IVS文字参照のチェック###
#16進数
while($myLine =~ /&\#xE[0-9A-Z]{4};/ig) {
	$matchPlace = pos($myLine);
	$finalIVSOutputLog = ($finalIVSOutputLog . 'Caution! UnicodeIVSCharacterRefernce at ' . '   ' . 'FileName:' . $xhtmlFileName . '   ' . 'Line:' . $lineNumCount . '   ' . 'Character:' . $matchPlace . "\n")
}
#10進数
while($myLine =~ /&\#(9[0-9]{5});/ig) {
	$matchPlace = pos($myLine);
	if ($1 >= 917504 && $1 <= 983039) {
		$finalIVSOutputLog = ($finalIVSOutputLog . 'Caution! UnicodeIVSCharacterRefernce at ' . '   ' . 'FileName:' . $xhtmlFileName . '   ' . 'Line:' . $lineNumCount . '   ' . 'Character:' . $matchPlace . "\n")
	}
}

###特殊スペース文字のチェック###
#16進数
while($myLine =~ /&\#x(200[456789ACD]);/ig) {
	$matchPlace = pos($myLine);
	$finalIrregularSpaceOutputLog = ($finalIrregularSpaceOutputLog . 'Caution! IrregularSpaceCharactorRefernce at ' . '   ' . 'FileName:' . $xhtmlFileName . '   ' . 'Line:' . $lineNumCount . '   ' . 'Character:' . $matchPlace . "\n")
}
#10進数
while($myLine =~ /&\#(819[6789]|820[01245]);/ig) {
	$matchPlace = pos($myLine);
	$finalIrregularSpaceOutputLog = ($finalIrregularSpaceOutputLog . 'Caution! IrregularSpaceCharactorRefernce at ' . '   ' . 'FileName:' . $xhtmlFileName . '   ' . 'Line:' . $lineNumCount . '   ' . 'Character:' . $matchPlace . "\n")
}

#キャラクタごとの処理へ
my @eachchara = split(//,$myLine);
our $CharaNumCount = 1;
foreach $mychara(@eachchara){
	&eachCharaProceed($myChara);
		$CharaNumCount++;
	}
}

#各xhtmlファイル内各行内各キャラクタのチェック
sub eachCharaProceed {
	my $myChara = $_[0];
	###サロゲートペア文字のチェック###
	#サロゲートペア文字の場所をチェック、ログに追記
	if ($mychara =~ /[\x{20000}-\x{2FFFF}]/){
		$finalSarrogatePairOutputLog = ($finalSarrogatePairOutputLog . 'Caution! SarrogatePairCharacters at ' . '   ' . 'FileName:' . $xhtmlFileName . '   ' . 'Line:' . $lineNumCount . '   ' . 'Character:' . $CharaNumCount . "\n")
	}
	###IVS文字のチェック###
	#Unicode IVS文字の場所をチェック、ログに追記
	if ($mychara =~ /[\x{E0000}-\x{EFFFF}]/){
		$finalIVSOutputLog = ($finalIVSOutputLog . 'Caution! UnicodeIVSCharacters at ' . '   ' . 'FileName:' . $xhtmlFileName . '   ' . 'Line:' . $lineNumCount . '   ' . 'Character:' . $CharaNumCount . "\n")
	}
	###特殊スペース文字のチェック###
	#4分スペースなどの特殊スペース文字が含まれているかどうかのチェック
	if ($mychara =~ /[\x{2004}-\x{200A}\x{200C}-\x{200D}]/){
		$finalIrregularSpaceOutputLog = ($finalIrregularSpaceOutputLog . 'Caution! IrregularSpaceCharactors at ' . '   ' . 'FileName:' . $xhtmlFileName . '   ' . 'Line:' . $lineNumCount . '   ' . 'Character:' . $CharaNumCount . "\n")
	}
	###濁点半濁点のチェック###
	#HFS+の正規化で分解された濁点半濁点が含まれているかどうかのチェック
	if ($mychara =~ /[\x{3099}\x{309A}]/){
		$finalVoicedSoundmarkOutputLog = ($finalVoicedSoundmarkOutputLog . 'Caution! VoicedSoundmarkCharactors at ' . '   ' . 'FileName:' . $xhtmlFileName . '   ' . 'Line:' . $lineNumCount . '   ' . 'Character:' . $CharaNumCount . "\n")
	}
}

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

use utf8;

#Encodeモジュールをインポート

use Encode qw/encode decode/;

use File::Basename qw/basename dirname/;

use Archive::Zip;

use Archive::Extract;

use File::Path;

#引数1で指定したepubファイルを取得

$epubFilePath = $ARGV[0];

$epubFilePath = decode('UTF-8', $epubFilePath);

my $epubFileName = basename $epubFilePath;

###################チェック用一時epubファイルのパスを取得###################

my $epubpackage = Archive::Zip->new();

die unless $epubpackage->read($epubFilePath) == Archive::Zip::AZ_OK;

#パスリスト変数の定義

my @xhtmlfilePaths;

my @files = $epubpackage->members();

foreach my $file (@files) {

push(@xhtmlfilePaths,$file->fileName) if ($file->fileName =~ /^(.*?)\.xhtml$/);

}

###################チェック用一時ファイル解凍処理###################

my $uniqueFolderPath = '/tmp/' . $epubFileName;

#同一フォルダが存在したら連番をつける処理

my $mynum = 1;

if (-d $uniqueFolderPath){

while (-d $uniqueFolderPath){

$uniqueFolderPath = ('/tmp/' . $epubFileName . '_' . $mynum);

$mynum++;

}

#解凍実行

my $epubArchive = Archive::Extract->new(archive => $epubFilePath,type => 'zip') or die;

$epubArchive->extract(to => $uniqueFolderPath);

###################文字チェック処理###################

#ログ出力用変数定義

our $finalSarrogatePairOutputLog = "";

our $finalIVSOutputLog = "";

our $finalIrregularSpaceOutputLog = "";

our $finalVoicedSoundmarkOutputLog = "";

#各xhtmlファイルを展開

foreach $myXhtmlfilePath (@xhtmlfilePaths){

&eachFileProceed($myXhtmlfilePath);

}

###################ログにタイトル部分を合成###################

if ($finalSarrogatePairOutputLog eq ""){

$finalSarrogatePairOutputLog = '##SarrogatePair Character Check Result ： ' . "\r\n" . 'OK! Not Any SarrogatePair Characters in EPUB File!';

} else {

$finalSarrogatePairOutputLog = '##SarrogatePair Character Check Result ： ' . "\r\n" . $finalSarrogatePairOutputLog;

}

if ($finalIVSOutputLog eq ""){

$finalIVSOutputLog = '##Unicode IVS Character Check Result ： ' . "\r\n" . 'OK! Not Any Unicode IVS Characters in EPUB File!';

} else {

$finalIVSOutputLog = '##Unicode IVS Character Check Result ： ' . "\r\n" . $finalIVSOutputLog;

}

if ($finalIrregularSpaceOutputLog eq ""){

$finalIrregularSpaceOutputLog = '##Irregular Space Character Check Result ： ' . "\r\n" . 'OK! Not Any Irregular Space Characters in EPUB File!';

} else {

$finalIrregularSpaceOutputLog = '##Irregular Space Character Check Result ： ' . "\r\n" . $finalIrregularSpaceOutputLog;

}

if ($finalVoicedSoundmarkOutputLog eq ""){

$finalVoicedSoundmarkOutputLog = '##Voiced Soundmark Check Result ： ' . "\r\n" . 'OK! Not Any Voiced Soundmark in EPUB File!';

} else {

$finalVoicedSoundmarkOutputLog = '##Voiced Soundmark Check Result ： ' . "\r\n" . $finalVoicedSoundmarkOutputLog;

}

###################チェック用一時ファイルの削除###################

rmtree($uniqueFolderPath);

###################ログ出力###################

my $logOutputPath = (dirname $epubFilePath) . '/EpubTotalDataCheck.log';

$logOutputPath = encode('UTF-8', $logOutputPath);

open(OUT,">> $logOutputPath");

#チェックしたepubファイル名を出力

my $finalFilename = '####Checked FileName ： ' . "\r\n" . $epubFileName;

$finalFilename = encode('UTF-8', $finalFilename);

print OUT $finalFilename . "\r\n\r\n";

#サロゲートペア文字の有無を出力

$finalSarrogatePairOutputLog = encode('UTF-8', $finalSarrogatePairOutputLog);

print OUT $finalSarrogatePairOutputLog . "\r\n\r\n";

#Unicode IVS文字の有無を出力

$finalIVSOutputLog = encode('UTF-8', $finalIVSOutputLog);

print OUT $finalIVSOutputLog . "\r\n\r\n";

#特殊スペース文字の有無を出力

$finalIrregularSpaceOutputLog = encode('UTF-8', $finalIrregularSpaceOutputLog);

print OUT $finalIrregularSpaceOutputLog . "\r\n\r\n";

#濁点半濁点の有無を出力

$finalVoicedSoundmarkOutputLog = encode('UTF-8', $finalVoicedSoundmarkOutputLog);

print OUT $finalVoicedSoundmarkOutputLog . "\r\n\r\n";

close (OUT);

exit;

###################サブルーチン###################

#各xhtmlファイルのチェック

sub eachFileProceed {

my $myXhtmlfilePath = $_[0];

#各xhtmlファイル名を取得

our $xhtmlFileName = basename $myXhtmlfilePath;

my $eachFilePath = ($uniqueFolderPath . "/" . $myXhtmlfilePath);

open(IN,"$eachFilePath");

#改行コードの統一処理

@myCHECKFILEtxts = <IN>;

$myCHECKFILEtxts = join("",@myCHECKFILEtxts);

$myCHECKFILEtxts =~ s@\x0D\x0A@\x0D@g;

$myCHECKFILEtxts =~ s@\x0A@\x0D@g;

$myCHECKFILEtxts = decode('UTF-8', $myCHECKFILEtxts);

@eachLine = split("\x0D",$myCHECKFILEtxts);

close (IN);

our $lineNumCount = 1;

#各ファイル内各行にIVS/サロゲートペア文字が含まれているかどうかのチェック

foreach $myLine (@eachLine){

&eachLineProceed($myLine);

$lineNumCount++;

}

#各xhtmlファイル内各行のチェック

sub eachLineProceed {

my $myLine = $_[0];

###サロゲートペア文字参照のチェック、ログに追記###

#16進数

while($myLine =~ /&\#x2[0-9A-Z]{4};/ig) {

$matchPlace = pos($myLine);

$finalSarrogatePairOutputLog = ($finalSarrogatePairOutputLog . 'Caution! SarrogatePairCharacterRefernce at ' . ' ' . 'FileName:' . $xhtmlFileName . ' ' . 'Line:' . $lineNumCount . ' ' . 'Character:' . $matchPlace . "\n")

}

#10進数

while($myLine =~ /&\#(1[0-9]{5});/ig) {

$matchPlace = pos($myLine);

if ($1 >= 131072 && $1 <= 196607) {

}

###IVS文字参照のチェック###

#16進数

while($myLine =~ /&\#xE[0-9A-Z]{4};/ig) {

$matchPlace = pos($myLine);

$finalIVSOutputLog = ($finalIVSOutputLog . 'Caution! UnicodeIVSCharacterRefernce at ' . ' ' . 'FileName:' . $xhtmlFileName . ' ' . 'Line:' . $lineNumCount . ' ' . 'Character:' . $matchPlace . "\n")

}

#10進数

while($myLine =~ /&\#(9[0-9]{5});/ig) {

$matchPlace = pos($myLine);

if ($1 >= 917504 && $1 <= 983039) {

$finalIVSOutputLog = ($finalIVSOutputLog . 'Caution! UnicodeIVSCharacterRefernce at ' . ' ' . 'FileName:' . $xhtmlFileName . ' ' . 'Line:' . $lineNumCount . ' ' . 'Character:' . $matchPlace . "\n")

}

###特殊スペース文字のチェック###

#16進数

while($myLine =~ /&\#x(200[456789ACD]);/ig) {

$matchPlace = pos($myLine);

$finalIrregularSpaceOutputLog = ($finalIrregularSpaceOutputLog . 'Caution! IrregularSpaceCharactorRefernce at ' . ' ' . 'FileName:' . $xhtmlFileName . ' ' . 'Line:' . $lineNumCount . ' ' . 'Character:' . $matchPlace . "\n")

}

#10進数

while($myLine =~ /&\#(819[6789]|820[01245]);/ig) {

$matchPlace = pos($myLine);

}

#キャラクタごとの処理へ

my @eachchara = split(//,$myLine);

our $CharaNumCount = 1;

foreach $mychara(@eachchara){

&eachCharaProceed($myChara);

$CharaNumCount++;

}

#各xhtmlファイル内各行内各キャラクタのチェック

sub eachCharaProceed {

my $myChara = $_[0];

###サロゲートペア文字のチェック###

#サロゲートペア文字の場所をチェック、ログに追記

if ($mychara =~ /[\x{20000}-\x{2FFFF}]/){

$finalSarrogatePairOutputLog = ($finalSarrogatePairOutputLog . 'Caution! SarrogatePairCharacters at ' . ' ' . 'FileName:' . $xhtmlFileName . ' ' . 'Line:' . $lineNumCount . ' ' . 'Character:' . $CharaNumCount . "\n")

}

###IVS文字のチェック###

#Unicode IVS文字の場所をチェック、ログに追記

if ($mychara =~ /[\x{E0000}-\x{EFFFF}]/){

$finalIVSOutputLog = ($finalIVSOutputLog . 'Caution! UnicodeIVSCharacters at ' . ' ' . 'FileName:' . $xhtmlFileName . ' ' . 'Line:' . $lineNumCount . ' ' . 'Character:' . $CharaNumCount . "\n")

}

###特殊スペース文字のチェック###

#4分スペースなどの特殊スペース文字が含まれているかどうかのチェック

if ($mychara =~ /[\x{2004}-\x{200A}\x{200C}-\x{200D}]/){

$finalIrregularSpaceOutputLog = ($finalIrregularSpaceOutputLog . 'Caution! IrregularSpaceCharactors at ' . ' ' . 'FileName:' . $xhtmlFileName . ' ' . 'Line:' . $lineNumCount . ' ' . 'Character:' . $CharaNumCount . "\n")

}

###濁点半濁点のチェック###

#HFS+の正規化で分解された濁点半濁点が含まれているかどうかのチェック

if ($mychara =~ /[\x{3099}\x{309A}]/){

}

◇

　いやまあ今まで経験したことないことがいろいろ起きてきますねえ。刺激はたっぷりあります。今回はものかの先生のお話を聞いておいて本当に助かりました。このお礼はいずれ豆大福などで。

改訂後のMac用ドロップレットです。
＞＞EPUB3トータルデータチェッカー1.3.0（Mac用アプリ）ダウンロードはこちら

（2015.2.10）

タグ: OS X, Perl, Unicode正規化, 豆大福
カテゴリー: 未分類 | 2 件のコメント »

最近もったいないなと思っていること

2014/12/25

　最近、とても「もったいないなあ」と思っていることがあります。それは主に電子書籍の「販売」に関することです。私が普段やっていることは電子書籍の制作であって、私はいかなる意味でも販売の専門家ではありません。それでも長らく電子・紙を問わず書籍の制作に関わり、また一消費者として電子書籍を購入してきて、否が応でも気づかざるを得ないことがあります。今回は、それについて少し書いてみようと思います。

一つ目「なぜ、書店のレジで電子書籍が買えないのか」

　私は会社帰りや休日に、書店に寄って新刊書の平積みを眺めるのが好きです。そこには楽しみにしていた新刊だけではなく、今まで全く知らなかったけれども「何だか面白そう」と思える本との出会いがあるからです。ただ、正直に告白しておくと、私は必ずしもそこで紙の本を買うばかりではありません。正直そう広い部屋に住んでいるわけでもありませんから、内容に興味はあっても、部屋の面積を占有しないために「電子書籍で欲しい」と思うことはよくあります。そういった場合には本のタイトルを覚えておき、後でAmazon等の電子書店で買うことになります。
　もし、書店のレジでそのまま電子書籍が買えるのであれば、わざわざそんな面倒くさいことはせずにレジで購入するでしょう。つまりこれは書店にとっての「販売機会の損失」なのです。まずこれが「もったいないなあ」と思っていることの一つ目です。

二つ目「なんで紙書籍と電子書籍を同時発売しないのか」

　もっとも、書店の店頭での電子書籍書籍の販売は（まだ一部の書店に留まっているとはいえ）すでに始まっていますし^※1、もうしばらくすれば状況は随分改善しそうです。ただ、「もったいないなあ」と思っていることはそれだけではありません。書店の店頭で見つけて「電子書籍で欲しい」と思っても、「電子版がまだ出ていない」ことが現状かなり多いのです。現在電子版は多くの場合、紙の新刊発売から2〜3週間は遅れて出るのが通例です。場合によってはさらに遅れます。ただ、これは考えてみればとても「もったいない」ことです。

　現在、いわゆる売れ筋の本では、発売されてから一定期間はリアル書店の店頭で「平積み」され、そのあと書棚に移されるものと思います。そして昨今良く言われているように、ディスカバラビリティ（被発見性）という意味で、書店の「平積み」には絶大な効果があります。Amazonのリコメンドですらこの部分においては「平積み」に全然敵いません。これまでの「出版営業」の仕事の多くの部分が、多くの書店でこれを実現するための努力だったと言っても過言ではないだろうと思うのです。見つけられやすければ購入者もリニアに増えるわけですから。
　売れ筋とまで言えないような本では平積みではなく最初から棚挿しだったりもするでしょうが、「書店の店頭で発見できる状態になっている」という意味では同じ話です。

　この最大の「売るチャンス」の時期に、電子書籍が買える状態にないというのはどういうことなのかと思います。私を含めて、書店の店頭で新刊を見て「内容に興味はあるけど書棚を圧迫するのはイヤだからこの本は電子で欲しい」と思うような消費者は現在相当数にのぼりそうですし、その時に電子書籍が買えなければ、「あきらめて紙の本で買う」か「今は買わない」かに消費行動としては二分されるでしょう。そして「今は買わない」を選んだケースでは、多くの場合「忘れてそのまま買わないで終わる」のです。これは一消費者としての実感ですが、そう大きく外れていないと思います。つまりこれは機会損失に他ならないわけです。そしておそらくはかなり大きな機会損失です。出版社にとって「もったいない」なあと思います。出版営業の人件費をかけて平積み展開を実現させたコストも、そこではある意味無駄にしているわけですし。

　そして、同時発売なら紙の本のオビに「電子版も同時販売中！」などと入れることで消費者に告知をはかることは全然難しくないわけですが、発売時期がズレていてはこれもかないません。もったいないです。

三つ目「どうしてひとまず市場に出さないのか」

　上記では主に新刊書について述べましたが、既刊の本に関しても「もったいないなあ」と思っていることがあります。現在、大手出版社に関して言えば一般書やコミックに関しては既刊の本の電子化はほぼ済んでいるものと思います。が、中小出版社の電子化進展状況は正直全然これからだと思いますし、大手出版社であってもさまざまな理由で電子化ができていないタイトルはまだまだあります。専門書など多くの関係者が関わっているような本で既刊本の電子化が進まない大きな理由はおそらく「権利処理」で、これはオプトアウトルールの明確化などを含んだかなり思い切った著作権法の改正がなされない限りどうにもならなさそうです^※2。

　ただ、それ以外に「技術的な理由」というものがあります。現在でこそ印刷データはInDesignなどDTP組版ソフトで作るのが当たり前ですが、ほんの10数年前までは電算写植機で作るのが一般的でしたし、今でも専門書などの分野では電算写植機や専用機は生き残っていたりします。また、一昔前にはいわゆる「マスター」はフィルムや紙型（しけい）であるという考えが主流でした。従って、フィルムなどの作成元になるデータは大事なものだという意識はあっても、保存のためのコストを継続的に負担できないなどの理由などもあり、結果的にまとまった形でデータが残っていないためにテキストが抜き出せないケースは多くありそうです（というかあります）。

　そうなるとリフローで電子化するためにはOCR等を用いてテキスト化する必要が出てくるわけですが、欧文ならともかく圧倒的に文字数の多い和文のOCR技術はまだまだ誤認識も多く、これを修正して電子化できる形にするには多大なコストがかかるのは間違いないところです。
　このために出版社の判断として「電子版は出せない」となるケースも多いように思うのですが、あくまで私個人の意見としては「とりあえず固定レイアウトで構わないからコストをかけずに電子化して市場に出してしまうべき」だと思っています。ただし、購入した読者にがっかりさせないために「固定レイアウトであることを明示すること」が条件になるでしょうが。

　ごく一部のビッグタイトルは別として、それ以外のタイトルは「どれが当たるかなんてわからない」のが出版だと思います。各出版社は従来、出来るだけ多くのタイトルをラインナップに揃えておき、何かしらの出来事が起きた時に随時関連するタイトルを表に出すことで売り上げを上げてきたのではないかと思うのです。それであれば、電子書籍でも、まず「読者がいつでもコンテンツにアクセスできること」を最優先するべきです。高い品質を保証できないから「コンテンツを出さない」という選択を取ってしまっては、「品切れ・返本がない」という電子書籍の大きなアドバンテージを活かせません。「維持費を考えずに常に市場に商品がある状態を作れる」のが電子書籍なのです。ですから、まずはどんな形であれ市場にコンテンツを出してしまうのが良いと思います。その上で一定の売り上げが上がったものについては、あらためてテキスト化し、リフローでの電子書籍化を行えばよいのではないでしょうか。

　そうやって市場に商品がある状態を作った上で、何かしら世の中に動きがあり、それに関連するタイトルがラインナップにあったならば、TwitterなりFacebookなりを使ってその事実を消費者に伝えれば良い。それで一定数は売れるでしょう。もちろんいざという時の拡散力を高めるために、普段からTwitterなどでフォロワーの数を増やす努力は必要なわけですが。これが三つ目の「もったいないなあと思っていること」です。

　この、「市場にあったことで売れた」わかりやすい事例が、2013年の「はだしのゲン」の事例です。ネットで話題になったことで、実に同時期の12倍という売り上げが出ています。紙の本が早々に品切れになる中、電子書籍は購入できたことでこの売り上げに繋がったと見られます。

◇

　ということで、3つの「もったいないなあ」と思っていることについて書いてみました。来年はこの状況が改善されることを祈りつつ、今年最後のエントリとします。皆様良いお年を。

※1　参考：三省堂×Booklive!「デジ本」
　　　日本出版インフラセンター「BooCa」

※2　裁定制度の見直しにより、以前よりは過去の著作物を利用しやすい状況にはなっています。
参考：権利者不明等の場合の裁定制度の見直しについて（文化庁）

（2014.12.25）

タグ: ディスカバラビリティ, 同時発売, 平積み
カテゴリー: 未分類 | 3 件のコメント »

« 前ページへ

次ページへ »