1月, 2020 | 電書魂

‘2020/01’ カテゴリーのアーカイブ

指定したURL内＆特定タグ範囲の画像をダウンロードしたい

2020/01/23

　ここ数年、Web発の出版物が日本でも目立って増えてきました。昨年のJEPA電子出版アワードの大賞をピースオブケイクのnoteが取ったことに象徴されるように、日本でもようやくWebがかつて雑誌の担っていた「告知」の役割を果たし始めているということだと思います。コミックに関してはもうずいぶん長くそれが続いているのですが、それ以外のジャンルにもどんどん波及し始めたというのがここ数年の新しい動きです。
　さて、そうなってくると、技術サイドとしてもWebサイトからデータを取得し、電子書籍データや最終的には紙の出版物を作るためのルートを整備しなければ、という気分になってきます。ということでここ最近はWebスクレイピングの技術を学び始めているのですが、試行錯誤してどうにか指定したURL内＆特定タグ範囲の画像をまとめてダウンロードできるようになったのでメモ代わりに置いておきます。なお、「特定タグ範囲」が今回キモです。サイドバーとかに大量に並ぶアイコン類の画像はあっても困るので。ブログ等で各エントリー部分の画像だけを抽出したいわけです。

#!/usr/bin/perl
#use strict;
#指定したURL内、指定タグ範囲内の画像をダウンロードして保存
use utf8;
use Encode qw/encode decode/;
use File::Basename qw/basename dirname/;
use LWP::UserAgent;
use HTML::TreeBuilder::XPath;
use HTML::Selector::XPath 'selector_to_xpath';
use XML::LibXML;

#処理対象のURLを取得
my $targetURL = $ARGV[0];
$targetURL = decode('UTF-8', $targetURL);

#出力先フォルダ指定
my $exportFolderPath = $ARGV[1];
$exportFolderPath = decode('UTF-8', $exportFolderPath);

#WebサイトからHTMLテキスト取得
my $ua = LWP::UserAgent->new;
my $response = $ua->get($targetURL)->content;
$response = decode('UTF-8', $response);

#取得したHTMLをまずHTML::TreeBuilder::XPathでパース、指定部分だけHTMLとして抜き出し（この場合はclass名「post」で囲まれた範囲を指定している）
my $tree = HTML::TreeBuilder::XPath->new;
$tree->parse($response);
my @htmlPart = $tree->findnodes(selector_to_xpath('.post'));
my $htmlString = $htmlPart[0]->as_HTML;
$htmlString = encode('UTF-8', $htmlString);

#HTMLをXML::LibXMLで再度パース
my $parser = XML::LibXML->new();
$parser->no_network(1);
my $dom = $parser->parse_html_string($htmlString);

#imgタグのsrc属性の値をリスト化
my @imageUrls;
foreach my $imageTagNode($dom->findnodes(selector_to_xpath('.post img'))){
  my $imageURL = $imageTagNode->findvalue('@src');
  #画像以外をはじいてリストにpush
  push (@imageUrls, $imageURL) if ($imageURL =~ /(jpg|jpeg|png|gif)$/i);
}

#画像ダウンロード実行
foreach $imageUrl (@imageUrls){
  & downloadImage($imageUrl);
}
exit;

sub downloadImage {
  #ダウンロード対象のURLを取得
  $targetImageFileURL = $_[0];
  #ファイル名取得
  my $exportFilename = basename $targetImageFileURL;
  #出力
  system "curl " . $targetImageFileURL . ">" . $exportFolderPath . "/" . $exportFilename;
}

#!/usr/bin/perl

#use strict;

#指定したURL内、指定タグ範囲内の画像をダウンロードして保存

use utf8;

use Encode qw/encode decode/;

use File::Basename qw/basename dirname/;

use LWP::UserAgent;

use HTML::TreeBuilder::XPath;

use HTML::Selector::XPath 'selector_to_xpath';

use XML::LibXML;

#処理対象のURLを取得

my $targetURL = $ARGV[0];

$targetURL = decode('UTF-8', $targetURL);

#出力先フォルダ指定

my $exportFolderPath = $ARGV[1];

$exportFolderPath = decode('UTF-8', $exportFolderPath);

#WebサイトからHTMLテキスト取得

my $ua = LWP::UserAgent->new;

my $response = $ua->get($targetURL)->content;

$response = decode('UTF-8', $response);

#取得したHTMLをまずHTML::TreeBuilder::XPathでパース、指定部分だけHTMLとして抜き出し（この場合はclass名「post」で囲まれた範囲を指定している）

my $tree = HTML::TreeBuilder::XPath->new;

$tree->parse($response);

my @htmlPart = $tree->findnodes(selector_to_xpath('.post'));

my $htmlString = $htmlPart[0]->as_HTML;

$htmlString = encode('UTF-8', $htmlString);

#HTMLをXML::LibXMLで再度パース

my $parser = XML::LibXML->new();

$parser->no_network(1);

my $dom = $parser->parse_html_string($htmlString);

#imgタグのsrc属性の値をリスト化

my @imageUrls;

foreach my $imageTagNode($dom->findnodes(selector_to_xpath('.post img'))){

my $imageURL = $imageTagNode->findvalue('@src');

#画像以外をはじいてリストにpush

push (@imageUrls, $imageURL) if ($imageURL =~ /(jpg|jpeg|png|gif)$/i);

}

#画像ダウンロード実行

foreach $imageUrl (@imageUrls){

& downloadImage($imageUrl);

}

exit;

sub downloadImage {

#ダウンロード対象のURLを取得

$targetImageFileURL = $_[0];

#ファイル名取得

my $exportFilename = basename $targetImageFileURL;

#出力

system "curl " . $targetImageFileURL . ">" . $exportFolderPath . "/" . $exportFilename;

}

ターミナルで

perl このスクリプトのパス 処理対象のURL 画像保存先フォルダ

1	perl このスクリプトのパス処理対象のURL 画像保存先フォルダ

の順で指定すれば画像を一括でダウンロードします。

　最初にHTMLパーサーモジュールでパースし、その後XMLパーサーモジュールで再度パースしています。いきなりXMLパーサーモジュールにHTMLを食わせたらエラーで動かなかったためです。Validでない構文の読み込みには（オプションあるとは言え）弱いということなのでしょう。まあ仕方ない。なお今回初めて使ったモジュール、HTML::Selector::XPathがスゴい便利です。CSSの指定構文で書けばXPathに内部変換してくれるとか素晴らしい。
　今回は抽出テストにこのブログ（システムはWordPress）の過去エントリを使ったので措定範囲が「.post」ですが、ここは抜き出し対象のサイトごとに書き換えが必要になる感じです。変数化して引数で指定できるようにしても良かったけどどういう絞り込み条件があるかわからんのでとりあえずはコレで。
　さて次は本文テキストだぜ・・・。

（2020.1.24）

タグ: perl スクレイピング
カテゴリー: 未分類 | コメントはまだありません »

Adobe-Japan1-6およびJIS2004対応の外字チェッカーを作成

2020/01/17

　日本語EPUBの作成で結構面倒なのが「使える文字と使えない文字のチェック」です。何せ単行本1冊で10万文字くらいはあったりしますので、それを目視でチェックして使えない文字を見分けるなどというのは普通に考えて無理があるわけです。また、例えベテランの作業者なら対処できるとしても、そういう機械的な処理に関しては極力機械に任せて省力化したいところです。ということで自前のチェッカー内に組み込む目的で「Adobe-Japan1-6」および「JIS X 0213:2004（JIS2004）」を対象として外字のチェッカーを作りました。

　ターミナルで

perl /ローカルパス/AJ1-6check.pl チェックしたいEPUBファイルのパス

1	perl /ローカルパス/AJ1-6check.pl チェックしたいEPUBファイルのパス

　のような形で指定すると、以下のようなチェックログのファイルを出力します。上の例はAdobe-Japan1-6用チェッカーの指定例ですが、JIS2004用チェッカーも使い方は同じです。

チェック結果

　普段ならリストを貼って公開するところなのですが、なにせ膨大な文字をリスト化しているためとんでもない長さになるため、ダウンロードリンクを貼る形とします。

AJ1-6_JIS2004characheck.zip

1 file(s) 53.95 KB

Download

　なお、Adobe-Japan1-6用のリストは@monokanoさんのご厚意により、テキストエディタ「浮紙」用の特定文字項目ファイル内のリスト（正規表現のパターン）を流用させていただいています。
　JIS2004用のものは自前で調べて書きました。しんどかった（笑）。

　Mac用のアプリに統合したものはこちら。Epubcheckのバージョンも4.2.2に上がっています。

（2020.1.17）

カテゴリー: 未分類 | コメントはまだありません »