Perl

‘Perl’ タグのついている投稿

ChatGPT3.5でのスクリプティングを試してみた

2023/04/12

　話題の生成系AI、OpenAIのChatGPTでのスクリプトコード作成を遅ればせながら簡単に試してみました。2023年4月現在、無料で使えるのはChatGPT3.5ですのでそちらでのテストになります。なお、Bing Chatはまだ順番待ち状態なので素のChatGPTです。試した言語はAppleScriptとPerlになります。

AppleScript

　まずAppleScriptです。DTP作業で多用する処理を試しました。

・Photoshopの画像のカラーモードをグレースケールに

　結果：×
概要：「convert mode」ではなく「change mode to」にしないとエラーになる。

・Photoshopの画像の解像度を350dpiに

　結果：×
概要：「set resolution to」ではなく「resize image resolution」にしないとエラーになる。

・InDesignドキュメント内のJIS X 0213外の文字だけを赤くする

　結果：×
概要：文法がおかしいらしくスクリプトエディタでの保存自体ができない。JIS X 0213外の文字の判別式もこんなに短いわけがない。

　次にPerlのテストです。なお何も指定せずにコードを生成させたら内部文字列UTF-16のコードを出してきたので内部文字列UTF-8を指定して再生成しました。条件をちゃんと指定するのは大事ですね。また、動作チェック時に「use utf8;」の指定を書き足しています。

・与えられた文字列内にJIS X 0213外の文字が含まれているかどうかのチェック

　結果：×
概要：JIS X 0213はラテンアルファベットを含んでいるので（参考）、説明自体がおかしい。まあJIS規格は著作物扱いのはずなのでここですんなり出てきてしまったらむしろ問題かもしれない。

・与えられた文字列内にcp932の機種依存文字が含まれているかどうかのチェック

　結果：×
概要：判定ルーチン自体は正しいように見えるのだが、判定のリストがおかしいらしくよく問題になる丸数字やローマ数字が引っかからない。そこを書き換えられれば実用範囲か。

・与えられた文字列内にUnicodeのBMP（基本多言語面）外の文字が含まれているかどうかのチェック

　結果：○
概要：これは問題なかった。

　どうもChatGPT3.5の時点では、AppleScriptのような比較的マイナーな言語やJIS X 0213など日本のローカル規格の学習は足りていないのかもしれません。文法自体はパーツとしては使えそうに見えるのでその辺を割り切って使うなら許容範囲でしょうか。つまり元々コードが書ける人が時短目的で使うのなら有用かもしれないですね。いずれバージョンが進めば今回問題になったような「学習が足りない」ことが原因の間違いは減っていきそうですが、「AIにどういった問いを与えるのか」はおそらく相当先まで人間が考えるしかないので、そこをやれる人が効率化のために使うツールという位置づけになるのかなと思った次第です。

（2023.4.12）

タグ: AI, Applescript, ChatGPT, Perl
カテゴリー: 未分類 | コメントはまだありません »

mi内でタグ以外の箇所の半角英数字を一括全角置換したい

2018/04/05

　電書で縦書きの本を作ることが多いため、テキストエディタ「mi」内でXHTMLファイル内の半角英数字を全角に打ち替えなければならないことが時々あります。なんでそういうことになるのかと言えば、InDesignのデータ内では半角の英数字でも段落の設定次第で正立させて表示できるんですね。でもXHTMLとして書き出してしまうとそういう設定は飛んでしまうので半角英数字として横転してしまいます。なのでこれまでできるだけInDesign内で半角から全角に置換するようにしていましたが、やはり書き出してしまってから置換できてなかったのが判明して手で打ち替えるというケースがそれなりにあり、特に長めの単語ではめんどくさいし入力ミスが怖いなーと思っておりました。
　ということで普段使っているテキストエディタ「mi」内で気軽に置換できるようにしたので以下メモです。

やりたいこと

miに書き出した段階ではXHTMLタグテキストの編集になるため、タグ部分は除外して置換処理をしたい
テキスト全体ではなく該当部分を選んで置換処理をかけたい
できるならショートカットで置換できるように設定したい

Perlでの置換処理の内容

　Perlで処理するための置換コード自体は以下。処理としてはテキストを<>で括られた文字列（要はXHTMLのタグ）を区切り文字として分割し、配列内各要素がタグかどうかを判定してタグではないものに対してのみ置換処理をかけています（なので使用者がタグの真ん中あたりから適当に範囲選択したりするとアレなことにはなるけどそれは無視）。ここいらのコードは市川せうぞーさんにヒントをいただきました。ありがとうございます。

utf8::decode($ARGV[0]);
$_ = $ARGV[0];
my @splitArray = split(/(<[^<>]+?>)/, $_);
foreach my $eachElement(@splitArray){
  unless ($eachElement =~ /^<[^<>]+?>$/){
    $eachElement =~ tr/0-9A-Za-z/０-９Ａ-Ｚａ-ｚ/;
  }
}
$_ = join(\"\", @splitArray);
print $_;

utf8::decode($ARGV[0]);

$_ = $ARGV[0];

my @splitArray = split(/(<[^<>]+?>)/, $_);

foreach my $eachElement(@splitArray){

unless ($eachElement =~ /^<[^<>]+?>$/){

$eachElement =~ tr/0-9A-Za-z/０-９Ａ-Ｚａ-ｚ/;

}

$_ = join(\"\", @splitArray);

print $_;

ワンライナー化してAppleScriptに組み込む

これをワンライナー化してAppleScriptに組み込むことでmiでの現在の選択部分に対して置換をかけられるようになります。

on run
	tell application "mi"
		tell document 1
			set stringRef to selection
			set regexp to "my @splitArray = split(/(<[^<>]+?>)/, $_);foreach my $eachElement(@splitArray){unless ($eachElement =~ /^<[^<>]+?>$/){$eachElement =~ tr/0-9A-Za-z/０-９Ａ-Ｚａ-ｚ/;}}$_ = join(\"\", @splitArray);print $_;"
			--文字列置換
			try
				set mytxt to regexReplace(stringRef, regexp) of me
			end try
			set selection to mytxt
		end tell
	end tell
end run

--perl処理サブルーチン
on regexReplace(stringRef, regexp)
	set perlScript to "utf8::decode($ARGV[0]); $_ = $ARGV[0]; " & regexp as Unicode text
	set perlScript to quoted form of perlScript
	try
		set stringRef to do shell script "perl -Mutf8 -e " & perlScript & " " & quoted form of (contents of stringRef)
	on error errMsg number errNum
		set msg to contents of stringRef
		display alert (msg & return & return & errMsg & return & errNum) as Unicode text
	end try
	return stringRef
end regexReplace

on run

tell application "mi"

tell document 1

set stringRef to selection

set regexp to "my @splitArray = split(/(<[^<>]+?>)/, $_);foreach my $eachElement(@splitArray){unless ($eachElement =~ /^<[^<>]+?>$/){$eachElement =~ tr/0-9A-Za-z/０-９Ａ-Ｚａ-ｚ/;}}$_ = join(\"\", @splitArray);print $_;"

--文字列置換

try

set mytxt to regexReplace(stringRef, regexp) of me

end try

set selection to mytxt

end tell

end run

--perl処理サブルーチン

on regexReplace(stringRef, regexp)

set perlScript to "utf8::decode($ARGV[0]); $_ = $ARGV[0]; " & regexp as Unicode text

set perlScript to quoted form of perlScript

try

set stringRef to do shell script "perl -Mutf8 -e " & perlScript & " " & quoted form of (contents of stringRef)

on error errMsg number errNum

set msg to contents of stringRef

display alert (msg & return & return & errMsg & return & errNum) as Unicode text

end try

return stringRef

end regexReplace

　なお「on run」「end run」の行に関してはmi内のツールから実行するための記述なので、単体アプリとして保存して使うならなくてよいです。範囲選択した状態でアプリを実行すれば大丈夫。
miのモードにスクリプトを組み込む方法については詳述はしないのでmi公式ページなど見てください。実例としては以前に作ったこれの「その他」（Miscellaneous）フォルダに各種仕込んだりしてます。

キーボードショートカットで使えるようにしてさらに便利に

　で、これをキーボードショートカット一発で使えると本当に快適だなーと思って調べていたのですが、macOS設定メニュー内、キーボード項目のショートカット設定で行けるという情報を見つけました。素晴らしい！何でも行けるじゃないですかこれなら。

　ということで早速設定。ついでにひらがな←→カタカナの変換も仕込みました。そちらもタグは除外して置換するようにしました。まあXHTMLのタグ内にカナとか漢字が混じってるとは思えないけど。

タグの部分以外が一括で置換された

　他にも仕事ごとにいろいろ仕込んで使えそうだけどまあそこいらはおいおい。

（2018.4.5）

タグ: Applescript, mi, Perl, ワンライナー
カテゴリー: 未分類 | 1 件のコメント »

PandocのICML出力にでんでんマークダウン記法のルビを対応させる

2017/11/14

　Pandocというプロジェクトがあります（日本語解説はこちらを参照）。これはMarkDown記法などで書かれたドキュメントをHTMLやWord文書、PDFなどに変換して出力できるといったようなものですが、出力対応形式のひとつにICMLが入っています。これはAdobe InCopyの保存形式で、InDesignに配置して流し込むことができます（Pandocは一応EPUBにも変換できるようなのですが、まだEPUB2.0のようなのでまあ・・・）。
　なかなか興味深いのでちょっと調べてみたのですが、残念ながらルビには対応していません。まあMarkDown記法自体にルビの記法がないですし、ルビは（当たり前ですが）日本語版InDesignにしかない機能なので当然と言えば当然です。Pandocは国際プロジェクトなので仕方ないところでしょう。
　でもルビ使えたら便利そうだよねということで、でんでんマークダウンのルビタグ拡張記法に対応する置換処理をPerlで書いてみました。まあPandoc本体はHaskellで書かれているようなのですが、そんなもんは非専業プログラマとしては手が出ないので手を出しません。コードは以下。

#!/usr/bin/perl
use utf8;
use warnings;
use XML::LibXML;
use Encode qw/encode decode/;

#変換するICMLファイルのパスを取得
my $convertIcmlFilePath = $ARGV[0];
$convertIcmlFilePath = decode('UTF-8', $convertIcmlFilePath);

#パース実行
my $parser = XML::LibXML->new();
$parser->no_network(1);
my $dom = $parser->parse_file($convertIcmlFilePath);

######### DOM置換 #########
foreach my $paragraphStyleRange($dom->findnodes('//ParagraphStyleRange')){
  #既定の段落スタイルの値を保存
  my $appliedParagraphStyle = $paragraphStyleRange->findvalue('@AppliedParagraphStyle');
  #最終置き換え用ノード定義
  my $repleceParagraphStyleRangeNode = XML::LibXML::Element->new( "ParagraphStyleRange" );
  $repleceParagraphStyleRangeNode->setAttribute( "AppliedParagraphStyle", $appliedParagraphStyle );
  #子ノードをリストで取得
  my @paragraphStyleRangeChildNodes = $paragraphStyleRange->childNodes;
  #置換後の中身の配列を定義
  my @replacedParagraphStyleRangeChildNodes;
  #CharacterStyleRange処理用サブルーチンに処理を投げる
  foreach $paragraphStyleRangeChildNode (@paragraphStyleRangeChildNodes){
  my $type = $paragraphStyleRangeChildNode->nodeType;
    if ($type == 1){
      my $name = $paragraphStyleRangeChildNode->nodeName;
      #エレメントノードでCharacterStyleRangeノードだった場合サブルーチンに処理を投げて結果を得、順番に配列にPush
      if ($name eq "CharacterStyleRange"){
        my @replacedNodes = & replaceCharacterStyleRangeNodes($paragraphStyleRangeChildNode);
        foreach (@replacedNodes) {push(@replacedParagraphStyleRangeChildNodes,$_)};
      } else {
        #エレメントノードでCharacterStyleRangeノードでなかった場合はそのまま配列にPush
        push (@replacedParagraphStyleRangeChildNodes,$paragraphStyleRangeChildNode);
      }
    } else {
      #エレメントノードでなかった場合はそのまま配列にPush
      push (@replacedParagraphStyleRangeChildNodes,$paragraphStyleRangeChildNode);
    }
  }
  #新たに作った$paragraphStyleRangeノードに子ノード流し込み
  foreach(@replacedParagraphStyleRangeChildNodes){$repleceParagraphStyleRangeNode->appendChild( $_ )}
  #元の$paragraphStyleRangeノードと新しく作ったヤツの置換を実行
  $paragraphStyleRange->replaceNode($repleceParagraphStyleRangeNode);
}

######### 出力処理 #########
#ノードをシリアライズして文字列に
my $documents = $dom->findnodes('//Document');
my $serializedTxt = $$documents[0]->serialize;

#ヘッダ付加
my $mergedTxt = '<?xml version="1.0" encoding="UTF-8" standalone="yes"?>' . "\x0A" . '<?aid style="50" type="snippet" readerVersion="6.0" featureSet="513" product="8.0(370)" ?>' . "\x0A" . '<?aid SnippetType="InCopyInterchange"?>' . "\x0A" . $serializedTxt;

#後処理整形
$mergedTxt =~ s@</CharacterStyleRange><CharacterStyleRange@</CharacterStyleRange>\x0A<CharacterStyleRange@g;
$mergedTxt =~ s@\x0A@\x0D\x0A@g;

#出力実行
$mergedTxt = encode('UTF-8', $mergedTxt);
open(OUT,"> $convertIcmlFilePath");
print OUT $mergedTxt;
close (OUT);

exit;


######### CharacterStyleRange処理サブルーチン #########
sub replaceCharacterStyleRangeNodes {
  #引数の取得
  my $originalCharacterStyleRangeNode = $_[0];
  #既定の文字スタイルの値を保存
  my $appliedCharacterStyle = $originalCharacterStyleRangeNode->findvalue('@AppliedCharacterStyle');
  #子ノードをリストで取得
  my @characterStyleRangeChildNodes = $originalCharacterStyleRangeNode->childNodes;
  #置換後の中身の配列を定義
  my @replacedNodes;
  
  #Content処理用サブルーチンに処理を投げる
  foreach $characterStyleRangeChildNode(@characterStyleRangeChildNodes){
  my $type = $characterStyleRangeChildNode->nodeType;
    if ($type == 1){
      my $name = $characterStyleRangeChildNode->nodeName;
      #エレメントノードでContentノードだった場合中身をsplitしてルビ部分とそうじゃないやつを分けて、順番にCharacterStyleRangeノードでくるんで配列にPush
      if ($name eq "Content"){
        $contentValue = $characterStyleRangeChildNode->textContent;
        my @splitContentsArray = split(/({.*?})/, $contentValue);
        foreach $splitContent (@splitContentsArray){
          #ルビタグブロックだった場合の処理
          if ($splitContent =~ /^{([^\|]+?)\|(.+?)}$/){
            #親字のブロックとルビのブロックに分割して処理
            my $rbBlock = $1;
            my $rtBlock = $2;
            my $rbBlockLength = length($rbBlock);
            my @rtBlockArray = split(/\|/, $rtBlock);
            #親字ブロックの文字数がルビブロックの分割数と一致していたらモノルビとして処理
            if ($rbBlockLength == scalar(@rtBlockArray)){
              my $repleceCharacterStyleRangeNode = XML::LibXML::Element->new( "CharacterStyleRange" );
              $repleceCharacterStyleRangeNode->setAttribute( "AppliedCharacterStyle", $appliedCharacterStyle );
              $repleceCharacterStyleRangeNode->setAttribute( "RubyFlag", "1" );
              my $joinedMonoRubyString = join("　", @rtBlockArray);
              $repleceCharacterStyleRangeNode->setAttribute( "RubyString", $joinedMonoRubyString );
              my $newContentNode = XML::LibXML::Element->new( "Content" );
              $newContentNode->appendTextNode( $rbBlock );
              $repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );
              $repleceCharacterStyleRangeNode->appendChild( $newContentNode );
              $repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );
              push (@replacedNodes,$repleceCharacterStyleRangeNode);
            } else {
            #親字ブロックの文字数がルビブロックの分割数と一致しなければグループルビとして処理
              my $repleceCharacterStyleRangeNode = XML::LibXML::Element->new( "CharacterStyleRange" );
              $repleceCharacterStyleRangeNode->setAttribute( "AppliedCharacterStyle", $appliedCharacterStyle );
              $repleceCharacterStyleRangeNode->setAttribute( "RubyFlag", "1" );
              my $joinedGroupRubyString = join("", @rtBlockArray);
              $repleceCharacterStyleRangeNode->setAttribute( "RubyString", $joinedGroupRubyString );
              $repleceCharacterStyleRangeNode->setAttribute( "RubyType", "GroupRuby" );
              my $newContentNode = XML::LibXML::Element->new( "Content" );
              $newContentNode->appendTextNode( $rbBlock );
              $repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );
              $repleceCharacterStyleRangeNode->appendChild( $newContentNode );
              $repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );
              push (@replacedNodes,$repleceCharacterStyleRangeNode);
            }
          #ルビタグブロックでなかった場合の処理
          } else {
            my $repleceCharacterStyleRangeNode = XML::LibXML::Element->new( "CharacterStyleRange" );
            $repleceCharacterStyleRangeNode->setAttribute( "AppliedCharacterStyle", $appliedCharacterStyle );
            my $newContentNode = XML::LibXML::Element->new( "Content" );
            $newContentNode->appendTextNode( $splitContent );
            $repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );
            $repleceCharacterStyleRangeNode->appendChild( $newContentNode );
            $repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );
            push (@replacedNodes,$repleceCharacterStyleRangeNode);
          }
        }
      } else {
        #エレメントノードでContentノードでなかった場合はそのままCharacterStyleRangeノードでくるんで配列にPush
        my $repleceCharacterStyleRangeNode = XML::LibXML::Element->new( "CharacterStyleRange" );
        $repleceCharacterStyleRangeNode->setAttribute( "AppliedCharacterStyle", $appliedCharacterStyle );
        $repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );
        $repleceCharacterStyleRangeNode->appendChild( $characterStyleRangeChildNode );
        $repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );
        push (@replacedNodes,$characterStyleRangeChildNode);
      }
    } else {
      #エレメントノードでなかった場合はそのまま配列にPush
      push (@replacedNodes,$characterStyleRangeChildNode);
    }
  }
  return @replacedNodes;
}

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

#!/usr/bin/perl

use utf8;

use warnings;

use XML::LibXML;

use Encode qw/encode decode/;

#変換するICMLファイルのパスを取得

my $convertIcmlFilePath = $ARGV[0];

$convertIcmlFilePath = decode('UTF-8', $convertIcmlFilePath);

#パース実行

my $parser = XML::LibXML->new();

$parser->no_network(1);

my $dom = $parser->parse_file($convertIcmlFilePath);

######### DOM置換 #########

foreach my $paragraphStyleRange($dom->findnodes('//ParagraphStyleRange')){

#既定の段落スタイルの値を保存

my $appliedParagraphStyle = $paragraphStyleRange->findvalue('@AppliedParagraphStyle');

#最終置き換え用ノード定義

my $repleceParagraphStyleRangeNode = XML::LibXML::Element->new( "ParagraphStyleRange" );

$repleceParagraphStyleRangeNode->setAttribute( "AppliedParagraphStyle", $appliedParagraphStyle );

#子ノードをリストで取得

my @paragraphStyleRangeChildNodes = $paragraphStyleRange->childNodes;

#置換後の中身の配列を定義

my @replacedParagraphStyleRangeChildNodes;

#CharacterStyleRange処理用サブルーチンに処理を投げる

foreach $paragraphStyleRangeChildNode (@paragraphStyleRangeChildNodes){

my $type = $paragraphStyleRangeChildNode->nodeType;

if ($type == 1){

my $name = $paragraphStyleRangeChildNode->nodeName;

#エレメントノードでCharacterStyleRangeノードだった場合サブルーチンに処理を投げて結果を得、順番に配列にPush

if ($name eq "CharacterStyleRange"){

my @replacedNodes = & replaceCharacterStyleRangeNodes($paragraphStyleRangeChildNode);

foreach (@replacedNodes) {push(@replacedParagraphStyleRangeChildNodes,$_)};

} else {

#エレメントノードでCharacterStyleRangeノードでなかった場合はそのまま配列にPush

push (@replacedParagraphStyleRangeChildNodes,$paragraphStyleRangeChildNode);

}

} else {

#エレメントノードでなかった場合はそのまま配列にPush

push (@replacedParagraphStyleRangeChildNodes,$paragraphStyleRangeChildNode);

}

#新たに作った$paragraphStyleRangeノードに子ノード流し込み

foreach(@replacedParagraphStyleRangeChildNodes){$repleceParagraphStyleRangeNode->appendChild( $_ )}

#元の$paragraphStyleRangeノードと新しく作ったヤツの置換を実行

$paragraphStyleRange->replaceNode($repleceParagraphStyleRangeNode);

}

######### 出力処理 #########

#ノードをシリアライズして文字列に

my $documents = $dom->findnodes('//Document');

my $serializedTxt = $$documents[0]->serialize;

#ヘッダ付加

my $mergedTxt = '<?xml version="1.0" encoding="UTF-8" standalone="yes"?>' . "\x0A" . '<?aid style="50" type="snippet" readerVersion="6.0" featureSet="513" product="8.0(370)" ?>' . "\x0A" . '<?aid SnippetType="InCopyInterchange"?>' . "\x0A" . $serializedTxt;

#後処理整形

$mergedTxt =~ s@</CharacterStyleRange><CharacterStyleRange@</CharacterStyleRange>\x0A<CharacterStyleRange@g;

$mergedTxt =~ s@\x0A@\x0D\x0A@g;

#出力実行

$mergedTxt = encode('UTF-8', $mergedTxt);

open(OUT,"> $convertIcmlFilePath");

print OUT $mergedTxt;

close (OUT);

exit;

######### CharacterStyleRange処理サブルーチン #########

sub replaceCharacterStyleRangeNodes {

#引数の取得

my $originalCharacterStyleRangeNode = $_[0];

#既定の文字スタイルの値を保存

my $appliedCharacterStyle = $originalCharacterStyleRangeNode->findvalue('@AppliedCharacterStyle');

#子ノードをリストで取得

my @characterStyleRangeChildNodes = $originalCharacterStyleRangeNode->childNodes;

#置換後の中身の配列を定義

my @replacedNodes;

#Content処理用サブルーチンに処理を投げる

foreach $characterStyleRangeChildNode(@characterStyleRangeChildNodes){

my $type = $characterStyleRangeChildNode->nodeType;

if ($type == 1){

my $name = $characterStyleRangeChildNode->nodeName;

#エレメントノードでContentノードだった場合中身をsplitしてルビ部分とそうじゃないやつを分けて、順番にCharacterStyleRangeノードでくるんで配列にPush

if ($name eq "Content"){

$contentValue = $characterStyleRangeChildNode->textContent;

my @splitContentsArray = split(/({.*?})/, $contentValue);

foreach $splitContent (@splitContentsArray){

#ルビタグブロックだった場合の処理

if ($splitContent =~ /^{([^\|]+?)\|(.+?)}$/){

#親字のブロックとルビのブロックに分割して処理

my $rbBlock = $1;

my $rtBlock = $2;

my $rbBlockLength = length($rbBlock);

my @rtBlockArray = split(/\|/, $rtBlock);

#親字ブロックの文字数がルビブロックの分割数と一致していたらモノルビとして処理

if ($rbBlockLength == scalar(@rtBlockArray)){

my $repleceCharacterStyleRangeNode = XML::LibXML::Element->new( "CharacterStyleRange" );

$repleceCharacterStyleRangeNode->setAttribute( "AppliedCharacterStyle", $appliedCharacterStyle );

$repleceCharacterStyleRangeNode->setAttribute( "RubyFlag", "1" );

my $joinedMonoRubyString = join("　", @rtBlockArray);

$repleceCharacterStyleRangeNode->setAttribute( "RubyString", $joinedMonoRubyString );

my $newContentNode = XML::LibXML::Element->new( "Content" );

$newContentNode->appendTextNode( $rbBlock );

$repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );

$repleceCharacterStyleRangeNode->appendChild( $newContentNode );

$repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );

push (@replacedNodes,$repleceCharacterStyleRangeNode);

} else {

#親字ブロックの文字数がルビブロックの分割数と一致しなければグループルビとして処理

my $repleceCharacterStyleRangeNode = XML::LibXML::Element->new( "CharacterStyleRange" );

$repleceCharacterStyleRangeNode->setAttribute( "AppliedCharacterStyle", $appliedCharacterStyle );

$repleceCharacterStyleRangeNode->setAttribute( "RubyFlag", "1" );

my $joinedGroupRubyString = join("", @rtBlockArray);

$repleceCharacterStyleRangeNode->setAttribute( "RubyString", $joinedGroupRubyString );

$repleceCharacterStyleRangeNode->setAttribute( "RubyType", "GroupRuby" );

my $newContentNode = XML::LibXML::Element->new( "Content" );

$newContentNode->appendTextNode( $rbBlock );

$repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );

$repleceCharacterStyleRangeNode->appendChild( $newContentNode );

$repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );

push (@replacedNodes,$repleceCharacterStyleRangeNode);

}

#ルビタグブロックでなかった場合の処理

} else {

my $repleceCharacterStyleRangeNode = XML::LibXML::Element->new( "CharacterStyleRange" );

$repleceCharacterStyleRangeNode->setAttribute( "AppliedCharacterStyle", $appliedCharacterStyle );

my $newContentNode = XML::LibXML::Element->new( "Content" );

$newContentNode->appendTextNode( $splitContent );

$repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );

$repleceCharacterStyleRangeNode->appendChild( $newContentNode );

$repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );

push (@replacedNodes,$repleceCharacterStyleRangeNode);

}

} else {

#エレメントノードでContentノードでなかった場合はそのままCharacterStyleRangeノードでくるんで配列にPush

my $repleceCharacterStyleRangeNode = XML::LibXML::Element->new( "CharacterStyleRange" );

$repleceCharacterStyleRangeNode->setAttribute( "AppliedCharacterStyle", $appliedCharacterStyle );

$repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );

$repleceCharacterStyleRangeNode->appendChild( $characterStyleRangeChildNode );

$repleceCharacterStyleRangeNode->appendTextNode( "\x0A" );

push (@replacedNodes,$characterStyleRangeChildNode);

}

} else {

#エレメントノードでなかった場合はそのまま配列にPush

push (@replacedNodes,$characterStyleRangeChildNode);

}

return @replacedNodes;

}

ターミナルで

perl このコードのファイルパス.pl 変換するPacDocの出力したICMLファイルのパス.icml

のような感じで動作し、元ファイルを上書きします。結果はこの通り。

PandocでMarkDown形式のファイルを.icmlにするのは

pandoc マークダウンファイルのパス.md -s -o 出力先パス.icml

のような感じ。
Pandoc自体のインストールは私はhomebrewでやりましたが、インストーラも存在するようです。

Pacdocを絡めたDTPフローの話はここやここにあります。やはりみんないろいろ試されていますね。

テスト用に使ったマークダウンファイルもこちらに置いておきます。

（2017.11.15）

タグ: ICML, Markdown, Pandoc, Perl, マークダウン, ルビ
カテゴリー: 未分類 | コメントはまだありません »