XML::Simpleと日本語
Perlで日本語XMLを使うときのアレ
うまくいってるような感じなので現状を記録しておく。
0.
XML::Simpleを使う。パーザはXML::Parserとする。
1.
ソースコード(perl)はUTF-8で書く。
ただし22以前のemacsだとデフォルトでは対応していない。
debianであればapt-getで対応可能(mule-ucs)。検索すればわかる。
2.
use Encode; する。
Encodeはis_utf8という関数を持っているので、これを使ってutf-8フラグを適切に付け外しするサブルーチンを作っておき、極力「水際で」、つまり文字列を読み込んだ直後と出力する直前にフラグを脱着する。