HTMLタグを含むpoファイルからプレーンテキストにまで加工して形態素解析にかけてみてtypo等を見つける (Doc-ja Advent Calendar 2013)

Pocket

これはDoc-ja Advent Calendar 2013 5日目の記事です。

www.gnu.orgでは、現在GNU website Japanese Translation Teamにてチーム体制でwebの翻訳を進めています。実態はほとんどgniibeさん一人で、私は今のところ翻訳チェックぐらいしかできていませんが…

gnu.orgのwebはメッセージの中にHTMLタグも含んだ状態で、poファイルによって管理されています。レビューをする上では、なかなか扱いにくい形式です。

そこで、私は一度poから日本語訳文のテキストを生成し、もう少し見やすくした状態でレビューをしています。この記事では、その方法を紹介します

$ msgfmt file.po
$ msgunfmt --no-wrap message.mo | grep msgstr |
sed -e 's/^msgstr //' -e 's/$//' | 
sed -e 's/^"/<p>/' -e 's/"$//' |
w3m -T text/html | lv

さらに、結果を形態素解析にかければ、若干typo等が見つけやすくなります

$ mecab file.txt
:
(中略)
JavaScript      名詞,固有名詞,組織,*,*,*,*
の      助詞,連体化,*,*,*,*,の,ノ,ノ
ライセンス・ウェブ・ラベル      名詞,一般,*,*,*,*,*
の      助詞,連体化,*,*,*,*,の,ノ,ノ
ため    名詞,非自立,副詞可能,*,*,*,ため,タメ,タメ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
ページ  名詞,一般,*,*,*,*,ページ,ページ,ページ
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
あなた  名詞,代名詞,一般,*,*,*,あなた,アナタ,アナタ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
サイト  名詞,一般,*,*,*,*,サイト,サイト,サイト
に      助詞,格助詞,一般,*,*,*,に,ニ,ニ
追加    名詞,サ変接続,*,*,*,*,追加,ツイカ,ツイカ
しま    名詞,一般,*,*,*,*,しま,シマ,シマ
EOS
す      名詞,一般,*,*,*,*,す,ス,ス
。      記号,句点,*,*,*,*,。,。,。
:
(以下略)

今時の形態素解析器はできるだけ細かく分解する方向の実装・辞書が多いので、KAKASIなどを使った方がよいかもしれません。