これはDoc-ja Advent Calendar 2013 5日目の記事です。
www.gnu.orgでは、現在GNU website Japanese Translation Teamにてチーム体制でwebの翻訳を進めています。実態はほとんどgniibeさん一人で、私は今のところ翻訳チェックぐらいしかできていませんが…
gnu.orgのwebはメッセージの中にHTMLタグも含んだ状態で、poファイルによって管理されています。レビューをする上では、なかなか扱いにくい形式です。
そこで、私は一度poから日本語訳文のテキストを生成し、もう少し見やすくした状態でレビューをしています。この記事では、その方法を紹介します
$ msgfmt file.po $ msgunfmt --no-wrap message.mo | grep msgstr | sed -e 's/^msgstr //' -e 's/$//' | sed -e 's/^"/<p>/' -e 's/"$//' | w3m -T text/html | lv
さらに、結果を形態素解析にかければ、若干typo等が見つけやすくなります
$ mecab file.txt : (中略) JavaScript 名詞,固有名詞,組織,*,*,*,* の 助詞,連体化,*,*,*,*,の,ノ,ノ ライセンス・ウェブ・ラベル 名詞,一般,*,*,*,*,* の 助詞,連体化,*,*,*,*,の,ノ,ノ ため 名詞,非自立,副詞可能,*,*,*,ため,タメ,タメ の 助詞,連体化,*,*,*,*,の,ノ,ノ ページ 名詞,一般,*,*,*,*,ページ,ページ,ページ を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ あなた 名詞,代名詞,一般,*,*,*,あなた,アナタ,アナタ の 助詞,連体化,*,*,*,*,の,ノ,ノ サイト 名詞,一般,*,*,*,*,サイト,サイト,サイト に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 追加 名詞,サ変接続,*,*,*,*,追加,ツイカ,ツイカ しま 名詞,一般,*,*,*,*,しま,シマ,シマ EOS す 名詞,一般,*,*,*,*,す,ス,ス 。 記号,句点,*,*,*,*,。,。,。 : (以下略)
今時の形態素解析器はできるだけ細かく分解する方向の実装・辞書が多いので、KAKASIなどを使った方がよいかもしれません。