先日、「www.gnu.orgの日本語訳について」のミーティングに参加してきました。最近のFSIJ月例会はMumbleを用いたリモート開催を増やしているので、リアルミーティングは久しぶりです。
当日の配布資料はhttp://git.savannah.gnu.org/cgit/www-ja.git/tree/doc/meeting-2017-01.txtにあります。そちらにもgnu.org翻訳作業への参加方法が書かれていますが、興味のある方はSavannahのwww-jaプロジェクトのメーリングリスト(閲覧は要登録)や、gitリポジトリの参照(こちらはanonymous clone可能 git://git.savannah.gnu.org/www-ja.git)も見てみてください。
個人的な活動 – 機械翻訳
私はこの1年ろくな活動ができていなくて申し訳なかったのですが、以前から考えていた「www-jaをコーパスとして機械学習による翻訳モデルを構築する」という活動に手をつけ始めました。TensorFlowのseq2seqサンプルを若干修正してWMTの代わりに任意のテキストファイルを与えられるようにしたコードは以前作成した(https://github.com/knok/tf-seq2seq-mod)ので、あとはデータセットを作成するだけです。
まずは以下のようなPython scriptを作ってみました。Python2, polib, natto-pyで動きます。
# -*- coding: utf-8 -*- # import polib import os, sys import re target_dir = "./www-ja" pos = [] for root, dirs, files in os.walk(target_dir): for file in files: if file.endswith(".ja.po"): po = polib.pofile(os.path.join(root, file)) pos.append(po) # #import pdb; pdb.set_trace() pair = {} for po in pos: for p in po: msgid = p.msgid msgstr = p.msgstr pair[msgid] = msgstr # from natto import MeCab m = MeCab("-Owakati") fname_in = "input.txt" fname_out = "output.txt" with open(fname_in, "w") as fi, open(fname_out, "w") as fo: for key in pair.keys(): val = pair[key] p_key = m.parse(key.encode('utf-8')) p_text = m.parse(val.encode('utf-8')) if re.match(r"^[0x00-0x7f]*$", p_text): continue fi.write(p_key) fi.write("\n") fo.write(p_text) fo.write("\n")
以下のような感じで実行しています。
$ python translate.py --data_dir /path/to/text \ --train_dir /path/to/save-data --size 400 \ --en_vocab_size 30000 --fr_vocab_size 30000 \ --num_layers 1 --batch_size 5 Creating 1 layers of 400 units. Created model with fresh parameters. Reading training data (limit: 0). global step 200 learning rate 0.5000 step-time 2.50 perplexity 3205.53 trg = FSF セミナー : GPL と LGPL の 詳細 の 研究 と 分析 hyp = 0000 0000 0000 > > > > > > > > > > > > > > > > > > > > > > (中略) global step 10000 learning rate 0.4950 step-time 2.37 perplexity 1.79 trg = < a href = " / fun / jokes / quayle . html " > クエール 氏 </ a > hyp = < a href = " / fun / jokes / vi . html " > ネットワーク さ </ a >
残念ながら利用可能なGPUを持っていないので、CPU演算のみで処理しています。今のところDebianで深層学習フレームワークがtesting(stretch)入りしているのはCaffe, Theanoの2つだけで、TensorFlowや自分がよく使っているChainerは入っていません。まあこのあたりはupstreamの更新も頻繁なので、あえてパッケージを使わなくともvirtualenv+pipで適時入れるほうが良い気もします。
とはいえ、GPUを使って深層学習を行うということは、ほとんどの場合プロプライエタリなソフトウェアに依存することと等価なので、「gnu.orgの翻訳」ということに限ればむしろCPUのみでの処理の方が望ましいのかもしれません。
自由なコンピューティング
実際、ミーティング当日も自由なコンピューティング環境がより一層損なわれているという話がありました。gniibeさんはChromebookにLibrebootを苦労して入れているようです。
自分もここ数日いろいろとひどい目にあいました。Xbox 360のSmartGlassを使ってみようとしたのですが、Windows 8.1の場合Xbox 360で利用しているLiveアカウントとの関連付けをWindows自身のログインアカウントと紐付けないと利用できないのです。Windows 8以降、Microsoftは極力Liveアカウントでのログインをさせるよう誘導しているのですが、8.1(とおそらく8)でそれが強制されるというのは厳しく、利用を諦めました。ただ、Windows 10ではこの点は改善されているようで、SmartGlassを含むストアアプリはアプリ単位で個別に利用するLiveアカウントを設定したり、そもそもLiveアカウントの必要ないアプリは普通にローカルアカウントのまま利用できるようになっていました。なので、Windows 10マシンでSmartGlassを利用しています。
iPhone, Android端末なども実質iCloud, googleアカウントが必須に近い状態ですが、Windowsも同様の仕組みに倒しているわけで、自由からより通い方向に進んでいるなあと痛感しました。
メンテナ不在問題
現在メンテナが不在なGNU Projectのソフトウェアについていくつか名前が挙げられました。
一つはGNU bisonです。これは割と致命的な気がしたのですが、GCCは4以降独自パーサ(gniibeさんによると、そもそもC++が自由文脈文法でないため)を採用しているとのことなので、案外問題は少ないのかもしれません。メジャーな言語処理系でもbison(yacc)必須なものがぱっと浮かびませんし。
もうひとつはGNUbikだそうです。うーん、これは重要でもないですかね。