過去の記事で予告した、「画像分類タスクのテストのために作ったデータセット」を公開しました。
https://github.com/knok/instagram-food-images
画像そのものではなく、InstagramのURLへのリンク集という形で公開しています。各自でダウンロードしてご利用ください。再配布可能な画像のみをチョイスするのがより良い方法だったのですが、今回はそこまで手が回りませんでした。
Qiitaにも「画像判別タスク向けの自前データセットを作ってみた」という記事を書いています。そちらにも書きましたが、実際に自分で用意したデータセットをChainerで処理する手順の詳細な記事「PFN発のディープラーニングフレームワークchainerで画像分類をするよ(chainerでニューラルネット1) 」があるので、実際の手順はそちらを参考にするとよいでしょう。
最近はseq2seqをやってみているのですが、これも対話文のデータ収集に苦労しています。togetterを起点に、そこから拾えるスレッドをデータ化するといった作業をしています。
これもある程度自動化できないかと試してみています。公開可能な形にできると良いのですが。