最近の研究を調べていたら以下の研究を見つけました。
・
単語の分散表現を用いた文書群のラベル推定
文書データはlivedoorニュースコーパスを使っていますね。
・
livedoorニュースコーパス
SVMを使って各カテゴリーの重要語を割り出して、その重要語から各カテゴリーの
ラベル候補を選出しているみたいです。
つまり、現在のカテゴリー名はこうなっていますが、人間が名前を考えて付けています。
- dokujo-tsushin
- it-life-hack
- kaden-channel
- livedoor-homme
- movie-enter
- peachy
- smax
- sports-watch
- topic-news
この「カテゴリー名を考えて付ける作業」を
機械に任せるとどうなるかという内容です。
先行研究では上位語を上手く取得できなかったようですが、どんな感じなのか自分もやってみます。