以下のプログラムを使用して文書分類しました。(プログラミングめっちゃムズかった...)
・
プログラム(K近傍法)
分類結果はこのようになり、正答率は80%でした。
1~9の番号は
カテゴリー名を表しています。
- 1:dokujo-tsushin
- 2:it-life-hack
- 3:kaden-channel
- 4:livedoor-homme
- 5:movie-enter
- 6:peachy
- 7:smax
- 8:sports-watch
- 9:topic-news
分類精度が高いところと低いところがありますね。
次回からは分類精度が低いカテゴリーに着目して
分類を間違える原因を分析するつもりです。
(「K近傍法で分類してみよう」の記事はこれで終了です。次回からは研究報告よりの内容になります)