背景デザイン画像1 背景デザイン画像2

Portfolio

分類精度が低いカテゴリーについての分析

MENU

 概要

K近傍法での分類結果が以下となりました。



1~9の番号はカテゴリー名を表しています。
  • 1:dokujo-tsushin

  • 2:it-life-hack

  • 3:kaden-channel

  • 4:livedoor-homme

  • 5:movie-enter

  • 6:peachy

  • 7:smax

  • 8:sports-watch

  • 9:topic-news

分類精度が低い以下のカテゴリーに関して原因を探ってみたのでその結果を報告
  • 73%:dokujo-tsushin

  • 70%:peachy

  • 66%:topic-news

調査方法

以下の2つのグループに分けて重要語を比較しました。
  • 正しく分類できた文書集合

  • 正しく分類できなかった文書集合

例:dokujo-tsushinの場合

以下のグループを比較します。
  • dokujo-tsushinの文書で、dokujo-tsushinと分類された文書集合(グループ1)
  • dokujo-tsushinの文書で、dokujo-tsushinと分類されなかった文書集合(グループ2)

例:peachyの場合

以下のグループを比較します。
  • peachyの文書で、peachyと分類された文書集合(グループ1)
  • peachyの文書で、peachyと分類されなかった文書集合(グループ2)

例:topic-newsの場合

以下のグループを比較します。
  • topic-newsの文書で、topic-newsと分類された文書集合(グループ1)
  • topic-newsの文書で、topic-newsと分類されなかった文書集合(グループ2)

今回の場合、文書数がグループ1の方が遥かに多いため、重要語の算出にはカイ二乗検定の残差分析値を使用します。

カイ二乗検定について

評価方法は以下のサイトと同じです。
カイ二乗検定を残差分析で評価する方法

この方法を用いることで母数の影響を考慮した評価ができます。

母数の考慮をすべき理由を例題で説明します。


左の箱には10個のボールがあり、そのうち赤いボールが8個あった。

右の箱には90個のボールがあり、そのうち赤いボールが9個あった。

この場合、赤いボールが多くの割合を占めているのは当然左の箱ですが、母数を考慮しないと右の箱が選ばれます。

今回はボール=重要語です。

調査結果

以下のプログラムを使用して重要語を割り出し、どのような違いがあるか比較しました。
プログラム(カイ二乗検定)

例:dokujo-tsushinの場合

  • 左:dokujo-tsushinの文書で、dokujo-tsushinと分類された文書集合(グループ1)

  • 右:dokujo-tsushinの文書で、peachyと分類された文書集合(グループ2)

グループ1(左)では「さん」「かも」「そうだ」が重要語になっている

dokujo-tsushinは「○○さん」「~かも」「~そうだ」など砕けた言い方が多いことが分かります。

グループ2(右)では「かも」「そうだ」が重要語になっていない

砕けた表現がない文書だと分類を間違えてしまうケースがあるようです。


例:peachyの場合

  • 左:peachyの文書で、peachyと分類された文書集合(グループ1)
  • 右:peachyの文書で、peachyと分類されなかった文書集合(グループ2)


グループ2(右)の重要語がdokujo-tsushinと似ている

dokujo-tsushinで頻繫に出てくる単語が分類対象の文書でも頻繫に出ている場合は正しく分類できなくなっている可能性が高いです。


例:topic-newsの場合

  • 左:topic-newsの文書で、topic-newsと分類された文書集合(グループ1)
  • 右:topic-newsの文書で、topic-newsと分類されなかった文書集合(グループ2)


グループ2(右)の重要語から「韓国~」が消えている

韓国が無い=topic-newsでないと判断している可能性が高いです。


グループ1に「韓国ニュース」とか出ているので韓国に関するニュース記事が多いのかもしれません。



事情が少し分かったため特定のカテゴリーに着目して分析するなどもう少し詳しく調査してみます。