背景デザイン画像1 背景デザイン画像2

Portfolio

単語のTF-IDFを計算する

MENU

 概要

K近傍法で文書分類をしてみようの2回目の記事

前回は各文書を分かち書きして単語辞書を作成しました。

今回は各単語のTF-IDFを計算します。

TF-IDFの定義

以下のサイトの説明にあるように、TF-IDFは各文書中に含まれる各単語が「その文書内でどれくらい重要か」を示しています。
tf-idf(term frequency - inverse document frequency)とは?
【技術解説】単語の重要度を測る?TF-IDFとOkapi BM25の計算方法とは




TF-IDFの値が高いほど重要とみなされるので数字の大小を比べればどの単語が重要か分かります。

TF-IDFの計算

以下のプログラムを使用して計算しました。(厳密にはcalTFIDF関数で計算しています)
プログラム(K近傍法)


一つ目の文書が1行目で、2つ目の文書が2行目と対応しています。

一番左が文書名で、その後は単語ID:TF-IDF値の羅列です。

最初の文書では、単語ID51390(友人)のTF-IDF値は1.720137e+001になっています。

この値が高いほど重要な単語といえるので文書分類の指標として有効的に使えます。


次回はTF-IDFを使って文書分類してみます。