Portfolio
単語のTF-IDFを計算する
MENU
概要
定義
計算
概要
K近傍法で文書分類をしてみようの2回目の記事
前回は各文書を分かち書きして単語辞書を作成しました。
今回は各単語の
TF-IDF
を計算します。
TF-IDFの定義
以下のサイトの説明にあるように、TF-IDFは各文書中に含まれる各単語が「
その文書内でどれくらい重要か
」を示しています。
・
tf-idf(term frequency - inverse document frequency)とは?
・
【技術解説】単語の重要度を測る?TF-IDFとOkapi BM25の計算方法とは
TF-IDFの値が高いほど重要とみなされるので数字の大小を比べればどの単語が重要か分かります。
TF-IDFの計算
以下のプログラムを使用して計算しました。(厳密にはcalTFIDF関数で計算しています)
・
プログラム(K近傍法)
一つ目の文書が1行目で、2つ目の文書が2行目と対応しています。
一番左が文書名で、その後は
単語ID:TF-IDF値
の羅列です。
最初の文書では、単語ID51390(
友人
)のTF-IDF値は1.720137e+001になっています。
この値が高いほど重要な単語
といえるので文書分類の指標として有効的に使えます。
次回はTF-IDFを使って文書分類してみます。