tf-idf
- TF-IDF - Term Frequency–Inverse Document Frequency
- IDF - 逆向文件频率
- 过滤掉常见的词语,保留重要的词语。
- 假设
- 一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。
- 词频率
tf-idf(w,d,D)=tf(w,d)⋅idf(w,D)=N(w,d)⋅log∣{d∈D:w∈D}∣∣D∣
- w - 单个词
- d - 单个文档
- D - 所有文档
- tf(w,d)=N(w,d)
- w 在 d 文档中的数量
- 词频 - term frequency
- idf(w,D)
- w 在整个资料库中的数量
- IDF - 逆向文件频率
科技
这个词 在有 1000 个词的文章中出现了 10 次
科技
这个词在所有的 100 篇文章中有 10 篇文章包含了
- TF-IDF=0.01*1=0.01