TF-IDF的定义及计算

假设有语料库一共只要2篇文档： $d_1$ 和 $d_2$ ，其中
$d_1=(A,B,C,D,A)$ 一共有5个单词组成； $d_2=(B,E,A,B)$ ，一共有4个单词组成。

1.TF

TF即词频(Term Frequency)，每篇文档中关键词的频率（该文档单词/该文档单词总数），对于文档 $d_1$ 和文档 $d_2$ 有：

	$d_1$	$d_2$
A	$\frac{2}{5}$	$\frac{1}{4}$
B	$\frac{1}{5}$	$\frac{2}{4}$
C	$\frac{1}{5}$	$\frac{0}{4}$
D	$\frac{1}{5}$	$\frac{0}{4}$
E	$\frac{0}{5}$	$\frac{1}{4}$

注意：由语料库得到的字典长度为5，所以最终文档向量化长度为5。

2.IDF

IDF即逆文档频率(Inverse Document Frequency)，文档总数/关键词t出现的文档数目，即 $IDF(t)＝ln((1+|D|)/|D_t|)$ （还有log等形式，自然对数被证明是最有效的一个公式），计算语料库中每个关键词的IDF值如下：

A	$ln(\frac{1+2}{2})$
B	$ln(\frac{1+2}{2})$
C	$ln(\frac{1+2}{1})$
D	$ln(\frac{1+2}{1})$
E	$ln(\frac{1+2}{1})$

3.结合IF-IDF，文档的向量化表示

举例 $d_1$ :

$d_1=(x_1,x_2,x_3,x_4,x_5)=(\frac{2}{5}\times ln(\frac{1+2}{2}),\frac{1}{5}\times ln(\frac{1+2}{2}),\frac{1}{5}\times ln(\frac{1+2}{1}), \frac{1}{5}\times ln(\frac{1+2}{1}), \frac{0}{5}\times ln(\frac{1+2}{1}))$

4.TfidfVectorizer参数解析

（1）max_df：
当构建词汇表时，严格忽略高于给出阈值的文档频率的词条，语料指定的停用词。如果是浮点值，该参数代表文档的比例，整型绝对计数值，如果词汇表不为None，此参数被忽略。

（2）max_features：
如果不为None，构建一个词汇表，仅考虑max_features–按语料词频排序，如果词汇表不为None，这个参数被忽略

原文链接：https://blog.csdn.net/hao5335156/article/details/87835851