sklearn-TfidfVectorizer 计算过程详解

计算公式

下面为 TfidfVectorizer 的计算方法，此外还有其他公式计算 tf-idf 值

$t f - i d f = t f (t, d) * i d f (t)$

$t f (t, d)$ 表示在文本 d 中词项 t 出现的词数

$idf(t)=\ln\frac{1+n_d}{1+df(d,t)}+1$

$i d f (t) $ 中 $n_d$ 表示训练集文本数， $d f (d, t) $ 表示包含词项 t 的文档总数

例如有四句话，每句话对应一个文本

“Chinese Beijing Chinese”,
“Chinese Chinese Shanghai”,
“Chinese Macao”,
“Tokyo Japan Chinese”

计算第一句中 Chinese 和 Beijing 的 tf-idf 值

$t f (C h i n e s e, s e n t e n c e 1) = 2$

$t f (B e i j i n g, s e n t e n c e 1) = 1$

$idf(Chinese)=\ln \frac{1+4}{1+4}+1=1$

$idf(Beijing)=\ln \frac{1+4}{1+1}+1=1.9$

对 tf 和 idf 值作乘积得到 tf-idf 值

$t f - i d f (C h i n e s e, s e n t e n c e 1) = t f (C h i n e s e, s e n t e n c e 1) * i d f (C h i n e s e) = 2$

$t f - i d f (B e i j i n g, s e n t e n c e 1) = t f (B e i j i n g, s e n t e n c e 1) * i d f (B e i j i n g) = 1.9$

在这里插入图片描述

每一句话对应一个 vector，每个 vector 里面的值按照上面词语的顺序显示，可以看到 beijing 对应的是 1.9，后面是 chinese 对应 2，与手动计算相同。

TfidfVectorizer 中 norm 项默认是 l2 正则化，按照上面的流程不修改 norm=None 时的 array 如下所示

TfidfVectorizer 类中有 ngram_range 参数，相当于用 TFidf 方法训练 ngram 的词向量

在这里插入图片描述

可见计算方法和上面一样，只是增加了 ngram 多出来的词并计算对应的词向量

参考资料

sklearn-TfidfVectorizer彻底说清楚