余弦相似度

余弦相似度

可以用于计算两篇文章的相似情况。
步骤:
一、每篇文章各取出若干个关键词,合并成一个集合
二、计算每篇文章对于这个集合中的词的词频
三、生成两篇文章各自的词频向量;生成两篇文章各自的词频向量
四、计算两个向量的余弦相似度,值越大就表示越相似。计算两个向量的余弦相似度,值越大就表示越相似。


版权声明:本文为minhuaQAQ原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。