杰卡德( Jaccard)相似度

Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。

两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,用符号 J(A,B) 表示。
在这里插入图片描述
当集合A,B都为空时,J(A,B)定义为1。

是用来衡量两个样本相似度的指标。
Jaccard系数只关心个体间共同具有的特征是否一致这个问题。
可用于用于数据聚类,特别适合于应用到稀疏度过高的数据。


版权声明:本文为qq_35301188原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。