K-Means聚类算法选取K值

选取聚类数量

目前来说,选取聚类的数量,仍然是靠手动选择,通常在数据集中,有几个聚类是说不清楚的。如下图,可以看作四个聚类,也可以看作两个聚类,也有人将它看作三个聚类。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

肘部法则

肘部法则是通过改变K的值,来计算当前K值下代价函数J的值是多少,并将这几个 ( K , J ) 绘制在图像中,通过寻找一个明显的“拐点”,来选择一个合适的K值。
在这里插入图片描述
很明显,K = 3 是这个图像的肘部,即“拐点”,当选取大于 3 的值,再改变K值对代价函数值得影响不大了,因此,K = 3 是最佳的选项。
然而,在实际应用中,肘部法则并没有那么实用,因为往往通过肘部法则得到的曲线,是十分模糊的,无法很好地选取一个合适的拐点。
在这里插入图片描述
总之,肘部法则是值得尝试的一种方法,但是不能期待它得到很好的答案。

另一种选择聚类个数的方法

在这里插入图片描述
有时,我们运行K-Means聚类算法得到一个个聚类,是为了之后我们后续的下游目标而服务的,如上图,我们想通过图中的样本点选择 S,M,L尺寸的衣服,那么将 K 设置为 3 即可。


版权声明:本文为fatfairyyy原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。