深度学习笔记--Kmeans算法实现

kmeans是最简单的聚类算法之一，具有出色的速度和良好的可扩展性，这里附上使用sklearn的包的简易实现。n_clusters是聚类的个数，这里选择2。
Kmeans实现

import numpy as np
import matplotlib.pyplot as plt
import sklearn
from sklearn.cluster import KMeans

if __name__ == "__main__":
	cluster1 = np.random.uniform(0,1,(2,10))
	cluster2 = np.random.uniform(10,12,(2,10))

	X = np.hstack((cluster1,cluster2)).T
	kmeans = KMeans(n_clusters = 2)
	kmeans.fit(X)
	print (X)

最佳k值的确定

对于未知聚类个数的数据集，采用手肘法确定K值，手肘法的核心指标是SSE(sum of the squared errors，误差平方和)，
在这里插入图片描述
其中k是聚类个数，Ci是第i个簇，p是Ci中的点，mi是Ci的质心（Ci中所有样本的均值），SSE是所有样本的聚类误差，代表了聚类效果的好坏。
理论上该值会随着k增加越来越小，但是在K超过一个特定的值后，SSE的下降显著变慢，则该值为最佳的k值。如下图，最佳k为4。当然在实际复杂的场景下，这样选择出的k未必是最优的，所以该方法可以作为参考。
在这里插入图片描述

原文链接：https://blog.csdn.net/creator180/article/details/83274232