sklearn之kmean（无监督聚类）

k-means步骤

随机设置K个特征空间内的点作为初始的聚类中心
对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别
接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行第二步过程

k-means API

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)

k-means聚类
n_clusters:开始的聚类中心数量
init:初始化方法，默认为'k-means ++’
labels_:默认标记的类型，可以和真实值比较（不是值比较）

k-means对Instacart Market用户聚类

降维之后的数据
k-means聚类
聚类结果显示

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score

# 读取四张表的数据
prior = pd.read_csv("./data/instacart/order_products__prior.csv")
products = pd.read_csv("./data/instacart/products.csv")
orders = pd.read_csv("./data/instacart/orders.csv")
aisles = pd.read_csv("./data/instacart/aisles.csv")

# 合并四张表到一张表  （用户-物品类别）
_mg = pd.merge(prior, products, on=['product_id', 'product_id'])
_mg = pd.merge(_mg, orders, on=['order_id', 'order_id'])
mt = pd.merge(_mg, aisles, on=['aisle_id', 'aisle_id'])

print(mt.head(10))

# 交叉表（特殊的分组工具）
cross = pd.crosstab(mt['user_id'], mt['aisle'])
print(cross.head(10))

# 进行主成分分析
pca = PCA(n_components=0.9)
data = pca.fit_transform(cross)

# 把样本数量减少
x = data[:500]
print(x.shape)

# 假设用户一共分为四个类别
km = KMeans(n_clusters=4)
km.fit(x)

predict = km.predict(x)
print(predict)

# 显示聚类的结果
plt.figure(figsize=(10,10))

# 建立四个颜色的列表
colored = ['orange', 'green', 'blue', 'purple']
colr = [colored[i] for i in predict]
plt.scatter(x[:, 1], x[:, 20], color=colr)

plt.xlabel("1")
plt.ylabel("20")

plt.show()

# 评判聚类效果，轮廓系数
print(silhouette_score(x, predict))

Kmeans性能评估指标

轮廓系数：

注：对于每个点i 为已聚类数据中的样本，b_i 为i 到其它族群的所有样本的平均距离，a_i 为i 到本身簇的距离平均值

最终计算出所有的样本点的轮廓系数平均值

如果sc_i 小于0，说明a_i 的平均距离大于最近的其他簇。聚类效果不好
如果sc_i 越大，说明a_i 的平均距离小于最近的其他簇。聚类效果好

轮廓系数的值是介于 [-1,1] ，越趋近于1代表内聚度和分离度都相对较优

对于每一个样本这里以蓝1为例

计算蓝1到自身类别的点距离的平均值a_i
计算蓝1分别到红色类别，绿色类别所有的点的距离，求出平均值b1, b2，取其中最小的值当做b_i
用公式计算蓝1的轮廓系数[-1, 1]

极端情况：

b_i>>a_i: 1 完美

a_i>> b_i: -1 最差

Kmeans性能评估指标API

sklearn.metrics.silhouette_score(X, labels)

计算所有样本的平均轮廓系数
X：特征值
labels：被聚类标记的目标值

特点分析：采用迭代式算法，直观易懂并且非常实用

缺点：容易收敛到局部最优解(多次聚类)
需要预先设定簇的数量(k-means++解决)

参考地址：https://www.jianshu.com/p/8b802d24eb39