导入库
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
iris=load_iris()#自带数据集
x=iris.data
y=iris.target
print(x)
[[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]
[4.7 3.2 1.3 0.2]
…
[6.5 3. 5.2 2. ]
[6.2 3.4 5.4 2.3]
[5.9 3. 5.1 1.8]]
x.shape
得到一个二维数组(150, 4)
import pandas as pd
pd.DataFrame(x)
print(pd.DataFrame(x))
返回四列 四维特征
5.1 3.5 1.4 0.2
4.9 3.0 1.4 0.2
4.7 3.2 1.3 0.2
4.6 3.1 1.5 0.2
5.0 3.6 1.4 0.2
… … … … …
6.7 3.0 5.2 2.3
6.3 2.5 5.0 1.9
6.5 3.0 5.2 2.0
6.2 3.4 5.4 2.3
5.9 3.0 5.1 1.8
[150 rows x 4 columns]
调用PCA
pca=PCA(n_components=2)#实例化 二维
pca=pca.fit(x)#拟合模型
x_dr=pca.transform(x)#获取降维后的新特征矩阵
#也可用fit_transform
#x_dr=PCA(2).fit_transform(x)
print(x_dr) #可得二维数组
[[-2.68412563 0.31939725]
[-2.71414169 -0.17700123]
[-2.88899057 -0.14494943]
…
[ 1.76434572 0.07885885]
[ 1.90094161 0.11662796]
[ 1.39018886 -0.28266094]]
#以上过程也可一步完成
x_dr=PCA(2).fit_transform(x)
可视化
需要获得降维后的两个坐标(两个特征向量)
x_dr[y==0,0]
第一种花的第一个特征(第一列)
[-2.68412563 -2.71414169 -2.88899057 -2.74534286 -2.72871654 -2.28085963
…
-2.99740655 -2.40561449 -2.20948924 -2.71445143 -2.53814826 -2.83946217
-2.54308575 -2.70335978]
print(y==0)#布尔矩阵
[ True True True True True True True True True True True True
…
True True True True True True True True True True True True
True True False False False False False False False False …
False False False False False False False False False False False False
False False False False False False]
画图
plt.figure()
plt.scatter(x_dr[y==0,0], x_dr[y==0,1], c="red",label=iris.target_names[0])
plt.scatter(x_dr[y==1,0], x_dr[y==1,1], c="blue",label=iris.target_names[1])
plt.scatter(x_dr[y==2,0], x_dr[y==2,1], c="green",label=iris.target_names[2])
plt.legend()
plt.title('dataset')
plt.show()
