因子分析模型

主成分分析在降维中主要是对原始变量进行线性组合，如 $\textbf Y =\textbf {AX}，X\in \mathbf R^{n\times p}$ 首先对原始数据进行标准化后取协方差矩阵所得的m个(或者说成m维数)较大的特征值 $\lambda_i$ ,且满足 $\frac{\sum\limits_i^m \lambda_i}{p} > 80\%$ (通常意义下)，则可以放心的将p维的数据降维成m维的，这在后续数据的处理中可以减少计算量及方便可视化。但主成分只涉及一般的变量变换，并且对降维后的数据进行解释较为困难。

正交因子模型

设数据中的p个变量可以归功于m个因素(或m件事被分为有p个人做)
$x_i = u_i+a_{i1}f_1+a_{i2} f_2 +\cdots+a_{im}f_m+\varepsilon_i$
采用矩阵的形式表示， $\mathbf x=(x_1,\cdots,x_p)^T$ ，公共因子 $\mathbf f=(f_1,\cdots,f_m)^T$ ,特殊因子 $\mathbf \varepsilon=(\varepsilon_1,\cdots,\varepsilon_p)^T$ ;在处理前对数据进行标准化后变量均值 $u_i =0 \quad \forall i=1,2,\cdots ,p$ , $A=(a_{ij})$ 称为因子载荷矩阵。故可以表示为
$\mathbf x= A \mathbf f+\mathbf \varepsilon$
下面我们作几个假设，并且可以说是显然的。

公共因子 $f$ 与特殊因子 $\varepsilon$ 互不相关(否则 $\varepsilon$ 是可以被公共因子所解释)。
公共因子之间相互无关
不失一般性可以假设：
$E(f)=0,\quad E(\varepsilon)=0,\quad \text{及} Var(f_i)=1$

两边同时求方差可以得 $\Sigma = AA^T+D$ ，其中D=Var( $\varepsilon$ )是对角阵.

因子载荷矩阵的性质

每一个元素 $a_{ij}$ 表示 $x_i$ 与 $f_i$ 之间的相关系数
Proof
$Cov(x,f)=Cov(Af+\varepsilon)=AVar(f)+Cov(\varepsilon,f)=A\\ \rho(x_i,f_j)=\frac{Cov(x_i,f_j)}{\sqrt{Var(x_i)Var(f_j)}}=a_{ij}$
A 的行元素的平方和表现为公共因子对 $x_i$ 的影响
Proof
$Var(x_i)=a_{i1}^2Var(f_1)+\cdots + a_{i,m}^2Var(f_m)+V(\varepsilon)\\ =\sum_{j=1}^m a_{ij}^2 + \sigma_i^2\\ =h_i^2 +\sigma_i^2\\ =1$
A的列元素平方和表现为公共因子 $f_j$ 对 $x_1,\cdots,x_p$ 的影响，也是对比公共因子重要性的一个标准.
A的元素平方和为 $f_1,\cdots,f_m$ 对总方差的累计贡献

迭代求解(主因子法)

初始化特殊方差 $\sigma_i^2$ ,计算 $\Sigma -D$ 的特征值 $\lambda_1,\cdots,\lambda_m$ 和线性无关的特征向量 $t_1,\cdots,t_m$ ，则前m个较大的组成A的主因子分解
$\hat{A}=(\sqrt{\lambda_1}t_1,\cdots,\sqrt{\lambda_m}t_m)$
再计算特殊因子方差 $\sigma_i^2 = 1- h_i^2$ ,代入上式迭代知道所求主因子稳定即可.

因子旋转

当主因子仍不好解释时采用，正交因子旋转是对公共因子作用一个正交旋转变换， $f^*=T^Tf$ ,载荷矩阵相应的变为 $A^* =AT$ 。可以发现正交旋变换后结构不变。

Python程序实现

以一个简单的例子展现python中factor_analyzer库中的因子分析

import pandas as pd
import numpy as np
from pandas import DataFrame,Series
from factor_analyzer import FactorAnalyzer

datafile = u'f:\\Factor\data.xls'
data = pd.read_excel(datafile)
data = data.fillna(0)#用0填充空值
 
fa = FactorAnalyzer()
fa.analyze(data, 5, rotation=None)#固定公共因子个数为5个
print("公因子方差:\n", fa.get_communalities())#公因子方差
print("\n成分矩阵:\n", fa.loadings)#成分矩阵
var = fa.get_factor_variance()#给出贡献率
print("\n解释的总方差（即贡献率）:\n", var)
 
fa_score = fa.get_scores(data)#因子得分
fa_score.head()
 
#将各因子乘上他们的贡献率除以总的贡献率,得到因子得分中间值
a = (fa.get_scores(data)*var.values[1])/var.values[-1][-1]
 
#将各因子得分中间值相加，得到综合得分
a['score'] = a.apply(lambda x: x.sum(), axis=1)

原文链接：https://blog.csdn.net/qq_45153782/article/details/108645834