python结构方程模型_结构方程模型:方法与应用_结构方程模型公式

讲解清晰,适合MPLus学习者!注意这是王济川的书!

第一章

绪论( Introduction)

11模型表述( Model formulation

1.11测量模型( Measurernent model)

112结梅模型 Structural model)

113模型表达方程( Model formulation in equations)

12模型识别( Model identification

13模型估计( Model estimation)

14模型评估( Model evauation)

15模型修正( Model modification)

附录11将总体方差/协方差表达为模型参数的函数( Expressing population vari

ances and covariances as functions of model parameters

附录12结构方程模型的最大似然函数( Maximun likelihood function for sEM

近年来结构方程模型( structural equation modeling,SEM)作为统计分析的

一般框架( Bentler,1995;Bole,1989a; Huyou,1989; Jonesky,1973; Muthen&

Muthen,1998-2008)被广泛地应用于社会科学的数据分析。结构方程模型在估

计一组观察变量 Observed variables)与其代表的潜变量( latent variables)(或概念

( constructa)、因子(aor)的关系的同时,分析各潜变量之间的关系( Bentler

1980,1983; Bollen,1989a; Joreskog,1967,1969,1973; Joreskog& Sorbon,1979)

这样,潜变量之间的关系估计便不受测量误差( measurement errors)的影响。结

构方程模型源于因子分析( factor analysis)( Spearman1904; Tucker;11958)和

路径分析( path analysis)(或联立方程( simultaneous equations)( Wright,1921,

2·第一章绪论( Lntroduction

1934)。基于因子分析的测量模型( measurement mcdel)与基于路径分析的结构

公式( structural equations}的整合,形成了一个数据分析的一般框架,叫做结构

方程模型( Joreskog,1973; Keesling,1972; wiley,1973)

结构方程模型对解决数据分析中观察变量测量误差的影响提供了一个机制

或平台。社会科学研究中某些概念,如智力、能力、倍任、自尊、动机、成功、雄

心、偏见、疏远、保守等,是不能直接测量的。由于没有可操作性的方祛来直接

测量这些假设的概念( constructs or concepts),研究者只能寻找一些可测量的观

察标识变量( observed indicator variables)来间接地测量潜变量。遗憾的是,几乎

所有的观察标识变量都会带有一定的测量误差( measurement errors)。即便是

些可以直接测量的变量,在统计分析中通常也需要关注其测量误差。传统的分析

方法,如多元回归 multiple regressions)、 ANOVA、路径分析及联立方程等,都忽

略了模型中变量的浏量误差。一旦多元回归力程中的自变量出现测量误差,则模

型残差( model residuals)就会与自变量相关,从而违背基本统计假设,引起回归

模型的参数估计值出现偏倚(bias),导致拖论错误。sEM提供了一个实用、有效

的手段,可同时评估测量( measurement)的质量并检测潜变量( latent variables)

之间的因果关系( causal relationships)。运用结构方程模型,我们不但能构建非

观察性潜变量,还能估计不受测量误差影响的潜变量之间的关系。结构方程模型

的优点还包括:具有同时对多个因变量( dependent variables)建模的能力;检验

模型的整体拟合度( overall model fit;检验直接效应( direct effects'、间接效应

indirect effects和总效应( total effect;检验复杂与特定假设:检验跨组参数

恒定性( parameter invariance);处理复杂数据(如带自相关误差/ autocorrelated

err的时间序列( time series)数据、非正态分布数据( non-mormal data)、删截

数据( censorer data)以及分类结局数据( categorical outcomes data)等。本书将

在以后的章节中讨论这些与模型特征相关的问题。

本章通过以下涵盖结构方程建模过程(Boen&Long,1993)的5个步骤简

要介绍结构方程模型

1)模型表述( model formnlation):指模型估计之前形成的最初理论模型。

该模型是在理论研究或实践经验的基础上形成的。

(2)模型识别{ model identification):模型只别决定设定模型的参数估计是

否有唯一解。如果模型错误设定,模型估计可能不收效( energe或无解(参数

估计无唯一解)。

(3)模型告计( nodel estimation):结构方程模型的估计有多种方法,最常用

的是最大似然估计法( maxmum likelihood estimator),近几年一些稳健估计法

( robust estimators)也被广泛应用。

(4)模型评估( model evaluation):获得模型的参数估计值后,需要评估模型

是否拟合数据(邱 it data)s如果模型对数据拟合良好,则经过该步骤后建模过程可

11模型表述( Model formulation)·3

以停止。

5)模型修正( model modification):如果模型与数据拟合不好,则需要重新

设定或修改模型此时需要决定如何删除、增加或倦改模型中的参数( parade-

ters)s通过重新设定参数以提高模型拟合度。所有的SEM计算机程序在其输出

结果中都提供模型参数的修正指数{ mlodification indices,M)以指导重新设定模

型。一旦重新设定了模型,可重复上述4个步骤。实际研究中的建模过程可能会

重复进行多欥的模型修正。以下各节我们会逐步介绍结构方程的建模过程。

11模型表述( Model formulation)

在结构方程模型的建模过程中,首先要设定所要估计的模型。有多种方法

可以设定一个模型。最直接的方法是通过wght(1934)提出的路径图(path

diagram)来描述研究者所慼兴趣的模型。路径图是结构方程模型的基础,因为它

可使研究者用一种直接和有吸引力的方式来表达其所感兴趣的模型。路径图可

以清晰地表达研究人员对于变量之间关系的想法,并可直接转换成建模所需要

的方程。构建sEM模型的路径图有一些标示规则。例如,正方形或长方形表示

观察变量( observed variables),观察变量也称为测量变量( measured variables)、

外显变量( manifest variables)或外显标识( manifest indicators)。圆或椭圆表示

潜变量 Latent variables)或因子。变量之间的关系用线条表示,如果两变量之间

没有线条相连,则表示二者之间没有直接关系。单向箭头表示两变量之间具有效

应(efe)关系,箭头所指的变量受另一个变量的影响。双向箭头表示变量之间

具有关联( associations,但不表示变量之间的效应。

图1.1-1是一假设的结构方程模型路径图。如前所述,潜变量用椭团表示,观

察变量用长方形表示。潜变量的测量是通过一个或多个观察标识变量( observed

nicator variables)完成的。例如在本例的模型中,用两个观察变量{x1和m2)

作为潜变量51的标识潜变量的标识为x3,x4和,而潜变量m的标识为

3n,y2,y3请注意m仅有一个标识y4,表示该潜变量只有一个观察标识。

由模型内变量决定的潜变量或因子称为内生潜变量( endogenous latent vari

ables),用n表示,如果潜变量的原因基于模型之外,则称为外源潜变量( exoge-

nous latent variable,用表示。本例有两个外源潜变量(1和52)及两个内生

潜变量(m和m)。外源潜变量的标识称为外源标识( xogenous indicator,.本例

为a1,…,内生潜变量的标识称为内生标识( endogenoUS indicator),本例为

的,…,34。用6表示前者的测量误差项( measurement error term),用6表示后

者的测量误差项(见图11-1)。

路径图中的系数a和γ为路径系数( path coefficients)。其下标中第一个数

字代表内生因变量( dependent endogenous varian)第一个下标代表原因变量

4·第一章绪论( Introduetion)

y

2

φ

Y4

54

图11-1假设的结构方程模型路径图

( cauSaL vAriahle)其可以是内生变量也可以是外源变量。如果原因变量为外源

变量〔5),则路径系数用γ表示;如果原因变量为内生变量(n),则路径系数用

B表示。例如,B12表示内生变量m对m的效应;~2表示第二个外源变量{2

对第一个内生变量m的效应。与多元回归一样,结构方程也有残差项( residual

term)a以上路径图中指向内生变量的c就是结构方程的残差项。

与多元回归、ANOⅥA、路径分析等传统统计分析方法不同,结构方程模型分

析的重点是潜变量或因子,而不是观察变量。结构方程模型的基本目的是提供一

种不受测量误差影响的手段来估计设定模型中潜变量间的结构关系。将测量模

型( measurement modell(或验证性因子分析( confirmatory factor analysis,CFA)

和结构方程 structural equations(或潜交量模型( atent variable model)整合

在一个结构方程模型框架内,就可以实现该目的。囚此可以说,一个一般结构方

程模型由两部分组成:(1)联系观察变量和潜变量因子)的测量模型;(2)经由

联立方程将各潜变量联系在一起的结构方程( Joreskog,1973)。

1,11测量模型( Measurement mode

测量模型是结构方程模型的测量部分( measurement component)。测量模型

的基本目的是描述观察标识变量是否适合作为潜变量或因子的测量手段。测量

模型由验证性因子分析来完成和评估。测量模型或者CA建立观察标识变量与

其所测量的潜变量之间的联系或关系,然后用数据检验是否存在假设的因子结

构 factorial structure)

我们把图11-1所示的结构方程中的测量模型分别表述于图111-1全图

111-3中。我们可用验证性因子模型(CFA)来检验这些测量模型。模型中的系

数在因子分析中称为因子负载( ctor loading),表示观察变量与潜变量之间

11模型表述( Model formulation)·5

的联系。它们实际上是将观察变量作为因变量,相关潜变量作为自变量的线性

回归系数。图1.1.1中的观察变量x1,…,通过因子负载A211

5A252

别与潜变量∈和臼相联系;图111-2中的潮察变量y,孙,通讨因子负载

λ1,21,λ31与潜变量η相联系。因子负载常用希腊字母Ax(或λy)表示,其

中第一个下标代表一个因子负载标识第二个下标代表相应的潜变量。例如,x21

代表标识x与外源潜变量1之间联系的因子负载;31代表标识v与内生潜

变量m1之间联系的因子负载。在图111-1的测量模型中,有两个潜变量,分别

是1和2,均可由一系列观察标识测量。观察变量x1和r2是潜变量1的标

识,观察变量x3,c4,s是潜变量2的标识。该测量模型中两个潜变量t1和2

相互关联(图11中的如1表示1与E2间的协方差),但不表示因果关系。如

果这两个潜变量之间没有相关关系,即如=0,则丘1和臼2就分别有两个测量方

程,其中,51的测量方程仅有网个观察标识,园此不能被识别。对于单因子CFA

模型( single factor CFA mode〕.模型识别至少需要有3个标识,而且误差项不能

相关。图11.12所示的单因子验证性因子模型是恰识别的 Gust identifier),因

为该模型的观察数据点即观察变量的方差协方差的数量(3(3+1/2=6),等

于自由参数的数量(即2个自由因了负载3个误差项方差和1个因子方差)。对

于该模型,尽管我们能够估计其模型参数,但不能评估模型拟合数据的情况。为

了评估模型的拟合度,模型必须是超识别的( overidentified,即观察数据点数要

大于模型估计的自由参数总数。一个单因子验证性因子分析模型,如果不设定误

差相关( error correlAtion),需要4个以上的标识才能达到超识别。然而,如果

个CFA模型有多因子,且某特定因子至少与另一因子相关,但误差项不相关,那

么,这个因子也可以只有两个测量标识( Bollen,199a; Brown,2006)。图111-1

所示的测量模型就是这样。虽然因子G1仅有2个标识但整个模型(即带因子

61和2的CFA模型)是超识别的。当然,一个因子只有两个测量标识是不理想

图1.1.12测量模型

图1.1.1-1测量模理1

图111-3测量模型3

6·第一章绪论( Lntroduction)

的。不同的标识可以反映潜变量的不同侧面,在CFA模型中:每个因子有多个测

量标识能更好地反相关潜变量。

图1113是一个简单测量模型( simple measurement, model),它仅有一个因

子m和一个标识变量4如果单个观察标识变量没有测量误差,此时,简单测量

模型就变成=m,其屮因子负荷λy2为1.0,测量误差为00。也就是说,观察

变最%4是潜变量m的完美测量 perfect fit)a如果单标识不是完美测量则测量

模型不能估计其测量误差。不过,如果能有该标识可靠度( reliability)的信息,该

观察标识变量所代表的潜变量仍可包括在模型中( Hayduk,1987;Wang, Fisher,

Siegal,lalk& carlson,1995)。我们将在第三章中讨论该间题。

1.1.2结构模型(8 Structural model)

确定了测量模型中的潜变量以后,就可在结构方程模型的另一部分—结

构模型( structural model中评估潜变量之间的相互关系。结构模型也称结构方

程( [structural equations)或潜变量模型( atent varialle mode)(见图1.121)。其

中路径系数1,m,m和n2设定了潜变量,2与潜变量m1,m之间的关系

而2设定了变量m与m之间的关系。即结构模型定义了各潜变量之间的关

1

图1.12-1结构模型

在结构方程模型中,各潜变量之间的关系是与测量模型同时估计的。注意

如果结构模型中的变量都是观察变量而不是潜变量,那么,结构方程就会变成

组观察变量之间结构关系的建模体系。这样,模型就简化为传统的社会学中的路

径分析( path analysis或计量经济学中的联立方程 simultaneous equations)

图11.21所示模型是一个递归模型{ recursive model),刘果模型具有回馈

reciprocal)或反馈效应( feedback effects:即7与m相互影响(即互为因果

关系),则该模型称为非递归模型( nonrecursive mode)l。本书仅讨论递归模型的

11模型表述( Model formulation)·7

应用。

1.13模型表达方程( Model formulation in equations)

般结构方程( general structural equation mode)可用3个基本方程表达

7=B7+s+

Y= Ayr+

(1.1.31)

X=4-5+d

这是以矩阵格式表达的方程式。与这召个方程有关的变量矩阵的定义见表1,1.3

1公式(11.31)中的第一个方程为结构方程,其建立反映潜变量间效应关系的

结构方程。7=(,…,m)代表相应的内生潜变量:E=(1,…,5n)为外源潜

变量。内生与外源潜变量由带系数矩阵(beta)和r(gmma)及误差向量c

(zeta)的线性方程迕接,其中P代表外源潜变量对内生潜变量的效应,B代表某

些内生潜变量对其他内生潜变量的效应代表回残差。假定E()=0,且s

与,n不相关。

表113-1一般續构方程模型的3个基本方程中变量矩阵的定义

变量

定义

内生潜变量

mx1

外源潜变量

s(zeta)

方程中的干扰项( disturbance

内标识

外狼标识

e(epsilon)

y的测量误差

d(delte

的测量误差

gx1

注:m和n分别代表样本中内生潜变量和外源潜变量的数量;p和q是内生标识和外源标识的数

公式(131)中的第二、三个方程为根据观察变量定义潜变量的测量模型

measurement models)l第二个方程表示内生标识变量y与内生潜变量{即η)之

间的关系;第三个方程表示外生标识变量m与外生潜变量(即)之间的关系。观

察变量和通过因子载荷A和1x分别与相应的潜变量n和相关。c和δ

分别是与观察变量y和x相关联的测量误差。假定E(E)=0与E(6)=0,误差

s和6与潜变量η和£不相关,但测量误差之间(之间或5之间)或两潜变量

间可能相关。当或不存在测量误差时,c或中相应的元素即为零

注意,上述结构方程模型中没有设定截距〔 intercepts)。为简化模型公式推导

起见,传统上,结构方程模型的表述和估计不是基于原始观察变量,而是原始观

察变量的均数离差( deviations from means当变量x和y都是均数离差测量时,

公式(11381)中各个方程里也就没有截距项了s当模型涉及截距均数(如在多

8·第一章绪沦( Introduction)

组模型( multi-group model)中)或涉及变量门栏( thresholds of variables)(如带

有分类结局变量的模型)时,模型表述私估计将基于原始观察变量。

在公式(1,13-1)的3个基本方程中,共有8个基础矩阵,即A4,4,r,B,更

距,郾和6( Jareskog& Sorbom,1981)。一个结构方程模型可由这8个矩阵设

定的结构米定义。在结构方程分析的早期,结构方程模型是由使用这8个参数

矩阵的矩阵格式设定的。虽然现在的SEM程序/件多不用矩阵格式设定模型

但在Mpls和其他SEM软件的输出结果中,仍然报告这8个参数矩阵的参数

估计值信息(如初始值( starting values)。这些矩阵有助于研究者深入了解结构

方程模型,检视结果中特定参数的估计。

表132总结了这些矩阵和向量。前两个矩阵!和A分别是连接观察

标识与潜变量η和的因子载荷矩阵,B和r为结构系数矩阵。矩阵B是一个

表示内生潜变量之间关系的系数矩阵。模型假设-B)非奇异( nansingular',

因此公式(113-1)的第一个方程中(I-B)1存在(其中,「为单位矩阵,B为

外生潜变量问的关系系数矩阼,否则不能进行模型估计。矩阵r是一个表示外

生潜变量与内生潜变量的关系的系数矩阵。

在一般结构方程模型中,有4个方差/协方差矩阵( variance/covariance ma

trx)更(phi).vpsi),( theta-epsilon)和白 s/theta delta),每个矩阵都为对称方

阵( Symmetric square matrix),即每个矩阵的行数等于列数。各方差/协方差矩阵

主对角线上的元素为方差( variance,对角线以外的元素为矩阵中成对变量的协

方差( covariance当所有变量,包括观察变量即潜变量的标识变量)和潜变量

标准化后,各方差/协方差矩阵便成为一个相关矩阵( corre ation matrix)),其中,

对角线上的值为1,对角线以外的值为相关系数( carrelations)a

表1.1,3-2一般结构方程模型的8个基本参数矩阵

矩阵

定义

维度

系数矩库

Ay(lambda g

y与n之间的因子载荀

卩Xm

Az(lambda z

x与之间的因子载荷

9x Ti

B(beta)

n与η之间的系数矩阵

I (gamE

与q之间的系数矩阵

方差/协方差矩阵

中{phi)

的方差/协方差矩阵

w(pst)

的方差/协b方差矩阵

e(theta-epsilon)

的方差/协方差矩阵

p x p

eo(theta-delt a

6的方差/协方差矩阵

qx

泮:F是v约变量数q是x的变量数m是E的变量数n是n的变量数。

矩阵φ是外源潜变量的方差/协方差矩阵,其对角线元素如为外源潜变

量丘的方差对角线以外的元素ψ(矩阵φ中第;行、第j列的元素)是外源


版权声明:本文为weixin_39789399原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。