这篇文章详细推导了一元线性回归方程的参数解,供新手朋友参考。
假定一元线性回归方程的具体形式为
y = a + b x (1) y=a+bx \tag{1}y=a+bx(1)
现在,为确定参数a , b a,ba,b进行了n nn次观测,观测结果为:
i 1 2 3 ⋯ n x x 1 x 2 x 3 ⋯ x n y y 1 y 2 y 3 ⋯ y n \begin{array}{c|ccccc} i & \text{1} & \text{2} & \text{3} & \cdots & \text{n} \\ \hline x & x_1 & x_2 & x_3 & \cdots & x_n\\ y & y_1 & y_2 & y_3 & \cdots & y_n \\ \end{array}ixy1x1y12x2y23x3y3⋯⋯⋯nxnyn
参数估计即从这n nn组数据中解出a , b a,ba,b。由于观测不可避免的带有误差(观测仪器、人为或环境因素引起),故n nn组方程
{ y 1 = a + b x 1 y 2 = a + b x 2 ⋮ y n = a + b x n (2) \left\{ \begin{array}{c} y_1=a+bx_1 \\ y_2=a+bx_2 \\ \vdots \\ y_n=a+bx_n \\ \end{array} \right. \tag{2}⎩⎪⎪⎪⎨⎪⎪⎪⎧y1=a+bx1y2=a+bx2⋮yn=a+bxn(2)
不相容(为矛盾方程组)。为消除矛盾并确定a , b a,ba,b的最佳估值,可采用最小二乘法来求解,目标函数为
Q = ∑ i = 1 n ( y i − a − b x i ) 2 = m i n (3) Q=\sum_{i=1}^n \left ( y_i-a-bx_i \right ) ^2 = min \tag{3}Q=i=1∑n(yi−a−bxi)2=min(3)
由于 Q QQ是关于a , b a,ba,b的凸函数(《南瓜书》),根据凸函数极值特性,可知在∂ Q ∂ a = 0 \frac{ \partial Q}{\partial a}=0∂a∂Q=0与∂ Q ∂ b = 0 \frac{ \partial Q}{\partial b}=0∂b∂Q=0对应的a , b a,ba,b处取得极小值(最小值)。
Q QQ关于a , b a,ba,b的偏导数如下
∂ Q ∂ a = ∑ i = 1 n 2 ( y i − a − b x i ) ⋅ ( − 1 ) = 2 ∑ i = 1 n ( a + b x i − y i ) (4) \frac{\partial Q}{\partial a}=\sum_{i=1}^n 2 \left (y_i-a-bx_i \right )\cdot(-1) =2 \sum_{i=1}^n \left (a+bx_i-y_i \right ) \tag{4}∂a∂Q=i=1∑n2(yi−a−bxi)⋅(−1)=2i=1∑n(a+bxi−yi)(4)
∂ Q ∂ b = ∑ i = 1 n 2 ( y i − a − b x i ) ⋅ ( − x i ) = 2 ∑ i = 1 n x i ( a + b x i − y i ) (5) \frac{\partial Q}{\partial b}=\sum_{i=1}^n 2 \left (y_i-a-bx_i \right )\cdot(-x_i) =2 \sum_{i=1}^n x_i \left (a+bx_i-y_i \right ) \tag{5}∂b∂Q=i=1∑n2(yi−a−bxi)⋅(−xi)=2i=1∑nxi(a+bxi−yi)(5)
当令( 4 ) = 0 (4)=0(4)=0可得:
∑ i = 1 n ( a + b x i − y i ) = 0 ⟹ n a + b ∑ i = 1 n x i − ∑ i = 1 n y i = 0 ⟹ a = y ˉ − b x ˉ (6) \sum_{i=1}^n \left( a+bx_i-y_i \right)=0 \implies na+b\sum_{i=1}^nx_i- \sum_{i=1}^n y_i=0 \implies a=\bar{y}-b\bar{x} \tag{6}i=1∑n(a+bxi−yi)=0⟹na+bi=1∑nxi−i=1∑nyi=0⟹a=yˉ−bxˉ(6)
令( 5 ) = 0 (5)=0(5)=0并代入式( 6 ) (6)(6)可得:
∑ i = 1 n x i ( a + b x i − y i ) = 0 ⟹ a ∑ i = 1 n x i + b ∑ i = 1 n x i 2 − ∑ i = 1 n x i y i = 0 ⟹ b = ∑ i = 1 n ( x i y i − y ˉ x i ) ∑ i = 1 n ( x i 2 − x ˉ x i ) (7) \sum_{i=1}^nx_i \left (a+bx_i-y_i \right )=0 \implies a\sum_{i=1}^n x_i +b\sum_{i=1}^n x_i^2 - \sum_{i=1}^n x_iy_i =0 \implies b=\frac{\sum_{i=1}^n \left(x_iy_i- \bar{y}x_i \right)}{\sum_{i=1}^n \left(x_i^2-\bar{x}x_i \right)} \tag{7}i=1∑nxi(a+bxi−yi)=0⟹ai=1∑nxi+bi=1∑nxi2−i=1∑nxiyi=0⟹b=∑i=1n(xi2−xˉxi)∑i=1n(xiyi−yˉxi)(7)
再顾及
∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) = ∑ i = 1 n ( x i y i − y ˉ x i ) a n d ∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i 2 − x ˉ x i ) \sum_{i=1}^n \left( x_i-\bar{x} \right) \left( y_i-\bar{y} \right)=\sum_{i=1}^n \left(x_iy_i- \bar{y}x_i \right) and \sum_{i=1}^n \left( x_i-\bar{x} \right)^2 =\sum_{i=1}^n \left( x_i^2-\bar{x}x_i \right)i=1∑n(xi−xˉ)(yi−yˉ)=i=1∑n(xiyi−yˉxi)andi=1∑n(xi−xˉ)2=i=1∑n(xi2−xˉxi)
则一元线性回归方程的参数解为:
b = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 (8) b=\frac{\sum_{i=1}^n \left( x_i-\bar{x} \right) \left( y_i-\bar{y} \right)}{\sum_{i=1}^n \left( x_i-\bar{x} \right)^2} \tag{8}b=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)(8)
a = y ˉ − b x ˉ (9) a=\bar{y}-b\bar{x} \tag{9}a=yˉ−bxˉ(9)
以上。
一元线性回归方程的参数估计
版权声明:本文为C_xxy原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。