第四章 线性回归模型的矩阵方法教师:卢时光 本章介绍用矩阵代数符号来表示经典线性回归模型本章除矩阵模型之外,不涉及新概念矩阵代数最大的优越性在于,它为处理任意多个变量的回归模型提供了一种简洁的方法本章需要具有行列式和矩阵代数的数学基础,请各位同学自行复习相关知识在本章的讲授过程中所遇到的有关矩阵计算的定理和结论,不再一一证明,请自行参考有关书籍4.1 k变量的线性回归模型 如果我们把双变量和三变量的回归模型进行推广,则包含应变量Y和k-1个解释变量X2,X3,Xk的总体回归函数(PRF)表达为:其中,1截距,2 到k是偏斜率(回归)系数,u是随机干扰项,i是第i次观测,n为总体大小总体回归函数如同以前那样解释:给定了X2,X3,Xk的固定值(在重复抽样中)为条件的Y的均值或期望值PRF还可以表达为:niuXXXYikikiii,2,1 33221nknknnnkkkkuXXXYuXXXYuXXXY3322122323222121131321211 上述表达式,如果写出矩阵的形式:这样,我们把下述方程表达称之为:一般(k变量)线性模型的矩阵表现:如果矩阵和向量的各个维数或阶不会引起误解,则可以简单写作:y:对应变量Y观测值的n1列向量。
X:给出对k-1个变量X2至Xk的那次观测值的nk矩阵,其全为1的列表示截距项此阵又称为数据矩阵未知参数1 到k的k1列向量u:n个干扰ui的n1列向量uXY 1112121222212121nnknnkknuuuXXXXXXYYY111 nkknnuXYuXY 4.2 经典回归模型的假定的矩阵表达 1.残差期望为零 2.同方差性和无序列相关性 u是列向量u的转置或者一个行向量做向量乘法:0)(iuE000)()()()(2121nnuEuEuEuuuEE u)(2121nnuuuuuuEEuu 由于同方差性和无序列相关性,我们得到干扰项ui的方差-协方差矩阵此阵的主对角线(由左上角到右下角)上的元素给出方差,其他元素给出协方差注意方差-协方差矩阵的对称性其中I是一个恒等矩阵Iuu2222222122212121212212221212121100010001000000)()()()()()()()()()(nnnnnnnnnnuEuuEuuEuuEuEuuEuuEuuEuEuuuuuuuuuuuuuuuEE 3.X是非随机的我们的分析是条件回归分析,是以各个X变量的固定值作为条件的。
4.无多重共线性 无多重共线性是指矩阵X是列满秩的,即其矩阵的秩等于矩阵的列数,意思是,X矩阵的列是线性独立的存在一组不全为零的数12k,使得:用矩阵来表示:5.向量u有一多维正态分布,即:02211kikiiXXX0X),(2I0uN 4.3 OLS估计 我们先写出k变量样本回归函数:如同前面的分析,我们也是从残差平方和的最小化来进行的:uXy33221用矩阵来表达:ikikiiiuXXXY22222121212332212)(innnkikiiiiuuuuuuuuuuXXXYuuuuu最小化:等于求用矩阵来表达,为了使得残差平方和 尽可能的小,我们仍然是对参数1 到k微分,并令微分的结果表达式为零,同样得到最小二乘理论的正则方程:k个未知数的k个联立方程为其自身;(实数)其转置为一标量以及;这里用到矩阵的性质:XyyXXXXXyXyyXyXyuuXyu)(2)()(2iu0)()(20)()(20)1()(2211222112221112kikikiikiikikiiikikiiiXXXYuXXXYuXXYu 整理后:注意(XX)矩阵的特点:1.主对角线是元素的平方和;2.因为X2i与X3i之间的交叉乘积就是之间X3i与X2i的交叉乘积,因此矩阵的对称的;3.它的阶数是(kk),就是k行与k列。
y X X)(X 1112121222212123223222232233221223232222133221nknkknkkiikiikikikiiiiiikiiiikikikikiikikiiikiikiiiiikikiiYYYXXXXXXXXXXXXXXXXXXXXXnYXXXXXXXYXXXXXXXYXXXn写出矩阵的形式:上述方程是用矩阵符号来表示的OLS理论的一个基本结果上述方程也能够通过uu对的微分直接求得,请大家自行参考相关文献yXX)(XyXX)(XIIX)(XX)(XyXX)(XX)(XX)(XX)(XX)(XyXX)(X1-1-1-1-1-1-或阶的恒等矩阵,故得:为存在,用它前乘两边:的逆矩阵,因此,如果未知量是更为简洁地:kk 一个例子:收入-消费0.507924.454520550011100.00003030.005152-0.005152-0.975760.00003030.005152-0.005152-0.97576)(2055001110)(3220001700170010)(1111)(1 1 1 11111)(211-321321232132121XXyXXXyXXX根据矩阵求逆法则:,带入数据:iiinniiinnYXYYYYYXXXXXXXnXXXXXXXXY1X7080651009012095140110160115180120200140220155240150260 的方差-协方差矩阵 矩阵方法不仅能使我们导出 的任意元素 的方差公式,还求出 的任意两元素 和 的协方差。
我们需要用这些方差和协方差来做统计推断定义:参考相关资料,上述方差-协方差矩阵可以从下述公式计算:jii)var(),cov(),cov()var(),cov(),cov(),cov()var()cov(var)()()cov(var122121211kkkkEEE12)()cov(varXX 其中 是ui的共同方差,而 就是出现在OLS估计量方程中的逆矩阵和前面一样,用其无偏估计量 来替代:的计算 原理上 可以从估计的残差中算出,但实践中更愿意按照下述方法直接得到回顾:21)(XX22knknuiuu 22uu uu kiikiiiiiiiiiiiiiixyxyyuxyxyyuxyuESSTSSuKRSS2222332222222222变量模型,有:推广到在三变量回归模型中:在双变量回归模型中:)(一项被称为均值校正值因此:一旦得到 则 就容易计算回到我们的例子中:22222:YnxyxyESSYnyTSSkiikiiiyXyy用矩阵符号来表示:2YnyXyyuuuu 21591.4283737.337373.33720550011105091.04545.241321002knuuuu4.4 用矩阵来表示判定系数R22222332222332222222222/RYnYnRyxyxyxyRkyxyxyRyxRTSSESSRikiikiiiiiiiiiiiyyyX利用前面的分析:变量的情形:得到推广到在三变量回归模型中:在双变量回归模型中:定义为:判定系数9224.0123210 132100831.131409 20550011105079.03571.242222YnYnRYnyyyXyyyX利用前面的例子:4.5 关于个别回归系数的假设检验的矩阵表达 我们曾经假设每一个ui都服从均值为0和不变方差的正态分布。
用矩阵符号来表示,为:其中,u和0都是n1列向量,I是nn恒定矩阵,0是零向量在k阶回归模型中,我们可以证明:由于实际的 未知,我们使用估计量 ,就要用到从正态分布到t分布的的转换,这样 每一个元素都遵循n-k个自由度的t分布利用t分布来检验关于真值 的假设,并建立它的置信区间,具体的方法我们在前面已经讨论过,这里不再重复),(2I0uN)(,12XXN22)(iiiset 4.6 检验总体回归的总显著性:用矩阵表示的方差分析 方差分析(ANOVA)用以(1)检验回归估计的总显著性,即检验全部(偏)回归系数同时为零的虚拟假设2)评价一个解释变量的增量贡献方差分析很容易推广到k变量情形假定干扰ui是正态分布的,并且虚拟假设:则可以证明:是服从自由度为(k-1,n-k)的F分布0:320kH)/()()1/()(2knkYnFyXyyyX 在前面的讨论中,我们发现F与R2之间存在紧密联系,因此,上面的方差分析表还可以表达为:这么做的好处是全部分析都通过R2来进行,这样我们不需考虑F变量中被消掉的 )/()1(2knR/(k-1)RF2)(2Ynyy 小结 本章的主要目的是介绍线性回归模型的矩阵方法。
矩阵方法的优点是在处理多变量线性回归模型的时候,提供了一种简洁的表达方法回归系数的假设检验和利用回归做均值预测、个值预测的方法和前面讨论的没有差别,具体方法请回顾以及学习过的知识。