第三章第三章 多元线性回归模型多元线性回归模型简单线性回归模型的推广1第一节 多元线性回归模型的概念 在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关因此,有必要考虑线性模型的更一般形式,即多元线性回归模型:t=1,2,n 在这个模型中,Y由X1,X2,X3,XK所解释,有K+1个未知参数0、1、2、K这里,“斜率”j的含义是其它变量不变的情况其它变量不变的情况下,下,X Xj j改变一个单位对因变量所产生的影响改变一个单位对因变量所产生的影响tktktttXXXYu.221102 例例1 1:其中,Y=在食品上的总支出 X=个人可支配收入 P=食品价格指数 用美国1959-1983年的数据,得到如下回归结果(括号中数字为标准误差):Y和X的计量单位为10亿美元(按1972不变价格计算).u210PXY)114.0()003.0()6.9(99.0739.0112.07.1162RPXY),(数总消费支出价格平减指食品价格平减指数1001972100P3多元线性回归模型中斜率系数的含义上例中斜率系数的含义说明如下:价格不变的情况下,个人可支配收入每上升10亿美元(1个billion),食品消费支出增加1.12亿元(0.112个 billion)。
收入不变的情况下,价格指数每上升一个点,食品消费支出减少7.39亿元(0.739个billion)4例例2:其中,Ct=消费,Dt=居民可支配收入 Lt=居民拥有的流动资产水平 2的含义是,在流动资产不变的情况下,可支配收入变动一个单位对消费额的影响这是收入对消费额的直接影响收入变动对消费额的总影响=直接影响+间接影响间接影响:收入影响流动资产拥有量影响消费额)但在模型中这种间接影响应归因于流动资产,而不是收入,因而,2只包括收入的直接影响在下面的模型中:这里,是可支配收入对消费额的总影响,显然和2的 含义是不同的ttttuLDC321ntuDCttt,.,2,1,5回到一般模型 t=1,2,,n即对于n组观测值,有tktktttXXXYu.22110nKnKnnnnKKKKuXXXXYuXXXXYuXXXXY.3322110223232221210211313212111016其矩阵形式为:其中 nYYYY.21KnnKKXXXXXXX.1.1.11212111uXYnKuuuu.,.212107第二节 多元线性回归模型的估计 多元线性回归模型的估计与双变量线性模型类似,仍采用最小二乘法。
当然,计算要复杂得多,通常要借助计算机理论推导需借助矩阵代数下面给出最小二乘法应用于多元线性回归模型的假设条件、估计结果及所得到的估计量的性质一一假设条件(1)E(ut)=0,t=1,2,n (2)E(ui uj)=0,ij (3)E(ut2)=2,t=1,2,n (4)Xjt是非随机量,j=1,2,k t=1,2,n 8 除上面4条外,在多个解释变量的情况下,还有两个条件需要满足:(5)(K+1)n;即观测值的数目要大于待估计的参数的个数 (要有足够数量的数据来拟合回归线)6)各解释变量之间不存在严格的线性关系9上述假设条件可用矩阵表示为以下四个条件:(1)E(u)=0 (2)由于 显然,仅当 E(ui uj)=0,ij E(ut2)=2,t=1,2,n 这两个条件成立时才成立,因此,此条件相当前面条件(2),(3)两条,即各期扰动项互不相关,并具有常数方差nIuuE2,)(22122212121212121.nnnnnnnuuuuuuuuuuuuuuuuuuuuuuunIuuE2)(10(3)X 是是一个非随机元素矩阵4)Rank(X)=(K+1)n.-相当于前面(5)、(6)两条 即矩阵X的秩=(K+1)0,b0)M=a(r-2)b这里,变量非线性和参数非线性并存。
对此方程采用对数变换 logM=loga+blog(r-2)令Y=logM,X=log(r-2),1=loga,2=b 则变换后的模型为:Yt=1+2Xt+ut 50 将OLS法应用于此模型,可求得1和2的估计值从而可通过下列两式求出a和b估计值:应当指出,在这种情况下,线性模型估计量的性质(如BLUE,正态性等)只适用于变换后的参数估计量 ,而不一定适用于原模型参数的估计量 和 21,21)log(ba21和a b51 例4上例在确定货币需求量的关系式时,我们实际上给模型加进了一个结束条件根据理论假设,在某一利率水平上,货币需求量在理论上是无穷大我们假定这个利率水平为2%假如不给这一约束条件,而是从给定的数据中估计该利率水平的值,则模型变为:M=a(r-c)b 式中a,b,c均为参数仍采用对数变换,得到 log(Mt)=loga+blog(rt-c)+ut t=1,2,n 我们无法将log(rt-c)定义为一个可观测的变量X,因为这里有一个未知量c也就是说,此模型无法线性化在这种情况下,只能用估计非线性模型参数值的方法52四非线性回归 模型 Y=a(X-c)b是一个非线性模型,a、b和c是要估计的参数。
此模型无法用取对数的方法线性化,只能用非线性回归技术进行估计,如非线性最小二乘法(NLS)该方法的原则仍然是残差平方和最小计量经济软件包通常提供这类方法,这里给出有关非线性回归方法的大致步骤如下:53非线性回归方法的步骤1 首先给出各参数的初始估计值(合理猜测值);2 用这些参数值和X观测值数据计算Y的各期预测值 (拟合 值);3计算各期残差,然后计算残差平方和e2;4对一个或多个参数的估计值作微小变动;5计算新的Y预测值 、残差平方和e2;6若新的e2小于老的e2,说明新参数估计值优于老估 计值,则以它们作为新起点;7重复步骤4,5,6,直至无法减小e2为止8最后的参数估计值即为最小二乘估计值YYY54 第五节 假设检验一系数的显著性检验1 单个系数显著性检验 目的是检验某个解释变量的系数j是否为0,即该解释变量是否对因变量有影响原假设:H0:j=0 备择假设:H1:j0 检验统计量是自由度为 n-K-1 的 t 统计量:t(n-K-1)()(jjjjVarSet55单个系数显著性检验的检验统计量是自由度为 n-K-1 的 t 统计量:t(n-K-1)其中,为矩阵 主对角线上第 j+1个元素。
而)()(jjjjVarSet)(jVar21)(XX1122knXYYYknet56例:柯布-道格拉斯生产函数 用柯布和道格拉斯最初使用的数据(美国1899-1922年制造业数据)估计经过线性变换的模型得到如下结果(括号内数字为标准误差):)15.0()06.0()43.0(96.0log81.0log23.018.0log2RLKY请检验“斜率”系数和的显著性解:(1)检验的显著性 原假设:H0:=0 备择假设:H1:0logloglogloglogLKAY57由回归结果,我们有:t0.23/0.06=3.83用=24321查t表,5%显著性水平下,tc 2.08.t3.83 tc 2.08,故拒绝原假设H0结论:显著异于02)检验 的显著性 原假设:H0:=0 备择假设:H1:0由回归结果,我们有:t0.81/0.15=5.4t5.4 tc 2.08,故拒绝原假设H0结论:显著异于0582若干个系数的显著性检验(联合假设检验)有时需要同时检验若干个系数是否为0,这可以通过建立单一的原假设来进行设要检验g个系数是否为0,即与之相对应的g个解释变量对因变量是否有影响不失一般性,可设原假设和备择假设为:H0:1=2=g=0 H1:H0不成立 (即X1,Xg中某些变量对Y有 影响)59分析:这实际上相当于检验g个约束条件 1=0,2=0,g=0 是否同时成立。
若H0为真,则正确的模型是:据此进行回归(有约束回归),得到残差平方和 SR是H0为真时的残差平方和若H1为真,正确的模型即原模型:tKtKttXXYu.110tKtKtggtXXYu.1102110.KtRktgRgRtRXXYS60 据此进行无约束回归(全回归),得到残差平方和 S是H1为真时的残差平方和如果H0为真,则不管X1,Xg这g个变量是否包括在模型中,所得到的结果不会有显著差别,因此应该有:S SR如果H1为真,则由上一节中所讨论的残差平方和e2的特点,无约束回归增加了变量的个数,应有 S SR 通过检验二者差异是否显著地大,就能检验原假设是否成立2k110.KtttXXYS61所使用的检验统计量是:F(g,n-K-1)其中,g为分子自由度,n-K-1为分母自由度使用 的作用是消除具体问题中度量单位的影响,使计算出的 F 值是一个与度量单位无关的量)1(KnSgSSFRSSSR62例:给定20组Y,X1,X2,X3的观测值,试检验模型 中X1和X3对Y是否有影响?解:(1)全回归 估计 得到:S=e2=25 (2)有约束回归 估计 得到:SR=e2=30tttttXXXYu3322110tttXYu22063 原假设 H0:1=3=0 备择假设 H1:H0不成立 我们有:n=20,g=2,K=3 用自由度(2,16)查F分布表,5%显著性水平下,FC=3.63 F=1.6 FC=3.63,故接受H0。
结论:X1和X3对Y无显著影响6.1162522530)1(KnSgSSFR643全部斜率系数为0的检验 上一段结果的一个特例是所有斜率系数均为0的检验,即回归方程的显著性检验:H0:1=2=K K=0 也就是说,所有解释变量对Y均无影响注意到 g=K,则该检验的检验统计量为:2)(YYSR22t)(eYYYut时,模型为)1()()1()(222KneKeYYKnSKSSFR65 分子分母均除以 ,有 从上式不难看出,全部斜率为0的检验实际是检验R2的值是否显著异于0,如果接受原假设,则表明因变量的行为完全归因于随机变化若拒绝原假设,则表明所选择模型对因变量的行为能够提供某种程度的解释2)(YY1)()(12222KnYYeKYYeF)1()1(22KnRKR66二二检验其他形式的系数约束条件 上面所介绍的检验若干个系数显著性的方法,也可以应用于检验施加于系数的其他形式的约束条件,如 检验的方法仍是分别进行有约束回归和无约束回归,求出各自的残差平方和 SR 和 S,然后用 F 统计量进行检验当然,单个系数的假设检验,如 H0:3=1.0,亦可用t检验统计量进行检验1,11,5.2,0.132434267例:Cobb-Douglas生产函数 Y=AKL 试根据美国制造业1899-1922年数据检验规模效益不变的约束:+=1解:(1)全回归 (2)有约束回归:将约束条件代入,要回归的模型变为:Y=AKL1-为避免回归系数的不一致问题,两边除以L,模型变换为:Y/L=A(K/L)252)15.0()06.0()43.0(:96.0log81.0log23.018.0log2FSeRLKY68 回归,得:由软件包可得到约束回归和全回归的残差平方和分别为 SR=0.0716 S=0.0710 (3)检验 原假设 H0:+1 备择假设 H1:+1 本例中,g=1,K=2,n=24 0.38,63.0)04.0()02.0(:)/log(25.002.0)/log(2FRSeLKLY18.0210710.010710.00716.0)1(KnSgSSFR69 用自由度(1,21)查F表,5%显著性水平下,Fc=4.32 F=0.18 Fc=4.32 故接受原假设H0:+1 (4)结论 我们的数据支持规模收益不变的假设。
70第六节 预测 我们用OLS法对多元回归模型的参数进行了估计之后,如果结果理想,则可用估计好的模型进行预测与双变量模型的作法类似,预测指的是对各自变量的某一组具体值 来预测与之相对应的因变量值 当然,要进行预测,有一个假设前提应当满足,即拟合的模型在预测期也成立点预测值由与给定的诸X值对应的回归值给出,即 而预测期的实际Y值由下式给出:其中u0是从预测期的扰动项分布中所取的值).1(02010kXXXC.020210100CXXXYkk0Y00020210100.uCuXXXYkk71预测误差可定义为:两边取期望值,得 因此,OLS预测量 是一个无偏预测量000YYe)(0Cu0)()()(00ECuEeE0 CY72 预测误差的方差为:从 的定义可看出,为正态变量的线性函数,因此,它本身也服从正态分布故)(1()()()()(1221200CXXCCXXCCVarCuVareVar0e0e)()(000eSeeEe)1,0()(110NCXXCe73由于 为未知,我们用其估计值代替它,有 则 的95%置信区间为:(其中,))1(2knet)1()(1100kntCXXCYYCXXCtC1025.0)(10YC0Y74例例 用书上P79例4.3的数据,预测X2=10,X3=10的Y值。
解:由例4.3我们已得到:因此 的95%置信区间为:或 3.66至23.65之间.14)10(5.1)10(5.240Y7.6101014/102/382/3110/45810/4510/267)10101()(1CXXC5.106XY108YY75.01255.1061081122knXYYYknet7.6175.0303.4140Y75 第七节 虚拟变量(Dummy variables)一虚拟变量的概念 在回归分析中,常常碰到这样一种情况,即因变量的波动不仅依赖于那种能够很容易按某种尺度定量化的变量(如收入、产出、价格、身高、体重等),而且依赖于某些定性的变量(如性别、地区、季节)在经济系统中,许多变动是不能定量的如政府的更迭(工党-保守党)、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等这样一些变动都可以用大家所熟悉的0-1变量来表示,用1表示具有某一“品质”或属性,用0表示不具有该“品质”或属性这种变量在计量经济学中称为“虚拟变量虚拟变量”虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中下面给出几个可以引入虚拟变量的例子76例1:你在研究学历和收入之间的关系,在你的样本中,既 有女性又有男性,你打算研究在此关系中,性别是否 会导致差别。
例2:你在研究某省家庭收入和支出的关系,采集的样本中 既包括农村家庭,又包括城镇家庭,你打算研究二者 的差别例3:你在研究通货膨胀的决定因素,在你的观测期中,有 些年份政府实行了一项收入政策你想检验该政策是 否对通货膨胀产生影响上述各例都可以用两种方法来解决,一种解决方法是分别进行两类情况的回归,然后看参数是否不同另一种方法是用全部观测值作单一回归,将定性因素的影响用虚拟变量引入模型77二虚拟变量的使用方法1 截距变动 设Y表示消费,X表示收入,我们有:假定不变对于5年战争和5年和平时期的数据,我们可分别估计上述两个模型,一般将给出 的不同值现引入虚拟变量D,将两式并为一式:其中,XYuXY21和平时期:战时:uDXY210 0 战战 时时D=1 平平 时时78 此式等价于下列两式:截距变动,斜率不变 在包含虚拟变量的模型中,D的数据为0,0,0,0,0,1,1,1,1,1估计结果如下图所示:应用t检验,2是否显著 可以表明截距项在两个时 期是否有变化uXYuXY12010平时:战时:Y 平 时 战 时 2-1=2 1=0 X792 斜率变动 如果我们认为战时和平时的消费函数中,截距项不变,而斜率不同,即变动,则可用下面的模型来研究两个时期边际消费倾向的差异:其中,D=不难看出,上式相当于下列两式:同样,包括虚拟变量的模型中,2是否显著可以表明斜率在两个时期是否变化。
uDXXYuXDY)()(2121即:平时战时10uXYuXY)(211Y 战 时 平 时 X803斜率和截距都变动在这种情况下,模型可设为:其中,D=此式等价于下列两个单独的回归式:uDXXDYuXDDY)()()(43214321即:平时战时10uXYuXY)(平时:战时:432131)(引进了虚拟变量的回归模型对于检验两个时期中是否 发生结构性变化很方便如上例中,相当于检验 H0:2=4=0814季节虚拟变量的使用 许多变量展示出季节性的变异(如商品零售额、电和天然气的消费等),我们在建立模型时应考虑这一点,这有两种方法:(1)在估计前对数据进行季节调整;(2)采用虚拟变量将季节性差异反映在模型中例:设Y=购买汽车的实际支出额 X=实际总消费支出 用美国1973(1)-1980(2)的季度数据(按1975年价格计算),得回归结果如下:)5.0()6.1(:)(0281.00133.00.7652tRXY82 这一结果很不理想,低R2值,低t值,X的符号也不对考虑到可能是季节性变异的问题,我们建立下面的模型:其中,Q1=Q2=Q3=请注意我们仅用了3个虚拟变量就可表示4个季度的情况。
uXQY43322110其它季度季度011其它季度季度021其它季度季度031各季度的截距分别为:1季度:0+12季度:0+23季度:0+34季度:0 83估计结果如下:结果仍不理想,但好多了四个季度的截距项分别为:-1039.2,-1122.7,-1161.4,-1455.8所得到的实际总支出的参数估计值(0.1044)是一个不受季节变动影响的估计值65.01044.034.29421.3336.41681.14552)5.4()9.5()4.6(1)2.7()5.3(:)(RXQYt84第三章 小结本章将双变量模型的结果推广到了多元线性回归模型的一般情形一、多元线性回归模型的估计多元线性回归模型的矩阵形式为 Y=X+若满足以下四条假设条件:1、E()=0 2、E()=2 In 3、X是一个非随机元素矩阵 4、Rank(X)=k+1n 则OLS估计量 =(XX)-1XY为最佳线性无偏估计量(BLUE)其方差-协方差矩阵为 Var-cov()=(XX)-12该矩阵主对角线元素为诸 的方差j85二、拟合优度多元线性回归模型的决定系数为:R2=由于当模型增加解释变量后,残差平方和的值会减小,为了使拟合优度的测度反映这一特点,可采用经过自由度调整的决定系数,即修正决定系数 :2222)(1YnYYYnXYYYe2R11)1(1)1/()()1/(12222knnRnYYkneR86三、非线性关系的处理 线性模型的含义包括变量的线性和参数的线性。
对于仅存在变量非线性的模型,可采用重新定义的方法将模型线性化存在参数非线性的模型,则仅有一部分可通过代数变换(主要是取对数)的方法将模型线性化对于那些无法线性化的模型,只能采用非线性估计技术(如NLS法)估计模 型87四、假设检验 检验解释变量的系数是否为0的假设检验称为系数的显著性检验这种检验实际上是检验所涉及的解释变量是否对因变量有影响检验单个系数j是否为0的检验统计量 t(n-k-1)其中Var()为矩阵 主对角线上第j+1个元素,而 n和k分别是观测值数目和解释变量的个数)(jjVartj1122knXYYYknet21)(XX88涉及几个参数的联合假设检验的检验统计量 F=F(g,n-k-1)其中SR为有约束回归的残差平方和,S为无约束回归(全回归)的残差平方和g为原假设中约束条件个数,(对于涉及几个参数的显著性检验,g为原假设中为0参数的个数)检验全部“斜率”系数均为0的检验统计量为 F=)1/(/)(knSgSSR)1/(/)(knSkSSR)1/()1(/22knRkR89五、虚拟变量 我们应用虚拟变量的目的是将那些无法定量化的变量引入到模型中这样,一些定性因素对因变量的影响,如不同时期、不同地区、不同季节、不同经济政策的影响等,可放在一个模型中予以考虑。
90第三章 习题1、某经济学家试图解释某一变量Y的变动他收集了Y和5个可能的解释变量X1X5的观测值(共10组),然后分别作三个回归,结果如下(括号中为t统计量):(1)=51.5 +3.21X1t R2=0.63 (3.45)(5.21)(2)=33.43 +3.67X1t+4.62X2t+1.21X3t R2=0.75 (3.61)(2.56)(0.81)(0.22)(3)=23.21 +3.82X1t+2.32X2t+0.82X3t+4.10X4t+1.21X5t (2.21)(2.83)(0.62)(0.12)(2.10)(1.11)R2=0.80 你认为应采用哪一个结果?为什么?tYtYtY912、为研究旅馆的投资问题,我们收集了某地的1987-1995年的数据来估计收益生产函数 R=ALKeu 其中R=旅馆年净收益(万元),L=土地投入,K=资金投入,e为自然对数的底设回归结果如下(括号内数字为标准误差):=-0.9175+0.273lnL+0.733lnK R2=0.94 (0.212)(0.135)(0.125)(1)请对回归结果作必要说明;(2)分别检验和的显著性;(3)检验原假设:=0;Rln923、我们有某地1970-1987年间人均储蓄和收入的数据,用以研究文革期间和文革后储蓄和收入之间的关系是否发生显著变化。
引入虚拟变量后,估计结果如下(括号内数据为标准差):=-1.7502+1.4839D+0.1504Xt-0.1034DXt (0.3319)(0.4704)(0.0163)(0.0332)R2=0.9425其中:Y=人均储蓄,X=人均收入,请检验两时期是否有显著的结构性变化年年19871979,119781970,0DtY93。