文档详情

高级统计学与SPSS应用全套ppt课件

94****0
实名认证
店铺
2024-12-12
PPT
1.17MB
约168页
高级统计学与SPSS应用全套ppt课件_第1页
1/168
高级统计学与SPSS应用全套ppt课件_第2页
2/168
高级统计学与SPSS应用全套ppt课件_第3页
3/168

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,,,,,,,,,,,,,,,,,,,,,,,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,,,*,,,,,,,,,,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,,,*,高级统计学与,SPSS,应用,高级统计学与SPSS应用,第一章,统计学概述,,统计是历史久远的人类社会必不可缺的一种社会实践活动,它是对客观事物的数量方面进行核算和分析,,,是人们对客观事物的数量表现、数量关系和数量变化进行描述和分析的一种计量活动,统计学则研究人们可以采用哪些方法从数量方面去认识世界和解释世界统计学不仅仅是工具和形而下的,它已经成为一种具有普遍意义的思想方法、思维方式第一章 统计学概述 统计是历史久远的人类社会必不,一、,概率,论,的发展,过程,不确定性是概率存在和发展的前提,但在,远古,年代,这种不确定性更多地成了神的领地,人类的禁区,古希腊人已经知道用抽签决定一些争端,一、概率论的发展过程不确定性是概率存在和发展的前提,但在远古,赌博,与,概率,论的关系,从,15,世纪末开始,赌博逐渐盛行,到,16,世纪初,有些意大利数学家已经开始着手探讨赌博中出现各种情况的机遇或胜率,即用计算出现某一特定结果的情况与可分解成的总情况之比来计算,这种算法后来演变成了概率的古典定义。

赌博与概率论的关系,据说在,1654,年,巴黎一个名叫梅雷的赌徒要求当时著名的数学家帕斯卡解决一个赌博中产生的实际问题:两个技艺相当的赌手约定,每赢一场为赢一点,谁先赢得三点就算全赢如果当两人都没有能赢得三点而需要中断赌博时,问赌本应当如何摊派才算公平据说在1654年,巴黎一个名叫梅雷的赌徒要求当时著名的数学家,1713,年,在,J·,伯努利去世后的,8,年,他的著作《推测术》问世,书中提出了伯努利大数定律,这使得概率统计的理论和应用取得了突破性进展客观概率和主观概率的提出不仅仅是数学计算的处理,也引起人们对概率哲学意义的思考这,“,标志着概率概念漫长的形成过程的终结与数学概率论的开端,”,1713年,在J·伯努利去世后的8年,他的著作《推测术》问世,概率论的理论正式发展起来,莫阿弗尔提出中心极限定理为处理观测误差提供了理论基础;,贝叶斯的贝氏统计理论运用概率来解决从特殊推断一般的问题,拉普拉斯《概率分析理论》问世,概率论从,17,世纪到,19,世纪初的经典时期被划上了一个完整的句号,概率论的理论正式发展起来,二、概率论与统计的结合,近代的概率思想带来了人类思想上的一次飞跃,但是这次飞跃严格来说并不是由概率直接完成的,统计学和她的联姻才是促成,19,世纪以来人类在认识论、方法论上飞跃的主角。

二、概率论与统计的结合近代的概率思想带来了人类思想上的一次飞,统计学和概率学在早期几乎无太多关联,统计的出现,可能远在人类文明的初期就已经开始,人口、兵力等统计数字就已经为部落或城邦的首领所关注统计成为一种学问则直到十七世纪的德国,出现著名学者康令已经开始从人口比率、文化水平等统计数字中分析德国国家形势统计学和概率学在早期几乎无太多关联同一时代的英国学者,J·,格龙特从定期公布的伦敦居民的死亡公报中发现,充分大量的观察可使事物发展中非本质的偶然因素的影响互相抵消或削弱,从而显示出整个现象稳定的、一般的特征W·.,配第开启了用数学方法描述社会现象的先河,从而创立了,“,政治算术学派,”,,,“,威廉,·.,配第,——,政治经济学之父,在某种程度上也是统计学的创始人,”,(,马克思,语),同一时代的英国学者J·格龙特从定期公布的伦敦居民的死亡公报中,伯努利大数定律使得,概率论与统计,有了结合的基础,法国的,P·.,拉普拉斯发现:,“,概率的数理公式可以当作以大量观察而又易有错误为基础的各项科学所要的辅助科学,”,大数学家高斯,的,分布曲线让概率与统计的结合迈出了重要的一步伯努利大数定律使得概率论与统计有了结合的基础。

概率论和统计学在自然科学和社会科学中都出现了交集,这个交集带来的效应是爆炸性的,概率统计已经成为动力学、系统论、协同学的重要组成部分,是心理学等社会科学研究中的重要方法,而其对大量微观粒子的描述也使医学成像、粒子成像得以广泛地在社会上得以应用概率论和统计学在自然科学和社会科学中都出现了交集,这个交集带,三、,统计学的哲学基础,1.,必然性与偶然性的辩证统一,,统计学的基础是随机性原则,,统计研究的总体现象的数量状况,,,是由各种各样因素影响的结果,,,一类是普遍起作用的主要因素,;,另一类是偶然起作用的次要因素这两类因素错综交织在一起,,,以某种偶然的形式表现出来,,,而将必然存在的实质却隐蔽起来三、统计学的哲学基础1.必然性与偶然性的辩证统一,2.,量变与质变的辩证统一,一个完整的统计调查,,,首先,是对被调查的对象及其性质要进行质的界定,,,然后科学地设计统计对象的各个指标以及怎样量化,,,其实质就是对事物从质变到量变的开始再次,,,就是对搜集上来的众多数据如何进行甄别与整理,,,是完成量变到质变的必要阶段最后,,,对,数据进行质与量的辩证分析,,,并同时提出统计分析报告和有关的政策咨询意见。

2.量变与质变的辩证统一,3.,分析与综合的辩证统一,可,用统计方法进行定性分析、定量分析、因素分析、结构分析、比较分析、比例分析、分类分析,,,先将客体分解为若干个主要因素然后又将其结合起来考察其综合作用等等3.分析与综合的辩证统一,第二章 统计学知识简要回顾,一、简化一个变量的分布,,定类层次、定序层次、定距层次,,1.,集中趋势测量法,定类:众值,Mo,,定序:中位值,Md,定距:均值,,第二章 统计学知识简要回顾一、简化一个变量的分布,2.,离散测量法,定类:离异比率,v,(,非众数数目与总个案数目之比),,定序:四分位差,Q,定距:标准差,S,,,2.离散测量法,,二、简化两个变量的分布,1.,简化相关与消减误差,相关的含义 正相关 负相关,消减误差比例,,PRE=,(,E,1,-,E,2,),/E,1,,2.,相关测量法,Pearson,积矩相关:定矩,Spearman,等級,相关、,Kendall,等級,相关 定序、等级,Kappa,一致性,相关,K,系数 类别,,,二、简化两个变量的分布1.简化相关与消减误差,三、抽样与统计推论,1.,抽样的意义与过程,,最终要说明总体,,A,界定总体,(,全部研究对象的范围,时间地点人物),,B,搜集全部个案名单,,C,决定样本大小(抽样误差、研究成本),,D,设计抽样方法,选取样本个案,,E,评估样本之正误(寻找容易获得的指标进行评估),,三、抽样与统计推论1.抽样的意义与过程,抽样分布,,以样本的数值推断总体情况,只是一种“可能”,不是“必然”。

因此需要考虑统计推论发生错误的可能性抽样分布是根据概率的原则成立的理论分布,显示由总体中不断抽取样本时,各个可能出现的样本统计值的分布情况抽样分布,例:均值抽样分布,,n,次抽样获得,n,个均值,M,,其分布为正态分布(,n,﹥,30,),抽样分布的均值就是总体的均值,抽样分布的标准差为标准误差SE=S/ S,为总体标准差(样本的标准差),,N,为样本大小有,90%,的样本均值在,M±1.65(SE),范围有,95%,的样本均值在,M±1.96(SE),范围有,98%,的样本均值在,M±2.33(SE),范围有,99%,的样本均值在,M±2.58(SE),范围对于统计推论的意义:,假设总体的均值为,M,,用随机方法抽取一个样本,可以推断,这个样本的均值在,M±1.96(SE),两值之间的可能性很大(,95%,),在两值之外的可能性很小(,5%,)如果计算出的样本均值是在两值之外,就要怀疑假设的正确性了例:均值抽样分布,2,、参数估计,以样本的统计值估计总体的参数值,例:均值的间距估计,间距的大小取决于要求的可信程度(可信度、置信水平))是多少在样本大小相同的情况下,可信度越大,间距越大。

这个间距为“可信间距”如果要求的可信度为,95%,,则可信间距为:,,±1.96(SE),,即,±1.96,(,S/,),,为样本的均值,,SE,为标准误差,,S,样本的标准差,,N,为随机样本的大小M,是总体的均值,处在可信间距中2、参数估计,3.,假设检验,,A,研究假设,H,1,:在研究之初进行的假设,主要针对总体情况运用随机样本资料推论总体的时候,不直接检验研究假设虚无假设,H,0,:,与研究假设相对立的假设,用来进行检验因为不能由随机样本直接判断研究假设是否正确,有可能是由抽样误差引起的,因此必须想法排除抽样误差的可能性其逻辑是,成立相对立的,H,0,,根据,H,0,成立抽样分布,求出,H,0,是正确的可能性如果,H,0,是对的可能性很小,就可以排除抽样误差的说法,则,H,1,可能是对的3.假设检验,B,否定域与显著度,,在分析资料之前,先决定在什么情况下会否定虚无假设这样的一个预先规定范围,就是否定域,CR,也就是抽样分布内一端或者两端的小区域如果样本统计值属于此区域范围内,就否定虚无假设否定域的大小取决于研究的需要,在抽样之前决定显著度,p,表示否定域在整个抽样分布中所占比例,也就是样本的统计值落在否定域内的机会,。

B 否定域与显著度,C,、一端检验与二端检验,,否定域在抽样分布的一端,就是一端检验,在两端就是二端检验在显著度相同的情况下,二端检验比一端检验更难否定虚无假设主要取决于研究假设的方向D,、检验假设的步骤,,研究假设 虚无假设,,选择检验统计法,列举其条件(如正态分布、随机抽样、定距测量),,成立抽样分布,,决定显著度 求出否定域,,根据样本资料计算检验值,进行决策C、一端检验与二端检验,4.,主要检验方法,定类-定类 定类-定序,,X,2,检验法,(,卡方检验,),定序-定序,,Z,检验法,定类-定距 定序-定距 定距-定距,,F,检验法(方差分析之一:),4. 主要检验方法定类-定类 定类-定序,方差分析,目的: 分析控制变量的不同水平是否对观察变量产生显著影响主要是分析在众多的影响因素中哪些因素起到关键性的影响能够人为控制的变量称为控制变量,不能够人为控制的变量称为随机变量,受控制因素和随机因素影响的事物,为观察变量例如:影响农业产量的因素有肥料、种子、气候、土地等等单因素方差分析 测试一个控制变量的不同水平是否对观察结果造成显著影响方差分析目的: 分析控制变量的不同水平是否对观察变量产生,基本思路:研究观察变量在一个控制变量中的若干不同水平下,其各个总体在分步上是否存在显著差异。

方差分析的前提是不同水平下的各总体应服从方差相同的正态分布,因此,方差分析问题就转换成了研究不同水平下的各总体的均值是否有显著差异单因素方差分析将观察变量总的变差平方和,记为,SST,,分解为两个部分:一部分为由控制变量引起的变差,记为,SSA,,另一部分是由随机变量引起的变差,记为,SSE,SST,=,SSA,+,SSE,SSA,也叫组间离差平方和,是各水平组均值与总均值离差的平方和,反映了控制变量的影响,SSE,也叫组内离差平方和,是每个数据与本水平组平均值离差的平方和,反映了数据抽样误差的大小程度基本思路:研究观察变量在一个控制变量中的若干不同水平下,其各,零假设(虚无假设):不同水平下,各总体均值无显著差异采用,F,检验F,=平均组间平方和/平均组内平方和服从(,K,-,1,,,N,-,K,)个自由度如果相伴的概率值小于或者等于显著度水平,拒绝零假设,认为控制变量不同水平下各总体的均值有显著差异如果大于显著度水平,不能拒绝零假设,可以认为控制变量不同水平没有给观察变量带来显著影响零假设(虚无假设):不同水平下,各总体均值无显著差异第三章 详析分析与净相关系数,引入第三类变量详细分析两个变量(,X,与,Y,)之间的关系。

基本方法:统计控制 控制第三类变量,即依据第三类变量的值,将样本个案重新分组,在每组中分析,X,与,Y,的关系,并与未控制第三类变量时,X,与,Y,的关系进行比较第三章 详析分析与净相关系数引入第三类变量详细分析两个变量,统计控制,,X,Y,(W=1),(W=2),X,X,Y,Y,,R,为,X,与,Y,的关系,R1,为在,W1,的情况下,X,与,Y,的关系,R2,为在,W2,的情况下,X,与,Y,的关系,统计控制XY(W=1)(W=2)XXYYR为X与Y的关系R1,年龄与出外旅游的关系,,年龄与出外旅游的关系,引入教育因素(第三类变量)后分组,引入教育因素(第三类变量)后分组,(一)详析分析的类型,1,.因果分析 判断,X,与,Y,之间是否可能存在因果关系引入第三个变量,W,,看是否由于,W,影响到,X,,又影响到,Y,,从而使得,X,和,Y,发生关系控制,W,,,X,变化时,,Y,也起了变化,说明,X,与,Y,的关系不是由,W,引起的,,X,与,Y,的因果关系可能是真实的相反,控制,W,后,,X,变化,,Y,不变,则,X,与,Y,的关系是虚假的主要方法是进行统计控制一)详析分析的类型1.因果分析 判断X与Y之间是否可能存,R,1,=,R,2,=,0,虚假关系,W,X,Y,R1=R2=0 虚假关系WXY,R,1,=,R,2,=,R,真实关系,X,Y,W,R1=R2=R 真实关系XYW,R,1,≠0 R,2,≠0 R,1,<,R R,2,<,R,部分真实关系,W,X,Y,R1≠0 R2≠0 R1<R R2<R 部分,2,.阐明分析 验证,X,是否通过某些因素来影响,Y,的。

即说明为什么,X,影响,Y,其作用就是用事实来验证,X,是通过某些因素(如,T,变量)对,Y,产生影响的X,Y,T,2.阐明分析 验证X是否通过某些因素来影响Y的即说明为,R,1,=,R,2,=,0,完全阐明,R,1,=,R,2,=,R,不能阐明,R,1,≠0 R,2,≠0 R,1,<,R R,2,<,R,部分阐明,R1=R2=0 完全阐明,例:调查,300,名妇女(,35,-,45,岁),其教育水平(,X,)越高,子女数目(,Y,)越少,,G,=-,0.70,,如何解释?,解释,1,:教育程度越高的妇女越晚婚,因而生的子女少引进“结婚年龄”作为中介变量(,T,)分表,发现:,晚婚组中的,X,与,Y,的相关系数,G,=-,0.71,,早婚组中的,X,与,Y,的相关系数,G,=-,0.68,,这就表明结婚年龄不具有解释性!,例:调查300名妇女(35-45岁),其教育水平(X)越高,,解释,2,:重男轻女的观点可能有影响,控制“重男轻女”(,T,)后,在“重男轻女”组中,G,=-,0.45,;在“不重男轻女”组中,G,=-,0.5,表明:教育水平较低的妇女生的子女较多,部分是由于重男轻女观点的影响,。

教育,生育,重男轻女,解释2:重男轻女的观点可能有影响教育生育重男轻女,解释,3,:社会意识的影响,社会意识分为高、中、低,分组后,,G,高=-,0.18,,,G,中=-,0.20,G,低=-,0.33,,表明社会意识的影响较大,解释3:社会意识的影响,3,.条件分析,,X,与,Y,之间的关系是否因为条件的变化而发生变化依据条件变项,C,,将样本分组,在每组中(即不同的条件下)分析,X,与,Y,的关系如果每组中,X,与,Y,的关系大体相同,则表示,X,与,Y,的关系具有普遍性如果,X,与,Y,在不同的组中有不同的关系,则表明,X,与,Y,的关系具有条件性3.条件分析 X与Y之间的关系是否因为条件的变化而发生变化,曲解分析,例:调查,400,名成年人,教育水平(,X,)与社区活动参与(,Y,)的关系,G,=-,0.16,,将样本分为男女两组后,分别为,G,男=,0.26,G,女,=0.40,,可见原来的负相关是有问题的,,,曲解了实际情况,.,主要原因在与样本分布上存在问题,.,曲解分析,(二)净相关系数(偏相关系数),,以一个统计值来综合和简化所有的分组表的结果,然后与原表结果相比,这就是净相关测量统计法。

R,代表原关系的强弱,,R,P,代表净关系在因果分析中,,R,P,=,0,表示虚假关系,,R,P,=,R,表示可能真实,,R,P,≠0 R,P,

R,xy,2,=0.69 ,R,xy·1,2,=0.59,例:100户农村居民从事非农产业的程度(Y),有些高,有些低,如控制两个或者两个以上的第三类变量,则:,,,,,依此类推,,Rxy,叫做零阶相关,,Rxy·1,叫做第一阶相关,,Rxy·12,为第二阶相关如控制两个或者两个以上的第三类变量,则: 依此类推,Rxy,净相关的检验,如果是随机样本,用,F,检验法检验净相关的检验,在上例中,,R,p,= R,xy·1,=,-,0.72,,,N=100 K,=,1,研究假设,H1,:,R,xy·1,≠0,虚无假设,H,0,:,R,xy·1,=,0,,,如果要求的显著度是,0.01,,则否定域为,F≥6.85,,因此否定虚无假设说明在控制了离城远近之后,,X,与,Y,仍然有显著的关系,其显著度大于,0.01,,,在上例中,Rp= Rxy·1= -0.72,N=100 K,第四章 复相关系数,考察多个定距自变量对一个定距因变量的相关程度使用复相关系数,R,y·12,…,来代表多个自变量(,X1,、,X2,、,X3…,)对,Y,的共同影响力R,y·12,…,取值在,0—1,之间,,R,y·12,…,2,称为决定系数,具有消减误差比例的意义。

1,-,R,y·12,…,2,称为疏离系数,即剩余误差问题:为什么,R,y·12,…,没有正负之分?,第四章 复相关系数考察多个定距自变量对一个定距因变量的相关,基本原理:考察,X,1,、,X,2,对,Y,的共同影响力,首先引进,X,1,解释,Y,,消减的误差比例为,R,y1,2,,,然后引进,X,2,来解释,Y,,但是考虑到,X,2,与,Y,之间的关系可能受到,X,1,的影响(即,X,1,→X,2,→Y,),所以要控制,X,1,的影响,也就是在,X,2,对,Y,的影响中消除掉,X,1,对,X,2,的影响,所得到的就是,X,2,对,Y,的消减误差比例,R,y(2·1),,2,,这样,,X,1,与,X,2,对,Y,的共同影响力就是:,,R,y·12,2,=,R,y1,2,+,R,y(2·1),,2,基本原理:考察X1、X2对Y的共同影响力,首先引进X1解释Y,,根据统计学家的推算,得简化公式:,,,根据统计学家的推算,得简化公式:,,按上例:从事非农产业的程度(,Y,),人均占有土地面积(,X,1,),,,与城市的距离(,X,2,)R,y1,=,-,0.83,;,R,12,=0.70,;,R,y2,=,-,0.48,R,y·12,2,=,0.71,,表明用人均占有土地面积和与城市的距离可以消减,71,%的误差,说明共同影响力是很强的。

1,-,R,y·12,2,,=,0.29,为疏离系数,表明还有,29,%的误差需要引进其他变量来解释按上例:从事非农产业的程度(Y),人均占有土地面积(X1),,,复相关系数的修正:考虑到样本越小,抽样错误越大,自变量越多,衡量错误越大的问题,对于小样本和多变量采用系数修正的方法,使其更为准确:,,,若以,R,2,=,0.71,,,N,=,25,,,K,=,2,进行修正,得到,R,e,2,为,0.69,复相关系数的修正:考虑到样本越小,抽样错误越大,自变量越多,,,如果是随机样本,采用,F,检验:,H1,:,R≠0 H0,:,R,=,0,,,如果是随机样本,采用F检验:H1:R≠0 H0:R=0,第五章 多因回归分析,,用多个自变量来预测一个因变量的数值,一般要求各个自变量都是定距变量在多因回归中,各个自变量相互控制,即消除彼此的可能影响,从而可以比较出各自的相对效果,即对解释或者预测,Y,所减少的误差比例第五章 多因回归分析 用多个自变量来预测一个因变量的数值,,多因直线回归方程:,Y=b1X1+b2X2+b3X3+……+bkXk+a,其中,,b,为净回归系数,代表控制其他变量后相应的,X,对,Y,的影响力。

b1=by(1·23……k),标准化后为:,Y,/=,B1X1,/+,B2X2,/+,……,+,BkXk,/,B,为标准净回归系数,代表,X,对,Y,的相对效果它与复相关系数是相通的:,,R,y·123,…… k2,=,B1,(,Ry1,)+,B2,(,Ry2,)+,……,+,Bk(Ryk),其中,,B1,(,Ry1,)表示全部已解释的方差中有多少是由,X,贡献的,以此也被称为决定系数多因直线回归方程:Y=b1X1+b2X2+b3X3+……+b,如何计算,B,及,b,值?在只有两个自变量的情况下:,,,,,,,如何计算B及b值?在只有两个自变量的情况下:,,,统计推论:,F,检验,两个问题:,1,、互动效应,2,、非直线关系,注意观察散点图,是否线性关系?自变量变换法,统计推论:F检验,第六章 多元方差分析,,,方差分析(,Analysis of Variance, ANOVA,),是,20,世纪,20,年代由英国统计学家费雪(,Ronald Aylmer Fisher,)首先提出的它是直接对多个总体的均值是否相等进行检验,这样不但可以减少工作量,而且可以增加检验的稳定性第六章 多元方差分析 方差分析(Analys,第一节 方差分析概述,一、方差分析中的常用术语,,【,例,】,某公司采用四种方式推销其产品。

为检验不同方式推销产品的效果,随机抽样得下表:,表,,某公司产品销售方式所对应的销售量,,第一节 方差分析概述 一、方差分析中的常用术语【例】某公司采,1.,因素(,Factor,),因素是指所要研究的变量,它可能对因变量产生影响单因素方差分析 多因素方差分析,2.,水平(,Level,),水平指因素的具体表现,3.,单元(,Cell,),单元指因素水平之间的组合4.,元素(,Element,),元素指用于测量因变量的最小单位5.,均衡(,Balance,),如果一个试验设计中任一因素各水平在所有单元格中出现的次数相同,且每个单元格内的元素数相同,则称该试验是为均衡,否则,就被称为不均衡6.,交互作用(,Interaction,),如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用1. 因素(Factor),二、方差分析的基本思想,要看不同推销方式的效果,其实就归结为一个检验问题,设,U,i,为第,i,种推销方式,i,(,i=1,2,3,4,)的平均销售量,即检验原假设,H,0,:U,1,=U,2,=U,3,=U,4,是否为真从数值上观察,四个均值都不相等,方式二的销售量明显较大。

然而,我们并不能简单地根据这种第一印象来否定原假设,而应该分析,U,1,、,U,2,、,U,3,、,U,4,之间差异的原因系统性差异,:,由不同水平造成的差异,随机性差异 :随机因素造成的差异,总体差异,即水平之间的方差 ,包括系统性差异和随机性差异,水平内部的方差 :随机性差异,目的是比较水平之间的方差与水平内部的方差看差异是否足够大,从而确定水平之间是否存在显著性差异二、方差分析的基本思想 要看不同推销方式的效果,其实就归结,三、方差分析的基本假定,首先是各样本的独立性,即各组观察数据,是从相互独立的总体中抽取的,只有是独立的随机样本,才能保证变异的可加性;其次要求所有观察值都是从正态总体中抽取,且方差相等在实际应用中能够严格满足这些假定条件的客观现象是很少的,在社会经济现象中更是如此但一般应近似地符合上述要求三、方差分析的基本假定 首先是各样本的独立性,即各组,在上述假设条件成立的情况下,数理统计证明,水平之间的方差(也称为组间方差)与水平内部的方差(也称组内方差)之间的比值是一个服从,F,分布的统计量,我们可以通过对这个统计量的检验做出拒绝或不能拒绝原假设的决策F =,水平间方差,/,水平内方差,=,组间方差,/,组内方差,在上述假设条件成立的情况下,数理统计证明,水平之间的方差(也,第二节 单因素方差分析,一、单因素方差分析的数据结构,在单因素方差分析中,若因素,A,共有,r,个水平,对均衡试验而言,每个水平的样本容量为,k,,则共有,k,r,个观察值,对不均衡试验,各水平中的样本容量可以是不同的,设第,i,个样本的容量是,n,i,,则观测值的总个数为。

第二节 单因素方差分析 一、单因素方差分析的数据结构,单因素方差分析的数据结构,,,,,,,,,,,,,,,,单因素方差分析的数据结构,二、单因素方差分析的步骤,(一)建立假设,,要比较四种推销方式对应的销售量是否存在差异,那么第一种推销方式中的某个观察值就等于该种方式的平均水平再加上一个随机误差如果四种方式均值都相同,则它就等于总体均值再加上一个随机误差,实际上就变成了同一个变量分布中的某一点所以虚无假设和研究假设是:,,,即推销方式对销售量影响不显著,,不全等,即推销方式对销售量有显著影响,二、单因素方差分析的步骤 (一)建立假设 要比较四种推销,(二)构造检验,F,统计量,1.,水平的均值,我们令,X‘,i,为第,i,(或 )水平的样本均值,则,,,当各水平的的观察值个数均相等的时候,公式变为:,,(二)构造检验F统计量1. 水平的均值当各水平的的观察值个数,2.,全部观察值的总均值,我们令 为全部观察值的总均值,则,,,当各水平的的观察值个数均相等的时候,公式变为:,,,对上例而言,各水平的的观察值个数都相等,即,k=5,2. 全部观察值的总均值,3.,离差平方和,在单因素方差分析中,离差平方和有三个:,(,1,)总离差平方和(,Sum of Squares for Total,,简称,SST,),就是全部方差,,计算公式为:,,,总离差平方和反映全部观察值的离散状况,是全部观察值与总平均值的离差平方和。

2,)误差项离差平方和(,Sum of Squares for Error,,简称,SSE,),计算公式为:,,,误差项离差平方和又称为组内离差平方和,它反映了水平内部观察值的离散情况,即随机因素产生的影响3. 离差平方和,(,3,)水平项离差平方和(,Sum of Squares for Factor A,,简称,SSA,)计算公式为:,,水平项离差平方和又称组间离差平方和,是各组平均值与总平均值的离差平方和它既包括随机误差,也包括系统误差由于各样本的独立性,使得变差具有可分解性,即总离差平方和等于误差项离差平方和加上水平项离差平方和,用公式表达为,SST = SSE + SSA,(3)水平项离差平方和(Sum of Squares for,对例子而言,计算结果见表,单因素方差分析计算表,,,对例子而言,计算结果见表,4.,均方和(,Mean Square,),各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方和计算方法是用离差平方和除以相应的自由度,df,,见表所示,表中,,4. 均方和(Mean Square),5.,构造检验统计量,F,F=,组间方差,/,组内方差,= MSA / MSE,计算结果见表,单因素方差分析计算表,,5. 构造检验统计量F,(三)判断与结论,在假设条件成立时,,F,统计量服从第一自由度,df,1,为,r-1,、第二自由度,df,2,为,n-r,,的,F,分布。

将统计量,F,与给定的显著性水平,α,的临界值,比较,可以作出拒绝或不能拒绝原假设,的判断,见图,,(三)判断与结论比较,可以作出拒绝或不能拒绝原假设的判断,见,,若,F≥Fa,,则拒绝原假设,H,0,,表明均值之间的差异显著,因素,A,对观察值有显著影响;,,若,FFa,,故应拒绝虚无假设,推销方式对销售量有影响若F≥Fa,则拒绝原假设H0,表明均值之间的,二、方差分析中的多重比较,方差分析可以对多个均值是否相等进行检验,这是其长处当拒绝,H,0,时,表示各均值不全等,但具体哪一个或哪几个均值与其他均值显著不同,或者哪几个均值仍然可能认为是相等的,方差分析就不能给我们答案了,如果要进一步分析,可以采用多重比较的方法多重比较是通过对总体均值之间的两两比较来进一步检验到底哪些均值之间存在差异,二、方差分析中的多重比较,第三节 双因素方差分析,,一、双因素方差分析的种类,在现实中,常常会遇到两个因素同时影响结果的情况。

这就需要检验究竟一个因素起作用,还是两个因素都起作用,或者两个因素的影响都不显著双因素方差分析有两种类型:一种是无交互作用的双因素方差分析,它假定因素,A,和因素,B,的效应之间是相互独立的,不存在相互关系;,另一种是有交互作用的方差分析,它假定,A,、,B,两个因素不是独立的,而是相互起作用的,两个因素同时起作用的结果不是两个因素分别作用的简单相加,两者的结合会产生一个新的效应这种效应的最典型的例子是,耕地深度和施肥量都会影响产量,但同时深耕和适当的施肥可能使产量成倍增加,这时,耕地深度和施肥量就存在交互作用两个因素结合后就会产生出一个新的效应,属于有交互作用的方差分析问题第三节 双因素方差分析 一、双因素方差分析的种类,二、无交互作用的双因素方差分析,(一)数据结构,设两个因素分别是,A,和,B,因素,A,共有,r,个水平,因素,B,共有,s,个水平,无交互作用的双因素方差分析的数据结构如表,无交互作用双因素方差分析的数据结构,,,,,,,,二、无交互作用的双因素方差分析无交互作用双因素方差分析的数据,(二)分析步骤,1.,假设,对因素,A,:,;,对因素,B,:,不全相等,不全相等。

二)分析步骤1.假设对因素A:;对因素B:不全相等不全相等,2.,构造检验统计量,(,1,)水平的均值,,,(,2,)总均值,,2. 构造检验统计量,(,3,)离差平方和的分解,双因素方差分析同样要对总离差平方和,SST,进行分解,,SST,分解为三部分:,SSA,、,SSB,和,SSE,,以分别反映因素,A,的组间差异、因素,B,的组间差异和随机误差(即组内差异)的离散状况它们的计算公式分别为,,,,,(3)离差平方和的分解,(,4,)构造检验统计量,由离差平方和与自由度可以计算出均方和,从而计算出,F,检验值,如表,无交互作用的双方差分析表,(4)构造检验统计量无交互作用的双方差分析表,检验因素,A,的影响是否显著,采用下面的统计量:,,为检验因素,B,的影响是否显著,采用下面的统计量,,检验因素A的影响是否显著,采用下面的统计量: 为检验因素B的,3.,判断与结论,,根据给定的显著性水平,α,在,F,分布表中查找相应的临界值,Fa,,将统计量,F,与,Fa,进行比较,作出拒绝或不能拒绝原假设,H0,的决策若,F,A,≥Fa,,则拒绝原假设,H,01,,表明均值之间有显著差异,即因素,A,对观察值有显著影响;,若,F,A,

若,F,B,

这些问题可通过判别分析来解决第七章 判别分析 在科学研究中,我们往往需要根据,一、基本思想,,判别分析是在已知研究对象用某种方法已分成若干类的情况下,确定新的观察数据属于已知类别中的哪一类的分析方法判别分析方法在处理问题时,通常要给出一个衡量新样本与已知组别接近程度的描述指标,即判别函数,同时也指定一种判别规则,用以判定新样本的归属,判别规则可以是统计性的,决定新样本所属类别时用到数理统计的显著检验,也可用确定性的,决定样本归属时,只考虑判别函数值的大小一、基本思想 判别分析是在已知研究对象用某种方法已,二、基本方法,,判别分析用统计模型的语言来描述就是,设有,2,个类,G,1,、,G,2,,希望建立一个准则,对给定的任意一个样本,x,,依据这个准则就能判别它是来自哪一类别,而且要求其错判率最小常见的判别分析方法有距离判别、费雪判别及贝叶斯判别二、基本方法 判别分析用统计模型的语言来描述就是,,(一)距离判别,,,距离判别法的基本思想是,先根据已知分类的数据,分别计算各类的重心,然后计算待判样本与各类的距离,与哪一类距离最近,就判待判样本,x,属于哪一类。

一)距离判别 距离判别法的基本思想是,先根据已知分,计算距离时常用的是马氏距离,D(x,G,1,),、,D(x,G,2,),,根据基本思想,可得距离判别法的判别函数为:,W,(x),=D(x,G,2,)-D(x,G,1,),判别准则为:,,,,计算距离时常用的是马氏距离D(x,G1)、D(x,G2),根,(二)费雪,(Fisher),判别,,费雪判别法的基本思想是通过将多维数据投影至某个方向上,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别规则,将待判的样本进行分类判别所谓的投影实际上是利用方差分析的思想构造出一个或几个超平面,使得两组间的差别最大,每组内的差别最小二)费雪(Fisher)判别 费雪判别法的基本思想,,设有两个总体,G,1,和,G,2,,从第一个总体中抽取,n,1,个样本,从第二个总体中抽取,n,2,个样本,每个样本有,p,个指标,,G,1,的均值 ,,G,2,的均值为 ,两个总体的协方差矩阵都等于 ,其估计值为 ,可以证明费雪判别函数为:,,,(,证明略,),,将两类均值及待判样本,x,的各项指标代入判别函数可求得三个函数值,y,1,,,y,2,,,y,,一般将,y,1,,,y,2,的加权平均值,,y,0,=,作为判别临界值,其判别准则是,:,,,,,,,,,,设有两个总体G1和G2,从第一个总体中抽取n1个,三、判别效果的评价,,进行判别分析时,总体之间的差异必须显著,如总体之间的差异很小,用判别分析进行判别意义不大,所以在进行判别分析之前,往往需要用方差分析法来检验各总体差异的显著性。

然而,即使总体之间的差异是显著的,用我们所介绍的方法进行判别,仍有可能会错判,所以在得到判别函数后,应该先对判别效果进行检验进行判别效果检验比较好的方法是,每次从已知类别的样本中剔除一个样本点,用剩余的样本建立判别函数,然后用这一判别函数去判别被剔除的样本;依此类推,直到所有已知类别的样本都被判别过记下所有被错判的样本,计算出每个总体中的错判率和总的错判率,根据错判率的大小来衡量判别效果三、判别效果的评价 进行判别分析时,总体之间的差异,四、基本步骤与应用实例,(一)基本步骤,1.,计算判别函数;,2.,检验判别效果;,3.,根据判别函数对待判样本进行判别所属类别;,四、基本步骤与应用实例(一)基本步骤,(,二,),应用实例,13,个地区按经济效益已分为两大类,若又取得三个地区的资料,试对其进行判别分析二)应用实例,本例采用,距离判别法,,第一组样本单位数为,2,,第二组样本单位数为,11,马氏距离的计算公式为:,,1.,计算各组样本均值,,,,计算结果整理为:,,,,,,,本例采用距离判别法,第一组样本单位数为2,第二组样本单位数为,2.,计算样本总协方差矩阵及其逆矩阵:,样本总协方差矩阵为:,,,逆矩阵为:,,2. 计算样本总协方差矩阵及其逆矩阵:逆矩阵为:,3.,计算待判样本在两个组的马氏距离,(,判别函数,),并按判别准则给予判别。

结论:三个待判样本点的工业经济效益全部被判断归属于第二组3.计算待判样本在两个组的马氏距离(判别函数)并按判别准则给,,第八章 主成分分析,,,在许多实际问题中,我们经常用多个变量来刻画某一事物,但由于这些变量之间往往具有相关性,很多变量带有重复信息,这样就给分析问题带来了很多不便,同时也使分析结论不具有真实性和可靠性,因此,人们希望寻找到少量几个综合变量来代替原来较多的变量,使这几个综合变量能较全面地反映原来多项变量的信息,同时相互之间不相关主成分分析正是满足上述要求的一种处理多变量问题的方法第八章 主成分分析 在许多实际问题中,我们经,一、基本思想,,主成分分析就是设法将原来的,p,个指标重新组合成一组相互无关的新指标的过程通常数学上的处理就是将原来的,p,个指标做线性组合为了能更清晰的解释主成分的基本思想,我们从用两个指标来衡量,n,个样本点的二维空间入手一、基本思想 主成分分析就是设法将原来的p个指标重新组,,在二维空间,,n,个样本点的变量信息若用离差平方和来表示,则变量的信息总量为总方差,,,对于每个变量的离差平方和,它们的取值可能出现各种情况:,(1),如果离差平方和 和 之间相差悬殊,如取值之比为,10,:,1,,说明变量,x,1,在方差总信息量中占较重要的地位,可剔除变量,x,2,达到降维的目的。

在二维空间,n个样本点的变量信息若用离差平方和来表示,(2),如果 和 数值相差不大,说明两个指标在方差总信息量中的比重相当,统计分析时,两个指标都不可放弃,此时可对,x,1,,、,x,2,作适当的变量替换,通过某方法寻找到两个新的变量,y,1,、,y,2,(,必须是原变量,x,1,、,x,2,的线性组合,),,使新变量满足:,,,,上式说明新变量,y,继承了原变量,x,的全部信息,并且要求,和,数值比例相差较大,这时仅用,y,1,来分析原问题就可以了,变量的个数从,2,变为了,1,此时的,y,1,方差最大,包含的信息最多y,1,称之为第一主成分,,y,2,称为第二主成分2)如果 和,,推而广之,第一主成分,y,1,的方差达到最大,其方差越大,表示其所包含的信息越多如果第一主成分还不能反映原指标的全部信息,再考虑选取第二主成分,y,2,,,y,2,在剩余的线性组合中方差最大,并且与,y,1,不相关,如若第一、第二主成分仍然不能反映原变量的全部信息,再考虑选取第三主成分,y,3,,,y,3,在剩余的线性组合中方差最大,并且与,y,1,,、,y,2,不相关,依此可求出全部,p,个主成分,它们的方差是依次递减的。

在实际工作中,在不损失较多信息的情况下,通常选取前几个主成分来进行分析,达到简化数据结构的目的推而广之,第一主成分y1的方差达到最大,其方差,二、基本步骤与应用实例,,(一)基本步骤,(,1,)对原变量的样本数据矩阵进行标准化变换,(,2,)求标准化数据矩阵的相关系数矩阵,R,(,3,)求,R,的特征根及相应的特征向量和贡献率等,(,4,)确定主成分的个数,(,5,)解释主成分的实际意义和作用,二、基本步骤与应用实例,(二)应用实例,,我国,2006,年各地区全部国有及规模以上非国有工业企业主要经济效益指标见表,对各地区经济效益作出分析二)应用实例,【,解,】,计算过程如下:,1.,将数据标准化,并求相关矩阵,R,【解】计算过程如下:,得相关系数矩阵为:,,2.,求,R,的特征根及相应的单位正交特征向量和贡献率,由,R,的特征方程 求得,R,的单位特征根,λ,为:,,,,再由齐次线性方程组,求得特征向量,U,,将具体结果整理为下表:,,得相关系数矩阵为:2. 求R的特征根及相应的单位正交特征向量,贡献率,3.,确定主成分的个数,q,,按 的原则,取三个主成分就能够对工业企业经济效益进行分析,且这三个主成分的累计方差贡献率达到,89%,主成分的表达式为:,,贡献率3. 确定主成分的个数q按,4.,主成分的经济意义,,第一主成分,y,1,中,,zx,1,(工业增加值率)、,zx,5,(工业成本费用利润率)系数较大,,y,1,的含义是在综合其它变量所反映信息的基础上,突出地反映了企业产出的情况。

第二主成分,y,2,中,,zx,2,(总资产贡献率)、,zx,4,(,流动资产周转次数,),的系数最大,在,0.5,以上,说明,y,2,在综合其它变量信息的基础上,突出地反映了企业投入资产情况第三主成分,y,3,中,,zx,3,(,资产负债率,),的系数最大,为,0.965,,说明,y,3,在综合其它变量信息的基础上,突出地反映了工业企业经营风险的大小4. 主成分的经济意义,第九章 因子分析,研究从变量群中提取共性因子的统计技术最早由英国心理学家,C.E.,斯皮尔曼提出他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩因子分析,(Factor Analysis),可在许多变量中找出隐藏的具有代表性的因子将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设近年来,因子分析的理论方法广泛地应用于心理学、医学、经济学等领域第九章 因子分析 研究从变量群中提取共性,一、基本思想,,因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量 。

因子分析的基本思想是通过对变量相关系数矩阵内部结构的研究,找出能够控制所有变量的少数几个潜在随机变量去描述多个显在随机变量之间的相关关系,.,换句话说,因子分析是把每个可观测的原始变量分解为两部分因素,一部分是由所有变量共同具有少数几个公共因子构成的,另一部分是每个原始变量独自具有的,即特殊因子部分,对于所研究的问题就可试图用最少个数的不可观测的公共因子的线性函数与特殊因子之和来描述原来观测的每一变量一、基本思想 因子分析的主要目的是用来描述隐藏在一,例,1,:为了解学生的学习能力,观测了,n,个学生,p,个科目的成绩用,X,1,,X,2,,…,X,p,表示科目(例如代数、几何、语文、英语,,……,)可以认为各科目有两部分组成:,X,i,=a,i,F +ε,i,i = 1,......, p,其,F,是对所有的,X,i,都起作用的公共因子,它表示智能高低的因子;系数,a,i,称为因子载荷,表示第,i,各科目在智能高低上的体现;,ε,i,是科目变量特有的特殊因子,描述原始变量这就是一个最简单的因子模型例1:为了解学生的学习能力,观测了n个学生p个科目的成绩用X,例,2,:调查青年对婚姻家庭的态度,抽取,n,个青年回答了,p=50,个问题的答卷,这些问题可归纳为如下的几个方面:如对相貌的重视,对孩子的观点、对老人的态度等(公共因子)。

例,3,:考察人体的五项生理指标:收缩压(,X,1,),、舒张压(,X,2,),、心跳间隔(,X,3,),、呼吸间隔(,X,4,),和舌下温度(,X,5,),从生理学知识,这五项指标是受植物神经支配的,植物神经又分为交感神经和副交感神经,因此这五项指标也可以用因子分析模型去处理例2:调查青年对婚姻家庭的态度,抽取n个青年回答了p=50个,例,4,:在企业形象或品牌形象的研究中,消费者可以通过一个有,24,个指标构成的评价体系,评价百货商场的,24,个方面的优劣但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格因子分析方法可以通过,24,个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价而这三个公共因子可以表示为:,X,i,=α,i1,F,1,+α,i2,F,2,+α,i3,F,3,+ε,i,i,,=1, ……,24,,称,F,1,,、,F,2,、,F,3,是不可观测的潜在因子24,个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分,ε,i,,称为特殊因子例4:在企业形象或品牌形象的研究中,消费者可以通过一个有24,二、数学模型,(一)符号与假定,设有,n,个样本,每个样本观测,p,个变量,记:,,原始变量矩阵为,X,: ,公共因子变量矩阵为,,,F,: ,特殊因子矩阵为,E,:,,,,二、数学模型(一。

下载提示
相关文档
正为您匹配相似的精品文档