Click to edit Master title,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,9-,*,精品教材,统计学,第 9 章 列联分析,作者:中国人民大学统计学院,贾俊平,PowerPoint,统计学,第 9 章 列联分析,9.1 分类数据与列联表,9.2,拟合优度,检验,9.3 独立性检验,9.4 列联表中的相关测量,9.3 列联分析中应注意的问题,学习目标,1.解释列联表,进行,c,2,检验,拟合优度检验,独立性检验,3.,测度列联表中的相关性,数据的类型与列联分析,数 据,定量数据,(数值型数据,),定性数据,(品质数据,),离散数据,连续数据,列联分析,分类数据,分类变量的结果表现为类别,例如:性别,(,男,女,),各类别用符号或数字代码来测度,使用分类或顺序尺度,你吸烟吗?,1.是;2.否,你赞成还是反对这一改革方案?,1.赞成;2.反对,对分类数据的描述和分析通常使用列联表,可使用,检验,9.1,分类数据与列联表,分类数据,列联表的构造,列联表的分布,列联表的构造,列联表,(,contingency table),由两个以上的变量交叉分类的频数分布表,行变量的类别用,r,表示,,r,i,表示第,i,个类别,列变量的类别用,c,表示,,c,j,表示第,j,个类别,每种组合的观察频数用,f,ij,表示,表中,列出了,行变量和列变量的所有可能的组合,所以称为列联表,一个,r,行,c,列的列联表称为,r,c,列联表,列联表的结构,(2,2 列联表,),列(,c,j,),合计,j,=1,j,=1,i,=1,f,11,f,12,f,11,+,f,12,i,=2,f,21,f,22,f,21,+,f,22,合计,f,11,+,f,21,f,12,+,f,22,n,列(,c,j,),行(,r,i,),列联表的结构,(,r,c,列联表的一般表示,),列(,c,j,),合计,j,=1,j,=,2,i,=1,f,11,f,12,r,1,i,=2,f,21,f,22,r,2,:,:,:,:,:,合计,c,1,c,2,n,列,(,c,j,),行,(,r,i,),f,ij,表示第,i,行第,j,列的观察频数,列联表,(,例题分析,),一分公司,二分公司,三分公司,四分公司,合计,赞成该方案,68,75,57,79,279,反对该方案,32,75,33,31,141,合计,100,120,90,110,420,【例】,一个集团公司在四个不同的地区设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方式,从四个分公司共抽取420个样本单位(人),了解职工对此项改革的看法,调查结果如下表,列联表的分布,观察值的分布,边缘分布,行边缘分布,行观察值的合计数的分布,例如,赞成改革方案的共有279人,反对改革方案的141人,列边缘分布,列观察值的合计数的分布,例如,四个分公司接受调查的人数分别为100人,120人,90人,110人,条,件分布与条件频数,变量,X,条件下变量,Y,的分布,或在变量,Y,条件下变量,X,的分布,每个具体的观察值称为条件频数,观察值的分布,(图示),一分公司,二分公司,三分公司,四分公司,合计,赞成该方案,68,75,57,79,279,反对该方案,32,75,33,31,141,合计,100,120,90,110,420,行,边缘分布,列边缘分布,条件频数,百分比分布,(概念要点),条件频数反映了数据的分布,但不适合对比,为在相同,的基数上进行比较,可以计算相应的百分比,称为,百分比分布,行百分比:行的每一个观察频数除以相应的行合计数(,f,ij,/,r,i,),列百分比:列的每一个观察频数除以相应的列合计数(,f,ij,/,c,j,),总百分比:每一个观察值除以观察值的总个数(,f,ij,/,n,),百分比分布,(图示),一分公司,二分公司,三分公司,四分公司,合计,赞成该方案,24.4%,26.9%,20.4%,28.3%,66.4%,68.0%,62.5%,63.35,71.8%,16.2%,17.8%,13.6%,18.8%,反对该方案,22.7%,31.9%,23.4%,22.0%,33.6%,32.0%,37.5%,36.7%,28.2%,7.6%,10.7%,7.9%,7.4%,合计,23.8%,28.6%,21.4%,26.2%,100%,总,百分比,列,百分比,行,百分比,期望频数的分布,假定行变量和列变量是独立的,一个实际,频数,f,ij,的期望频数,e,ij,,,是总频数的个数,n,乘以该实际频数,f,ij,落入第,i,行 和第,j,列的概率,即,期望频数的分布,(例题分析),由于观察频数的总数为,n,,,所以,f,11,的期望频数,e,11,应为,例如,第1行和第1列的实际,频数为,f,11,它落在第1行的概率估计值为该行的频数之和,r,1,除以总频数的个数,n,,,即:,r,1,/,n,;,它落在,第1列,的概率的估计值为该列的频数之和,c,1,除以总频数的个数,n,,,即:,c,1,/,n,。
根据概率的乘法公式,该频数落在第1行和第1列的概率应为,期望频数的分布,(例题分析),一分公司,二分公司,三分公司,四分公司,赞成该方案,实际频数,68,75,57,79,期望频数,66,80,60,73,反对该方案,实际频数,32,75,33,31,期望频数,34,40,30,37,9.2,拟合优度,检验,一.,统计量,拟合优度检验,统计量,统计量,用于检验列联表中变量间拟合优度和独立性,用于,测定两个分类变量之间的相关程度,计算公式为,统计量,(例题分析),实际频数,(,f,ij,),期望频数,(,e,ij,),f,ij,-,e,ij,(,f,ij,-,e,ij,),2,(,f,ij,-,e,ij,),2,f,68,75,57,79,32,45,33,31,66,80,60,73,34,40,30,37,2,-5,-3,6,-2,5,3,-6,4,25,9,36,4,25,9,36,0.0606,0.3125,0.1500,0.4932,0.1176,0.6250,0.3000,0.9730,合计:3.0319,拟合优度,检验,品质数据的假设检验,品质数据,比例检验,独立性检验,Z,检验,一个总体,检验,Z,检验,检验,两个以上总体,两个总体,拟合优度检验,(,goodness of fit test),检验多个比例是否相等,检验的步骤,提出假设,H,0,:,1,=,2,=,=,j,;H,1,:,1,2,j,不全相等,计算检验的统计量,进行决策,根据显著性水平和自由度(,r,-1)(,c,-1),查出临界值,2,若,2,2,,拒绝,H,0,;,若,2,2,,接受,H,0,拟合优度检验,(例题分析),H,0,:,1,=,2,=,3,=,4,H,1,:,1,2,3,4,不全相等,=0.,1,df,=,(2-1)(4-1)=3,临界值(,s):,统计量:,在,=,0.1的水平上不能拒绝,H,0,可以认为四个分公司对改革方案的赞成比例是一致的,决策:,结论:,2,0,6.215,3.0319,=0.1,拟合优度检验,(例题分析),【例】,为了提高市场占有率,,A,公司和,B,公司同时开展了广告宣传。
在广告宣传战之前,,A,公司的市场占有率为45%,,B,公司的市场占有率为40%,其他公司的市场占有率为15%为了了解广告战之后,A、B,和其他公司的市场占有率是否发生变化,随机抽取了200名消费者,其中102人表示准备购买,A,公司产品,82人表示准备购买,B,公司产品,另外16人表示准备购买其他公司产品检验广告战前后各公司的市场占有率是否发生了变化,(,0.05),拟合优度检验,(例题分析),H0,:,1,=0.45,2,=0.4,3,=,0.15,H1,:,原假设中至少有一个不成立,=0.,1,df,=,(2-1)(3-1)=2,临界值(,s):,统计量:,在,=,0.05的水平上拒绝,H,0,可以认为广告后各公司产品市场占有率发生显著变化,决策:,结论:,2,0,8.18,5.99,=0.05,拟合优度检验,(例题分析用,P,值检验),第1步:将观察值输入一列,将期望值输入一列,第2步:选择“函数”选项,第3步:在函数分类中选“统计”,在函数名中选,“,CHITEST”,,点击“确定”,第4步:在对话框“,Actual_range,”,输入观察数据区域,在对话框“,Expected_range,”,输入期望数据区域,得到,P,值为0.016711,所以拒绝原假设,用,Excel,计算,p,值,9.3,独立性检验,独立性检验,(,test of independence),检验列联表中的行变量与列变量之间是否独立,检验的步骤为,提出假设,H,0,:,行变量与列变量独立,H,1,:,行,变量与列变量不独立,计算检验的统计量,进行决策,根据显著性水平和自由度(,r,-1)(,c,-1),查出临界值,2,若,2,2,,拒绝,H,0,;,若,2,2,9.448,拒绝,H,0,拟合优度检验,(例题分析),H0,:,地区与原料等级之间独立,H1,:,地区与原料等级之间不独立,=0.,05,df,=,(3-1)(3-1)=4,临界值(,s):,统计量:,在,=,0.05的水平上拒绝,H,0,地区和原料等级之间存在依赖关系,决策:,结论:,2,0,19.82,9.488,=0.05,9.4,列联表中的相关测量,一.,相关系数,列联相关系数,V,相关系数,列联表中的相关测量,品质相关,对品质数据,(分,类和顺序数据,),之间相关程度的测度,列联表变量的相关属于品质相关,列联表相关测量的统计量主要有,相关系数,列联相关系数,V,相关系数,相关系数,(,correlation coefficient),测度22列联表中数据相关程度,对于22 列联表,,系数的值在01之间,相关系数,计算公式为,相关系数,(原理分析),一个简化的 22 列联表,因素,Y,因素,X,合计,x,1,x,2,y,1,a,b,a,+,b,y,2,c,d,c,+,d,合计,a,+,c,b,+,d,n,相关系数,(原理分析),列联表中每个单元格的期望频数分别为,将各期望频数代入,的计算公式得,相关系数,(原理分析),将,入,相关系数的计算公式得,ad,等于,bc,,,=0,,表明变量,X,与,Y,之间独立,若,b,=0,,,c,=0,,或,a,=0,,,d,=0,,意味着各观察频数全部落在对角线上,此时,|,|,=1,表明变量,X,与,Y,之间完全相关,列联表中变量的位置可以互换,,的符号没有实际意义,故取绝对值即可,列联,相关系数,(,coefficient of contingency),用于测度大于22列联表中数据的相关程度,计算公式为,C,的取值范围是 0,C,1,C,=0,表明列联表中的两个变量独立,C,的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大,根据不同行和列的列联表计算的列联系数不便于比较,V,相关系数,(,V correlation coefficient),计算公式为,V,的取值范围是 0,V,1,V,=0,表明列联表中的两个变量独立,V,=1,表明列联表中的两个变量完全相关,不同行和列的列联表计算的列联系数不便于比较,当列联表中有一维为2,,min(,r,-1),(,c,-1)=1,此时,V,=,、,C,、,V,的比较,同一个列联表,,、,C,、,V,的,结果会不同,不同的列联表,,、,C,、,V,的结果也不同,在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数,列联表中的相关测量,(例题分析,),【例】,一种原料来自三个不同地区,原料质量被分成三个不同等级。
从这批原料中随机抽取50。