文档详情

交叉列联表分析

无***
实名认证
店铺
DOC
215.50KB
约4页
文档ID:157962603
交叉列联表分析_第1页
1/4

交叉列联表分析 ---------用于分析属性数据 1. 属性变量与属性数据分析从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量对属性数据进行分析,将达到以下几方面的目的: 1) 产生汇总分类数据——列联表;2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量;4) 对高维数据进行分层分析和建模在实际中,我们经常遇到判断两个或多个属性变量之间是否独立的问题,如:吸烟与患肺癌是否有关?色盲与性别是否有关?上网时间与学习成绩是否有关等等.解决这类问题常用到建立列联表,利用统计量作显著性检验来完成.2.列联表(Contingency Table)列联表是由两个以上的属性变量进行交叉分类的频数分布表设二维随机变量(,),可能取得值为,可能取得值为.现从总体中抽取容量为n的样本,其中事件(==)发生的频率为(i = 1,2, …,r,j=1,2, …,s,)记=,=,则有n === ,将这些数据排列成如下的表:    YX    …    ┇ … … … … … … … ┇ … n这是一张r×s列联表.3.属性变量的关联性分析对于不同的属性变量,从列联表中可以得到它们联合分布的信息。

但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容属性变量关联性检验的假设为H0:变量之间无关联性; H1:变量之间有关联性由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:H0:变量之间独立; H1:变量之间不独立检验H0:与独立.记P (=,η=) = ,i =1,2,…,r,,j = 1,2,…,s,P (=) =, i =1,2,…,r,P (=) = ,j = 1,2,…,s.由离散性随机变量相互独立的定义,则原假设等价于H0:= ,i =1,2,…,r ,,j = 1,2,…,s.若已知,我们可以建立皮尔逊统计量= .由皮尔逊定理知,的极限分布为.但这里未知,因此用它的极大似然估计代替,这时检验统计量为=.在H0成立的条件下,= ,即等价于用和的极大似然估计和的积去代替.可以求得= , i =1,2,…,r , = , j = 1,2,…,s,则 = . i =1,2,…,r,,j = 1,2,…,s, 从而得到统计量== . 在H0成立的条件下,当n∞时,的极限分布为 = . 对给定的显著性水平α,当 >,则拒绝H0,否则接受H0. 特别,当r = s = 2 时,得到2×2列联表,常被称为四格表,是应用最广的一种列联表.这时检验统计量为= 它的极限分布为(1). 对于二维随机变量(,)是连续取值的情况,我们可采用如下方法将其离散化.① 将的取值范围(-∞,+∞)分成r个互不相交的区间,将的取值范围(-∞,+∞)分成s个互不相交的区间,于是整个平面分成了rs个互不相交的小矩形;② 求出样本落入小矩形中的频数i =1,2,…,r,,j = 1,2,…,s ; ③ 建立统计量=,在H0成立时且n充分大时,的极限分布为,拒绝域的确定同离散型的情况.3.属性变量的关联度计算检验的结果只能说明变量之间是否独立,如果不独立,并不能由的值说明它们之间关系的强弱,这可以由系数来说明系数=其中 当r=s=2即2×2列联表时-1<<1,其它0<<1,||越接近1,它们之间关联性越强,反之越弱。

主要用于2×2列联表例1(教材p116例4.4)为了了解吸烟与患慢性气管炎的关系,对339名50岁以上的人作了调查,具体数据如下表:   if患病 if吸烟患病未患病合计吸烟43162205不吸烟13121134合计56283339利用交叉列连表分析,研究吸烟习惯与患慢性气管炎的关系解 检验 H0:吸烟与患慢性气管炎无关.已给数据构成一个四格表, n=339 ,=43, =162,=13,=121,=205,=13,=134 ,=121,则==7.469.若给定α=0.05,查表得(1)= 3.841 <7.469,所以拒绝 H0,即认为吸烟习惯与患慢性气管炎有关.但系数=0.148较小,表示相关性不是太大利用SPSS软件完成练习1 数据文件“电信用户.sav”中记录了某电信运营商经营的各种情况,比如服务类型、设备租用、无线使用等选择其中4个变量:custcat(顾客服务)、ed(顾客受教育程度)、income(家庭收入)、ininc(电信消费),考察顾客与服务经营的情况(1) 对变量custcat和ed进行频数分析;(2) 分别考察ed对income的影响,custcat对ininc的影响练习2 04年全国数学建模竞赛A题 “奥运会临时超市网点设计”中第一问 根据附录中给出的问卷调查数据,找出观众在出行、用餐和购物等方面所反映的规律。

下载提示
相关文档
正为您匹配相似的精品文档