第十二章 均数间的比较 本章主要是对各种均数的比较进行数据处理,需具备的理论知识是假设检验以及方差分析的基本思想与基本方法Compare means 过程包含五个子过程:①Means过程:进行数据的预分析②One samples T test :针对一个总体,检验样本平均数与总体平均数是否有显著的差别③Independent samples T test :针对两个总体的独立样本情形,即从两个独立的总体中抽取两个相互独立的样本,通过两个样本的平均数检验两个总体的平均数是否有显著差别④Paired samples T test : 为了消除样本不公平而造成两总体均数间的差异,有时候也采用匹配样本,通过匹配样本的平均数检验两总体的平均数是否有显著差别⑤One way ANOVA:通过对两个及多组样本均数的比较,即成组数据,实际上就是进行方差分析其目的是为了分析分类型自变量与数值型因变量之间是否存在关系,以及关系的强弱一、 Means 过程对数据进行检验的预分析,能够对数据分组计算所有相关描述统计量,并且进行相互比较这是它优越于descriptive 过程的地方Descriptive过程能够计算描述统计量,但缺点是不能分组计算,如果要分组计算,只能先运用split file将数据文件拆分,然后再分组计算。
例1:见书:例2:打开xuelin.sav,对血磷这一变量进行预分析,分组变量位group例3:打开cars.sav,分国家和气缸数对mpg/weight/horse进行预分析二、 One samples T test----单个样本的t检验假设检验原理:参见PPT例1:见书P323例2:根据某地环境保护法规定,倾入河流的废水中某种有毒化学物质的平均含量不得超过3ppm. 该地区环保组织对沿河各厂进行检查,测定每日倾入河流的废水中该物质的含量某厂连日的记录为:数据见假设检验.sav,试在显著性水平为0.05的情况下判断该厂是否符合环保规定假定废水中有毒物质含量服从正态分布)例3:一个矩形的宽与长之比等于0.618时会给人们比较良好的感觉某工艺品工厂生产的矩形工艺品框架的宽与长要求也按这一比率设计,假定总体服从正态分布,现随机抽取了20个框架测得比值分别为:数据见:假设检验.sav ,问:在显著性水平为0.05时能否认为该厂生产的工艺品框架宽与长的平均比率为0.618三、 Independent samples T test -----两独立样本的t检验检验两样本数据是否来自同一总体例1:见书例2 : 为了评价两家旅游服务企业的服务质量,分别在两个企业抽取样本,在A企业随机抽取30名顾客,在B企业随机抽取40名顾客,让他们分别对服务质量进行打分,评分标准是0~100分。
顾客给出的服务质量评分如下表企业A企业B70978587647376915762898293648690828392748078995979827085729476897388838778848470797291798476878891937585657479648578838491748466668578837574检验两个企业的服务质量是否有显著差异?()四、Paired samples T test -----匹配样本的t检验例1:见书例2:Figure Perfect公司是一家专门从事减肥项目的妇女健美沙龙在一个历时六周的引导性项目之前与之后的客户样本体重如下所示用α=0.05,检验是否该项目导致统计上显著的体重减轻您的结论如何?检验数据见假设检验.sav例3 :某饮料公司开发研制一种新产品,为比较消费者对新老产品口感的满意程度,该公司随机抽选一组消费者共8人,每个消费者先品尝一种饮料,然后再品尝另一种饮料,两种饮料的品尝顺序是随机的,然后每个消费者要对两种饮料进行评分,评分结果见:假设检验.sav,在显著性水平为0.05的情况下,该公司是否有证据认为消费者对两种饮料的评分存在显著差异。
例4:某制鞋厂为了比较用来做鞋后跟的两种材料的质量,随机选取了15名男子,让他们每人穿一双新鞋,每双鞋中有一只是用材料A作后跟的,另外一只是用材料B作后跟的,其厚度均为10cm,一个月以后再次测量它们的厚度,数据如下:序号123456789101112131415材料A6.67.08.38.26.29.37.98.57.87.56.18.96.19.49.1材料B7.45.48.88.06.89.16.37.57.06.54.47.74.29.49.1请根据以上数据判断那种材料耐磨性更好些?(要求显著性水平为5%)五、One way ANOVA-----单因素方差分析 方差分析的目的是为了分析分类型自变量与数值型因变量之间是否存在关系,实现该目的的方法是通过多组均值的比较一)方差分析的总结:①方差分析的基本思想: 当检验多个总体的均值是否相等时所用的方法为方差分析方法其基本原理是通过将数据的差异来源进行分解,将数据的总方差分解为随机误差和系统误差其中系统误差是由于因素的不同水平而造成的各组均值之间的差异②方差分析方法的基本假定1、 每个总体都应服从正态分布基于这个要求,在运用方差分析方法之前,都要对数据做预分析,检验数据是否服从正态分布。
若不服从正态分布,则应该采用相应的转换方法对数据进行转换,使之正态化具体的转换方法有对数转换,开方转换,差分转换等等正态性检验实在不行,则必须采用非参数检验分析方法,否则,在非正态性情况下做出的方差分析结果是不可靠的2、 各个总体的方差必须相同,方差齐性假定3、各个总体是相互独立的③方差分析中的多重比较问题从敏感到保守,依次为下列方法(参见课本P233)1、 LSD: 利用了整个样本信息,不仅仅是利用所比较两组的信息敏感程度最高放大第一类错误,如果该方法没检验出差别,说明无差异的可能性很大 提出假设:① ②③若,则拒绝原假设,认为第i组与第j组存在显著差异2、S-N-K:运用最广泛的一种两两比较方法该方法控制第一类错误3、Bonferroni:该方法介于前LSD与Scheffe之间通过设置每个检验的第一类错误水准来控制总的第一类错误水准4、Sidak:与B法非常类似,但更保守5、TUKEY:它控制的是所有比较中最大的一类错误不超过规定的一类错误6、Scheffe:当各组人数不等时适合于用此种方法7、Dunnett:实用于将所有的均值分别于指定的对照组均数进行比较,该方法不适用于完全两两比较的情况。
④为什么多个均数的比较问题即方差分析问题不可以用t 检验实现?控制犯第一类错误的概率(2)实例分析例1:见书3)方差分析如何看结果不同组在同一列,表示这几组的差异没有统计学意义例如第1、6、5、7组,它们都在第4列,表明它们的差异没有统计学意义,574.77...603.6120是该组的均数,下面的0.285是P值 不在同一列的不同组,表示这几组的差异有统计学意义例如第3组和其他组,第4组和其他组,第2组和其他组,第1和第3或第4或第2组,第6和第3或第4或第2组,第5和第3或第4或第2组,第7和第3或第4或第2组的差异有统计学意义,p值小于0.05,但是无法得到具体的P值226.7331是第4组的均值,下面的1.000是该列所列出的所有平均数进行差异比较时,各无差异事件出现的最小概率,因为该列只有一个平均数,所以当然无差异,概率为1例2:消费者与产品生产者、销售者、销售者或服务的提供者之间经常发生纠纷当发生纠纷时,消费者常常会向消费者协会投诉为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽出样本其中零售业抽取7家,旅游业抽取6家,航空公司抽取5家,家电制造业抽取5家。
每个行业中所抽取的这些企业,在服务对象、服务内容、企业规模等方面基本上是相同的然后统计出最近一年中消费者对这23家企业投诉的次数,数据见假设检验.sav. 试分析几个行业之间的服务质量是否有显著差异例3:测定了东北,内蒙古,河北,安徽,贵州5个地区某种树叶冬季针毛的长度,每个地区随机抽取4个样本,测定结果如表,试比较各地区针毛长度差异显著性? 东北内蒙古河北安徽贵州13229.225.523.322.3232.827.426.125.122.5331.226.325.825.122.9430.426.726.725.523.7六:综合练习1、 巧用cutpoint2、 指定均数的比较3、 均数间曲线趋势的判断七:双因素方差分析两个分类型自变量与因变量之间的关系例题:某厂医务室测定10个工人工前、工中、工后4小时的尿氟浓度问氟作业人员在三个不同时间的尿氟浓度有无差别数据见twoway.sav 例题2:有4品牌彩电在五地区销售,数据如下:分析品牌和地区对销售量的影响地区因素品牌因素123451365350343340323234536836333033333583233533433084288280298260298。