同样,上面第二式表明,样本成数是以总体成数Px为中心,在P — A至P + A之间变动的,在(P — A ,P + A )区间内样本成数与总体成数的绝p p p p对离差不超过A p由于总体平均数和总体成数是未知的,它需要用实测的样本平均数和样本成数来估计,因而 抽样极限误差的实际意义是希望估计区间X土A_能以一定的可靠程度覆盖总体平均数xX, P士 A能以一定的可靠程度覆盖总体成数P,因而上面的不等式应变换为px — A- < X < x + A-XXp—A < P< p+App(二)抽样极限误差的计算基于概率估计的要求,抽样极限误差通常需要以抽样平均误差卩-或卩为标准单位来衡量xP把抽样极限误差A或A分别除以4或卩,得相对数t,它表示误差范围为抽样平均误差的若x p x P干倍,t是测量估计可靠程度的一个参数,称为抽样误差的概率度A_ x — X 、t 二一x 二 或人_ 二 ty_卩一 x xxx=tpp|p - PPp抽样估计的概率度是表明样本指标和总体指标的误差不超过一定范围的概率保证程度由于 样本指标随着样本的变动而变动,它本身是一个随机变量,因而样本指标和总体指标的误差仍然 是一个随机变量,并不能保证误差不超过一定范围这个事件是必然事件,而只能给以一定程度的 概率保证。
因此,就有必要计算样本指标落在一定区间范围内的概率,这种概率称为抽样估计的 概率保证程度根据抽样极限误差的基本公式A=t •卩得出,概率度t的大小要根据对推断结果 要求的把握程度来确定,即根据概率保证程度的大小来确定概率论和数理统计证明,概率度t 与概率保证程度F (t)之间存在着一定的函数关系,给定t值,就可以计算出F (t)来;相反, 给出一定的概率保证程度F(t),则可以根据总体的分布,获得对应的t值在实际应用中,因为我们所研究的总体大部分为正态总体,对于正态总体而言,为了应用的 方便编有《正态概率表》以供使用根据《正态概率表》已知概率度t可查得相应的概率保证程 度F (t);相反,已知概率保证程度F (t)也可查得相应的概率度t从抽样极限误差的计算公式来看,抽样极限误差A与概率度t和抽样平均误差卩三者之间存 在如下关系:1•在卩值保持不变的情况下,增大t值,抽样极限误差A也随之扩大,这时估计的精确度将 降低;反之,要提高估计的精确度,就得缩小t值,此时概率保证程度也会相应降低2•在t值保持不变的情况下,如果卩值小,则抽样极限误差A就小,估计的精确度就高;反 之,如果卩值大,抽样极限误差A就大,估计的精确度就低。
由此可见,估计的精确度与概率保证程度是一对矛盾,进行抽样估计时必须在两者之间进行 慎重的选择能力训练】在一定的误差范围要求下( )① 概率度大,要求可靠性低,样本数目相应要多② 概率度大,要求可靠性高,样本数目相应要多③ 概率度小,要求可靠性低,样本数目相应要少④ 概率度小,要求可靠性高,样本数目相应要少⑤ 概率度小,要求可靠性低,样本数目相应要多第三节 抽样估计抽样估计是指利用实际调查的样本指标的数值来估计相应的总体指标的数值的方法由于总 体指标是表明总体数量特征的参数,例如总体平均数、总体成数等,所以抽样估计也称为参数估 计参数估计有点估计和区间估计两种方法一、点估计点估计的基本特点是,根据样本资料计算样本指标,再以样本指标数值直接作为相应的总体 指标的估计值例如,以实际计算的样本平均数作为相应总体平均数的估计值;以实际计算的样本成数作为相应总体成数的估计值等等设以样本平均数X作为总体平均数X的估计值,样本成 数p作为总体成数P的估计值点估计的优点是原理直观,计算简便,在实际工作中经常采用不足之处是这种估计方法没 有考虑到抽样估计的误差,更没有指明误差在一定范围内的概率保证程度因此,当抽样误差较小,或抽样误差即使较大也不妨碍对问题的认识和判断时,才可以使用这种方法。
二、区间估计(一)区间估计的含义区间估计的基本特点是,根据给定的概率保证程度F (t)的要求,利用实际样本资料,给出 总体指标估计值的上限和下限,即指出可能覆盖总体指标的区间范围也就是说,区间估计要解 决两个问题:第一,根据样本指标和误差范围估计出一个可能包括总体指标的区间,即确定出估计区间的 上限和下限第二,确定出估计区间覆盖总体未知参数的概率保证程度区间估计的基本公式有X 二 x±A_ 二 x +1 ・卩_xxX — t ・卩一 W X W X + t ・ |L1-xxP = p ± A = p ± t •卩ppp -1 ・p W P W p + t ・ppp从而得到总体平均数的估计区间:(X -1・4, X +1屮_)总体成数的估计区间:(p-1•卩,p +1•卩)pp(二)区间估计的模式 在进行区间估计的时候,根据所给定条件的不同,总体平均数和总体成数的估计有以下两套模式可供选择使用1. 根据已给定的误差范围,求概率保证程度具体步骤是:第一步,抽取样本,计算样本指标,即计算样本平均数X或样本成数P,作为总体指标的估计值,并计算样本标准差S以推算抽样平均误差第二步,根据给定的抽样极限误差A,估计总体指标的上限和下限。
第三步,将抽样极限误差A除以抽样平均误差卩,求出概率度t,再根据t值查《正态概率 表》求出相应的概率保证程度案例】 对工厂生产设备中某种型号的机械零件进行耐磨性能检验,抽查的样本资料见表7-5,要求耐磨时数的允许误差范围为10小时(A- =10)试估计这批机械零件的平均耐磨时数X表7-5 某型号机械零件耐磨性能资料耐磨时数(小时)组中值X (小时)零件数f (个)900以下8751900〜9509252950〜100097561000〜10501025351050〜11001075431100〜1150112591150〜1200117531200以上12251合计—100第一步,计算X ,s,卩-X105550100=1055.5(小时)二 51.91(小时)o 51.91卩x飞肯=5.191 (小时)注意:总体标准差以样本标准差s代替第二步,根据给定的A- =10,计算总体平均数的上、下限: x下限=x — =1055.5-10=1045.5(小时)x上限二 x + A_ =1055.5+10=1065.5(小时)xA- 10第三步,根据t二x二 二1.93,查《正态概率表》得概率保证程度F (t) =94.64%。
卩- 5.191x 推断的结论是:根据要求耐磨时数的允许误差范围为10小时,估计这批机械零件耐磨时数在(1045.5,1065.5)之间,其概率保证程度为94.64%案例】 仍用表7-5中的资料,设该种型号零件质量标准规定,耐磨时数达1000小时以上为合格品, 要求合格率估计的允许误差范围不超过4%,试估计该批机械零件的合格率第一步,计算p,Sp2,卩pn 91 p = -1 = -- = 91%-100s 2 = pG - p)= 0.91 x 0.09 = 0.0819p0.0819I' 100= 2.86%第二步,根据给定的A =4%,求总体合格率的上、下限:p下限= p —A =91%-4%=87%p上限= p +A =91%+4%=95%pA第三步,根据t = p =1.4,查《正态概率表》得概率F (t) =83.85%p推断的结论是:根据要求,合格率允许误差范围不超过4%,估计这批零件的合格率在(87%95%)之间,其概率保证程度为 83.85%2. 根据已给定的概率保证程度,求抽样极限误差具体步骤是:第一步,抽取样本,计算样本指标,即计算样本平均数x或样本成数P,作为总体指标的估计值,并计算样本标准差S以推算抽样平均误差。
第二步,根据给定的概率保证程度F(t),查概率表求得概率度t值第三步,根据概率度t和抽样平均误差卩推算出抽样极限误差A,并根据抽样极限误差求出 被估计总体指标的上限和下限案例】 对我国某中等城市进行居民家庭年人均旅游消费支出调查,随机抽取400户居民家庭,调查 得知居民家庭年人均旅游消费支出额为400元,标准差为100元,要求以95%的概率保证程度, 估计该市年人均旅游消费支出额第一步,根据已知资料算得年人均消费支出额x =400 (元)样本标准差s=100 (元)卩_ = 2 = = 5(元)x n 400注意:总体标准差以样本标准差s代替第二步,根据给定的概率保证程度F (t) =95%,查《正态概率表》得t=1.96第三步,计算人-二①一 =1.96X5=9.80,则该市居民家庭年人均旅游消费支出额: xx下限二 x — A_ =400-9.80=390.20(元)x上限二 x + A- =400+9.80=409.80(元)x结论:在 95%的概率保证程度下,估计该市居民家庭年人均旅游消费支出额在( 390.20, 409.80)之间案例】 为了解国内旅游人数情况,在一些地区随机调查5000人,结果发现800人有当年国内旅游计 划,要求以95%的概率保证程度,估计国内旅游人数比率的可能范围。
第一步,根据已知资料算得样本国内旅游人数比率=俗= =16%n 5000样本方差s 2 = pG - p)= 0.16x 0.84 = 0.1344p抽样平均误差卩=:- P)= :01344 = 0.518%p \ n \ 5000注意:P (1-P)用p (1-p)代替第二步,根据给定的概率保证程度F (t) =95%,查《正态概率表》得概率度t=1.96第三步,计算A =①=1.96X0.518%=1.015%则总体比率的上、下限为:pp下限=p — A =16%-1.015%=14.985%p上限=p + A =16%+1.015%=17.015%p结论:在95%的概率保证程度下,估计国内旅游人数的比率在[15%,17%]之间第四节 必要样本单位数的确定一、样本单位数的确定【引言】 科学地组织抽样调查,保证随机抽样条件的实现,并合理有效地取得各项数据,是抽样设计 中一个至关重要的问题注意相关问题如下:首先要保证随机原则的实现其次,样本单位数确定 再次,科学选择抽样组织形式最后,还必须重视调查费用这个基本因素实际上任何一项抽样调查都是在一定费用的限制下进行的抽样设计应该力求采用调查费用 最省的方案。
一般地说,提高精确度的要求与节省费用的要求往往有矛盾,抽样误差要求愈小, 则调查费用需要愈多因此,抽样误差最小的方案并非是最好的方案,在许多情况下,允许一定 范围的误差仍能够满足分析的要求我们的任务就是在允许的误差要求下,选择费用最少的抽样 设计方案综上所述,抽样设计应该掌握两个基本原则: 第一,保证实现抽样的随机原则,即保证总体各单位的相互独立性,以及任何一个单位在每 次抽样中被抽中机会的均等性第二,保证实现最大的抽样效果原则,即在一定的调查费用下,选取抽样误差最小的方案; 或在给定调查精确度的要求下,选取调查费用最省的方案一)根据平均数的抽样极限误差确定样本单位数 影响抽样误差的因素之一,是样本单位数的多少在抽样调查中,事先确定必要的样本单位 数,是一项重要的工作由于样本单位数n是抽样极限误差公式的组成部分,所以可以根据抽样 极限误差公式推导出样本单位数以简单随机抽样为例,测定总体平均数所必需的样本单位数n1. 重复抽样条件下:12b 2A2 -x2. 不重复抽样条件下:t 2 N b 2n =x NA2_ + 12b 2x(二)根据成数的抽样极限误差确定样本单位数 1.重复抽样条件下12 P G - P )n =p A2P2.不重复抽样条件下12 npG - p ) NA2 + 12 P(1 - P)Pn或n是指在抽样误差不超过预先规定的数值,即满足抽样极限误差小于等于A或A的x p x p条件下,至少应抽取的样本单位数。
三)确定必要样本单位数应注意的问题在确定必要样本单位数的过程中,可能会遇到一些应用性问题,主要应注意以下几个方面:1. 总体指标未知的问题公式中涉及到总体标准差与总体成数资料时,一般可利用以前的经 验数据或样本数据来代替若遇到有不止一个经验数据或样本数据时,宜选择最大的一个若总 体成数未知,可选取使成数方差达到最大(0.25)或接近最大的P值代入2. 估计对象导致数目不相等的问题对于同一资料既要估计平均数又要估计成数时,根据这 两种估计所求的必要样本单位数可能不相等,这时应选择其中样本单位数较大的进行抽样,以保 证抽样推断的精确性和可靠性3. 抽样方式导致数目不相等的问题按重复抽样公式计算的必要样本单位数要比按不重复抽 样公式确定的必要样本单位数大在条件允许的情况下,为保证抽样推断的精确度和可靠程度, 原则上,一切抽样调查在计算必要样本单位数时,都可采用重复抽样公式计算二、影响样本单位数的因素 影响样本单位数的因素主要有以下几个:(一) 总体标准差 在其他条件不变的情况下,总体标准差与样本单位数成正比总体标准差大,说明总体差异程度高,总体各单位标志值较平均数的离散程度高,则样本单位数就多;反之,总体标准差小, 则样本单位数就少。
二) 抽样极限误差 在其他条件不变的情况下,抽样极限误差与样本单位数成反比如果允许的误差范围越大,对抽样估计的精确度要求越低,则样本单位数就越少;反之,若允许的误差范围越小,对精确度 的要求越高,则样本单位数就越多三) 抽样方法及抽样的组织形式 抽样方法和抽样组织形式不同,样本单位数的多少也不同在其他条件不变的情况下,重复抽样条件下的样本单位数多于不重复抽样条件下的样本单位数;在适宜的条件下,类型抽样比简 单重复抽样的样本单位数少此外,样本单位数的多少,一方面要考虑耗费的人力、财力、物力和时间的允许条件;另一 方面要考虑能否达到研究的预期目的一般而言,样本单位数越多,抽样误差越小,样本的代表 性越大但是,样本单位数越多,耗费的人力、物力、财力和时间也越多,从而又导致研究结果 的时效性差因此,在确定样本单位数时,还要考虑到这个方面的需要与可能案例】 仍利用表7-5中的资料,确定必要样本单位数根据表7-5中的已知资料计算得到x =1055.5小时,s=51.91小时,A- =10小时,t=1.93, p=90%(耐磨时数达1000小时以上x比重),A =4%.p按样本平均数的重复抽样公式,确定必要样本单位数为12b 2 1.932 X 51.912 [心彳n- — « —100.4x A 102x按样本成数的重复抽样公式,确定必要样本单位数为12P(1 — P) 1.932 X 0.9G - 0.9)“cr0.042n == — 209.5p A2P根据计算结果,进行抽样调查时所确定的必要样本单位数应为210个。
第五节 抽样的组织形式一、简单随机抽样 简单随机抽样又称纯随机抽样它是对总体中的所有单位不进行任何分组、排队,而是完全 随机地直接从总体N个单位中抽取n个单位,作为一个样本进行调查在抽样中保证总体中每个 单位都有同等的被抽中的机会简单随机抽样是抽样中最基本、最单纯的组织形式,它适用于均匀总体,即具有某种特征的 单位均匀地分布于总体的各个部分,使总体的各个部分都是同等分布的获得简单随机样本的具体做法主要有两种:1. 抽签法抽签法就是将总体各单位编号,以抽签的方式从中任意抽取所需样本单位的方法2. 查随机数表法所谓随机数表是指含有一系列组别的随机数字的表格表中数字的出现及 其排列是随机的查随机数表时,可以竖查、横查、顺查、逆查;可以用每组数字左边的头几位 数,也可以用其右边的后几位数,还可以用中间的某几位数字这些都需要事先定好但一经决 定采用某一种具体做法,就必须保证对整个样本的抽取完全遵从同一规则简单随机抽样在理论上最符合随机原则,但在实际应用中有很大的局限性: 第一,无论用抽签法还是用查随机数表法取样,均需对总体各个单位逐一编号而抽样推断 中的总体单位数很多,编号查号的工作量很大第二,当总体各单位标志变异程度较大时,简单随机抽样的代表性就比较差。
第三,对某些事物根本无法进行简单随机抽样,如对正在连续生产的大量产品进行质量检验, 就不可能对全部产品进行编号抽检所以简单随机抽样适用于所调查的总体单位数不多、且各单位标志变异程度较小的情况 二、类型抽样 类型抽样亦称分类抽样或分层抽样它是先将总体各单位按主要相关标志分组(或分类),然 后在各组(或各类)中再按随机原则抽取样本单位的组织形式例如,在进行城市职工家庭旅游 消费支出抽样调查时,首先把职工按所属国民经济部门分类,然后再在各部门中抽取若干个调查 户;再如,进行星级宾馆入住情况调查时,先将各宾馆按星级标准分为五星、四星、三星、二星 和一星五类,然后再在各类宾馆中抽取若干个调查单位类型抽样实质上是分组法和随机抽样法相结合的产物先划分出性质不同的各个组,以减少 组内标志值之间的变异程度;然后按照随机原则,从各组中抽取调查单位所以,类型抽样所抽 取的样本代表性较高,抽样误差小,能够以较少的样本单位数获得比较准确的推断结果特别是 当总体各单位标志值相差很大,各组间标志值变异程度很大时,类型抽样则更为优越经过划类分组后,确定各类型组样本单位数一般有两种方法: 第一,不等比例抽样即各类型组所抽取的单位数,按各类型组标志值的变异程度来确定, 变异程度大则多抽一些单位,变异程度小则少抽一些单位。
这种方法又称为类型适宜抽样或称一 般抽样第二,等比例抽样即按各类型组的单位数占总体单位数的比重进行抽样 在实际工作中,由于事先很难了解各组的标志变异程度,因此,大多数类型抽样采用等比例 抽样法类型抽样的特点是,样本单位数不是从整个总体,而是从各类中分别抽取,且彼此独立三、等距抽样 等距抽样亦称机械抽样它是先把总体各单位按照某一标志排队,然后按相等的距离抽取样 本单位的组织形式排队的标志可以是与调查标志无关的,也可以是与调查标志有关的按无关标志排队,是指排队时采用与调查项目无关的标志进行例如,按姓氏笔画多少排队、 按地名笔画排队、按人名册、户口簿及按地图上的地理位置排队等也可以按时间顺序排队,例 如,检查产品质量,确定按10%的比率抽检,这时即可按时间顺序在每10个产品中抽取一个进行 质量检查,直至将规定的样本单位数抽满为止按有关标志排队,是指排队时采用与调查项目有关的标志进行例如,进行我国粮食产量抽 样调查,由省抽县,县抽乡,乡抽村,都是按前三年的粮食平均亩产量排队的;进行我国城市职 工家计抽样调查,是按职工平均工资排队的按有关标志排队,能使被研究对象标志值的变动均 匀地分布在总体中,保证样本具有较高的代表性。
等距抽样除考虑排队的标志外,还需要考虑抽样距离的问题设N为全及总体单位数,n为 样本单位数,k为抽样距离,则k=N/n等距抽样的随机性表现在抽取的第一个样本单位上,当第一个样本单位确定后,其余的各个 样本单位也就确定了就是说,第一个样本单位确定后,每加一个抽样距离就是下一个被抽取的 样本单位,直至抽满规定的样本单位数为止例如,进行工业产品质量检查,当确定按5%的比率 抽取样本单位时,可以按时间顺序每隔5件抽取一件产品进行登记,一直达到预定的样本单位数 为止又如,进行粮食产量抽样调查时,抽取样本单位是先按最近三年粮食平均亩产量排队,再 根据累计播种面积和预定抽取的样本单位数计算抽样距离,第一个样本单位在1/2抽样距离处, 以后每加一个抽样距离就是下一个被抽取的样本单位,直至抽满规定的样本单位数为止等距抽样在按无关标志排队、等距抽取样本单位时,实质上仍是简单随机抽样,其抽样平均 误差的计算公式与简单随机抽样相同在按有关标志排队、等距抽取样本单位时,实质上就成为 类型抽样的特例因此,抽样平均误差的公式与类型抽样公式相同但按有关标志排队的等距抽 样与类型抽样略有不同,等距抽样只在各组中抽取一个单位,而类型抽样是在各组中抽取若干个 单位。
四、整群抽样整群抽样亦称成组抽样前面介绍的三种抽样组织形式,都是一个一个地抽取样本单位,故 称为个体抽样整群抽样则是一批一批地抽取样本单位,每抽取一批时,对其中所有的单位都进 行登记调查抽取的形式,既可用简单随机抽样形式,也可以用等距抽样形式,一般常用后者 例如,要按10%的比例对饭店餐具进行卫生检验,即可每隔5小时从已消毒的餐具中抽取一次消 毒过的全部产品作为一群,然后按比例要求抽满群数组成样本,并对每群进行逐个登记整群抽样容易组织,多用于进行产品的质量检查缺点是由于样本在总体中太集中,分布不 均匀,与其他几种抽样方式比较,误差较大,代表性较差但是如果群内差异大而群间差异小, 即群内方差大,群间方差小,则可使样本代表性提高,使抽样误差减少考虑到编制名单和抽取 样本的工作比其他各种组织形式简便易行,调查也集中方便,这时整群抽样又是有益的能力训练】(1) 先将总体各单位按某一标志排列,再依固定顺序和间隔来抽取样本单位数的抽样组织形 式,被称为( )①纯随机抽样②机械抽样③分层抽样④整群抽样(2) 先将总体各单位按主要标志分组,再从各组中随机抽取一定单位组成样本,这种抽样组织 形式,被称为( )。
①纯随机抽样 ②机械抽样 ③分层抽样 ④整群抽样(3) 先将总体各单位划分成若干群,再以群为单位从中按随机原则抽取一些群,对抽中的群的 所有单位进行全面调查,这种抽样组织形式,被称为( )①纯随机抽样 ②机械抽样 ③分层抽样 ④整群抽样(4) 没有重复抽样的抽样组织形式为( )①纯随机抽样 ②机械抽样 ③分层抽样 ④整群抽样(5) 某工厂产品是连续性生产,为检查产品质量,在24小时中每隔30分钟,取下一分钟的产 品进行全部检查,这是( )①纯随机抽样 ②机械抽样 ③分层抽样 ④整群抽样附录 应用 Excel 求置信区间 单元实训 抽样调查方法的具体应用【实训目的】 抽样调查是在统计资料搜集和分析中应用十分广泛的一种统计方法本实训目的是使学生在 掌握抽样调查概念的基础上,熟练地运用各种抽样调查方法,并能够根据实际情况,选择合适的 抽样方法实训资料】消费者对新产品接受程度的市场调查 具体详尽资料参见本章单元实训【实训要求】1. 以上述案例说明抽样调查具有哪些特点和作用?2. 在抽样调查的两个阶段中都使用了哪些抽样的组织形式?【实训形式】 实训形式为分组讨论实训时间】 教学学时1学时,在完成第七章的理论教学后进行。
实训地点】 实训地点为教室或多媒体教室项目实战统计分析四 运用抽样推断进行抽样估计【实战目的】 由于全面调查的范围广,工作量大,需要耗费大量的人力、物力和财力,而且有时也不需要 或不可能进行全面调查,但又要了解客观现象的总体情况,就可以采用抽样调查的方式取得调查 资料因此,通过本项目实战训练,使学生掌握应用统计软件EXCEL)操作手段将项目调查取得 的项目资料运用抽样推断原理对全及总体进行抽样估计的技能实战要求】 结合第7章抽样推断教学内容的学习,以项目小组为单位,首先将统计整理后的项目资料计算 样本均值指标,然后判断抽样误差状况,再在确定抽样极限误差的基础上,对全及总体进行抽样 估计实战资料】 通过“整理项目资料”实战训练,各项目小组已经得到本组项目课题的电子信息资料现需要 应用统计软件(Excel)操作功能,将统计整理后的项目资料运用抽样推断原理对全及总体进行抽 样估计实战学时】 需用2学时来完成“运用抽样推断进行抽样估计”的项目实战训练实战地点】 在电子实训室完成“运用抽样推断进行抽样估计”的项目实战训练实战操作步骤】1. 根据样本数据计算样本均值或样本成数2. 根据样本均值或样本成数计算样本标准差。
3. 根据样本标准差计算抽样平均误差4. 在确定抽样极限误差的基础上,对全及总体进行抽样估计,以说明总体现象的一般规律或 水平。