文档详情

统计学基础 第七章 抽样推断

zou****hua
实名认证
店铺
DOCX
78.08KB
约16页
文档ID:201343514
统计学基础 第七章 抽样推断_第1页
1/16

统计学基础 第七章 抽样推断【教学目的】1. 理解抽样推断的含义及特点2. 深刻理解抽样误差产生的原因3. 对抽样误差、抽样平均误差、抽样极限误差加以区别4. 了解各种抽样组织形式的特点5. 重点掌握简单随机抽样组织形式的区间估计方法6. 掌握必要样本单位数的确定方法【教学重点】1. 理解抽样推断中的几个基本概念(总体指标、样本指标、平均数、成数、方差、标准差)2. 理解抽样误差的概念3. 理解和运用不同抽样方法下计算抽样误差4. 掌握简单随机抽样组织形式的区间估计方法6.掌握必要样本单位数的确定方法【教学难点】1. 理解抽样推断中的几个基本概念(总体指标、样本指标、平均数、成数、方差、标准差)2. 理解抽样误差的概念3. 理解和运用不同抽样方法下计算抽样误差4. 掌握简单随机抽样组织形式的区间估计方法6.掌握必要样本单位数的确定方法【教学时数】教学学时为10课时【教学内容参考】第一节 抽样推断的意义一、抽样推断的含义(一)抽样推断的特点 抽样推断又称为抽样估计,它是在抽样调查的基础上,利用样本实际资料计算样本指标,并 据以推算总体相应数量特征的一种统计调查方式案例】 从全国所有股份制企业中,抽取一部分企业,详细调查其生产经营状况,根据这一部分企业 的调查资料,来推算所有股份制企业的生产经营状况,这就属于抽样推断。

抽样推断有以下几个特点:1. 按随机原则从总体中抽取调查单位所谓随机原则是指在抽取调查单位时,总体中每个单 位都有同等被抽中的机会,完全排除了人为主观意识的影响,哪个单位抽中与否,纯粹是随机的、 偶然的按随机原则抽取调查单位是进行抽样推论的基本要求2. 根据被抽取的调查单位,计算各种指标,并对总体的指标作出估计3. 抽样推断中的抽样误差可以事先计算并加以控制,从而保证抽样推断的结论符合预定的精 确度和可靠度要求二)抽样推断的作用 抽样推断的主要作用有:1. 对某些不可能进行全面调查而又需要了解全面情况的社会经济现象,可以采用抽样推断方 式另外,对于无限总体也不可能进行全面调查,只能采用抽样推断方式2. 对于某些不必要或在经济上不允许经常采用全面调查的社会经济现象,最适宜采用抽样推 断方式3. 对于需要及时了解情况的现象,也经常采用抽样推断方式因为全面调查浪费人力、物力 和财力,资料也不易及时取得,而抽样推断方式不仅节省人力、资金,且时间快,方式灵活,能 够及时满足了解情况的需要4. 对全面调查的资料进行评价和修正全面调查由于范围广、工作量大、参加的人员多,发 生登记性误差的可能性就大因此,为了保证全面调查资料的准确性,检验全面调查资料的质量, 在全面调查之后,一般都要进行抽样推断。

在总体中再抽取一部分单位重新调查,然后将两次调 查的资料进行比较,计算出差错率,并据此对全面调查的资料加以修正5. 抽样推断还可以用于工业生产过程中的质量控制能力训练】下列事项属于抽样推断的有( )① 为了测定车间的工时损失,对车间中的每三班工人中的第一班工人进行调查② 为了解某大学食堂卫生状况,对该校的五个食堂进行调查③ 对某城市1%的家庭进行调查,以便研究该城市居民的消费状况④ 对某公司三个分厂中的一个分厂进行调查,以便研究该工厂的能源利用效果二、抽样的基本概念(一)总体和样本总体又称全及总体它是根据研究目的,由全部调查单位所组成的集合体总体的单位数通 常都是很大的,甚至是无限的,这样才有必要组织抽样调查,进行抽样推断总体单位数一般用 符号N表示样本又称子样它是从总体中随机抽取出来的部分调查单位所组成的集合体样本的单位数 是有限的样本单位数一般用符号n表示,也称样本容量对于某一特定研究问题来说,作为推断对象的总体是确定的,而且是惟一的但由于从一个 总体中可以抽取许多个样本,所以作为观察对象的样本,不是惟一的,而是可变的明白这一点 对于理解抽样推断原理是很重要的二)总体指标和样本指标总体指标又称参数。

它是根据总体各单位的标志表现计算的综合指标对于总体中的数量标志,可以计算的总体指标有总体平均数X、总体方差2 (或总体标准 差设总体变量X的取值为:X X…X则1 2 N一 工X 工XF对于总体中的品质标志,由于各单位品质标志不能用数量来表示,因此,可以计算的总体指 标有总体成数X P、总体成数方差b 2 P或总体成数标准差Op)设P表示总体中具有某种性质的单位数在总体单位数中所占的比重,Q表示总体中不具有某 种性质的单位数在总体单位数中所占的比重在总体N个单位中,有叫个单位具有某种性质,N0个单位不具有某种性质,N=N1 +N0则N―0-N如果总体中的品质表现只有“是”、“非”两种例如,产品质量的标志表现为合格和不合格 人口性别的标志表现为男性和女性,则可以把“是”的标志表现表示为1,而“非”的标志表现 表示为0那么成数P就可以视为(0,1)分布的相对数,并可以计算相应的方差(或标准差)其计算公式为X工XFX =-P 乙X0 X N +1X N0 iN + N01(0 — P)2 N +6 — P)2 Nb 2 = 0 iP N +N01P2N +Q2N0 iN=P 2 Q + Q 2 P = PQ(P + Q )= P(1 — P)在抽样推断中,总体指标的意义和计算方法是明确的,但总体指标的具体数值事先是未知的, 需要用样本指标来估计它。

样本指标又称统计量它是根据样本各单位的标志表现计算的、用来估计总体指标的综合指标可以计算的样本指标有样本平均数X、样本方差S2和样本成数P等设样本变量X的取值为x ,x , -^xn则 y y f 12 n-yx y xfx = 或 x = -V—n 乙fs 2 = p u — p 丿p在抽样推断中,样本指标的计算方法是确定的,但它的取值随着样本的不同,有不同的样本 变量所以,样本指标本身是随机变量,用它作为总体指标的估计值,有时误差大些,有时误差 小些;有时产生正误差,有时产生负误差能力训练】总体指标和样本指标( )① 都是随机变量② 都是确定性变量③ 前者是惟一确定的,后者是随机变量④前者是随机变量,后者是惟一确定的三、抽样方法 在抽样调查中,从总体中抽取样本单位的方法有两种:重复抽样和不重复抽样一)重复抽样重复抽样也称重置抽样、放回抽样、回置抽样等它是指从总体N个单位中随机抽取容量为n 的样本时,每次抽取一个单位,把结果登记下来后,重新放回,再从总体中抽取下一个样本单位在这种抽样方式中,同一单位可能有被重复抽中的机会可见,重复抽样的总体单位在各次 抽取中都是不变的,每个单位中选的机会在每次抽取中都是均等的。

用重复抽样的方法从总体N个单位中抽取n个单位组成样本,可能得到的样本总数为Nn个 (二)不重复抽样不重复抽样也称不重置抽样、不放回抽样、不回置抽样等它是指从总体N个单位中随机抽 取容量为 n 的样本时,每次抽取一个单位后,不再放回去,下一次则从剩下的总体单位中继续抽 取,如此反复,最终构成一个样本也就是说,每个总体单位至多只能被抽中一次,所以从总体 中每抽取一次,总体就少一个单位因此,先后抽出来的各个单位被抽中的机会是不相等的用不重复抽样的方法从总体 N 个单位中抽取 n 个单位组成样本,可能得到的样本总数为AnN不考虑顺序的组合数为CnN = $ )用可见,在相同样本容量的要求下,不重复抽样可能得到的样本个数比重复抽样可能得到的样 本个数少当采用不重复抽样、而全及总体所包含的单位数又不多时,越到后来,留在总体中的 单位就越少,被抽中的机会就越大不过当全及总体单位数很多、样本总体单位数所占的比重很 小时,则对先后抽出来的各个单位被抽中的机会影响不大由于不重复抽样简便易行,所以在实 际工作中经常被采用第二节 抽样误差一、抽样误差的含义在抽样推断中,用样本指标推断总体指标,总会存在一定的误差,其误差来源主要有两个方 面:(一)登记性误差即在调查和整理资料的过程中,由于主、客观因素的影响而引起的误差,如在登记的过程中 由于疏忽而将3误写为 8,将 1 误写为 7;在计算合计的过程中所造成的计算错误等。

二)代表性误差即由于样本的结构情况不足以代表总体特征而导致的误差代表性误差的产生又有两种情况: 一种是违反了抽样推断的随机原则,如调查者有意地多选较好的单位或多选较差的单位来进 行调查,这样计算出来的样本指标必然出现偏高或偏低的情况,造成系统性误差,也称为偏差另一种情况是遵守了抽样推断的随机原则,但由于从总体中抽取样本时有多种多样的可能, 当取得一个样本时,只要被抽中样本的内部结构与被研究总体的结构有所出入,就会出现或大或 小的偶然性的代表性误差,也称为随机误差系统性误差和登记性误差都是由于抽样工作组织不好而导致的,应该采取预防措施避免发生 而偶然性的代表性误差是无法消除的抽样误差就是指这种偶然性的代表性误差,即按随机原则 抽样时,单纯由于不同的随机样本得出不同的估计量而产生的误差抽样误差是抽样推断所固有的,虽然它无法避免,但可以运用大数定律的数学公式加以精确 地计算,确定其具体的数量界限,并通过抽样设计加以控制所以这种抽样误差也称为可控制误 差能力训练】抽样误差是( )① 样本数目过少引起的② 观察、测量、计算的失误引起的③ 抽样过程中的偶然性因素引起的④ 抽样推断中产生的系统性误差二、抽样平均误差(一)抽样平均误差的含义 抽样误差描述了样本指标与总体指标之间的离差绝对数,在用样本指标估计相应的总体指标 时,它可以反映估计的准确程度。

但是由于抽样误差是随机变量,具有取值的多样性和不确定性 特点,因而就不能以它的某一个样本的具体误差数值来代表所有样本与总体之间的平均误差情况 应该用抽样平均误差来反映抽样误差平均水平所谓抽样平均误差,就是所有可能出现的样本指标(平均数或成数)的标准差,也可以理解 为所有的样本指标与总体指标之间的平均离差我们所说的抽样误差可以事先计算和控制,就是 针对抽样平均误差而言的抽样平均误差是用样本指标推断总体指标时,计算误差范围的基础抽样平均误差的计算,与抽样方法和抽样组织形式有直接关系,不同的抽样方法和抽样组织 形式计算抽样平均误差的公式是不同的二)抽样平均误差的计算 在实际工作中,只求得一个样本指标,无法得到抽样平均误差(即样本指标的标准差,)因而常常是根据抽样平均误差和总体标准差的关系来推算羊本平均数的抽样平均误差计算公式如下:在一般情况下,总体平均数X是未知的当样本较多时,可用样本平均数的平均数来代替(这已经得到证明)而在实际工作中,通常只需从总体中抽取一个样本,这样就可以根据总体标准差 和样本单位数的关系来计算1. 重复抽样条件下抽样平均误差的计算 数理统计可以证明:在重复抽样条件下,抽样平均误差与总体标准差成正比,与样本单位数 的平方根成反比。

故在已知总体标准差的条件下,可用下面的公式计算样本平均数的抽样平均误 差:a、:n在大样本(n〉30)下,如果没有总体标准差的资料,可用样本标准差s来代替,其公式如 下:x相应地有样本成数的抽样平均误差公式:p同样,在大样本下,如果P未知,可用样本成数p来代替,即p总体成数方差还有一个特点,就是它的最大值是0.5X0.5=0.25,也就是说,当两类总体单 位各占一半时,它的变异程度最大,方差为25%,标准差则为50%因此,在总体成数方差值未知 时,可用其最大值来代替,这样会使计算出来的抽样平均误差偏大一些,一般而言这对推断认识 有益而无害2. 不重复抽样条件下抽样平均误差的计算对上述重复抽样下的公式作如下修正:xpG - p)fl -上]P \n1 N丿不重复抽样的平均误差和重复抽样的平均误差公式,两者相差的因子(1-£ )永远小于1在N 不重复抽样下,抽中的单位不再放回,总体单位数逐渐减少,余下的每个单位被抽中的机会就会 n 增大,所以不重复抽样的抽样平均误差小于重复抽样的抽样平均误差,这就是用因子(1 -)作Nn为调整系数来修正原式的道理但在抽中单位占全体单位的比重育很小时,这个因子接近于1,N 对于计算抽样平均误差所起的作用不大。

因而实际工作中不重复抽样有时仍按重复抽样的公式计 算抽样平均误差的计算,在抽样调查中占有相当重要的地位抽样调查的优点在于它能计算出 抽样平均误差,且以抽样平均误差作为用样本指标推断总体指标的重要补充指标三、影响抽样平均误差的因素影响抽样平均误差的因素主要有:(一) 样本单位数的多少 在其他条件不变的情况下,样本单位数愈多,抽样误差就愈小;反之,样本单位数愈少,则抽样误差就愈大样本单位数越大,样本就越能反映总体的数量特征,如果样本单位数扩大到接 近总体单位数时,抽样调查也就接近于全面调查,抽样误差就缩小到几乎完全消失的程度二) 总体被研究标志的变异程度 在其他条件不变的情况下,总体各单位标志值变异程度愈小,则抽样误差也愈小,抽样误差和总体变异程度成正比变化这是因为总体变异程度小,表示总体各单位标志值之间的差异小, 则样本指标与总体指标之间的差异也就小如果总体各单位标志值相等,则标志变异程度等于0, 样本指标就完全等于总体指标,抽样误差也就不存在了三) 抽样的组织形式和抽样方法 在其他条件不变的情况下,不重复抽样下的样本比重复抽样下的样本代表性强,其抽样误差相应也要小在不同的抽样组织形式下,抽样误差也不同。

了解影响抽样误差的因素,对于控制和分析抽样误差十分重要在上述影响抽样误差的三个 因素中,标志变异程度是客观存在的因素,是调查者无法控制的,但样本单位数、抽样方法及抽 样的组织形式却是调查者能够选择和控制的因此,在实际工作中,应当根据研究的目的和具体 情况,做好抽样设计和实施工作,以获得经济有效的抽样效果四、抽样极限误差(一)抽样极限误差的含义抽样极限误差是从另一个角度来考虑抽样误差问题的用样本指标推断总体指标时,要想达 到完全准确和毫无误差,几乎是不可能的样本指标和总体指标之间总会有一定的差距,所以在 估计总体指标时就必须同时考虑误差的大小我们不希望误差太大,因为这会影响样本资料的价 值误差愈大,样本资料的价值便愈小,当误差超过一定限度时,样本资料也就毫无价值了所 以在进行抽样推断时,应该根据所研究对象的变异程度和分析任务的需要确定允许的误差范围, 在这个范围内的数字就算是有效的这就是抽样极限误差的问题抽样极限误差是指样本指标和总体指标之间抽样误差的可能范围由于总体指标是一个确定 的数,而样本指标则是围绕着总体指标左右变动的量,它与总体指标可能产生正离差,也可能产 生负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围设A_、A分别表示样本平均数的抽样极限误差和样本成数的抽样极限误差,则有:xpX - X

同样,上面第二式表明,样本成数是以总体成数Px为中心,在P — A至P + A之间变动的,在(P — A ,P + A )区间内样本成数与总体成数的绝p p p p对离差不超过A p由于总体平均数和总体成数是未知的,它需要用实测的样本平均数和样本成数来估计,因而 抽样极限误差的实际意义是希望估计区间X土A_能以一定的可靠程度覆盖总体平均数xX, P士 A能以一定的可靠程度覆盖总体成数P,因而上面的不等式应变换为px — A- < X < x + A-XXp—A < P< p+App(二)抽样极限误差的计算基于概率估计的要求,抽样极限误差通常需要以抽样平均误差卩-或卩为标准单位来衡量xP把抽样极限误差A或A分别除以4或卩,得相对数t,它表示误差范围为抽样平均误差的若x p x P干倍,t是测量估计可靠程度的一个参数,称为抽样误差的概率度A_ x — X 、t 二一x 二 或人_ 二 ty_卩一 x xxx=tpp|p - PPp抽样估计的概率度是表明样本指标和总体指标的误差不超过一定范围的概率保证程度由于 样本指标随着样本的变动而变动,它本身是一个随机变量,因而样本指标和总体指标的误差仍然 是一个随机变量,并不能保证误差不超过一定范围这个事件是必然事件,而只能给以一定程度的 概率保证。

因此,就有必要计算样本指标落在一定区间范围内的概率,这种概率称为抽样估计的 概率保证程度根据抽样极限误差的基本公式A=t •卩得出,概率度t的大小要根据对推断结果 要求的把握程度来确定,即根据概率保证程度的大小来确定概率论和数理统计证明,概率度t 与概率保证程度F (t)之间存在着一定的函数关系,给定t值,就可以计算出F (t)来;相反, 给出一定的概率保证程度F(t),则可以根据总体的分布,获得对应的t值在实际应用中,因为我们所研究的总体大部分为正态总体,对于正态总体而言,为了应用的 方便编有《正态概率表》以供使用根据《正态概率表》已知概率度t可查得相应的概率保证程 度F (t);相反,已知概率保证程度F (t)也可查得相应的概率度t从抽样极限误差的计算公式来看,抽样极限误差A与概率度t和抽样平均误差卩三者之间存 在如下关系:1•在卩值保持不变的情况下,增大t值,抽样极限误差A也随之扩大,这时估计的精确度将 降低;反之,要提高估计的精确度,就得缩小t值,此时概率保证程度也会相应降低2•在t值保持不变的情况下,如果卩值小,则抽样极限误差A就小,估计的精确度就高;反 之,如果卩值大,抽样极限误差A就大,估计的精确度就低。

由此可见,估计的精确度与概率保证程度是一对矛盾,进行抽样估计时必须在两者之间进行 慎重的选择能力训练】在一定的误差范围要求下( )① 概率度大,要求可靠性低,样本数目相应要多② 概率度大,要求可靠性高,样本数目相应要多③ 概率度小,要求可靠性低,样本数目相应要少④ 概率度小,要求可靠性高,样本数目相应要少⑤ 概率度小,要求可靠性低,样本数目相应要多第三节 抽样估计抽样估计是指利用实际调查的样本指标的数值来估计相应的总体指标的数值的方法由于总 体指标是表明总体数量特征的参数,例如总体平均数、总体成数等,所以抽样估计也称为参数估 计参数估计有点估计和区间估计两种方法一、点估计点估计的基本特点是,根据样本资料计算样本指标,再以样本指标数值直接作为相应的总体 指标的估计值例如,以实际计算的样本平均数作为相应总体平均数的估计值;以实际计算的样本成数作为相应总体成数的估计值等等设以样本平均数X作为总体平均数X的估计值,样本成 数p作为总体成数P的估计值点估计的优点是原理直观,计算简便,在实际工作中经常采用不足之处是这种估计方法没 有考虑到抽样估计的误差,更没有指明误差在一定范围内的概率保证程度因此,当抽样误差较小,或抽样误差即使较大也不妨碍对问题的认识和判断时,才可以使用这种方法。

二、区间估计(一)区间估计的含义区间估计的基本特点是,根据给定的概率保证程度F (t)的要求,利用实际样本资料,给出 总体指标估计值的上限和下限,即指出可能覆盖总体指标的区间范围也就是说,区间估计要解 决两个问题:第一,根据样本指标和误差范围估计出一个可能包括总体指标的区间,即确定出估计区间的 上限和下限第二,确定出估计区间覆盖总体未知参数的概率保证程度区间估计的基本公式有X 二 x±A_ 二 x +1 ・卩_xxX — t ・卩一 W X W X + t ・ |L1-xxP = p ± A = p ± t •卩ppp -1 ・p W P W p + t ・ppp从而得到总体平均数的估计区间:(X -1・4, X +1屮_)总体成数的估计区间:(p-1•卩,p +1•卩)pp(二)区间估计的模式 在进行区间估计的时候,根据所给定条件的不同,总体平均数和总体成数的估计有以下两套模式可供选择使用1. 根据已给定的误差范围,求概率保证程度具体步骤是:第一步,抽取样本,计算样本指标,即计算样本平均数X或样本成数P,作为总体指标的估计值,并计算样本标准差S以推算抽样平均误差第二步,根据给定的抽样极限误差A,估计总体指标的上限和下限。

第三步,将抽样极限误差A除以抽样平均误差卩,求出概率度t,再根据t值查《正态概率 表》求出相应的概率保证程度案例】 对工厂生产设备中某种型号的机械零件进行耐磨性能检验,抽查的样本资料见表7-5,要求耐磨时数的允许误差范围为10小时(A- =10)试估计这批机械零件的平均耐磨时数X表7-5 某型号机械零件耐磨性能资料耐磨时数(小时)组中值X (小时)零件数f (个)900以下8751900〜9509252950〜100097561000〜10501025351050〜11001075431100〜1150112591150〜1200117531200以上12251合计—100第一步,计算X ,s,卩-X105550100=1055.5(小时)二 51.91(小时)o 51.91卩x飞肯=5.191 (小时)注意:总体标准差以样本标准差s代替第二步,根据给定的A- =10,计算总体平均数的上、下限: x下限=x — =1055.5-10=1045.5(小时)x上限二 x + A_ =1055.5+10=1065.5(小时)xA- 10第三步,根据t二x二 二1.93,查《正态概率表》得概率保证程度F (t) =94.64%。

卩- 5.191x 推断的结论是:根据要求耐磨时数的允许误差范围为10小时,估计这批机械零件耐磨时数在(1045.5,1065.5)之间,其概率保证程度为94.64%案例】 仍用表7-5中的资料,设该种型号零件质量标准规定,耐磨时数达1000小时以上为合格品, 要求合格率估计的允许误差范围不超过4%,试估计该批机械零件的合格率第一步,计算p,Sp2,卩pn 91 p = -1 = -- = 91%-100s 2 = pG - p)= 0.91 x 0.09 = 0.0819p0.0819I' 100= 2.86%第二步,根据给定的A =4%,求总体合格率的上、下限:p下限= p —A =91%-4%=87%p上限= p +A =91%+4%=95%pA第三步,根据t = p =1.4,查《正态概率表》得概率F (t) =83.85%p推断的结论是:根据要求,合格率允许误差范围不超过4%,估计这批零件的合格率在(87%95%)之间,其概率保证程度为 83.85%2. 根据已给定的概率保证程度,求抽样极限误差具体步骤是:第一步,抽取样本,计算样本指标,即计算样本平均数x或样本成数P,作为总体指标的估计值,并计算样本标准差S以推算抽样平均误差。

第二步,根据给定的概率保证程度F(t),查概率表求得概率度t值第三步,根据概率度t和抽样平均误差卩推算出抽样极限误差A,并根据抽样极限误差求出 被估计总体指标的上限和下限案例】 对我国某中等城市进行居民家庭年人均旅游消费支出调查,随机抽取400户居民家庭,调查 得知居民家庭年人均旅游消费支出额为400元,标准差为100元,要求以95%的概率保证程度, 估计该市年人均旅游消费支出额第一步,根据已知资料算得年人均消费支出额x =400 (元)样本标准差s=100 (元)卩_ = 2 = = 5(元)x n 400注意:总体标准差以样本标准差s代替第二步,根据给定的概率保证程度F (t) =95%,查《正态概率表》得t=1.96第三步,计算人-二①一 =1.96X5=9.80,则该市居民家庭年人均旅游消费支出额: xx下限二 x — A_ =400-9.80=390.20(元)x上限二 x + A- =400+9.80=409.80(元)x结论:在 95%的概率保证程度下,估计该市居民家庭年人均旅游消费支出额在( 390.20, 409.80)之间案例】 为了解国内旅游人数情况,在一些地区随机调查5000人,结果发现800人有当年国内旅游计 划,要求以95%的概率保证程度,估计国内旅游人数比率的可能范围。

第一步,根据已知资料算得样本国内旅游人数比率=俗= =16%n 5000样本方差s 2 = pG - p)= 0.16x 0.84 = 0.1344p抽样平均误差卩=:- P)= :01344 = 0.518%p \ n \ 5000注意:P (1-P)用p (1-p)代替第二步,根据给定的概率保证程度F (t) =95%,查《正态概率表》得概率度t=1.96第三步,计算A =①=1.96X0.518%=1.015%则总体比率的上、下限为:pp下限=p — A =16%-1.015%=14.985%p上限=p + A =16%+1.015%=17.015%p结论:在95%的概率保证程度下,估计国内旅游人数的比率在[15%,17%]之间第四节 必要样本单位数的确定一、样本单位数的确定【引言】 科学地组织抽样调查,保证随机抽样条件的实现,并合理有效地取得各项数据,是抽样设计 中一个至关重要的问题注意相关问题如下:首先要保证随机原则的实现其次,样本单位数确定 再次,科学选择抽样组织形式最后,还必须重视调查费用这个基本因素实际上任何一项抽样调查都是在一定费用的限制下进行的抽样设计应该力求采用调查费用 最省的方案。

一般地说,提高精确度的要求与节省费用的要求往往有矛盾,抽样误差要求愈小, 则调查费用需要愈多因此,抽样误差最小的方案并非是最好的方案,在许多情况下,允许一定 范围的误差仍能够满足分析的要求我们的任务就是在允许的误差要求下,选择费用最少的抽样 设计方案综上所述,抽样设计应该掌握两个基本原则: 第一,保证实现抽样的随机原则,即保证总体各单位的相互独立性,以及任何一个单位在每 次抽样中被抽中机会的均等性第二,保证实现最大的抽样效果原则,即在一定的调查费用下,选取抽样误差最小的方案; 或在给定调查精确度的要求下,选取调查费用最省的方案一)根据平均数的抽样极限误差确定样本单位数 影响抽样误差的因素之一,是样本单位数的多少在抽样调查中,事先确定必要的样本单位 数,是一项重要的工作由于样本单位数n是抽样极限误差公式的组成部分,所以可以根据抽样 极限误差公式推导出样本单位数以简单随机抽样为例,测定总体平均数所必需的样本单位数n1. 重复抽样条件下:12b 2A2 -x2. 不重复抽样条件下:t 2 N b 2n =x NA2_ + 12b 2x(二)根据成数的抽样极限误差确定样本单位数 1.重复抽样条件下12 P G - P )n =p A2P2.不重复抽样条件下12 npG - p ) NA2 + 12 P(1 - P)Pn或n是指在抽样误差不超过预先规定的数值,即满足抽样极限误差小于等于A或A的x p x p条件下,至少应抽取的样本单位数。

三)确定必要样本单位数应注意的问题在确定必要样本单位数的过程中,可能会遇到一些应用性问题,主要应注意以下几个方面:1. 总体指标未知的问题公式中涉及到总体标准差与总体成数资料时,一般可利用以前的经 验数据或样本数据来代替若遇到有不止一个经验数据或样本数据时,宜选择最大的一个若总 体成数未知,可选取使成数方差达到最大(0.25)或接近最大的P值代入2. 估计对象导致数目不相等的问题对于同一资料既要估计平均数又要估计成数时,根据这 两种估计所求的必要样本单位数可能不相等,这时应选择其中样本单位数较大的进行抽样,以保 证抽样推断的精确性和可靠性3. 抽样方式导致数目不相等的问题按重复抽样公式计算的必要样本单位数要比按不重复抽 样公式确定的必要样本单位数大在条件允许的情况下,为保证抽样推断的精确度和可靠程度, 原则上,一切抽样调查在计算必要样本单位数时,都可采用重复抽样公式计算二、影响样本单位数的因素 影响样本单位数的因素主要有以下几个:(一) 总体标准差 在其他条件不变的情况下,总体标准差与样本单位数成正比总体标准差大,说明总体差异程度高,总体各单位标志值较平均数的离散程度高,则样本单位数就多;反之,总体标准差小, 则样本单位数就少。

二) 抽样极限误差 在其他条件不变的情况下,抽样极限误差与样本单位数成反比如果允许的误差范围越大,对抽样估计的精确度要求越低,则样本单位数就越少;反之,若允许的误差范围越小,对精确度 的要求越高,则样本单位数就越多三) 抽样方法及抽样的组织形式 抽样方法和抽样组织形式不同,样本单位数的多少也不同在其他条件不变的情况下,重复抽样条件下的样本单位数多于不重复抽样条件下的样本单位数;在适宜的条件下,类型抽样比简 单重复抽样的样本单位数少此外,样本单位数的多少,一方面要考虑耗费的人力、财力、物力和时间的允许条件;另一 方面要考虑能否达到研究的预期目的一般而言,样本单位数越多,抽样误差越小,样本的代表 性越大但是,样本单位数越多,耗费的人力、物力、财力和时间也越多,从而又导致研究结果 的时效性差因此,在确定样本单位数时,还要考虑到这个方面的需要与可能案例】 仍利用表7-5中的资料,确定必要样本单位数根据表7-5中的已知资料计算得到x =1055.5小时,s=51.91小时,A- =10小时,t=1.93, p=90%(耐磨时数达1000小时以上x比重),A =4%.p按样本平均数的重复抽样公式,确定必要样本单位数为12b 2 1.932 X 51.912 [心彳n- — « —100.4x A 102x按样本成数的重复抽样公式,确定必要样本单位数为12P(1 — P) 1.932 X 0.9G - 0.9)“cr0.042n == — 209.5p A2P根据计算结果,进行抽样调查时所确定的必要样本单位数应为210个。

第五节 抽样的组织形式一、简单随机抽样 简单随机抽样又称纯随机抽样它是对总体中的所有单位不进行任何分组、排队,而是完全 随机地直接从总体N个单位中抽取n个单位,作为一个样本进行调查在抽样中保证总体中每个 单位都有同等的被抽中的机会简单随机抽样是抽样中最基本、最单纯的组织形式,它适用于均匀总体,即具有某种特征的 单位均匀地分布于总体的各个部分,使总体的各个部分都是同等分布的获得简单随机样本的具体做法主要有两种:1. 抽签法抽签法就是将总体各单位编号,以抽签的方式从中任意抽取所需样本单位的方法2. 查随机数表法所谓随机数表是指含有一系列组别的随机数字的表格表中数字的出现及 其排列是随机的查随机数表时,可以竖查、横查、顺查、逆查;可以用每组数字左边的头几位 数,也可以用其右边的后几位数,还可以用中间的某几位数字这些都需要事先定好但一经决 定采用某一种具体做法,就必须保证对整个样本的抽取完全遵从同一规则简单随机抽样在理论上最符合随机原则,但在实际应用中有很大的局限性: 第一,无论用抽签法还是用查随机数表法取样,均需对总体各个单位逐一编号而抽样推断 中的总体单位数很多,编号查号的工作量很大第二,当总体各单位标志变异程度较大时,简单随机抽样的代表性就比较差。

第三,对某些事物根本无法进行简单随机抽样,如对正在连续生产的大量产品进行质量检验, 就不可能对全部产品进行编号抽检所以简单随机抽样适用于所调查的总体单位数不多、且各单位标志变异程度较小的情况 二、类型抽样 类型抽样亦称分类抽样或分层抽样它是先将总体各单位按主要相关标志分组(或分类),然 后在各组(或各类)中再按随机原则抽取样本单位的组织形式例如,在进行城市职工家庭旅游 消费支出抽样调查时,首先把职工按所属国民经济部门分类,然后再在各部门中抽取若干个调查 户;再如,进行星级宾馆入住情况调查时,先将各宾馆按星级标准分为五星、四星、三星、二星 和一星五类,然后再在各类宾馆中抽取若干个调查单位类型抽样实质上是分组法和随机抽样法相结合的产物先划分出性质不同的各个组,以减少 组内标志值之间的变异程度;然后按照随机原则,从各组中抽取调查单位所以,类型抽样所抽 取的样本代表性较高,抽样误差小,能够以较少的样本单位数获得比较准确的推断结果特别是 当总体各单位标志值相差很大,各组间标志值变异程度很大时,类型抽样则更为优越经过划类分组后,确定各类型组样本单位数一般有两种方法: 第一,不等比例抽样即各类型组所抽取的单位数,按各类型组标志值的变异程度来确定, 变异程度大则多抽一些单位,变异程度小则少抽一些单位。

这种方法又称为类型适宜抽样或称一 般抽样第二,等比例抽样即按各类型组的单位数占总体单位数的比重进行抽样 在实际工作中,由于事先很难了解各组的标志变异程度,因此,大多数类型抽样采用等比例 抽样法类型抽样的特点是,样本单位数不是从整个总体,而是从各类中分别抽取,且彼此独立三、等距抽样 等距抽样亦称机械抽样它是先把总体各单位按照某一标志排队,然后按相等的距离抽取样 本单位的组织形式排队的标志可以是与调查标志无关的,也可以是与调查标志有关的按无关标志排队,是指排队时采用与调查项目无关的标志进行例如,按姓氏笔画多少排队、 按地名笔画排队、按人名册、户口簿及按地图上的地理位置排队等也可以按时间顺序排队,例 如,检查产品质量,确定按10%的比率抽检,这时即可按时间顺序在每10个产品中抽取一个进行 质量检查,直至将规定的样本单位数抽满为止按有关标志排队,是指排队时采用与调查项目有关的标志进行例如,进行我国粮食产量抽 样调查,由省抽县,县抽乡,乡抽村,都是按前三年的粮食平均亩产量排队的;进行我国城市职 工家计抽样调查,是按职工平均工资排队的按有关标志排队,能使被研究对象标志值的变动均 匀地分布在总体中,保证样本具有较高的代表性。

等距抽样除考虑排队的标志外,还需要考虑抽样距离的问题设N为全及总体单位数,n为 样本单位数,k为抽样距离,则k=N/n等距抽样的随机性表现在抽取的第一个样本单位上,当第一个样本单位确定后,其余的各个 样本单位也就确定了就是说,第一个样本单位确定后,每加一个抽样距离就是下一个被抽取的 样本单位,直至抽满规定的样本单位数为止例如,进行工业产品质量检查,当确定按5%的比率 抽取样本单位时,可以按时间顺序每隔5件抽取一件产品进行登记,一直达到预定的样本单位数 为止又如,进行粮食产量抽样调查时,抽取样本单位是先按最近三年粮食平均亩产量排队,再 根据累计播种面积和预定抽取的样本单位数计算抽样距离,第一个样本单位在1/2抽样距离处, 以后每加一个抽样距离就是下一个被抽取的样本单位,直至抽满规定的样本单位数为止等距抽样在按无关标志排队、等距抽取样本单位时,实质上仍是简单随机抽样,其抽样平均 误差的计算公式与简单随机抽样相同在按有关标志排队、等距抽取样本单位时,实质上就成为 类型抽样的特例因此,抽样平均误差的公式与类型抽样公式相同但按有关标志排队的等距抽 样与类型抽样略有不同,等距抽样只在各组中抽取一个单位,而类型抽样是在各组中抽取若干个 单位。

四、整群抽样整群抽样亦称成组抽样前面介绍的三种抽样组织形式,都是一个一个地抽取样本单位,故 称为个体抽样整群抽样则是一批一批地抽取样本单位,每抽取一批时,对其中所有的单位都进 行登记调查抽取的形式,既可用简单随机抽样形式,也可以用等距抽样形式,一般常用后者 例如,要按10%的比例对饭店餐具进行卫生检验,即可每隔5小时从已消毒的餐具中抽取一次消 毒过的全部产品作为一群,然后按比例要求抽满群数组成样本,并对每群进行逐个登记整群抽样容易组织,多用于进行产品的质量检查缺点是由于样本在总体中太集中,分布不 均匀,与其他几种抽样方式比较,误差较大,代表性较差但是如果群内差异大而群间差异小, 即群内方差大,群间方差小,则可使样本代表性提高,使抽样误差减少考虑到编制名单和抽取 样本的工作比其他各种组织形式简便易行,调查也集中方便,这时整群抽样又是有益的能力训练】(1) 先将总体各单位按某一标志排列,再依固定顺序和间隔来抽取样本单位数的抽样组织形 式,被称为( )①纯随机抽样②机械抽样③分层抽样④整群抽样(2) 先将总体各单位按主要标志分组,再从各组中随机抽取一定单位组成样本,这种抽样组织 形式,被称为( )。

①纯随机抽样 ②机械抽样 ③分层抽样 ④整群抽样(3) 先将总体各单位划分成若干群,再以群为单位从中按随机原则抽取一些群,对抽中的群的 所有单位进行全面调查,这种抽样组织形式,被称为( )①纯随机抽样 ②机械抽样 ③分层抽样 ④整群抽样(4) 没有重复抽样的抽样组织形式为( )①纯随机抽样 ②机械抽样 ③分层抽样 ④整群抽样(5) 某工厂产品是连续性生产,为检查产品质量,在24小时中每隔30分钟,取下一分钟的产 品进行全部检查,这是( )①纯随机抽样 ②机械抽样 ③分层抽样 ④整群抽样附录 应用 Excel 求置信区间 单元实训 抽样调查方法的具体应用【实训目的】 抽样调查是在统计资料搜集和分析中应用十分广泛的一种统计方法本实训目的是使学生在 掌握抽样调查概念的基础上,熟练地运用各种抽样调查方法,并能够根据实际情况,选择合适的 抽样方法实训资料】消费者对新产品接受程度的市场调查 具体详尽资料参见本章单元实训【实训要求】1. 以上述案例说明抽样调查具有哪些特点和作用?2. 在抽样调查的两个阶段中都使用了哪些抽样的组织形式?【实训形式】 实训形式为分组讨论实训时间】 教学学时1学时,在完成第七章的理论教学后进行。

实训地点】 实训地点为教室或多媒体教室项目实战统计分析四 运用抽样推断进行抽样估计【实战目的】 由于全面调查的范围广,工作量大,需要耗费大量的人力、物力和财力,而且有时也不需要 或不可能进行全面调查,但又要了解客观现象的总体情况,就可以采用抽样调查的方式取得调查 资料因此,通过本项目实战训练,使学生掌握应用统计软件EXCEL)操作手段将项目调查取得 的项目资料运用抽样推断原理对全及总体进行抽样估计的技能实战要求】 结合第7章抽样推断教学内容的学习,以项目小组为单位,首先将统计整理后的项目资料计算 样本均值指标,然后判断抽样误差状况,再在确定抽样极限误差的基础上,对全及总体进行抽样 估计实战资料】 通过“整理项目资料”实战训练,各项目小组已经得到本组项目课题的电子信息资料现需要 应用统计软件(Excel)操作功能,将统计整理后的项目资料运用抽样推断原理对全及总体进行抽 样估计实战学时】 需用2学时来完成“运用抽样推断进行抽样估计”的项目实战训练实战地点】 在电子实训室完成“运用抽样推断进行抽样估计”的项目实战训练实战操作步骤】1. 根据样本数据计算样本均值或样本成数2. 根据样本均值或样本成数计算样本标准差。

3. 根据样本标准差计算抽样平均误差4. 在确定抽样极限误差的基础上,对全及总体进行抽样估计,以说明总体现象的一般规律或 水平。

下载提示
相关文档
正为您匹配相似的精品文档