文档详情

抽样调查-第2章简单随机抽样

zhan****gclb
实名认证
店铺
PPTX
1.68MB
约95页
文档ID:157803229
抽样调查-第2章简单随机抽样_第1页
1/95

返回2.1 2.1 定义与符号定义与符号 一、定义简单随机抽样:从含有N个单元的总体中随机 抽取n个单元组成样本1.若抽样是放回的,则所有可能的样本有nN个,每个样本被抽中的概率为 ,这种抽样方法称为放回简单随机抽样nN1nNC2.若抽样是不放回的,则所有可能的样本有个,每个样本被抽中的概率为nNC1,这种抽样方法称为不放回简单随机抽样返回1.1.简单随机抽样是等概抽样简单随机抽样是等概抽样,即每个总体单元即每个总体单元都有相同的入样概率都有相同的入样概率;2.2.随机抽取是有严格要求的随机抽取是有严格要求的,不是随便抽取,不是随便抽取,必须按照某一随机原则进行必须按照某一随机原则进行注意注意返回【例 2.1】设总体有5个单元(1,2,3,4,5),按放回简单随机抽样的方式抽2个单元,则所有可能的样本为2552个(考虑样本单元的顺序)1,11,21,31,41,52,12,22,32,42,53,13,23,33,43,54,14,24,34,44,55,15,25,35,45,5(放回简单随机抽样所有可能的样本)返回【例 2.2】设总体有5个单元(1,2,3,4,5),按不放回简单随机抽样的方式抽2个单元,则所有可1,21,31,41,52,32,42,53,43,54,5(不放回简单随机抽样所有可能的样本)能的样本为个。

10nNC在在实际工作中,更多地采用不放回简单随机抽样,所以实际工作中,更多地采用不放回简单随机抽样,所以以下讨论的简单随机抽样一般都指不放回简单随机抽样以下讨论的简单随机抽样一般都指不放回简单随机抽样.返回二、符号大写字母表示总体单元的标志值:如小写字母表示样本单元的标志值:如NYYY,21nyyy,21调查的总体目标量主要有:总体总量 Y;总体均值 Y;总体某一指标的比例 P;两个总体总量的比率 R对估计精度进行计算时,要涉及到总体方差和样本方差等下面分别列出:返回总体方差样本方差NiiYYNS122)(11niiyyns122)(11还有一些其他符号,分别说明如下:返回总 体NNiiYYYYY211NYYYYNYNNii2111NiiYNNAP11(10或iY)XYXYXYRNiiNii11,NiiYYNS122)(1121NN样 本将将左边式子中左边式子中的大写字母改的大写字母改为小写字母为小写字母返回总体指标值上面带符号“”的表示由样本得到的总体指标的估计如RPYY,称为RPYY,的估计估计量的方差用V表示,如);(YV标准差用S表示,如).()(YVYS对)(YV的样本估计不用)(YV而用)(Yv.)()()(表示的估计用YvYsYS称Nn为抽样比,记为f.返回2.2 简单估计量及其性质 无论调查对象是何种总体参数,其实所有估计无论调查对象是何种总体参数,其实所有估计量通常都是样本均值的某种线性组合,因此在抽样量通常都是样本均值的某种线性组合,因此在抽样中不管讨论何种估计的基本性质,都只围绕样本均中不管讨论何种估计的基本性质,都只围绕样本均值进行。

而对样本均值这个核心估计量的研究则分值进行而对样本均值这个核心估计量的研究则分为两个方面:为两个方面:一方面是求样本均值对所有可能样本的数学期望一方面是求样本均值对所有可能样本的数学期望 (检验估计量是否无偏)检验估计量是否无偏)另一方面是求样本均值对所有可能样本的方差另一方面是求样本均值对所有可能样本的方差 (检验估计量误差的大小)检验估计量误差的大小)返回 为了讨论简单估计的性质,首先我们来看两为了讨论简单估计的性质,首先我们来看两个引理:个引理:引理一 从大小为从大小为N的总体中抽取一个样本量的总体中抽取一个样本量为为n的简单随机样本,则总体中每个特定单元的的简单随机样本,则总体中每个特定单元的入样概率为:入样概率为:两个特定单元都入样的概率为:两个特定单元都入样的概率为:Nn1122NnNnCCnNnN返回NnCCnNnN/112222nNCCjY)1()1(/2222NNnnCCCnNnNnNCnNCiY引理一引理一的证明:在的证明:在N N个单元中取个单元中取n n个单元为样本,个单元为样本,共有共有 个样本在个样本在 个样本中,包含某个样本中,包含某个特定单元个特定单元 的样本数为:的样本数为:每个样本被每个样本被抽中的概率为:抽中的概率为:。

1111nNCCiY同时包含两个特定单元同时包含两个特定单元 的样本数为的样本数为 每个样本被抽中的概率为每个样本被抽中的概率为:返回 引理二 从总体规模为从总体规模为N N的总体中抽取一个样的总体中抽取一个样本量为本量为n的简单随机样本若对总体中的每个单的简单随机样本若对总体中的每个单元元 ,引进随机变量,引进随机变量 如下:如下:iYia),2,10,1NiYYaiii不入样(,若入样若由二项分布可知:由二项分布可知:返回1)1()1()1()()()(),cov()1()1()0()1()()()1()1()1()1(1(0)1()1(1)()1(01)(2222NfffNNnnaEaEaaEaaffNnfNnfaEaEaVNNnnNNnnNNnnaaEfNnNnaEjijijiiiijii)1()1(10,)1()1(110,1NNnnaaPNNnnaaPNnaPNnaPjijiii所以,不难推出:所以,不难推出:返回简单估计量的性质 u YyE)(是性质1Y的无偏估计,即y 下面我们用两种与数理统计中不同的方法下面我们用两种与数理统计中不同的方法来证明这一性质来证明这一性质思考思考:为什么不能用数理为什么不能用数理统计中常用的方法?统计中常用的方法?返回有了这些准备,我们很容易证明YyE)(YYNnnNnYnaEYnyEYanynyNiiNiiiNiiNiiinii111111)(1)(1)(11根据前面提到的关于根据前面提到的关于 的定义,有下式的定义,有下式ia返回 第二种方法证明 u YyE)(证明:对于一个大小为N的总体,样本量为n的简单随机样本有nNC个,因此返回NiiNnNnNnNnNiiCiinNnCinNYYNYCYCYCnnCYYYnCyyynCyEnnNnN11121111112111)(1)(1)(11)(21返回其他几个估计量的无偏性可容易推出:其他几个估计量的无偏性可容易推出:1、对于总体总量YYNyNEYEyNY)()(,2、对于总体比例PpEPEpP)()(,返回y性质2对于简单随机抽样,的方差为:式中,n为样本量;f=Nn为抽样比;1-f为有限总体校正系数。

V(y)=221SnfSNnnN(2.5)返回证明方法一证明方法一)1()1(1)(1111)(112)1(11)1(2)1(1),cov(2)(111)(2112211212212212211NiiNiiNiiNiiNjijiNiijNjiiNiijijNjiiiNiiNiiiniiYNNYNnfYNYNNnNfYYNYfNnnNfNnYYfNnYnaaYYaVYnYanVynVyV返回)1()()1(1)()1(1)1(1221122212fnSYYNnfYYNnfYNYNnfNiiNiiNii即21)(SnfyV返回 证明方法二:由定义212212)(1)1()()(YyEnYynEYyEyVniinii)(1)(12212YyYyEnYyEnjjiinii2121)()(YYNnYyEniinii而)()1()1()(YYYYNNnnYyYyEjjiijjii 返回 因此有)(1)(1)(2212YyYyEnYyEnyVjjiinii)()1()1(1)(12212YYYYNNnnnYYNnnjjiinii)()1()1(1)(1221YYYYNnnYYnNjjiiNii)(11)(112121YYNnYYNnNiiNii返回NiNiiiYYNnYYNnnN1122)(11)()111(121)(11YYNnNnNNii221)(111SnNnNYYNNnNnNii 21)(SnfyV即返回性质3 V(y)的无偏估计为:21snf2s式中,为样本方差。

)(yv212)(11yynsnii)()(11221YynYynnii证明:将 改写成:2s返回由前面性质1证明用过的对称论证法有:由性质2有:22121)1()()(SNNnYYNnYyENiinii2221)(SnNnNSnfYyE返回)()(11)(2212YynEYyEnsEnii)1(1122SnNnNnSNNnn22)()1()1(SnNNnnNS返回下面我们从关系式21)(SnfyV可以推出其他几个估计量的方差)1(111)()(1)()()(222PNPnnfpVPVSnfNyVNyNVYV返回 总体总量的估计量方差是总体均值方差的直接总体总量的估计量方差是总体均值方差的直接推导,下面我们来推导总体比例估计量的方差推导,下面我们来推导总体比例估计量的方差只需证明此时)111)1(111)(2PNPNSPNPNnfPV返回 设设N N个样本单元中有个样本单元中有N1N1个具有某一特个具有某一特性性,即有即有N1N1个单元取值为个单元取值为1,1,有有N-N1N-N1个单元个单元取值为取值为0.0.)()1(112112112NNNNNNNNSNNNNNNNNNNNN11111)(11)1(11PNPN返回同理对样本方差有)1(11pnpns)1(111)(PNPNnfPV因此返回)1(11)1(111)()(1)()(22ppnfpnpnnfpvPvsnfNyNvYv同样下面我们从关系式21)(snfyv可以推出返回估计量的方差是衡量估计量精度的度量。

)(yV 从式可以看出,影响估计量方差的因素有:21)(SnfyV样本量n;总体未入样比率1-f;2S 总体方差分析见教材P38,39返回 N N通常很大,当通常很大,当f0.05f0.05时,可将时,可将1-1-f f近似取为近似取为1 1,这时影响估计量方差的,这时影响估计量方差的主要因素是样本量主要因素是样本量n n和总体方差和总体方差 的大小是我们无法改变的,因此,要的大小是我们无法改变的,因此,要提高估计量的精度就只有加大样本量提高估计量的精度就只有加大样本量2S2S注 意返回【例2.3】我们从某个N=100的总体中抽出一个大小为n=10的简单随机样本,要估计总体平均水平并给出置信度95%的置信区间序号i1 2 3 4 5 6 7 8 9 104 5 2 0 4 6 6 15 0 8iy解:依题意,N=100,n=10,f=1.010010样本均值为:5105011niiyny返回样本方差为:111.199172)(11212yynsnii因此,总体平均值的估计为:5yYy的方差为:y的方标准差为:s.3115.1)()(YvY的置信度95%的置信区间为:)(.2YszyY即 2.4295,7.5705.72.1111.19101.0112snf)(Yv返回niiyny11,的无偏估计是Yy。

其方差为:V(22111)nsnNNy的无偏估计为)(yV21)(snyvu 放回简单随机抽样简单估计量返回 注意:不放回时的方差为放回时的约1-f倍,而1-f1,因此不放回抽样的估计精度比放回抽样的估计精度高返回【例2.4】我们从某个N=100的总体中抽出一个大小为n=10的简单随机样本,要估计总体总量并给出在置信度95%的条件下,估计量的相对误差序号i1 2 3 4 5 6 7 8 9 104 5 2 0 4 6 6 15 0 8iY解 依题意,N=100,由例2.3可知:1111.19,52sy,因此,对总体总量的估计为:Y=1005=500返回对V(Y)的样本估计为:17201111.19101.01100)(2Yv0其标准差为:1488.131)()(Yvys因此,在置信度95%的条件下(对应的t=1.96),Y的相对误差为:5141.05001488.13196.1)(YYst=51.41%返回【例2.5】解:已知 n=200,a=130,1-f1%65200130nap 某超市开张一段时间之后,为改进销售服务环境,欲调查附近几个小区居民到该超市购物的满意度该超市与附近几个小区居委会取得联系,在整体中按简单随机机样,抽取了一个大小为n=200人的样本。

调查发现对该超市购物环境表示满意或基本满意的居民有130位,要估计对该超市购物环境持肯定态度居民的比例,并在置信度95%条件下,给出估计的绝对误差和置信区间假定这时的抽样比可以忽略返回在置信度95%的条件下,估计的绝对误差为:%63.60338.096.1)(pstp的95%置信区间为:0.650338.096.10338.0)()(pvps001143.011)(pqnfpv返回2.3 比率估计量及其性质 用样本均值作为总体均值的简单估计量,具有用样本均值作为总体均值的简单估计量,具有无偏等很多优良性质,且完全不依赖其它总体信息无偏等很多优良性质,且完全不依赖其它总体信息但是,若我们有与调查变量相关的其它信息(通常但是,若我们有与调查变量相关的其它信息(通常称为辅助变量信息)可以利用,则估计的精度可以称为辅助变量信息)可以利用,则估计的精度可以大大提高这就是我们下面要讲的比率估计和回归大大提高这就是我们下面要讲的比率估计和回归估计一、估计的概念返回设设 主要变量为:主要变量为:Y Y 辅助变量为:辅助变量为:X X 两变量的比率为:两变量的比率为:XYXYR总体均值的比估计:总体均值的比估计:XRyYRR其中其中xyrR返回二、比率估计的特点及注意事项1 1、使用比估计首先要知道辅助变量的总体均值、使用比估计首先要知道辅助变量的总体均值(或总体总量),调查时,既要观测主要变量的(或总体总量),调查时,既要观测主要变量的值还要观测辅助变量的值;值还要观测辅助变量的值;2 2、辅助变量必须与主要变量高度相关且整体上、辅助变量必须与主要变量高度相关且整体上应相当稳定;应相当稳定;3 3、比估计虽然不是无偏的,但其精度要高于简、比估计虽然不是无偏的,但其精度要高于简单估计量很多。

单估计量很多下面我们看一个下面我们看一个简单估计简单估计与与比估计比估计对比的例题对比的例题返回【例】对以下假设的总体(N=6),用简单随机抽样抽取 n=2 的样本,比较简单随机抽样比率估计及简单估计的性质i123456均值XiYi011331151882910464.518解:对这个总体,我们列出所有可能的1526C个样本,以比较简单估计与比率估计的性质返回 i 样本简单估计()比率估计()1234567891011121314151,21,31,41,51,62,32,42,52,63,43,53,64,54,65,62.06.09.515.023.57.010.516.024.514.520.028.523.532.037.5181817.116.87521.1515.7515.751620.045516.312516.363619.730816.269219.218.75yRy返回由此,可以算出:18155.3762151)(151iiyyE86667.97)(151)(1512iiyEyyV68644.171575.181818151)(151iRiRyyE31356.01868644.17)()(YyEyBRR151282345.2)(151)(iRRiRyEyyV92177.2)31356.0(82345.2)()()(22RRRyByVyMSE返回总结1 1、从计算表格中可以看出,均值的比估计很稳定,、从计算表格中可以看出,均值的比估计很稳定,而均值的简单估计则波动剧烈。

而均值的简单估计则波动剧烈2 2、虽然比率估计是有偏估计,但偏倚不大,而估计、虽然比率估计是有偏估计,但偏倚不大,而估计量方差要比简单估计的方差小得多量方差要比简单估计的方差小得多3 3、比估计是一种很好的估计量,是提高估计精度的、比估计是一种很好的估计量,是提高估计精度的最有效的途径最有效的途径4 4、思考思考:比估计为什么能大幅度地提高估计精度?比估计为什么能大幅度地提高估计精度?返回对于简单随机抽样对于简单随机抽样,n,n较大时较大时,比率估计具有以下性质:比率估计具有以下性质:2122121)(111)()(111)()(1111)()()()()()(iNiiRiNiiRiNiiRRRXYNnfNYVRXYNnfyVRXYNnfXrVRVYYNRXNYEYRXyERrERE返回关于比率估计我们要说明(或证明)以下几个问题:1 1、均值的比率估计不是无偏的;、均值的比率估计不是无偏的;2 2、偏倚是怎么产生的;、偏倚是怎么产生的;3 3、均值比率估计的均方误差;、均值比率估计的均方误差;4 4、均方误差的估计均方误差的估计返回第一个问题可从上面的例题给予说明:31356.0)()(68644.17)(,18YyEyByEYRRR第二个问题我们可以从下面的表达式说明:XRXxyyR这里这里 是常量,是常量,是随机变量。

估计量不是是随机变量估计量不是随机变量的线性函数因此,估计量的偏倚是由随机变量的线性函数因此,估计量的偏倚是由R R的有偏性造成的的有偏性造成的.Xxy,返回第三个问题,我们来证明R估计的偏倚)1(1)(1 1)1(1)(1121XXxXXXxXXxXXXxXXxXxxxRyRxyRR,其中返回因此0)()()1(2XRYxRyEXXxxRyXxRyXXxXxRyRR由于因而偏倚主要来自于等式右边的第二项,由xyyxSSnfSnfXxYyEXxyE11)()(221)()(xSnfXxEXxxE返回因此,偏倚的主要项为:因此,偏倚的主要项为:)(1)()(1)(2xyxSSRSXnfXxxREXxyEXRRE同样我们可以推出:同样我们可以推出:212)(1111)()(iNiiRXYNnfXrVRV)2(12222yxxyRSSRSXnf返回21)(111)(iNiiRRXYNnfyV)2(1222yxxyRSSRSnf212)(111)(iNiiRRXYNnfNYV)2()1(2222yxxyRSSRSnfN返回对上述方差分别给出样本估计式如下:对上述方差分别给出样本估计式如下:)2(1)(2222yxxyrssrsXnfRv)2(1)()(2222yxxyRrssrsnfRvXyv)2(1)()(222222yxxyRrssrsnfNRvXNYv返回【例2.2】某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘,载重吨位154626吨。

从2860艘船舶中抽取一个n=10的简单随机样本,调查得到样本船舶调查月完成的货运量及其载重吨位如表(单位:吨),要推算该县船舶调查月完成的货运量返回 i i1234578015001005376600100505010206789102170182314501581370120150802050iyiyixix解:已知:N=2860,n=10,X=154626 由表可得,2.1123101101iiyy65101101iixx1012207.421179)(1101iiyyys返回1012211.2161)(1101iixxxs101222.23382)()(1101iiiyxyyxxs因此,对该县船舶在调查月完成货运量的比率估计为:2671937154626652.1123XxyYR方差的估计为:)2()1()(2222yxxyRsRsRsnfNYv=2.106171110返回RY标准差的估计为:458930)()(RRYvYs如果用简单估计对货运量进行估计,则,3212352yNY11221043303.3)1()(ysnfNYv585921)()(YvYs由此,得到比率估计量设计效应为:6135.0)()(YvYvdeffR对于本问题对于本问题,比率估计量比率估计量比简单估计量的效率高比简单估计量的效率高!返回【例2.3】在一项工资研究中,人们发现IT行业中,从业者的现薪与起薪之间相关系数高达0.88,已知某IT企业474名员工的平均起薪为17016.00元/年,现根据对100个按简单随机抽样方式选出的员工现薪的调查结果,估计该企业员工的现薪平均水平。

已知:.9.102802243,2014300,23.453189043,6.18642,5.3848222xxyysssxy返回【解】1、在简单估计条件下,4.357579523.453189043100474/10011)(5.384822snfyvyY的95%的近似置信区间为:Y8.42188,18.34776)(),(2/2/yvzyyvzy此处教材有误此处教材有误(P51)返回064.26.186425.38482xyR2、在比率估计条件下,44.470564)2(1)(8.3512417016064.2222xyxyRRsRsRsnfyvXRy的95%的近似置信区间为:Y35.36469,32.33780)(),(2/2/RRRRyvzyyvzy返回下面我们从理论上来比较简单估计与比率估计的误差下面我们从理论上来比较简单估计与比率估计的误差)2(1)(1)(2222xxyyRySRSSRSnfyVSnfyV比率估计量精度高于简单估计量的充要条件是:比率估计量精度高于简单估计量的充要条件是:yxyxxyxyxxyyRCCSRSSSRSRSnfSRSSRSnfyVyV2120201)2(10)()(222222返回也就是说,时,当yxyxCCSRS212比率估计比简单估计更为精确。

比率估计比简单估计更为精确尤其是当尤其是当 时,只要相关系数时,只要相关系数 ,比率估计就要优于简单估计比率估计就要优于简单估计yxCC 21比率估计的其他问题看教材比率估计的其他问题看教材P53P53返回2.4 回归估计量及其性质一、回归估计的定义对于简单随机抽样,总体均值Y和总体总量的回归估计量(regression estimatior)的定义为:Y)()(XxyxXyylrlryNY式中,xy,是样本均值;为事先设定的一个常数如果=0,则回归估计量就是简单估计量;如果,xy则回归估计量就是比率估计量返回二、为常数的情形当回归系数为事先给定的常数时,或以前为相同目的进行的调查所得到的iY对iX的样本回归系数稳定在某个数值上,取最近一次调查所得的作为设定值性质2 对于简单随机抽样回归估计量,作为Y及Y 的回归估计,lrlrYy及都是无偏的即,)(YyElr.)()(YyNEYElrlrlrlrYy和的方差分别为:返回)2(1)(02202yxxylrSSSnfyV)2()1()(022022yxxylrSSSnfNYV式中,yxxySSS,22分别是Y,X的总体方差和总体协方差;yxxysss,22分别是Y,X的样本方差和样本协方差。

)()(lrlrYVyV和的样本估计量为:)2(1)(02202yxxylrsssnfyv)2()1()(022022yxxylrsssnfNYv返回BSSSSnfdyVdxxyyxxlr202000)22(1)()2(1)(02202yxxylrSSSnfyV我们对上式两端关于我们对上式两端关于 求导数,得:求导数,得:0返回因此当因此当0取取总体回归系数总体回归系数NiiNiiixyxXXXXYYSSB1212)()()(lryV达到最小,即达到最小,即时,时,)1(1)(1)(22222minyxylrSnfSBSnfyV式式中中,为为iYiX总体相关系数总体相关系数返回三、为样本回归系数的情形如果需要通过样本来确定,很自然地,我们会想到用总体回归系数的最小二乘估计,也就是样本回归系数:niiniiixyxxxxxyyssb1212)()(这时简单随机抽样回归估计量)(xXbyylr是有偏的但当样本量n充分大时,估计量的偏倚趋于零因此,类似比率估计量,回归估计量也是渐近无偏的返回且有)1(1)()(22ylrlrSnfyVyMSE)(lryMSE的一个近似估计为:niiilrxxbyynnfyv12)()()2(1)()(21112222xyesbsnnnfsnf返回【例4.5】(续续P72P72的例的例4.2)4.2)利用回归估计量推算该县船舶利用回归估计量推算该县船舶调查月完成的货运量调查月完成的货运量.解:根据例根据例4.24.2中的计算结果可得样本回归系数中的计算结果可得样本回归系数:8195.1011.216122.233822xyxssb89.1004)652860154626(8195.102.1123)(xXbyylr从而从而返回因此,该县船舶调查月完成的货运量的回归估计为:287398289.10042860lryNY52.189218)(212222xyesbsnns为了估计 ,先计算回归残差方差:)(lrYV112221054232.152.189218)28601101(2860)1()(elrsnfNYv所以返回对于同一个题,我们来比较三种估计量的误差差异对于同一个题,我们来比较三种估计量的误差差异287398289.10042860lrlryNY112210542.1)1()(ylrsnfNYv2671937154626652.1123XxyYR11222210106.2)2()1()(yxxyRsRsRsnfNYv,3212352yNY11221043303.3)1()(ysnfNYv返回 与例与例4.24.2的结果比较,对于本问题回的结果比较,对于本问题回归估计优于比率估计,而比率估计又优于归估计优于比率估计,而比率估计又优于简单估计;简单估计;回归估计优于比率估计的原因是回归回归估计优于比率估计的原因是回归直线可以不通过原点。

直线可以不通过原点比较上述估计量的优劣,一般是通过比较上述估计量的优劣,一般是通过比较它们的均方误差或方差大小来进行比较它们的均方误差或方差大小来进行返回 关于简单估计、比率估计、回归估计的估计量方差比较简单估计量:21)(ySnfyV比率估计量:)2(1)(222yxxyRRSSRSnfyV回归估计量:)1(1)(22ylrSnfyV返回由此可以看出由此可以看出(在不考虑偏倚的情况下)有以下结论:有以下结论:2.比率估计量优于简单估计量的条件是:yxCC23.回归估计量优于比率估计量的条件是:0)(2yxSRS在不考虑偏倚时,回归估计总是优于比率估计在不考虑偏倚时,回归估计总是优于比率估计1.1.回归估计量总是优于简单估计量,除非回归估计量总是优于简单估计量,除非即一般而言有即一般而言有0)()(yVyVlr返回 如果不忽略偏倚,全面考虑比率估计和回归估计的均方误差MSE,那情况会怎么样呢?下面我们通过教材P61.表213的实际例题来分析比较略,看教材)返回2.4 简单随机抽样的实施一、样本量的确定原理 我们知道我们知道n n的大小会影响抽样误差,因为如果的大小会影响抽样误差,因为如果n n越接近越接近N N,则抽样误差就会越接近于零,这一点,则抽样误差就会越接近于零,这一点也清楚地体现在下面的式子里。

也清楚地体现在下面的式子里222)(11)11(1)(yyySyVNnSNnSnfyV三个因素决定三个因素决定 n n返回 在上式中,在上式中,N N是已知的,是已知的,S S是无法知道的,所以要考是无法知道的,所以要考考虑影响考虑影响n n的重点应该是抽样误差的重点应该是抽样误差习惯上,不以习惯上,不以 作为调查精度指标,而是用置信度作为调查精度指标,而是用置信度 和绝对误差限度和绝对误差限度 替代抽样误差替代抽样误差)(yV1dYy|)(yV1)()(|1|yVdyVYyPdYyP根据双侧分位点的定义有根据双侧分位点的定义有返回222/222/22/2/11.)()(1)(|ySzdNnzdyVyVdzzyVYyP或下面我们分别观察等式右端各部分对下面我们分别观察等式右端各部分对n n的影响返回0.900.950.991.6451.962.58 n1.191.73置信度对样本量n的影响12/z0n0n0n绝对误差限度d对样本量n的影响d0.140.100.040.03n4995566964这里这里25.0,95.01,100002ySN返回总体方差对样本量n的影响00.090.160.210.240.25n11362403133563702yS这里这里05.0,95.01,10000dN下面我们把置信度设为:下面我们把置信度设为:绝对误差设为:绝对误差设为:总体方差设为:总体方差设为:来观察总体规模来观察总体规模N N对样本量对样本量n n的影响的影响;95.01;05.0d25.02yS返回总体规模总体规模N样本容量样本容量n5044100795002171000278500035710000370100000383100000038410000000384 总体规模总体规模N对样本量对样本量n的影响的影响返回二、样本量的确定步骤第一步:确定委托单位认可的估计精度水平,包括绝对误差d和置信水平;第二步:按照保守原则(宁大勿小),实施对总体方差的预估;第三步:根据上述给定的估计精度和总体方差的预估值并考虑总体N的大小,以简单抽样及回答率100%为前提条件,按下面的式子计算初始样本量n222/2222/222/201/1yyySzNdSNzSzdNn返回第四步:确定抽样方法,并根据不同抽样方法的抽样确定抽样方法,并根据不同抽样方法的抽样效应效应deffdeff对样本容量进行调整:对样本容量进行调整:deffnn01)()(yVyVdeffsrs简单随机抽样的简单随机抽样的分层随机抽样的分层随机抽样的整群随机抽样的整群随机抽样的系统随机抽样的系统随机抽样的1deff1deff1deff1deff返回第五步:判定有效回答率,并根据有效回答率判定有效回答率,并根据有效回答率r r对对样本容量进行再调整样本容量进行再调整:rnn12第六步:为了获得分组数据,要考虑适当增加样本量;为了获得分组数据,要考虑适当增加样本量;第七步第七步:要考虑调查费用,适当调整样本量。

要考虑调查费用,适当调整样本量返回三、抽选方法首先将总体的N个单元从一到N编号,每个单元对应一个号,如果抽到某个号,则对应的那个单元入样要选出n个单元入样,通常有两种做法:抽签法和随机数法1、抽签法当总体不大时,可以用均匀同质的材料制作当总体不大时,可以用均匀同质的材料制作N N个签,将它们充分混合,然后一次抽取个签,将它们充分混合,然后一次抽取n n个签;个签;或一次抽取一个签,但不放回,接着抽下一个签或一次抽取一个签,但不放回,接着抽下一个签直到第直到第n n个签为止则这个签为止则这n n个签上所示号码表示入个签上所示号码表示入样的单元号样的单元号返回2、随机数法 (一一)随机数表随机数表 随机数表是由数字随机数表是由数字0 0,1 1,2 2,9 9组成的表,每个数字都组成的表,每个数字都有同样的机会被抽中,用随机数有同样的机会被抽中,用随机数表抽取简单随机样本,可用下面表抽取简单随机样本,可用下面两种方法:两种方法:返回 方法一 根据总体大小根据总体大小N N的位数确定在的位数确定在随机表中随机抽取几列如随机表中随机抽取几列如N=678N=678,要抽取要抽取n=5n=5的样本,则在随机数表中的样本,则在随机数表中随机抽取随机抽取3 3列,依次往下,选出头列,依次往下,选出头5 5个个001001678678之间互不相同的数。

之间互不相同的数返回方法二 若若N N的第一个数字小于的第一个数字小于5 5,且,且n n较大,较大,则方法一可能花费较多的时间如则方法一可能花费较多的时间如N=327N=327,按方法一则按方法一则328328999999的数都没有用,这时采的数都没有用,这时采用下面的方法可能更好:用下面的方法可能更好:在随机数表中随机抽取在随机数表中随机抽取3 3列,依次往下,列,依次往下,如果得到的随机数在如果得到的随机数在401401800800之间,则这个之间,则这个数减去数减去400400,由此,由此000000,大于,大于800800以及余数大以及余数大于于327327的数被扔掉的数被扔掉返回 (二)计算机产生的伪随机数计算机产生的伪随机数 利用软件中的随机函数可产 生所需要的随机数,这种方法产生随机数称为伪随机数,虽然方便,但并不能保证其随机性,因为这些伪随机数有循环周期,当然,我们希望产生的伪随机数循环周期越长越好在可能的条件下,建议还是利用随机数表来产生随机数返回本章作业本章作业(1 1)熟悉本章有关估计量性质的证明;)熟悉本章有关估计量性质的证明;(2 2)思考书后)思考书后P72.P72.习题习题2.22.2,习题,习题2.32.3;(3 3)在作业本上完成)在作业本上完成P72.P72.习题习题2.4;2.5;2.9;2.102.4;2.5;2.9;2.10(第二章结束)。

下载提示
相关文档
正为您匹配相似的精品文档