文档详情

心理统计与测量-强化班讲义(学生用)-肖震宇

沈***
实名认证
店铺
DOCX
498.71KB
约123页
文档ID:146752501
心理统计与测量-强化班讲义(学生用)-肖震宇_第1页
1/123

统考心理学专业—心理统计与测量目 录考情分析 3重难点解析 4第一部分 描述统计 4(一)统计图表 4(二)集中量数 5(三)差异量数 8(四)相对量数 9(五)相关量数 11第二部分 推断统计 19(一)推断统计的数学基础 19(二)参数估计 26(三)假设检验 29(四)方差分析 35(五)统计功效与效果量 43(六)回归分析 44(七)卡方检验 48(八)非参数检验 49(九)多元统计分析初步 52第三部分 心理测量的基本理论 59(一)心理测量的基础 59(二)经典测量理论 59(三)项目反应理论 67(四)概化理论 68第四部分 心理测验及其应用 70(一)心理测验的编制技术 70(二)心理测验的施测 72(三)测验常模 73(四)标准参照测验 74(五)常用心理测验 76(六)心理测验的应用 82总结 84考情分析1、历年考试分值分布情况 知识点2009年2010年2011年总计描述统计1317838推断统计2282353心理测量的基本理论1862953心理测验及其应用17910362、考试分析(1)从2007年心理学统考开始,2007~2010年,心理统计与测量的考点每年略有修订。

2011年,心理统计与测量考点有较大修订:在“推断统计”的“方差分析”部分,增加了“协方差分析”; 在“推断统计”的“回归分析”部分,增加了“可化为一元线性方程的曲线方程”;在“推断统计” 部分,增加了“统计功效与效果量”和“多元统计分析初步”;在“心理测验的应用”的“常用心理测验”部分增加了“发育量表”;调整了部分心理测量的章节安排2012年~2013年,在2011年考纲的基础上有些小修订由此可见,心理统计与测量的考点除了2011年有重大修订之外,基本比较稳定在难度上,心理统计与测量并非象大家想象的那样大面积失分,考虑到很多跨专业考生数理基础并不是很强,命题难度在中等水平在考试方法上,由于整张试卷题量较多,覆盖学科广泛,所以心理统计与测量很少有繁琐的推理或计算,主要以考察考生理论与概念的识记为主,具体计算为辅在考试形式上,大量的知识点放在试卷前部的客观题部分,主观题部分只涉及到重要的统计理论、统计方法或测量理论从考试题型来说,单选题、多选题、简答题、综合题均有涉及一般多选题有2题,简答题1题2)在考试内容上,凡是考纲上所列的考点基本都涉及到,心理统计的考点会有一些简单的计算,心理测量的考点多以理论概念为主,在与实验心理学结合的综合题上,则主要与心理统计的一些基本方法相结合。

从近几年的知识点考核情况来看,推断统计和心理测量的基本理论是历年考试的重点,特别是推断统计直接与实验心理学结合出综合题3)综上所述,心理统计与测量部分,要重视推断统计和心理测量的基本理论这两部分的知识点,特别是推断统计部分,必须熟练掌握基本的解题步骤和计算方法,与实验心理学的实验设计部分的相关知识点结合起来复习在2013年的试题中,这两部分也必然是考试的重点重难点解析第一部分 描述统计(一)统计图表1、统计图条形图(棒图):表示分类变量等离散性数据资料圆形图(饼图):表示分类变量等离散性数据资料直方图:表示等比或等距变量等连续性数据资料折线图:表示等比或等距变量等连续性数据资料茎叶图:将每一数字分解为左边部分(称为茎)和右边部分(称为叶). 如果数字是两位数, 左边的一位就是茎,右边的一位就是叶82 7 174 5 8 663 0 254 1 6 94332 6茎叶图兼具次数分布表和直方图的双重优点,又非常高的实用价值历年真题:用于描述两个变量之间相关关系的统计图是 (D)(2007,全国统考)A. 直方图 B. 线形图 C. 条形图 D. 散点图等距量表的特点是(B)(2007,全国统考)A. 无绝对零点,无相同单位 B. 无绝对零点,有相同单位C. 有绝对零点,无相同单位 D. 有绝对零点,有相同单位下列量表中,具有绝对零点的是(D)(2008,全国统考)A.称名量表    B.顺序量表    C.等距量表    D.比率量表教师的职称和薪水这两个变量的数据类型分别属于(D)(2009,全国统考)A.命名数据和等比数据 B.等距数据和等比数据 C.顺序数据和等距数据  D.顺序数据和等比数据2、统计表次数分布表简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编织成的统计表。

分组次数分布表:当数据量很大时,把所有数据先划分为若干组,将数据按数值大小划归到相应组别内,分别统计各组别中数据的个数,用列表形式呈现出来分组区间次数(f)累积次数频率(P)累积频率百分比(%)累积百分比(%)90-1005500.101.001010080-8920450.400.90409070-7915250.300.50305060-696100.120.20122050-59240.040.084840-49120.020.042430-39110.020.0222相对次数分布表:将次数分布表中各组的实际次数转化为频率比率(f/N)或百分比等项对此书来表示累积次数分布表:把各组次数由下而上或由上而下累加在一起双列次数分布表:又称相关次数分布表,把有联系的两列变量用同一个表表示其分布二)集中量数1、算术平均数简称平均数(average)或均数、均值(mean)表示:μ、M、、计算:例:有一组数据如下,计算它们的平均数:34,36,29,33,34,30解:=(34+36+29+33+34+30)/6=32.672、中数又称中点数、中位数、中值数据排序后,中数刚好把数据的数目分成两半。

表示:Md或Mdn计算:先将数据排序1)数据个数为奇数:中间位置(第位置)的数就是中数例:有一组数据如下,计算它们的中数:29,30,33,34,36解:Md = 332)数据个数为偶数:位于中间的两个数的均值(第和位置数据的均值)就是中数例:有一组数据如下,计算它们的中数:29,30,33,34,35,36解:Md = 33.53)数据中间有数值相等的几个数:将中间重复的数看作连续体,利用中间分数的精确上下限进行插值例:有一组数据如下,计算它们的中数:12,13,13,14,15,15,15,15,15,16解:12,13,13,14,15,15,15,15,15,16累积百分比中,第一个“15”的位置:40%,最后一个“15”的位置:90%15的精确上下限:14.5,15.515.5 – Md = 0.8,Md = 14.73、众数又称范数、密集数、通常数在次数分布中出现次数最多的数值表示:Mo计算:找在次数分布中出现次数最多的数值例:有一组数据如下,计算它们的众数:34,36,29,33,34,30解:Mo = 34平均数、中数、众数三者的关系:三者在偏态分布中:平均数永远在尾端,中数永远在中间。

对称分布正偏态分布 负偏态分布 历年真题:现有一列数据,他们是4、4、5、3、5、5、2.这列数据的平均数、众数和全距依次是(B)(2007,全国统考)A. 4, 4, 2 B. 4, 5, 3 C. 5, 4, 4 D. 5, 5, 1有一组数据:3,6,2,7,32,4,8,6,5要描述这组数据的特征,受极端数据值影响的统计量是(A)(2008,全国统考)A. 平均数    B.中数    C.四分位数    D.众数数据2、5、9、11、8、9、10、13、10、24中位数是( D)(2012,全国统考)A. 8.0 B. 8.5 C. 9.0 D. 9.5一组数据的分布曲线呈双峰状态,据此可以推测该组数据中可能有两个( B )(2012,全国统考)A. 中数 B. 众数 C. 平均数 D. 几何平均数(三)差异量数1、离差与平均差离差(deviation):一组数据中,某个数据到均值的距离计算:离差 = X - 例:统计考试平均分85,某同学考了80,则离差 = 80 – 85 = -5离差的缺点:一组数据中所有数据点的离差和必为0无法反映一组数据的离中趋势。

平均差(average deviation或mean deviation):一组数据中,所有数据点到均值的离差的绝对值的平均值符号:A.D.或M.D.计算:A.D. = 例:30,32,34,35,29的平均差解:n = 5, = 32A.D. = (|30-32|+|32-32|+|34-32|+|35-32|+|29-32|)/5 = (2+0+2+3+3)/5 = 2平均差的缺点:有绝对值,不利于进一步分析2、方差与标准差和方(SS):离差的平方和计算:SS = 另一种计算公式:SS = 方差:也称为变异数、均方总体方差用σ2表示,样本方差用s2表示标准差:方差的平方根总体标准差用σ表示,样本标准差用s表示计算:σ2 = ,σ = s2 = ,s = 注:总体的方差和样本的方差计算上有不同原因:样本比其所属的总体变异性少,方差、标准差的计算需要校正n-1是样本的自由度,利用自由度来校正样本,可以得到对总体参数的无偏差估计自由度的概念:给定参数后可以自由变化的数值的个数例:样本均值=4,样本个数n=5,其中4个数是5, 4, 6, 2,则第5个数必为3,不可能自由变化例:已知样本5,4,6,2,3,求样本均值、方差、标准差解:=(5 + 4 + 6 + 2 + 3)/ 5 = 4SS = (5 - 4)2 + (4 - 4)2 + (6 - 4)2 + (2 - 4)2 + (3 - 4)2 = 1 + 0 + 4 + 4 + 1 = 10或SS = 52 + 42 + 62 + 22 + 32 – (5 + 4 + 6 +2 + 3) 2 / 5 = 25 + 16 + 36 + 4 + 9 - 202 / 5 = 90 – 400 / 5 = 90 – 80 = 10s2 = = 10 / (5-1) = 2.5,s = = 1.58(注:一般计算过程中保留3位小数,答案保留2位小数。

3、变异系数变异系数(CV):又称差异系数、相对标准差,是标准差对平均数之百分比计算:CV = *100%历年真题:描述数据离中趋势的统计量有(A、B、C、D)(2007,全国统考)A. 方差 B. 标准差 C. 平均差 D. 四分位差一组数据的平均数是100,标准差是25,这组数据的变异系数是(B)(2008,全国统考)A.4%    B.25%    C.4    D.25一组数据中每个数值都是5,那么这组数据的标准差和方差分别是(A)(2009,全国统考)A.0,0    B.5,25    C.0,5    D.0,25在一组正态分布的数据中,去掉两端极值后,一定不会受到影响的统计特征是(D)(2009,全国统考)A. 全距    B.平均值    C.标准差    D.众数要把标准差转化为方差,研究工作者要完成的工作是(D)(2010,全国统考)A. 计算标准差的平方根 B. 用样本n除以标准差 C.用1/Z除以标准差 D.计算标准差的平方某中学初一、初二的学生接受同一个测验,初一学生平均分为65分,标准差为5,初二学生平均分为80分,标准差为6结论正确的是 ( B ) (2011,全国统考)  A.初一分数比初二分数离散程度大   B.初二分数比初一分数离散程度大  C.两个年级的分数离散程度无法比较  D.两个年级的分数离散程度一样大(四)相对量数1、百分位数百分位数:又叫百分位点,指量尺上的一个点,在此点以下,包含了数据分布中一定百分比的数据个数。

例:某次考试成绩中,某班级的P90 = 88.5,则表明小于等于88.5分的学生在该班中占了90%2、百分等级百分等级:百分位数的逆运算,指任意分数在整个分布中所处的百分位置例:某次考试成绩中,某班级某学生的P88.5 = 90,则表明该学生的成绩比全班90%的人要好,比10%的人要差历年真题:某考生在一项测验中得分60,经换算百分等级为70,这表明在所有考生中,得分低于该考生的人数占总人数的 (D) (2007,全国统考)A. 30% B. 40% C. 60% D. 70%要比较几个不同性质的测验分数,最恰当的是比较 (C) (2009,全国统考)A. 原始分数 B. 众数 C. 百分等级 D. 平均数小明在一次由50人参加的英语测验中得了80分,排名第8,其百分等级为( C )(2012,全国统考)A. 160 B. 80 C. 85 D. 883、标准分数标准分数:又称z分数或基分数,以标准差为单位,表示一个原始分数在团体中所处位置的相对量数计算:z = = 例:某人在某心理测验中标准分数z = 0.5,该测验均值= 16,标准差s = 8,问其测验原始分是多少?解:0.5 = (X - 16) / 8,X = 0.5 * 8 + 16 = 20。

历年真题:已知某次学业成就测验的平均分数是80,标准差为4.如果某考生得分为92,则该分数转换为标准分后是(C)(2007,全国统考)A. 1 B. 2 C. 3 D. 4在某次考试中,小明的语文、数学成绩均为80,英语成绩为75已知全班三科平均成绩都为65,语文标准差为10,数学标准差为15,英语标准差为5小明三科的成绩按照标准分由大到小进行排序的结果是(C)(2008,全国统考)A.语文、数学、英语    B.英语、数学、语文C.英语、语文、数学    D.语文、英语、数学要把标准差转化为方差,研究工作者要完成的工作是(D)(2010,全国统考)A.计算标准差的平方根 B. 用样本n除以标准差 C.用1/Z除以标准差 D.计算标准差的平方某中学初一、初二的学生接受同一个测验,初一学生平均分为65分,标准差为5,初二学生平均分为80分,标准差为6结论正确的是 ( B ) (2011,全国统考)  A.初一分数比初二分数离散程度大   B.初二分数比初一分数离散程度大  C.两个年级的分数离散程度无法比较  D.两个年级的分数离散程度一样大(五)相关量数双变量之间的因果关系,共变关系,相关关系。

相关关系:两个变量之间发展的方向和大小存在一定的关系,但不能确定何者为因,何者为果,也不知道两者是否受某个其他因素的共同影响散点图通过点的散布形状和密度来显示两个变量的相关趋势和相关程度相关类别:线性相关,非线性相关正相关,负相关,零相关(无相关)r = 0r = 0r=-1r=10

计算前提:等级变量或非正态连续变量,可以非线性成对计算:r = , D:同一个体的X和Y各自排序后等级的差注:该公式只适用于没有重复等级或只有很少重复等级的情况X1 = 1 2 3 4 5 6 ΣX1 = 21 ΣX1 = 91X2 = 1 2.5 2.5 4 5 6 ΣX 2 = 21 ΣX 2 = 90.5例:上一例的数据,计算用于准备考试的时间和考试时答错的题目数之间的等级相关系数解:XYX的等级Y的等级DD245550001216-525232.52.500232.52.500314139646424Σ38r = = 1- (6 * 38) / (6 * (36 - 1)) = 1 – 228 / 210 = -0.093、肯德尔等级相关两列等级变量:交错系数(τ),相容系数(ξ)多列等级变量:和谐系数(W),一致性系数(U)肯德尔和谐系数:K个评定者对n个事物进行等级评定,考察K个评定者之间的评分一致性原理:被评价事物等级和的实际变异 / 被评价事物等级和的最大变异肯德尔和谐系数W的计算:W = Ri:每个被评价事物获得的K个等级之和n:被评价事物的个数K:评定者人数例:4位评定者对6名候选人的等级评定如下候选人张王李赵刘胡评定者A431256B532146C412356D641235Ri1911681723Ri23611213664289529ΣRi = 84ΣRi2 = 1400K =4n = 6W = = = 0.80W的特点:0 ≤ W ≤ 1,评价完全不一致时为0,完全一致时为1。

肯德尔一致性系数:K个评定者对n个事物采用对偶比较法进行优劣评定,考察K个评定者之间的评分一致性肯德尔一致性系数U的计算:U = rij:对偶比较记录表中i > j(或j > i)格中的择优分数,每次比较优者为1,劣者为0,不确定为0.5,然后把该事物每次比较获得的择优分数加总n:被评价事物的个数K:评定者人数例:10个人对7种颜色的偏好比较红橙黄绿青蓝紫红橙0黄18绿101010青41070蓝81010510紫052010Σrij = 111Σrij 2 = 949K = 10n = 7U = = (8 * (949 – 10 * 111)) / (7 * 6 * 10 * 9) +1 = 0.66U的特点:评价完全一致时为1评价完全不一致时,U = - 1/K(K是奇数),U = - 1 / (K -1)(K是偶数)一致性系数U的正负号并不表示相一致的方向历年真题:(浙大2002)由8名评价者对10种颜色进行喜爱程度的等级评定,若用肯德尔W系数衡量评定结果的一致性,则当评价结果完全一致时,W系数的值应等于______,而当评价结果完全不一致时,W系数的值应为________4、点二列相关与二列相关点二列相关:一列数据是正态等比或等距变量,另一列变量是二分命名变量(0、1变量,没有正态要求),考察两者之间的相关关系。

点二列相关系数(rpb)计算:rpb = p:二分变量中一个值(1)的比例q:二分变量中另一个值(0)的比例:与二分变量中一个值(1)对应的连续变量的平均数:与二分变量中另一个值(0)对应的连续变量的平均数sx:连续变量中所有数据的标准差例:男(1)、女(0)对性开放的态度性别态度值(X)X2110100052519810525186404161864186404161749Σ68504p = 6 /10 = 0.6q = 4 / 10 = 0.4SSX = = 504 – 682 /10 = 41.6sx = = = 2.040= (10 + 9 + 8 + 8 + 8 + 7) / 6 = 8.333= (5 + 5 + 4 + 4) / 4 = 4.5rpb = == 0.92二列相关:一列数据是正态等比或等距变量,另一列变量是人为划分的二分命名变量(原来分布是正态,人为划分成0、1分布),考察两者之间的相关关系二列相关系数(rb)计算:rb = = = p:二分变量中一个值(1)的比例q:二分变量中另一个值(0)的比例:与二分变量中一个值(1)对应的连续变量的平均数:与二分变量中另一个值(0)对应的连续变量的平均数:连续变量中所有数据的平均数y:标准正态曲线中p或q值所对应的高度,查表得sx:连续变量中所有数据的标准差5、φ相关φ相关:两个变量都是0、1二分变量,考察两个变量之间的相关关系。

四格表:A因素A非AB因素Ba(次数)b(次数)a+b非Bc(次数)d(次数)c+da+cb+dφ相关系数(rφ)计算:rφ = 例:20名死亡者中,吸烟与癌症关系吸烟状况X:0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1(10人吸烟,10人不吸)死亡原因Y:0 1 0 0 1 0 0 0 1 1 0 1 1 1 1 0 1 1 1 0(9人癌症,11人其他死因)癌症(0)其他(1)吸烟者(0)6410非吸烟者(1)3710911rφ = = = 0.30历年真题:一项研究调查了不同性别的成年人对在公众场合吸烟的态度,结果如表所示那么,性别与对待吸烟的态度之间的相关系数是(B)(2008,全国统考)A.0.12   B.0.32    C.0.48    D.0.54性别 态度赞成反对男1510女1026对于具有线性关系的两列正态分布的连续变量,计算它们相关系数最恰当的公式是是(D)(2008,全国统考)A.    B.  C.D.已知r1=-0.7,r2=0.7下列表述正确的是 (C ) (2011,全国统考)  A.r1和r2代表的意义相同 B.r2代表的相关程度高于r1C.r1和r2代表的相关程度相同 D.r1和r2的散点图相同散点图的形状为一条直线,前两个变量方差均不为零,他们之间的相关系数可能为(A D)(2010,全国统考)A.1 B.0.5 C.0 D.-1两列变量是等距或等比变量,且服从正态分布,计算相关系数最恰当的方法是( A )(2012,全国统考)A. 积差相关B. 等级相关 C. 点二列相关 D. 双列相关如何选取合适的相关系数?两列变量都是正态连续变量且有线性关系:积差相关(Pearson相关)两列变量有一列是等级变量或非正态连续变量:等级相关(Spearman相关)一列变量是连续正态变量,另一列变量是非正态二分命名变量:点二列相关一列变量是连续正态变量,另一列变量是正态二分命名变量: 二列相关多列等级变量:肯德尔等级相关第二部分 推断统计(一)推断统计的数学基础1、概率概率:又称或然性、几率,是表明随机事件出现可能性的客观指标。

后验概率、先验概率概率的基本性质:公理1:任何一个随机事件A的概率都是非负的公理2:在一定条件下必然发生的事件,即必然事件的概率为1公理3:在一定条件下必然不发生的事件,即不可能事件的概率为00 ≤ P(A) ≤ 1加法定理:两个互不相容事件A、B之和的概率,等于两个互不相容事件概率之和P(A + B) = P(A) + P(B)乘法定理:两个独立事件同时发生的概率,等于两个独立事件各自发生概率的乘积P(A·B) = P(A)·P(B)例:5个人抽1个奖,先抽后抽有没有区别?解:第一个人的概率:1/5第二个人:4/5 * 1/4 = 1/5第三个人:4/5 * 3/4 * 1/3 = 1/5第四个人:4/5 * 3/4 * 2/3 * 1/2 = 1/5第五个人:4/5 * * 3/4 * 2/3 * 1/2 * 1/1 =1/5所以先抽后抽没有区别概率分布:对随机变量取值的概率情况用数学函数进行描述离散分布:随机变量只取孤立的数值二项分布、泊松分布、超几何分布等连续分布:随机变量是连续范围中的数值正态分布、指数分布、威布尔分布(Welbull distribution)等经验分布:根据观测获得的数据得出的次数分布或相对频率分布。

理论分布:数学模型或通过数学模型计算出的总体次数分布基本随机变量分布:二项分布、正态分布抽样分布:样本统计量的理论分布2、正态分布正态分布:又称高斯分布、常态分布、常态分配正态分布函数:y = 正态分布的曲线:特点:钟型对称曲线,对称轴是平均数,拐点在1个标准差处;两端无限延伸下降,但永不与横轴相交;曲线下面积为1;标准正态分布:μ = 0,σ2 = 1几个重要的Z值:Z0.05/2 = 1.96,Z0.01/2 = 2.58,Z0.05 = 1.65,Z0.01 = 2. 33例:已知SAT考试的m = 500, s =100,问考试成绩在300到650分之间的概率是多少?解:将分数范围转化为标准分数(Z分数)Z1 = (300 - 500) /100 = -2.0Z2 = (650 - 500) / 100 = 1.5查表看Z分数的概率:P(Z1) = 0.0228P(Z2) = 0.9332计算Z1、Z2之间的概率P(Z1 < Z < Z2) = 0.9332 - 0.0228 = 0.9104历年真题:在标准正态分布曲线下,正、负1个标准差范围内的面积占曲线下总面积的(D)(2007,全国统考)A. 25.00% B. 34.13% C. 50.00% D. 68.26%一组服从正态分布的数据,平均数为50,标准差为5,则Z值为-2.58的原始数据是( A)(2008,全国统考)A.37.10    B.42.42    C.47.42    D.62.90简述正态分布与标准正态分布的区别与联系。

2008,全国统考)区别:正态分布的平均数为μ,标准差为σ;不同的正态分布可能有不同的μ值和d值,正态分布曲线形态因此不同标准正态分布平均数μ=0,标准差σ=1,μ和σ都是固定值;标准正态分布曲线形态固定联系:正态分布可以通过标准化处理,转化为标准正态分布具体方法是使用 将原始数据转化为标准分数甲、丙两图表示的数据分布形态分别是(A)(2010,全国统考)A.正偏态和负偏态分布 B. 正偏态和正态分布 C. 负偏态和正态分布 D.负偏态和正偏态分布不正确的是(D)(2010,全国统考)A.平均数、众数、中数相等 B.图形围绕平均数左右对称 C.图形中曲线横轴之间面积为1 D.标准差的变化不影响该图形的形态一组服从正态分布的分数,平均数是27,方差是9将这组数据转化为Z分数后,Z分数的标准差为( B ) (2011,全国统考)  A.0  B.1  C.3  D.93、二项分布二项分布:又称伯努利分布,实验仅有两种不同性质结果的概率分布定义:设有n次实验,各实验相互独立,每次实验某事件发生概率为p,不发生概率为q(1 - p),则某事件发生X次的概率分布为b(x, n, p) = 其中Cnx = 二项分布性质:p = q时,分布对称p ≠ q时,分布偏态,但是随着n的增大,偏态逐渐降低。

当p < q且np ≥ 5时,二项分布接近正态分布二项分布的平均数、标准差:μ = np,σ = ,n为独立试验的次数,p为某事件发生的概率,q = 1 – p,某事件不发生的概率例:一个48道题的多项选择题测验, 只有4种可能的答案. 你全凭猜测作答. 猜对14 道题的概率是多少?解:p = 1/4 = 0.25,q = 3/4 = 0.75,np = 48 * 0.25 = 12 ≥ 5μ = np = 12,σ = === 3Z1 = (13.5 - 12) / 3 = 0.5Z2 = (14.5 - 12) / 3 = 0.83查表看Z分数的概率:P(Z1) = 0.3085P(Z2) = 0.2033计算Z1、Z2之间的概率P(Z1 < Z < Z2) = 0.3085 - 0.2033 = 0.1052二项分布应用:解决猜测导致的机遇问题历年真题:若变量服从二项分布,即X~B(200,1/2),则该分布的数学期望为________,总体方差为________浙大2002)4、t分布t分布:又称学生氏分布特点:左右对称,峰态比较高狭均值为0,方差大于1样本容量趋于无穷时,t分布为标准正态分布(均值为0,方差为1)t0.05/2(30) = 2.042,Z0.05/2 = 1.96总体分布为正态,标准差σ未知,样本平均数分布为t分布。

总体分布非正态,标准差σ未知,当样本足够大(n ≥ 30),样本平均数分布接近t分布样本平均数分布的平均数= μ样本平均数分布的标准误=,注:s为样本标准差,自由度为n-1历年真题:当t分布中的自由度趋向于无穷大时,t变量趋向于________分布浙大2002)下列关于t分布的表述,错误的是( C ) (2011,全国统考)A.对称分布 B.随着n的大小而变化的一簇曲线C.自由度较小时,t分布是均匀分布D.自由度越大,t分布越接近标准正态分布5、F分布χ2分布χ2分布:正态总体中,随机抽取n个Xi,它们的平方和的分布即为χ2分布总体:χ2 = ,样本:χ2 = =特点:正偏态,没有负值具有可加性,χ2分布的和也是χ2分布,自由度为各自由度之和df增加,峰态平缓,自由度趋于无穷时,χ2分布为正态分布应用:样本方差和总体方差差异是否显著,顺序型、命名型变量的显著型检验,两个顺序型、命名型变量的相关检验F分布F分布:两个正态总体,每个样本中随机抽取容量为n1、n2的样本,每个样本都可以得到相应的χ2和df,每个χ2除以对应的df后的比值,就是F值F(df1, df2) = F分布的曲线:特点:正偏态,没有负值df1,df2增加,F分布趋于正态分布分子自由度为1时,F值等于与分母自由度相同的t值的平方F0.05(1, 20) = 4.35 = t0.05/2(20)2应用:检验两个样本方差的显著性下列关于χ2分布的表述,正确的是(B)(2009,全国统考)A. χ2取值永远不会大于0 B. 其均值等于其自由度C.随着自由度的增大,χ2分布趋于正偏态 D. 多个标准正态分布变量的线性组合所得的新变量符合χ2分布下列关于χ2分布的特点描述,正确的有( AB )(2012,全国统考)  A.χ2取值均为正值    B.χ2分布是正偏态分布  C.χ2分布为非连续性分布 D.χ2分布的标准差与自由度相同6、样本平均数分布样本分布:实际研究中,往往无法对总体分布进行直接考察,从这个总体中抽取出部分个体组成样本进行考察,抽取出来的样本的分数就形成了样本分布。

抽样分布:从统一总体中可以抽取出很多样本总体中所有可能抽取的特定容量的统计量(平均数、标准差等)所形成的分布就是抽样分布总体分布、样本分布、抽样分布的区别:总体分布、样本分布是原始分数的集合,抽样分布是参数或统计量的集合例:北京人口普查,每个家庭的成员人数:总体分布北京随机抽取3000个家庭,每个家庭的成员人数:样本分布北京取样100次,每次随机抽取30个家庭,100次抽样的30个家庭成员人数的均值:取样分布从同一总体取n次不同样本,每一个都不同形状、不同均值、不同方差,所有这些可能的样本会组成一个简单,有序,可预测的模式 (样本分布)因为统计量是由样本得来,所以统计量的分布可以代表样本的分布样本均值分布:总体中可抽取的所有可能的特定容量(n)的随机样本的集合的样本均值正态分布和接近正态分布样本平均数分布:总体分布为正态,标准差σ已知,样本平均数分布为正态分布总体分布非正态,标准差σ已知,当样本足够大(n ≥ 30),样本平均数分布接近正态分布样本平均数分布的平均数、标准差和总体平均数、标准差的关系:大数定律:样本容量(n)越大,样本越能准确地代表总体中心极限定律:对于任何均值为μ,标准差为σ的总体, 样本容量为n的样本均值的分布,随着n趋近无穷大时,会趋近均值为μ,标准差为的正态分布样本平均数分布的平均数= μ样本平均数分布的标准差=(标准误)标准误(SE):到μ的距离。

SE = =,σ:总体标准差,n:样本容量样本平均数的平均数和总体平均数一样,样本平均数的标准误和总体标准差成正比,和样本容量的平方根成反比标准误的应用:抽样时样本大小的选取n = ,d:最大允许误差例:调查北京每个家庭每月花多少钱在食物上,误差不超过10元,有95%可信度,根据以前调查,σ为200元,问至少要调查多少户家庭?解:n = = (1.96 * 200 / 10)2 = 1536.64,至少要调查1537户家庭样本方差、标准差的分布:样本标准差的平均数和总体标准差一样,样本标准差的标准误和总体标准差成正比,和样本容量的平方根成反比样本标准差分布的平均数= σ样本标准差分布的标准误=一般方差、标准差的统计多用精确分布(χ2)总体服从正态分布且方差已知时,其样本平均数的分布是(D)(2010,全国统考)A.χ2分布 B.t分布 C. f分布 D.正态分布7、抽样原理与抽样方法抽样的意义:节省人力物力,节省时间提高效率,保证研究结果的准确抽样的基本原理:随机化在进行抽样时,总体中每一个体是否被抽取,不是由研究者主观决定,而是遵循概率抽样方法:简单随机抽样:抽取时,总体中每个个体具有独立的、等概率的抽取可能性。

抽签法,随机数字法等距抽样:又称系统抽样、机械抽样将以编号的个体排序,每隔若干个抽取一个分层随机抽样:简称分层抽样按照总体已有的某些特征,将总体分成几个不同的部分(层),再分别在每一层中随机抽样分层原则:各层内变异要小,层间变异要大,各层人数不一定要相等按各层人数的比例分配:人数多的层多分配,人数少的层少分配设总体人数为N,某层人数为Ni,总抽样数为n,该层抽样数为ni,则ni = n·Ni / N最佳分配:标准差大的层多分配,标准差小的层少分配先在各层抽一个小样本计算样本标准差si,则ni = n·(Ni·si) / (ΣNi·si)两阶段随机抽样:第一阶段先随机抽取较大的群体,第二阶段在第一阶段抽取出来的群体中随机抽取个体注意,与分层抽样的异同历年真题:名词解释:机械抽样(华东师大2002),分层随机抽样(浙大2003)简答:抽样调查要想得到比较准确的结果,需要控制哪些技术环节?(北师大2003)抽样的基本原则是(A)(2008,全国统考)A.随机化原则    B.标准化原则    C.概括化原则   D.等距化原则关于分层随机抽样的特点,表述正确的是( C ) (2011,全国统考)  A.总体中的个体被抽取的概率相同  B.所有被试在一个层内抽取C.层间异质,层内同质  D.层间变异小于层内变异下列关于样本量的描述,正确的是(  D ) (2011,全国统考)  A.样本量需要等于或大于总体的30% B.样本量大小不是产生误差的原因  C.总体差异越大,所需样本量就越小  D.已知置信区间和置信水平可以计算出样本量用简单随机抽样方法抽取样本,如果要使抽样标准误降低50%,则样本容量需扩大倍数为( B )(2012,全国统考)A. 2 B. 4 C. 5 D. 8(二)参数估计总体参数估计:从样本获得一组数据,如何通过样本信息对总体特征进行估计,也就是用样本来推论总体。

1、点估计、区间估计与标准误点估计:用样本统计量来估计总体参数,估计的结果也以一个点的数值来表示优点:提供总体参数的估计值缺点:不能说明估计的精度和把握程度良好估计量的标准:无偏性:用多个样本的统计量作为总体参数的估计值,其偏差的平均数是0有效性:有多个无偏估计量时,变异小的有效性高,即方差越小越好一致性:样本容量增大时,估计值应该能够越来越趋近总体参数充分性:估计值是否充分反映了样本内所有数据所反映的总体信息例:点估计的要求:________、________和一致性(北大2005)区间估计:根据估计量以一定可靠程度推断总体参数所在的区间范围,虽然不能指出某个具体的数值点,但是能指出总体参数落入该区间的概率置信区间:也称置信间距,指在某个置信度时,总体参数所在的区域距离或长度置信界限:置信区间上下两个端点的值显著性水平(α):估计总体参数落在某一区间时,可能犯错误的概率置信度:也称置信水平:1-α区间估计的原理:根据样本分布理论,用样本分布的标准误(SE)计算区间长度,解释总体参数落入某置信区间可能的概率估计范围的大小和估计概率的大小是一对矛盾,在保证置信度的前提下,尽可能提高精确度。

标准误2、总体平均数的估计对样本均值的平均数的估计è对总体平均数的估计估计总体平均数步骤:a. 根据样本数据,计算出样本的均值和标准差sb. 计算标准误总体方差已知:=总体方差未知:==c. 确定置信水平或显著性水平显著性水平0.05,即置信水平0.95d. 根据样本平均数的分布,确定统计量的关键值总体方差已知:查正态分布表,得Zα/2总体方差未知:查t分布表,得tα/2(df)e. 计算置信区间总体方差已知:置信区间 = ± Zα/2总体方差未知:置信区间 = ± tα/2(df) f. 解释总体平均数的置信区间估计总体平均数落入该区间的正确可能性概率为1-α,犯错误的可能性为α历年真题:一个儿童参加斯坦福—比纳智力测验,得到智商分为111,请问如以95%可靠度要求,其置信区间在哪一段分数内? (华东师大,2002)解:= 111,σ = 16,== 16 / 1 =16Z0.05/2 = 1.96置信区间 = 111 ± 1.96 * 16 = 111 ± 31.36所以置信区间为[79.64,142.36]某次测验的标准误为2,被试甲在此测验中得分为80,则其真实水平99%的置信区间为(B)(2007,全国统考)A. [74.24, 85.76] B. [74.84, 85.16] C. [76.64, 83.36] D. [76.04, 83.96]在某学校的一次考试中,已知全体学生的成绩服从正态分布,其总方差为100。

从中抽取25名学生,其平均成绩为80,方差为64以99%的置信度估计该学校全体学生成绩均值的置信区间是( D) (2011,全国统考)  A.[76.08,83.92] B.[75.90,84.10]  C.[76.86,83.14] D.[74.84,85.16]随机抽取一个样本容量为100的样本,其均值 平均值=80,标准差S=10,所属总体均值μ的95%的置信区间为( A ) (2012,全国统考)  A. [78.04,81.96] B. [60.40,99.60] C. [76.08,83.92] D. [79.80,80.20]3、标准差与方差的区间估计标准差的区间估计:当n ≥ 30的时候,样本标准差接近正态分布样本标准差分布的平均数= σ样本标准差分布的标准误=例:一随机样本,n = 31,s = 5,问该样本总体标准差的0.95置信区间解:= 5,== = 0.635Z0.05/2 = 1.96,置信区间 = 5 ± 1.96 * 0.635 = 5 ± 1.245所以置信区间为[3.76,6.24]总体标准差在3.76~6.24之间,作此推论正确的可能性为95%,错误的可能性为5%方差的区间估计:χ2 =, ≤ σ2 ≤例:已知某测验分数样本n = 10,s2 = 0.286,问该测验分数总体方差的0.95置信区间是多少?解:查χ2表,df = 9时,χ20.05/2 = 19,χ21-0.05/2 = 2.7≤ σ2 ≤,0.135 ≤ σ2 ≤ 0.95总体方差在0.135~0.95之间,作此推论正确的可能性为95%,错误的可能性为5%标准差的区间估计:将方差的区间估计开平方,取正平方根即可。

例:上题的总体标准差在0.37~0.97之间,作此推论正确的可能性为95%,错误的可能性为5%(三)假设检验假设检验:通过样本统计量得出的差异做出一般性结论,判断总体参数之间是否存在差异1、假设检验的原理H1:研究假设,又称科学假设、被择假设、对立假设,是根据已有理论或经验事先对研究结果作出一种预想的,希望被证实的假设H0:虚无假设,又称零假设、无差假设、原假设,是和研究假设相对立的假设通过推翻虚无假设的“反证法”,来证明研究假设假设检验中的小概率原理:小概率事件在一次实验中是几乎不可能发生的假设检验中的两类错误:I型错误:错误拒绝虚无假设H0,弃真错误,α型错误II型错误:错误接受虚无假设H0,取伪错误,β型错误接受H0拒绝H0H0为真正确I型错误H0为假II型错误正确α + β不一定等于1(一般小于1)其它条件不变,α和β不可能同时减小和增大1 – β是统计检验效力影响效力的因素:α增加,统计效力增加如果能够正确设定尾端,单尾检验统计效力比双尾检验高增加样本容量,会减少标准误,统计效力增加假设检验的步骤:a. 根据问题,提出虚无假设和备择假设b. 选择适当的统计量c. 确定显著性水平d. 计算检验统计量的值e. 做出接受还是拒绝虚无假设的决策历年真题:根据样本数据推断总体时,如果虚无假设正确,但被拒绝。

这类错误被称为 (A)(2007,全国统考)A. α型错误 B. β型错误 C. H0型错误 。

下载提示
相关文档
正为您匹配相似的精品文档