中医药统计学与软件应用笔记重点绪论统计学家 C.R.劳先生在《统计与真理——怎样运用偶然性》中指出:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学一、 统计学的概念、发展简史及主要内容1.统计学 :是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示事物总体特征和规律的方法论科学2.中医统计学 :是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的3.统计学的发展趋势:①依赖数学②与计算机技术结合③与实质性学科、统计软件、现代信息相结合,所发挥的功效日益增强④从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展4.统计学的主要内容⑴研究设计:专业设计、统计学设计⑶统计描述:统计指标、统计图表⑵统计学的基本概念、原理和思维方法⑷统计推断:参数估计、假设检验二、统计工作的基本步骤和特点1.统计工作的基本步骤(1)统计学设计(2)搜集资料:①常规保存的记录;②现场调查记录;③实验 / 试验记录;④医学文献 / 网络信息 3)整理资料:①检查;②审核;③计算机检查;④分组。
4)分析资料2.统计学认识现象的特点( 1)数量性:( 2)群体性:( 3)具体性:(4)概率性:三、统计学中常用的概念1.总体 (population) :是根据研究目的确定的同质观察单位的集合例 ①河北省③河北省18 岁男性的身高和体重分布 ②某性红地18 岁身高在 170-175cm 男性的体重分布2005 年健康成年男细胞数⑴有限总体:指总体限定于特定的空间、时间范围内有限个观察单位⑵无限总体:指没有空间和时间范围限制的总体 2.样本 (sample) :从总体中随机抽取的有代表性的一部分观察单位的集合样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体样本的代表性:即样本能够充分反映总体的真实情况3.随机 (random) :即在抽样、分组、安排试验顺序时,让总体中每个受试者或观察单位都有同等的机会被抽中、 被分配或被安排, 而不受研究者的主观意愿驱使不能将随机理解为随便4.事件 (event) :指事物发生某种情况或在调查、观察和实验中获得的某种结果⑴确定性事件是可预言在一定条件下必然发生的事件,发生的概率为10~ 1⑵随机事件:指一定条件下可能发生也可能不发生的不确定性事件,发生的概率介于之间。
⑶模糊事件:事物本身的含义不确定的现象5.频率 (frequency) : 对于随机事件A,在相同的条件下进行了n 次实验,事件A发生的次数为m,比值m /n 为频率,记为 fn(A);概率 (probability) : 描述某随机事件A发生的可能性大小,统计符号为P,0≤P≤ 1,记为 P(A)当n→∝ 时,频率 fn(A) →概率 P(A)P≤ 0.05 或 P≤ 0.01小概率事件:表示某事件发生的可能性很小,在医学研究中,习惯上把的事件称为小概率事件6.变异 (variation) :总体中各个体之间的差异性同质是相对的, 研究对象只是在某一方面是性质相同的, 同类的观察对象之间往往也存在着变异 变异是绝对的、客观存在的7.误差( error ):指测量值与真值之差⑴过失误差:也叫粗差观测者粗心大意造成的误差⑵系统误差:由于仪器未校准、试剂未标定、观测标准未统一等固定原因造成的误差精品文库⑶测量误差:由事先难于预料的实验或观察条件的随机波动造成的误差⑷抽样误差:由抽样引起的样本指标(统计量)与总体指标(参数)的差别8.统计量 (statistical) :是反映样本特征的统计指标。
统计符号为小写的英文字母 如样本均数 x 、样本标准差 s 、样本率 p 等9.参数 (parameter) :是描述总体特征的统计指标统计符号为小写的希腊字母 如总体均数 μ 、总体标准差 σ 、总体率 π 等10.统计资料的类型根据研究目的,对研究对象的某些特征进行观测,将这些观测指标或项目称为 变量 变量的具体数值 (变量值 )构成了统计数据或 统计资料 统计资料分为两类:⑴ 值变量 (numerical variable) :亦称定量资料是指对每个观察单位用计量方法测得某项数值大小所获得的资料特点为其变量值大多有度量衡单位,其具体取值通常是正实数 (零、正整数和小数 )如身高 1.75m、体重 68kg、血压 9.6kPa、血糖 6.8mmol/L ⑵分类变量 (categorical variable) :又称定性资料指对每个观察单位按某一方面的特征、性质或等级分组计数而得到的资料特点是变量值表现为互不相容的属性或类别,无度量衡单位分类变量又可分为两类:① 序分类变量:又称为名义资料具体取值通常是具有某种属性或特征的个数特点是可在非数字中取值,各类之间具有性质上的差异。
可分为二分变量和多分变量二分变量是按互不相容的属性分成两类的资料多分变量是按某种属性或特征分成两类以上的资料② 序分类变量:亦称等级资料或半定量资料具体取值也是具有某种属性或特征的个数,但不同取值之间有半定量的关系特点是其各类别间有等级、 程度或量的差异, 即可按数量的相对大小或程度的高低排出顺序四、 学习中医统计学的目的1.顺应中医药学的发展趋势 2.强化中医科研的计划性和科学性3.拓宽研究思路 4.学会正确地运用统计方法和合理地解释统计结果五、 学习中医统计学的注意事项1.理解和领会基本概念和原理,切忌死记硬背 2.不追究公式的来源和推导,但要掌握其应用条件 3.重视分析问题和解决问题能力的培养 4.学会使用统计软件数值变量资料的统计描述统计描述—— 概念:即利用原始数据, 选择适宜的统计指标及统计图表, 简明准确地探察数据的分布类型和数量特征的基本统计方法目的:是根据样本中所包含的信息,客观、正确地推论出其总体规律第一节 频数分布频数: 相同观察值或观察结果出现的次数分布: 指随着随机变量取值的变化,其相应的概率变化的规律性频数分布: 观察值 (变量值 )按大小分组,各个组段内观察值个数 (频数 )的分布,是了解数据分布形态特征与规律的基础。
一、 频数分布的特征1.集中趋势: 指一组变量值的集中倾向或中心位置2.离散趋势: 即一组变量值的离散倾向二、频数分布的类型1.对称分布: 指集中位置居中、左右两侧的 2.非对称分布: 亦称偏态分布,是集中位置频数分布基本对称的频数分布 偏倚、两侧频数的分布不对分为正态分布和非正态分布两 称的频 数分布,可分为正种类型 偏态和负偏态分布欢迎下载 2精品文库三、频数分布表 / 图的作用1.直观地揭示数据的分布类型和特征2.便于发现资料中某些远离群体的特大或特小的可疑值3.描述频数分布的集中趋势与离散趋势4.便于进一步计算统计指标四、频数表概念: 频数分布表的简称指观察值或某些类别及其相应的频数按一定顺序排列的表格例题:随机抽取某地 120例正常人,测得血清铜的含量(μ mol/L) 如下表,试编制频数表13.8412.5313.7014.8917.5313.1918.8214.7317.4413.9914.1012.2912.6114.7814.5914.7118.6219.0410.9513.8110.5313.5611.4813.0716.8817.0417.9812.6711.039.2315.0414.0915.9011.4814.6413.6414.3915.7413.9911.3117.6116.2613.5311.6813.2511.8814.2115.2115.2913.7014.4511.2319.8413.1115.1511.70频数表的编制方法:1.找极值: Xmax = 19.84, X min= 9.232.求全距: R= Xmax-X min ,R= 19.84- 9.23= 10.613.定组数: K=8~ 15。
4.求组距: i=R / ( K– 1)(i 为组距, k 为组段数, R 为全距) i=10.61/(11-1)=1.061 ≈ 15.确定各组段的上下限:6.归纳计数:某地 120 名正常成年人血清铜含量频数表组段频数f频率P (%)fCPC (%)9.00~32.532.510.00~43.375.811.00~1210.01915.812.00~1310.83226.613.00~1714.24940.814.00~2218.37159.115.00~1815.08974.116.00~1310.810284.917.00~119.211394.118.00~54.211898.319.00~21.7120100.0合计120100.0五、频数图概念 :亦称直方图,是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以直方面积在总面积中的比例表示频率大小的图形等距分组——以横轴表示变量,以纵轴表示频数不等距分组——以横轴表示变量,但纵轴是频数除以组距 第二节 数值变量资料集中趋势的描述集中趋势: 是度量变量值集中位置和平均水平的数量指标,其代表值为平均数平均数: 是描述一组观测值平均水平的指标, 是对同质基础上的样本或总体一般特征的表达指标。
算术平均数、几何平均数、中位数、众数一、算术平均数1.定义: 算术平均数简称均数是一组观察值的和与观察值个数之商是数量上的平均用于说明一组观测值的趋中位置或平均水平 表示样本均数, 表示总体均数2.适用条件: 正态或近似正态分布的资料如生理指标3.计算方法: ⑴直接法:有 n 个观察值,分别为 X1, X2, Xn,式中 Σ 是求和的符号 欢迎下载 3精品文库例题: 10 名 12 岁男孩身高 (cm)分别为 125.5, 126.0, 127.0, 128.5, 147.0, 131.0, 132.0,141.5, 122.5,140.0求平均数⑵加权法:用于观察值中相同数据较多或频数表资料= 1737.00/120 = 14.48(μ mol/L)二、几何均数1.定义: n个数值连乘积的n次方根是比例或倍数上的平均统计符号G2.应用条件: 等比数列资料如抗体滴度3.计算方法:例题: 6 份血清抗体滴度为 1:2, 1:4, 1:8, 1:8, 1:16, 1:32,求平均数平均滴度为 1:8 三、中位数1.定义:将一组观察值按由小到大的顺序排列, 位次居中的数值即中位数 是位次上的平均。
统计符号M2.应用条件: 不拘分布、 分布类型不明或一端无界的资料 如潜伏期、 治愈时间和发病年龄3.计算方法:n 为奇数时 n 为偶数时式中 、 及 均为下标,表示有序数列中观察值的位次例题: 某医院用大黄粉治疗胃热血瘀型血证病人 9 例,其大便转阴天数分别为 1、1、2、 2、3、 4、5、 7、 10,求其中位数本例 n = 9, M = X5 = 3(天 )如果本例 n=10,第 10 个数值为 16 天,则 M=(3+4)/ 2=3.5(天)⑵ 数表法用于观察值例数较多或频数表资料L为M所在组段的下限; i 为该组段的组距;f m 为该组段的f; n 为总例数; Σ fL 为小于L的各组段的fC例题: 905 例男性银屑病病人的发病年龄年龄频数 f累计频数 fC累计频率 pC (%)<1054545.9710~252306(Σ f L)33.8120~346(f M)65272.0430~12878086.1940~8486495.4750~2989398.6760~589899.23≥707905(n)100.00M= 20+ (10/346)(905/2- 306) = 24.23(岁 )第三节 数值变量资料的离散趋势描述离散趋势: 亦称变异性, 是描述一组同质观察值的变异程度大小的指标。
不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性欢迎下载 4精品文库极差、四分位数间距、方差、标准差、变异系数变异指标示意 (两个学生五门成绩分布 )学生 科 目 变异指标1 2 3 4 5 R S2 S CVA 78 79 80 81 82 80 4 2.5 1.58 1.98B 60 70 80 90 100 80 40 250 15.81 19.76A、B两个学生五门课程成绩的均数都是 80,但各科成绩分布情况却不相同A较集中,变异较小;B较分散,变异较大一、全距(R)概念: 亦称极差,是一组观察值中最小值与最大值之差,反映个体差异的范围R=xmax-xmin优点: 1.意义明确、计算简便 2.稳定性较差 3.受 n 大小的影响 4.可应用于任何分布二、百分位数和四分位间距1.百分位数: 是把一组观察值从小到大排列,分为 100 等份,与x%位次所对的数值即为第百分之x位数以P x 表示一个P x 将全部观察值分为两部分,理论上有x%的观察值比它小,有 (100 -x )%的观察值比它大是一种位置指标 M 即P502.四分位数间距: 是上四分位数 QU (P75 )与下四分位数 QL (P25 )之差,符号为 QR。
是中间 50%观察值的极差QR= QU- QL=P75-P25用途: ⑴常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度⑶ 表示参考值范围 百分位数的另一个重要用途是表示偏态分布资料的参考值范围例题: 905 例男性银屑病病人的发病年龄(同前)计算方法:P25= 10+ (10/252)× (905× 0.25- 54)= 16.84(岁 )P75= 30+ (10/128) × (905× 0.75- 652)= 32.09(岁 )QR=P75-P25= 32.09- 16.84= 15.25(岁 )三、方差概念: 方差即离均差平方和的均值总体方差的符号为 σ 2 ,样本方差符号为s 2优点: 由于s 2 利用了每个观察值的信息,反映一批数据变异程度的稳定性和精确性好缺点: 但在运算时需将各个离均差平方,使原度量单位变成平方单位,不便于进行比较应用条件: 要求资料服从正态或近似正态分布四、标准差概念: 方差的平方根 除了具有方差的优点外,还克服了度量单位被平方的不足, 运用较方便总体标准差的符号为 σ ,样本标准差的符号为s;英文缩写为 SD例题:A 学生: n=5, ΣX=78+79+80+81+82=400 ; Σ X2= 782+792+802+812+822= 32010B 学生: n=5, Σ X= =400;Σ X2== 33000用途: ⑴表示正态或近似正态分布的离散程度。
⑵描述数值变量的频数分布特征(±s)⑶制定医学参考值范围 ⑷与均数结合计算变异系数 ⑸与样本含量结合计算标准误五、变异系数CV概念: 一组观察值的标准差与均数的百分比是相对离散量,无单位统计符号用途: ⑴比较度量单位不同或均数相差悬殊时几组样本资料的离散性欢迎下载 5精品文库⑵比较实验指标的稳定性及测定方法的精密度例题:( 1)某单位测得 28 例成年脾虚病人的红细胞数为 3.10 土 0.86× 1012/L;血红蛋白值为 87.2 土 33.3g/ L,试比较该两项指标的变异程度CVRBC= (0.86/ 3.10)× 100%= 27.74%; CVHb= (33.3/ 87.2) × 100%= 38.19%可认为 Hb 的变异程度比 RBC大 2)某单位测得大鼠的血清谷丙转氨酶(ALT)为 29.4 土 1.4,家兔的 ALT为 52.8 土 1.5,试比较两种实验动物 ALT指标的实验稳定性CV大鼠= (1.4/ 29.4)× 100%= 4.76%; CV家兔= (1.5/ 52.8)×100%= 2.84%可认为家兔 ALT的实验稳定性较好, 应优先考虑以家兔为实验对象进行 ALT的有关研究。
由该例可知, CV 对于改进实验方法,选择最佳实验对象、指标等,都具有一定的实际意义变异指标:1.极差较粗,适用于任何分布;2.标准差与均数单位相同,最常用,适用于正态及近似正态分布的统计描述;3.集中指标和离散指标分别反映资料的特征,常配套使用:正态分布:算术平均数 标准差 偏态分布:中位数 四分位数间距等比资料: G正态分布及其应用第一节 正态分布某地 120 例正常人血清铜含量的直方图 设想观察人数逐渐增多组、 距不断细分, 作直方图 将各直方顶端的中点连接,形成一条光滑的曲线, 该曲线即频数曲线或频率曲线,近似于数学上的正态分布曲线一、 正态分布: 又称 Gauss 分布或常态分布,是一种最重要的连续型分布正态分布曲线: 是高峰位于中央, 两侧逐渐下降, 左右对称, 永远不与横轴相交的曲线二、正态分布的密度函数(–∞< x<∞ )f(x)为与 x 对应的正态曲线的纵坐标高度; μ为总体均数; σ 为总体标准差; π 为圆周率,即 3.14159 ;e 为自然对数的底,即 2.71828 三、正态分布的特征1.在 X 轴上方,均数所在处最高2.集中性、对称性和均匀变动性3.正态分布有两个参数 μ 和 σ。
四、标准正态分布由于不同的正态分布有不同的 μ 和 σ,用公式计算的随机变量 x 落在某个区间内的概率显得非常麻烦为寻求一个通用的方法,进行标准正态变换 (即 u 变换 ): u= ( x -μ ) /σ此变换实质上是作了一个坐标轴的平移和尺度变换,使原来的正态分布变换为 μ= 0、欢迎下载 6精品文库σ= 1 的标准正态分布 (亦称 u 分布 ),记为N (0, 1)五、标准正态分布的密度函数(–∞ < u <∞ )式中 (u)为标准正态分布的密度函数,即纵坐标高度六、正态曲线下面积分布的规律:七、正态分布的应用1.统计分析方法的基础:很多抽样分布,如卡方分布、 t 分布都是建立在正态分布的基础上2.质量控制: 为了控制检测误差, 常以 ± 2s作为上下警戒线; ± 3s作为上下控制3.估计医学参考值范围 4.进行参数估计和假设检验第二节正态分布的应用一、 可根据正态分布的规律估计观察值的频数分布范围例题 已知某地 120 名正常人血浆铜含量 (μ mol/L) 的均数= 14.48、s= 2.27,估计该地120 名正常人血浆铜含量在 14.20~ 15.60(μ mol/L) 范围内的人数。
1.计算 u 值 当 μ和 σ 未知时, u= (x- )/sx1= 14.20, u1= (14.20- 14.48)/ 2.27=-0.12x2= 15.60, u2= (15.60- 14.48)/ 2.27= 0.492.查表 -0.12 左侧的面积就是 0.12 右侧的面积当 u= 0.12 时,在表的左侧找到 0.1,在表的上方找到 0.02,二者相交处为0.5478, Ф (-0.12) = 1- 0.5478= 0.4522,即标准正态变量 u 值小于 -0.12 的概率为0.4522;当 u= 0.49 时, Ф (0.49)= 0.6879,即 u 值小于 0.49 的概率为 0.68793.确定概率u 值在 -0.12 ~0.49 范围内的面积为: Ф (0.49) -Ф (-0.12) = 0.6879-0.4522= 0.2357,即血浆铜含量在 14.20~ 15.60(μ mol/L) 范围内的概率为 23.57%4.估计区间内人数120 名正常人血清铜含量在 14.20~ 15.60(μmol/L) 范围的人数为 120×23.57%= 28 人二 、制定医学参考值范围1、医学参考值的意义○1医学参考值:是指包括绝大多数正常人的解剖、生理、生化、免疫、组织或排泄物中成分的测量值。
○2医学参考值范围虑到变异的影响, 提高参考值作为判定正常或异常的可靠性所确定的绝大多数正常人医学参考值的波动范围○3使用“参考值范围” 的目的:个体—临床上划分正常人与异常人的参考人群—制订不同性别、年龄儿童某项发育指标的等级标准,用来评价儿童的发育水平等2、制定参考值范围的步骤欢迎下载 7精品文库○选定健康人作为调查对象○2控制测量误差○3.确定样本含量○4根据实际意义分组1%、 90%、 99%等○决定取单侧还是双侧界限○6选定适当的百分界限常用95%、 805.○制定医学参考值范围73、制定参考值范围的常用方法○正态分布法适用于正态或近似正态分布的资料表达式为, α为正态1曲线下单侧或双侧尾部的面积, uα为α 相应的标准正态离差双侧 95%的界限值为:单侧 95%的上限值为:单侧 95%的下限值为:例题:某地调查正常成年男子 144 人的红细胞数, 得均数 5.38( 1012/L),标准差 0.44(1012/L),试估计该地成年男子红细胞数的 95%参考值范围因红细胞数过多或过少均为异常,用双侧界值下限: - 1.96s=5.38-1.96 × 0.44 =4.52上限: + 1.96s=5.38+1.96× 0.44 =6.24该地成年男子红细胞数的 95%参考值范围( 4.52—6.24) 1012/L 。
○2百分位数法: 是利用两个百分位数作为双侧参考值范围的上、 下限,或者用一个百分位数作为参考值的上限或下限适用于非正态分布或分布未知的资料1)双侧 95%参考值范围: P2.5~P97.5 2)单侧 95%参考值范围上限值: P953)单侧 95%参考值范围下限值: P5总体均数的估计参数估计: 是通过样本信息估计其总体相应指标的数值及数值范围的统计分析方法, 即用统计量估计总体参数的方法,是统计推断的一个重要方面第一节 抽样分布与抽样误差◆医学科研的常用方法是 抽样研究 ◆由于个体差异的存在, 测算的样本指标值很难恰好等于总体指标值 这种由个体差异和抽样造成的样本与总体、样本与样本相应统计指标之间的差异即 抽样误差 一、样本均数的抽样分布与标准误1.样本均数的抽样分布 :指某种统计量的频数分布 用样本统计量作为该样本的代表值 ,这些个样本代表值的大小就形成了一个抽样分布2.抽样分布的特点: (1)各统计量间存在差异,统计量不一定等于参数 2)统计量的变异范围比原变量的变异范围大大缩小 3)随着 n 增加,样本均数的变异程度减小 4)如果原始变量服从正态分布,则统计量也服从正态分布。
如果原始变量不服从正态分布, 若 n 较大,则统计量服从正态分布;若 n 较小,则统计量为非正态分布3.抽样误差: 是因抽样产生的样本与样本、样本与总体相应统计指标之间的差异◆由于存在个体差异,且样本又未包含总体的全部信息,因此抽样误差是无法避免的◆抽样误差的大小主要取决于样本含量的多少和研究指标的变异程度4.标准误:◆ 表示样本指标值在抽样分布中的变异情况◆ SE越小,说明抽样误差越小,用统计量来估计参数时的可靠程度越大;反之,SE越大,说明抽样误差越大,用统计量来估计参数时越不可靠均数的标准误:◆ 样本均数的标准差也称均数的标准误◆反映样本均数间的离散程度,反映样本均数与相应总体均数间的差异,说明均数抽样误差的大小估计标准误:◆ 由于 σ 往往未知,常以 S 替代,算得的标准误称估计标准误其统计符号◆由于标准误与抽样误差成正比,与样本均数的代表性成反比,故在实际工欢迎下载 8精品文库作中可将标准误作为描述统计指标可靠性的依据5.标准差与标准误的比较标准差均属标准误意义描述个体观察值之间的离散性 (变异程描述同一总体中随机抽出样本含量相度)同的多个样本均数间的离散性公式与 n 的关系随着 n 的增大逐渐趋于稳定随着 n 的增大逐渐减小,与n 的平方根成反比。
用途表示观察值得变异大小;结合样本均数描述表示样本均数抽样误差的大小;描述样本均正态分布的特征;在正态分布时做参考值范数的可靠性; 结合样本均数估计总体均数的围的估计;计算变异系数和均数的标准误CI;进行均数间差别的假设检验例题: 已知某样本资料的s= 2.27(μ mol/L) ,n= 120,求其标准误代入公式得:二、 t 分布及其应用1.t 分布: 若对正态分布总体多次重复抽取若干样本含量相同的样本,样本均数围绕总体均数 μ 呈现正态分布若将所有样本均数按公式进行数学变换,可得 u 围绕 0 的标准正态分布由于总体标准差未知,只能求出标准误的估计值,变换公式求 t 值,可得到若干 t 值将这些 t 值绘成直方图,若样本无限多,可绘成一条光滑的曲线—— t 分布曲线,此时所得的 t 值围绕 0 呈现的就是 t 分布2.t 分布的特征:(1)是一簇单峰分布曲线,以 0 为中心,左右对称2 )其形态变化与自由度 ν 的大小有关—— ν 越小,则 t 值越分散, t 分布曲线越低平, t 分布的峰部越矮而尾部翘得越高; ν 越大, t 分布越逼近正态分布3) t 分布的单侧概率和双侧概率在 t 界值表中,横标目为自由度 ν ,纵标目为概率 (P或 α)。
一侧尾部面积称为单侧概率或单尾概率 ;两侧尾部面积之和称为双侧概率或双尾概率表中数字表示当 ν和 α 确定时,对应的 t 的界值,其中与单尾概率相对应的 t 界值用 表示,与双尾概率相对应的 t 界值用表示查 t 界值表注意: 由于 t 分布是以 0 为中心的对称分布,故附表 2 只列出正值,查表时,不管 t 值正负,均可用其绝对值︱ t ︱查表得概率P值○1相同自由度时,︱ t︱值增大,概率P减小;○2在相同︱ t ︱值时,双尾概率P是单尾概率P的两倍如双尾 =单尾 = 1.8123.t 分布的用途: 总体均数的区间估计; t 检验第二节 总体均数的估计欢迎下载 9精品文库是根据样本分布的特点,由样本均数推测总体均数的大小及其范围总体均数估计的方法有点估计和区间估计两种一、 总体均数的点估计点估计 概念: 用样本确定的统计量的值来直接估计总体参数的数值方法: 以样本统计量及其标准误作为被估计参数的点估计值,一般是以统计量加减标准误的方式给出参数的点估计值优点: 方法简单 缺点: 未考虑抽样误差的影响二、区间估计—— 根据抽样分布原理, 按预先给定的概率水准, 给出被估计参数可能的数值范围。
统计学称这一范围为被估计参数的可信区间 (CI)称预先给定的概率水准为可信度或可信系数,符号为 1-α ,常取 95%或 99% 称按 95%或 99%水准确定的 CI 为 95%CI 或99% CI1. 大样本资料均数的可信区间样本例数n足够大 (n≥ 100)时,可按正态分布原理,用以下公式估计总体均数 μ 的 CI95% CI= 99% CI=例题: 测得某地 296 例成年男性发锌的均数为 200.0ppm ,标准差为 21.8ppm 试估计该地成年男性发锌总体均数的 95% CI本例n= 296, =200,s= 21.8, = = 1.2795% CI= 200.0± 1.96× 1.27= (197.51, 202.49)该地成年男性发锌总体均数的 95% CI 为 197.51 ~202.4ppm 2.小样本资料均数的可信区间当n较小 (n< 100)时,一般按 t 分布原理,用以下公式估计总体均数 μ的 CI95% CI= 99%CI=式中 t0.05/2, ν 与 t 0.01/2,ν 为 t0.05 与 t0.01 的双侧界值例题: 测得某地 12 例肾虚失钠型哮喘病人甲皱微循环管袢长度的均数为 208.33μ m,标准差为 67.07μ m。
试估计该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95% CI本例n= 12, =208.33,s= 67.07,= = 19.36 ν =n- 1= 12- 1=11查 t 界值表得 t 0.05/2 ,11=2.201,按公式求得:95% CI= 208.33 ± 2.201×19.36= (165.72 ,250.94)该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的 95% CI 为 165.72~250.94 μ m3.可信区间的要素(1)准确度: 是 CI 包含总体参数的概率大小, 用可信度的大小 1-α表示 可信度越接近 1,可信程度越高,准确度越高如可信度 99%比 95%可信程度高2)精密度: 是对总体参数的估计范围或长度的度量,反映在 CI 即长度愈小愈精密每一次估计间的差异越小, CI 愈小,即 CI 的长度越小, 其估计的精密度越高4.可信区间的特点( 1)当n确定后, CI 范围的大小与可信度 1-α 的高低呈正比, 与估计结果的精密度呈反比 2)当可信度 1-α确定后, n的大小与 CI 范围的大小呈反比; 与估计结果的精密度呈正比因为增加样本例数会减小标准误,使 CI 的范围缩小。
CI 的范围越小,真实值靠近点估计值的可能性越大,靠近 CI 边缘的可能性越小,估计的精确度也随之提高,其统计效力就越大5.可信区间与可信限的关系CI 为某一整体内的一个分段,是以上、下可信限为界的开区间 (不包含界值在内 ) CU与 CL是 CI 的上下两个界值 如 95% CI 为 (165.6,251.0)μ m165.6μ m是 CI 的下限 (L),251.0μm为 CI 的上限 (U)6.CI 与参考值范围的比较( 1)可信区间:是参数的估计范围,需用标准误(SE)计算,表示总体指标的可能范围 2)参考值范围:表示大多数正常人的解剖、生理、生化某项指标的波动范围,需用标准欢迎下载 10精品文库差计算,用于判断观察对象的某项指标正常与否假设检验一、假设检验的概念与分类(统计概念: 亦称显著性检验,是利用样本信息,根据一定的概率水准,推断样本指标量 ) 与总体指标 (参数 )、不同样本指标间的差别有无意义的统计分析方法一)参数检验和非参数检验1.参数检验概念: 依赖总体分布的具体形式的统计方法,简称参数法常用的参数法有χ 2 检验、 t 检验、F检验等使用条件是抽样总体的分布已知。
优点: 能充分利用样本信息; 检验效率较高缺点: 应用条件限制较多2.非参数检验概念: 一类不依赖总体分布的具体形式的统计方法如Ridit 分析、秩和检验、符号检验、中位数检验、序贯试验、等级相关分析等优点: ①对总体的分布形式不要求;②可用于不能精确测量的资料;③易于理解和掌握;④计算简便缺点: 不能充分利用资料所提供的信息,使检验效率降低二)单因素分析与多因素分析1.单因素分析 ——亦称一元分析,是在主要的非处理因素相同的条件下,不管影响结果的处理因素 (如病人年龄、病情、辩证分型、病理类型、药物剂型、用药途径、疗程等 )有多少,每次仅分析一个处理因素与效应之间关系的统计方法2.多因素分析—— 亦称多变量分析或多元分析, 是研究多因素和多指标之间的关系以及具有这些因素的个体之间关系的一种统计分析方法二、 假设检验的基本思想先假设差别由抽样造成, 即总体间本无差异, 在此假设成立的前提下做抽样研究, 如果该次抽样属小概率事件,则样本信息不支持原假设的成立,拒绝它三、假设检验的基本步骤例题: 根据大量调查,已知健康成年男子的脉搏均数为 72 次 / 分某医生在某医院随机调查30 名脾虚男子,求得脉搏均数为 74.2 次 / 分,标准差为 7.5 次 / 分。
脾虚病人的脉搏是正态分布,问脾虚男子的脉搏均数与一般成年男子的脉搏均数是否相等?分析:把一般成年男子的脉搏均数看作一个总体均数,脾虚男子的脉搏均数为样本均数μ 0= 72, n=30 , X= 74.2, s= 7.5 μ 0 ≠的原因:①抽样误差所致②脾虚致两个均数间有本质性差异1.建立假设、确定检验水准⑴无效假设:记为H 0,即样本均数所代表的总体均数μ 与已知的总体均数 μ0 相等样本均数与 μ 0 的差异是由抽样误差引起,无统计学意义⑵备择假设:记为H 1 ,即样本均数所代表的总体均数μ 与 μ 0 不相等,样本均数与μ0 的差异是本质性差异,有统计学意义假设检验有双侧检验和单侧检验H0: μ= μ 0, H1: μ ≠ μ0若目的是推断两总体均数是否不等,应选用双侧检验若从专业知识已知不会出现μ <μ 0 (或μ > μ 0)的情况,则选用单侧检验H0:μ = μ 0, H1: μ< μ 0 (或μ > μ 0)确定检验水准检验水准亦称显著性水准,符号为α ,是事先规定的对假设成立有否作出判断的根据α常取 0.05 或 0.012.选择检验方法、计算统计量根据:①研究目的,②资料的类型和分布,③设计方案,④统计方法的应用条件,⑤样本含量大小等;选择适宜的统计方法并计算出相应的统计量。
3.确定P值、做出推论获得等于及大于 (和 / 或假设检验中的P值是指在由无效假设所规定的总体作随机抽样,等于及小于 )现有统计量的概率即各样本统计量的差异来自抽样误差的概率,它是判断H0成立与否的依据确定P值的方法主要有两种⑴查表法 根据检验水准、样本自由度直接查相应的界值表求出P值⑵计算法 用特定的公式直接求出P值推论: 若P> α ,就没有理由怀疑H0 的真实性,则结论为不拒绝H0,做出不否定此样本是来自于该总体的结论,也即差别无显著性意义;若P≤ α ,则拒绝 H0,接受 H1,也就是说这些统计量来自不同的总体,其差别不能欢迎下载 11精品文库由抽样误差来解释,下结论为差别有显著性意义t检验以 t 分布为理论基础, 对一个或两个样本的数值变量资料进行假设检验常用的方法, 属于参数检验第二节 单样本 t 检验概念: 亦称样本均数与总体均数比较的 t 检验用于从正态总体中获得含量为 n 的样本,算得均数和标准差,判断其总体均数 μ 是否与某个已知总体均数 μ 0 相同已知总体均数一般为标准值、理论值或经大量观察得到的较稳定的指标值一、适用条件: 1.对正态分布的数值变量资料,需用t检验。
2.对于非正态分布的资料, 若经过变量变换使成正态分布, 可按t检验处理;否则,用非参数检验的方法二、正态性检验的方法检验假设H 0 为总体分布是正态分布,当 P> α 时,不拒绝H 0 ,认为样本所来自的总体服从正态分布;而 P≤α 时,拒绝H 0 ,认为样本所来自的总体不服从正态分布1.W 检验 Shapiro-Wilk 检验是基于次序统计量对它们期望值的回归而构成的所用检验统计量为 W,又称为 W 检验在样本量 3≤ n≤ 50 时使用2.D 检验 Kolmogorov-Smirnov 检验的统计量为 D,所以也称 D 检验,在样本量 50≤ n≤ 1000时使用三、计算公式, , ν =n- 1式中 为样本均数, μ为总体均数,n为样本含量,s为样本标准差, ν 为自由度四、检验步骤1.建立假设、确定检验水准 H0: μ = μ0, H1:μ ≠ μ 0 , α = 0.052.选择检验方法、计算统计量3.确定P值、做出推论ν =30-1 =29,查 t 值表, t0.05/2, 29=2.045,今 t =1.607< t0.05/2, 29, P > 0.05按α = 0.05 水准,不拒绝 H0,根据现有样本信息,不能认为脾虚男子脉搏数与健康人不同第三节 配对设计资料均数的 t 检验配对设计 ——将观察单位按照某些特征 (如性别、年龄、病情等可疑混杂因素 )配成条件相同或相似的对子,每对中的两个观察单位随机分配到两个组,给予不同的处理,观察指标的变化。
① 同一观察单位实验 (或治疗 )前后的比较;② 同一样品用两种方法检验结果的比较;③ 配对的两个观察单位分别接受两种处理后的数据比较配对t检验配对t检验 ——又称成对t检验, 是将对子差数 d 看做变量, 先假设两种处理的效应相同,μ 1— μ 2= 0,无显著性,推断两种处理因素的效果有无差别或某处理因素有无作用由于此种设计使影响结果的非被试因素相似或相同,因而提高了研究效率一、适用条件: 1.设计类型是配对设计 2.数值变量的对子差值是正态分布二、计算公式ν=n- 1,式中d为各个对子数值的差数, 为差数的平均数 , 为差数的标准差,欢迎下载 12精品文库为差数的标准误,n为对子数三、检验步骤例题 :对 10 名患者分别用湿式热消化-双硫腙法和硝酸 -高锰酸钾冷消化法测定尿铅,问两法测得结果有无差别用两种方法测定尿铅结果(μ mol/L)患者号冷消化法热消化法差值 dd212.412.80-0.390.1521212.0711. 240.830.688932.903.04-0.140.019641.641.83-0.190.036152.751.880.870.756961.061.45-0.390.152173.233.43-0.200.0480.770.92-0.150.022593.673.81-0.140.0196104.494.010.480.2304合计0.582.1181.建立假设、确定检验水准H0: μ = μ 0, H1: μ ≠μ 0, α =0.052. 计算统计量 t 值先计算差值 d 及 d 2(如表 ),得 ∑ d =0.58, ∑d2=2.1182计算差值的标准误3.确定P值、做出推论ν =n - 1=10- 1=9,查t界值表,得双侧 t0.05/2,9 =2.262,本例 t < t0.05/2,9, P > 0.05。
按 α = 0.05 水准,不拒绝 H0,不能认为两法测定尿铅结果有差别第四节独立样本 t 检验与t′检验独立样本资料—— 是在两个总体里分别随机抽样, 或将同一总体里抽取的观察对象随机分为两组,采取不同的处理得到的资料独立样本 t 检验 ——亦称两样本 t 检验或成组 t 检验与t′检验均适用于完全随机化设计两独立样本的比较, 目的是推断两独立样本均数所代表的未知总体均数 μ1 与 μ 2 是否有差别一、独立样本的方差齐性检验方差齐性 ——两个样本均数的假设检验,除了要求样本资料来自正态分布或近似正态分布,还要求两个样本的总体方差相等一)应用条件:两个样本均来自正态分布的总体二)计算公式:统计量 F 为较大的方差与较小的方差的比值三)检验步骤F=s12/s22, ν 1= n1- 1, ν 2= n2- 120 例例题: 某医师要观察自拟中药方“降脂胶囊”对高血脂症的疗效,将诊断为高血脂的病人随机分为两组,一组用上述中药治疗,另一组用西药治疗,3 个月后测量血清胆固醇含量 (mmol/L 如下,已知两组血清胆固醇含量均服从正态分布,试比较两药降低欢迎下载 13精品文库胆固醇的效果有无差别。
1.建立检验假设、确定检验水准H0:两总体方差相等H1:两总体方差不相等α。