医药数理统计课件 Four short words sum up what has lifted most successful Four short words sum up what has lifted most successful individuals above the crowd:a little bit more.individuals above the crowd:a little bit more.-author -author -date-date第一章第一章.事件与概率事件与概率第二章第二章.随机变量的概率与随机变量的概率与数字特征数字特征第三章第三章.实验设计实验设计第四章第四章.抽样分布抽样分布第五章第五章.参数估计参数估计第六章第六章.假设检验假设检验第八章第八章.线性相关与回归分析线性相关与回归分析第九章第九章.正交设计正交设计概率规律概率规律统计方法统计方法主要内容主要内容第七章第七章.方差分析方差分析第十章第十章.均匀设计均匀设计实验设计实验设计确定性现象:结果确定确定性现象:结果确定不确定性现象:结果不确定不确定性现象:结果不确定自然界与社会生活中的两类现象p抛出的物体会掉落到地上p明天天气状况p买了彩票会中奖p抛硬币出现正(反)面事件与概率事件与概率一次抛掷硬币试验一次抛掷硬币试验(出现正面朝上)(出现正面朝上)多次抛掷硬币实验多次抛掷硬币实验(出现正面朝上的次数)(出现正面朝上的次数)不确定近半数(规律)这种在个别实验中其结果呈现出不确定性,在大量重复试验中其结果又具有统计规律性的现象,称为随机现象。
概率论与数理统计是研究和揭示随机现象规律性的一门数学学科事件与概率事件与概率第一节第一节 随机事件及其运算随机事件及其运算一、随机事件一、随机事件l 随机试验:随机试验:对随机现象的对随机现象的观察(试验)观察(试验)l 抛一枚硬币,观察抛一枚硬币,观察l 抛一颗骰子,观察抛一颗骰子,观察l 记录某城市记录某城市120120急救台一昼夜接到的呼叫次数急救台一昼夜接到的呼叫次数l 观察观察某一电子元件的寿命某一电子元件的寿命l 将一枚硬币连抛三次,考虑正(反)面出现的情况将一枚硬币连抛三次,考虑正(反)面出现的情况具有以上三个特点的试验成为具有以上三个特点的试验成为随机试验随机试验,简称,简称试验(试验(E E)1、可以在相同条件下重复;2、每次试验的结果可能不止一个,并且能事先明确试验的所有可能结果;3、进行一次试验之前不能确定哪一个结果会出现事件与概率事件与概率l 样本空间:样本空间:试验所有的结果的集合(试验所有的结果的集合()l 抛硬币:正面,反面抛硬币:正面,反面l 抛一颗骰子:抛一颗骰子:1 1,2 2,3 3,4 4,5 5,6 6l 记录某城市记录某城市120120急救台一昼夜接到的呼叫次数:急救台一昼夜接到的呼叫次数:1 1,2 2,3 3,4 4,l 观察观察某一电子元件的寿命:某一电子元件的寿命:R+R+l 将三枚硬币:正正正,正正反,正反反,反反反将三枚硬币:正正正,正正反,正反反,反反反l 随机事件:随机事件:随机试验的结果(样本空间的子集)(随机试验的结果(样本空间的子集)(A A,B.B.)l 基本事件基本事件:不能分解成其它事件的最简单的随机事件不能分解成其它事件的最简单的随机事件.l 必然事件:必然事件:每次试验必然发生(每次试验必然发生()l 不可能事件:不可能事件:每次试验都不会发生(每次试验都不会发生()二、事件间的关系与运算二、事件间的关系与运算 l事件的包含:事件的包含:如果事件A发生必然导致B发生 则称事件B包含事件A 或称事件A包含于事件B 或称A是B的子事件 记作BA或AB说明:说明:AB属于A的每一个样本点一定也属于B 对任意事件A 易知A l事件的相等:事件的相等:如果事件A包含事件B 事件B也包含事件A 则称事件A与B相等(或等价)记作AB 说明:说明:相等的两个事件总是同时发生或同时不发生 事件与概率事件与概率l事件的并事件的并(或和或和)“事件A与B至少有一个发生”这一事件称作事件A与B的并(或和)记作AB或AB 例例.在投掷一枚骰子的试验中 记A“点数为奇数”B“点数小于5”则 AB?l事件的交事件的交(或积或积)“事件A和B都发生”这一事件称为事件A与B的交(或积)记作AB(或AB)说明:说明:两个事件的并与交可以推广到有限个或可数个事件的并与交例例.在投掷一枚骰子的试验中 记A“点数为奇数”B“点数小于5”则AB?事件与概率事件与概率l事件的差事件的差 “事件A发生而B不发生”这一事件称为事件A与B的差 记作AB 例例.在投掷一枚骰子的试验中 记A“点数为奇数”B“点数小于5”则 AB?l互不相容事件互不相容事件 若事件A与B不可能同时发生 也就是说 AB是不可能事件 即AB 则称事件A与B是互不相容事件事件与概率事件与概率l完备事件组:完备事件组:设A1 A2 An是两两互不相容的事件 并且和为,称A1 A2 An是一个完备事件组 例例.考察某一位同学在一次数学考试中的成绩 分别用A B C D P F表示下列各事件(括号中表示成绩所处的范围)A优秀(90 100)D及格(60 70)B良好(80 90)P通过(60 100)C中等(70 80)F未通过(0 60)则:A B C D F是两两不相容事件 P与F是互为对立的事件 即有PF A B C D均为P的子事件 且有PABCD l对立事件:对立事件:“事件A不发生”这一事件称为事件A的对立事件 记作A 如:如:在投掷一枚骰子的试验中“点数小于3”和“点数大于4”这两个事件是互不相容事件 说明:说明:在一次试验中 如果A发生 则A一定不发生 如果A不发生 则A一定发生 因而有AA AA 问:对立事件与互不相容事件之间的关系?问:对立事件与互不相容事件之间的关系?事件与概率事件与概率三、随机事件的运算律三、随机事件的运算律1 1 关于求和运算关于求和运算 (1)ABBA(交换律)(2)(AB)CA(BC)ABC(结合律)2 2 关于求交运算关于求交运算 (1)ABB A(交换律)(2)(AB)CA(B C)AB C(结合律)3 3 关于求和与求交运算的混合关于求和与求交运算的混合 (1)A(BC)(AB)(AC)(第一分配律)(2)A(BC)(AB)(AC)(第二分配律)4 4 关于求对立事件的运算关于求对立事件的运算5 5 德摩根律德摩根律 AA)(自反律)(2)BABA(第二对偶律)(1)BABA(第一对偶律)事件与概率事件与概率频频 率率 稳稳 定定 值值 概率概率 l概率的统计定义概率的统计定义l频率:频率:在相同条件下进行在相同条件下进行n n次试验,事件发生的次数次试验,事件发生的次数m m称为事件称为事件发生的频数。
称发生的频数称 为发生的频率记作为发生的频率记作l定义:定义:当当n n足够大时,频率的稳定值足够大时,频率的稳定值p p(注意概率与频率的区别)(注意概率与频率的区别)mn mfAn性质:性质:01PA1P0P第二节第二节 事件的概率事件的概率注:概率是一个随机事件所固有的属性,与试验次数以及每一次试验结果无关注:概率是一个随机事件所固有的属性,与试验次数以及每一次试验结果无关频率的性质频率的性质事件发生的频繁程度事件发生的频繁程度事件发生的可能性的大小事件发生的可能性的大小概率的统计定义概率的统计定义事件与概率事件与概率一、概率的定义一、概率的定义l 概率的古典定义概率的古典定义l 前提:前提:试验样本空间只包含有限个元素;每个基本事件发生等可能性试验样本空间只包含有限个元素;每个基本事件发生等可能性l 定义:定义:已知样本空间已知样本空间 中中基本事件基本事件总数为总数为n n,若事件若事件A A 包含包含 k k 个个基本事基本事件件,则有则有例:例:将一枚硬币抛三次,求(将一枚硬币抛三次,求(1 1)事件)事件A=A=恰有一次出现正面(恰有一次出现正面(2 2)事件)事件B=B=至少有一次出现正面?至少有一次出现正面?例例:某学习小组有:某学习小组有1010名同学,其中名同学,其中7 7名男生,名男生,3 3名女生,从中任选名女生,从中任选3 3人去参加社会人去参加社会活动,则活动,则3 3人全为男生的概率为?人全为男生的概率为?补充:排列与组合补充:排列与组合排列定义:排列定义:从m个元素中,取出n(nm)个元素按一定顺序排成一列。
记为组合定义组合定义:从n个元素中,任取k个为一组,得出的不同的组数,称为组合数记作nmA!11()!nmmAmmmnmnknC11!()!knn nnknCk nkk1.1.互斥事件加法定理(有限可加性)互斥事件加法定理(有限可加性)若事件A、B互斥,则有P(A+B)=P(A)+P(B)推广:若 为两两互斥事件,则例例.药房有包装相同的六味地黄丸100盒,其中5盒为去年产品,95盒为今年产品现随机发出4盒,求:有1盒或2盒陈药的概率2.2.一般加法定理一般加法定理对任意两事件A、B,有P(A+B)=P(A)+P(B)P(AB)推广:对任意三事件A、B、C,有P(A+B+C)=P(A)+P(B)+P(C)P(AB)P(AC)P(BC)+P(ABC)3.3.减法定理减法定理对任意的A、B,有P(A-B)=P(A)P(AB)12,nA AA11nniiiiPAP A132259559541000.1879C CC CC二、概率的运算二、概率的运算4.4.条件概率与乘法定理条件概率与乘法定理条件概率:条件概率:在事件B已经发生的条件下,A发生的概率称为A的条件概率,记性质:性质:一般情况下,例例.袋中有2个白球,8个黑球,现让两个人去抽球(无放回)。
若已知第一个人抽到白球,则第二个人也抽到白球的概率是多少?乘法定理:乘法定理:推广公式:推广公式:P A B0(|)1,(|)1P A BP B(|)0,(|)1(|)P BP A BP A B P AP A B P ABP B P A BP A P B A 12121312121nnnP A AAP A P A A P A A AP A A AA4.4.独立事件及其乘法定理独立事件及其乘法定理独立事件:独立事件:若 或 或 则称时间A、B相互独立定理:定理:若A与B,A与 ,与B,与 中有一对相互独立,则另外三对也相互独立推广:推广:若任意三事件A、B、C两两独立,且P(ABC)=P(A)P(B)P(C),则称A、B、C相互独立多事件相互独立 多事件两两独立例如:例如:抛一枚硬币两次,记A=第一次为正面,B=第二次为反面,C=两次都为同一面分析知,A、B、C两两独立,但不相互独立独立事件的乘法定理:独立事件的乘法定理:若 相互独立,则注意:具有非零概率的两事件,互斥就不独立,独立就不互斥例例.若每人血清中有肝炎病毒的概率为0.4%,今混合100人的血清,求混合血清无肝炎病毒的概率P ABP A P B P AP A B P BP B ABAAB12,.,nA AA 1212nnP A AAP A P AP A1.1.全概率公式全概率公式:若 构成互斥完备群,则对任意事件B,有全概率公式的意义:在较复杂情况下直接计算P(B)不易,借助于一个完备事件组,将复杂事件分解成若干个互不相容的简单事件的和,再利用概率的加法公式求出复杂事件概率。
例例12.12.设药房的某种药品由三个不同的厂家生产其中第一家药厂生产的药品占1/2,第二、三家分别占1/4,已知第一、二家药厂生产的药品有2%的次品,第三家药品有4%的次品试求:现从药房任取一份,问拿到次品的概率?第四节第四节 全概率公式和逆概率公式全概率公式和逆概率公式12,nA AA 1niiiP BP A P B A实际工作中还会遇到与全概率问题相逆的问题如例12改成:设药房的某种药品由三个不同的厂家生产其中第一家药厂生产的药品占1/2,第二、三家分别占1/4,已知第一、二家药厂生产的药品有2%的次品,第三家药品有4%的次品试求:拿到的药品是次品时,该次品由各家药厂生产的可能性为多大?2.逆概率公式(贝叶斯公式):逆概率公式(贝叶斯公式):设 是互斥完备群,则对任意事件B,有12,nA AA1iiiniiiP A P B AP A BP A P B A随机变量的概率分布与数字特征随机变量的概率分布与数字特征 第一节第一节 随机变量与离散型随机变量的概率分布随机变量与离散型随机变量的概率分布 引入随机变量使得随机事件可用随机变量的关系式表示,从而使对随机现象引入随机变量使得随机事件可用随机变量的关系式表示,从而使对随机现象研究进一步深入、更数学化。
研究进一步深入、更数学化1.1.随机变量随机变量 对于随机试验,若其试验结果可用一个取值带有随机性的变量来表示,且变对于随机试验,若其试验结果可用一个取值带有随机性的变量来表示,且变量取这些可能值的概率是确定的,则称这种变量是随机变量量取这些可能值的概率是确定的,则称这种变量是随机变量注意:注意:随机变量常用随机变量常用X,Y,Z表示,而表示随机变量所取的值通常用表示,而表示随机变量所取的值通常用x,y,z表示例如,例如,从某一学校随机选一学生,测量他的身高我们可把可能的身高看作随机从某一学校随机选一学生,测量他的身高我们可把可能的身高看作随机变量变量X X,然后提出关于,然后提出关于X X的各种问题如的各种问题如P P(X X1.7)=1.7)=?P P(X X1.5)=?1.5)=?P P(1.5(1.5X X1.7)=1.7)=?一旦我们实际选定了一个学生并量了他的身高之后,我们就得到?一旦我们实际选定了一个学生并量了他的身高之后,我们就得到X X的一个具体的一个具体的值,记作的值,记作x x这时,要么要么x x1.71.7米,要么米,要么x x 1.7 1.7米,再去求米,再去求P P(x x1.71.7米米)就没有就没有什么意义。
什么意义性质性质1 1:随机变量取任何值的概率均为随机变量取任何值的概率均为非负非负性质性质2 2:随机变量取所有可能值的随机变量取所有可能值的概率之和为概率之和为1 12.2.离散型随机变量离散型随机变量 如果随机变量只能取有限个或无限可列个数值,则称它为离散型随机变量如果随机变量只能取有限个或无限可列个数值,则称它为离散型随机变量例如:小白鼠存活的只数,引体向上次数等例如:小白鼠存活的只数,引体向上次数等3.3.连续型随机变量连续型随机变量 如果随机变量的可能取值为某一区间的所有实数,无法一一列举,则称他为如果随机变量的可能取值为某一区间的所有实数,无法一一列举,则称他为连续型随机变量连续型随机变量例如:身高、体重等例如:身高、体重等4.4.离散型随机变量的概率函数离散型随机变量的概率函数 设离散型随机变量设离散型随机变量X X的所有可能取值为的所有可能取值为x xi i(i=1,2,)(i=1,2,),相应的概率,相应的概率P(X=xP(X=xi i)=p)=pi i称为离散型随机变量称为离散型随机变量X X的的概率函数概率函数或或分布律分布律通常通常X X的分布律可用表格表示:的分布律可用表格表示:概率函数有如下性质性质:概率函数有如下性质性质:例例.某篮球运动员投中篮圈概率是某篮球运动员投中篮圈概率是0.90.9,求他两次独立投篮投中次数,求他两次独立投篮投中次数X X的概率分布。
的概率分布1 )2(),2,1(10 )1(1 iiipipX x1 x2 xi P p1 p2 pi 5.5.离散型随机变量的分布函数离散型随机变量的分布函数设设X X是一个随机变量(可以是离散型,也可以是连续型),是一个随机变量(可以是离散型,也可以是连续型),x x是任意实数,则函数是任意实数,则函数F(x)=P(Xx)F(x)=P(Xx)称为随机变量称为随机变量X X的的分布函数分布函数性质:性质:(1)F(x)(1)F(x)为非减函数;为非减函数;(2)0F(x)1(-x+)(2)0F(x)1(-x+);(3)F(-)=0,F(+)=1 (3)F(-)=0,F(+)=1;(4)F(x)(4)F(x)右连续,即右连续,即 例例.给青蛙按每单位体重注射一定数量的洋地黄,由以往的实验知,致死的概率给青蛙按每单位体重注射一定数量的洋地黄,由以往的实验知,致死的概率为为0.60.6,存活的概率为,存活的概率为0.40.4,现给两只青蛙注射,求死亡只数的,现给两只青蛙注射,求死亡只数的概率函数和分布函概率函数和分布函数数00lim()()xxF xF x0 1 2 x F(x)第二节第二节 常用的离散型随机变量的概率分布常用的离散型随机变量的概率分布1.1.二项分布二项分布伯努利试验:伯努利试验:许多试验只有两种许多试验只有两种互斥互斥的结果,为了找到这些试验结果的规律性,的结果,为了找到这些试验结果的规律性,需要在相同条件下做需要在相同条件下做n n次次独立重复独立重复试验,称为试验,称为n n重伯努利试验,简称伯努利试验。
重伯努利试验,简称伯努利试验二项分布二项分布 若在一次伯努利实验中成功(事件若在一次伯努利实验中成功(事件A A发生)的概率为发生)的概率为p p(0(0pp00,则称,则称X X服从参数为服从参数为的泊松分布,记为的泊松分布,记为XP()XP()许多许多稀有事件稀有事件都服从或近似服从泊松分布都服从或近似服从泊松分布np=np例例5.5.已知某地区人群中患某种病的概率为已知某地区人群中患某种病的概率为0.0010.001,试求在检查的,试求在检查的50005000人中至少有人中至少有2 2人患此病的概率人患此病的概率解:由于解:由于n=5000n=5000较大较大,p=0.001,p=0.001较小较小,取取=np=5,=np=5,设设X=X=患此病人数患此病人数,则则X X P P(5 5)若精确计算若精确计算,则则X X B B(5000,0.0015000,0.001)55(2)1(0)(1)150.95957P XP XP Xee )1()0(1)2(XPXPXP95964.0999.0001.05000999.01499915000 第第3 3节节 连续型随机变量的概率分布连续型随机变量的概率分布1.1.连续型随机变量的概率密度连续型随机变量的概率密度若对于随机变量若对于随机变量X X的分布函数的分布函数F(x)F(x),存在非负函数,存在非负函数f(x),f(x),使得对于任意实数使得对于任意实数x x,有:有:则称则称X X为连续型随机变量,其中被积函数为连续型随机变量,其中被积函数f(x)f(x)称为称为X X的的概率密度函数概率密度函数(简称概率(简称概率密度)密度)性质性质:f(x)0 f(x)0;对于任意实数对于任意实数a a,b b(aba 0)0)为常数为常数 ,则称,则称X X服从参数为服从参数为 ,2 2的的正态分布正态分布(或高斯分布)(或高斯分布),记为记为X XN(N(,2)2).特点:特点:曲线曲线f(x)f(x)呈钟形,关于直线呈钟形,关于直线x=x=对称,在对称,在(-,(-,上递增,在上递增,在,+),+)上递减。
上递减在在x=x=处,处,f(x)f(x)取最大值取最大值 在在x=x=处有拐点,且以处有拐点,且以x x轴水平渐近线轴水平渐近线当当固定时,固定时,改变,则改变,则f(x)f(x)图形的形状不变,只改变其位置,图形的形状不变,只改变其位置,确定图形的确定图形的中心位置中心位置,称称位置参数位置参数,增大,曲线向右移增大,曲线向右移当当固定时,固定时,越小图形越陡峭越小图形越陡峭,确定图形峰的陡峭形状确定图形峰的陡峭形状,故称故称形状参数形状参数标准正态分布标准正态分布参数参数=0=0,=1=1的正态分布为的正态分布为标准正态分布标准正态分布,记为,记为XN(0,1)XN(0,1)标准正态分布的重要性在于,标准正态分布的重要性在于,任何一个正态分布都可以通过线性变换转化为任何一个正态分布都可以通过线性变换转化为标准正态分布标准正态分布它的依据是下面的定理:它的依据是下面的定理:根据定理根据定理,只要将标准正态分布的分布函数制成表,就可以解决一般正态分只要将标准正态分布的分布函数制成表,就可以解决一般正态分布的概布的概率计算问题率计算问题正态分布是自然界及工程技术中最常见的分布之一,大量的随机现象都是服正态分布是自然界及工程技术中最常见的分布之一,大量的随机现象都是服从或从或近似服从正态分布的近似服从正态分布的正态分布是概率论中最重要的分布。
正态分布是概率论中最重要的分布均匀分布、对数正态分布等分布不做要求均匀分布、对数正态分布等分布不做要求第第4 4节节 随机变量的数字特征随机变量的数字特征随机变量随机变量数字特征数字特征,分两类:,分两类:表示表示集中程度、平均水平集中程度、平均水平数学期望数学期望、分位数、中位数、众数等;、分位数、中位数、众数等;表示表示离散程度、变异大小离散程度、变异大小方差、标准差、变异系数方差、标准差、变异系数等1.1.均数(数学期望)均数(数学期望)定义定义1 1:设离散型随机变量设离散型随机变量X X的分布律为的分布律为P P X X=x xi i=p=pi i,k=1,2,3.,k=1,2,3.,则规定,则规定X X 的均数的均数定义定义2 2:设连续型随机变量设连续型随机变量X X的概率密度函数的概率密度函数f(x)f(x),则规定,则规定X X的均数为的均数为性质:性质:(1)(1)E E(c c)=)=c c,c,c为常数为常数 (2)(2)E E(cXcX)=)=c c*E E(x x)(3)(3)E E(X XY Y)=)=E E(X X)E(E(Y Y)(4)(4)E E(XYXY)=)=EXEX*EYEY,X X与与Y Y独立独立常见分布的数学期望常见分布的数学期望二项分布:二项分布:泊松分布:泊松分布:正态分布:正态分布:E E(X X)=)=2.2.方差和标准差方差和标准差方差:方差:设设X X是一个随机变量,则称是一个随机变量,则称E E(X X-EXEX)2 2 为为X X的方差的方差,记作记作DXDX,为标准差。
为标准差注:注:随机变量的方差反映了它的取值与其数学期望的偏离程度,它是衡量取值随机变量的方差反映了它的取值与其数学期望的偏离程度,它是衡量取值离离散程度散程度的一个尺度的一个尺度对于离散型随机变量:对于离散型随机变量:对于连续型随机变量:对于连续型随机变量:性质:性质:(1)(1)D D(c c)=0)=0,c c为常数为常数 (2)(2)D D(cXcX)=)=c c2 2*D D(X X)(3)(3)D D(X XY Y)=)=DXDX+DYDY,X X与与Y Y相互独立相互独立常见分布的方差常见分布的方差二项分布:二项分布:泊松分布:泊松分布:正态分布:正态分布:例例7 7:设设XP(2)XP(2),则下列结论中正确的是(,则下列结论中正确的是()A.EX=0.5,DX=0.5A.EX=0.5,DX=0.5B.EX=0.5,DX=0.25B.EX=0.5,DX=0.25C.EX=2,DX=4C.EX=2,DX=4 D.EX=2,DX=2 D.EX=2,DX=2例例8 8:相互独立的随机变量相互独立的随机变量X X和和Y Y的方差分别为的方差分别为4 4和和2 2,则随机变量,则随机变量3X-2Y3X-2Y的方差是?的方差是?3.3.变异系数变异系数比较度量单位不同或均数相差悬殊的两组比较度量单位不同或均数相差悬殊的两组(或多组或多组)资料的变异程度。
资料的变异程度第第5 5节节 三种重要分布的渐进关系(略)三种重要分布的渐进关系(略)当当nn,二项分布,二项分布B(k;n,p)B(k;n,p)以泊松分布以泊松分布P(k;)P(k;)为极限分布;为极限分布;当当nn,二项分布,二项分布B(k;n,p)B(k;n,p)以正态分布以正态分布N(np,npq)N(np,npq)为极限分布;为极限分布;当当nn,泊松分布,泊松分布P(k;)P(k;)以正态分布以正态分布N(;)N(;)为极限分布为极限分布例:例:第第3 3讲讲 随机抽样、抽样分布和总体的参数估计随机抽样、抽样分布和总体的参数估计第第1 1节节 随机抽样随机抽样1.1.总体与样本总体与样本总体:总体:研究对象的全体,组成总体的每个单元称为个体研究对象的全体,组成总体的每个单元称为个体样本:样本:在一个总体在一个总体X X中抽取中抽取n n个个体个个体X X1 1,X X2 2X Xn n,这,这n n个个体组成的集合称为总个个体组成的集合称为总体体X X的一个样本样本中含有个体的数目称为的一个样本样本中含有个体的数目称为样本容量样本容量,也称样本的大小也称样本的大小简单随机抽样简单随机抽样是指在抽取样本单位时,总体的每一个可能的样本被抽中的概率相同。
是指在抽取样本单位时,总体的每一个可能的样本被抽中的概率相同简单随机样本简单随机样本样本样本X X1 1,X X2 2X Xn n相互独立且与总体相互独立且与总体X X有相同的分布函数,这样的样本称为简单有相同的分布函数,这样的样本称为简单随随机样本第第2 2节节 样本的数字特征样本的数字特征统计量:统计量:设设X X1 1,X,X2 2X Xn n为总体为总体X X的一个样本,的一个样本,g(Xg(X1 1,X X2 2X Xn n)为一个样本函数,如为一个样本函数,如果果g g中中不含有任何未知参数不含有任何未知参数,则称,则称g g为一个统计量为一个统计量特点:特点:(1)(1)统计量是样本中统计量是样本中n n个随机变量个随机变量X X1 1,X,X2 2,Xn,Xn的函数,它是完全由样本决的函数,它是完全由样本决定的量,仍是一个随机变量定的量,仍是一个随机变量2)(2)统计量不包含任何未知参数统计量不包含任何未知参数例如:例如:几种常见统计量几种常见统计量样本均数样本均数样本方差、标准差、变异系数(相对标准差)样本方差、标准差、变异系数(相对标准差)注意:分母为注意:分母为n-1n-1。
由于样本方差中的均数是样本的,是总体的一部分,其离差平由于样本方差中的均数是样本的,是总体的一部分,其离差平方和一定变小,所以若以方和一定变小,所以若以n n为分母,为分母,S S2 2一般比总体方差小(有偏估计)而分母改一般比总体方差小(有偏估计)而分母改为为n-1n-1后,经数学证明,后,经数学证明,S S2 2总在总体方差周围波动(无偏估计),另外,总在总体方差周围波动(无偏估计),另外,S S2 2 的的自自由度由度正好是正好是n-1n-1样本的标准误样本的标准误SDSD与与SESE的区别:的区别:SDSD是描述个体观察值变异程度的大小,样本标准差越小,样本均是描述个体观察值变异程度的大小,样本标准差越小,样本均 数对一组样本观察值的代表性就越好;数对一组样本观察值的代表性就越好;SESE是描述是描述样本均数变异程样本均数变异程 度和抽样误差的大小度和抽样误差的大小,样本标准误越小,用样本均数估计总体均,样本标准误越小,用样本均数估计总体均 数可靠性就越高数可靠性就越高在实际中,一般在实际中,一般用样本标准差与样本均数结合用样本标准差与样本均数结合,用于描述样本观察值的分布范,用于描述样本观察值的分布范围;围;样本标准误与样本均数结合样本标准误与样本均数结合,用于估计总体均数可能出现的范围。
用于估计总体均数可能出现的范围第第3 3节节 抽样分布抽样分布统计量是样本随机变量的函数,也是一个随机变量,因而也有自己的概率分布,统计量是样本随机变量的函数,也是一个随机变量,因而也有自己的概率分布,这种统计量的分布叫做这种统计量的分布叫做抽样分布抽样分布以下介绍几种在已知以下介绍几种在已知总体为正态分布总体为正态分布条件下,常见统计量的抽样分布条件下,常见统计量的抽样分布1.1.样本均数的样本均数的u u分布分布这说明这说明样本均数的期望与总体的期望相等样本均数的期望与总体的期望相等,而,而方差为总体方差的方差为总体方差的1/n1/n倍倍可见,用可见,用样本均值估计总体均值无系统偏差,且样本均值估计总体均值无系统偏差,且n n越大越精确越大越精确样本均值分布的应用样本均值分布的应用:其标准化随机变量其标准化随机变量u u主要用于单正态总体、方差已知、小样本条件下数学期主要用于单正态总体、方差已知、小样本条件下数学期望的望的u u检验2.2.2 2分布分布(卡方分布卡方分布)设设X1,X2,X1,X2,Xn,Xn相互独立相互独立,都服从都服从N(0,1),N(0,1),则称随机变量:则称随机变量:所服从的分布为所服从的分布为自由度为自由度为n n的的 2 2分布,记为分布,记为 2 2 2(n)2(n)。
自由度:自由度:指统计量中独立变量的个数计算公式为指统计量中独立变量的个数计算公式为df=n-kdf=n-k,n n为样本容量,为样本容量,k k为约为约束条件个数如统计量束条件个数如统计量 ,变量独立无约束条件,所以自由,变量独立无约束条件,所以自由度为度为n n而样本方差而样本方差 ,其中有,其中有n n个变量个变量 ,但,但这说明变量间有一个约束条件,所以其自由度为这说明变量间有一个约束条件,所以其自由度为n-1.n-1.性质:性质:(1)(1)一种非对称分布当一种非对称分布当n n较大时,曲线近似对称,趋于正态分布较大时,曲线近似对称,趋于正态分布2)(2)一个以自由度一个以自由度n n为参数的分布族,为参数的分布族,自由度自由度n n决定了分布的形状,对于决定了分布的形状,对于 不同的不同的n n有不同的分布有不同的分布3)(3)均值为均值为n n,方差为方差为2n2n定理定理:若:若X1X1,X2X2XnXn为正态总体为正态总体 的一个样本,则有的一个样本,则有3.t3.t分布分布设设X XN(0,1),YN(0,1),Y 2(n),2(n),且且X X与与Y Y相互独立,则称随机变量相互独立,则称随机变量 所服从的分所服从的分布为自由度为布为自由度为n n的的t t分布,记为分布,记为t tt(n)t(n)。
性质:性质:(1)t(1)t分布是对称分布,与标准正态分布相比,分布是对称分布,与标准正态分布相比,t t分布的中心部分较低,分布的中心部分较低,2 2个尾部较高个尾部较高2)(2)均值为均值为0,0,方差为方差为n/(n-2)n/(n-2)3)(3)当样本容量当样本容量n n较小时,较小时,t t分布的方差大于分布的方差大于1 1;当;当n n逐渐增大时,逐渐增大时,t t分布的分布的方差就接近方差就接近1 1,t t分布也就趋近于标准正态分布分布也就趋近于标准正态分布t t分布是统计学中十分重要的分布,应用最为广泛,其应用的依据是下面分布是统计学中十分重要的分布,应用最为广泛,其应用的依据是下面2 2个定理:个定理:(1)(1)设设X1X1,X2X2XnXn为正态总体为正态总体 的一个样本,则的一个样本,则(2)(2)设设X X1 1,X X2 2X Xn1n1和和Y Y1 1,Y Y2 2Y Yn2n2分别是从分别是从同方差同方差的总体的总体 和和 中所抽取的样本,它们是相互独立,则中所抽取的样本,它们是相互独立,则 其中,其中,S S1 1和和S S2 2分别是这两个样本的标准差。
分别是这两个样本的标准差4.F4.F分布分布设设X X 2(n1),Y2(n1),Y 2(n2),X2(n2),X与与Y Y相互独立,则称统计量相互独立,则称统计量 为服从自由为服从自由度度n1n1和和n2n2的的F F分布,记为分布,记为F FF(n1,n2)F(n1,n2)n1n1为分子随机变量为分子随机变量X X的自由度的自由度,称为分子自由度,称为分子自由度,n2n2为分母随机变量为分母随机变量Y Y的自由度,的自由度,称为分母自由度称为分母自由度性质性质:(1):(1)非对称偏左侧的分布;当非对称偏左侧的分布;当n n较大时,曲线近似对称,趋于正态分布较大时,曲线近似对称,趋于正态分布2)(2)是以自由度是以自由度n1n1和和n2n2为参数的分布族,不同自由度决定了为参数的分布族,不同自由度决定了F F 分布的形状分布的形状概率分布的拟合及其应用不做要求概率分布的拟合及其应用不做要求第第4 4节节 总体的参数估计总体的参数估计统计推断:统计推断:用样本的信息去推断总体的信息用样本的信息去推断总体的信息参数估计:用样本统计量去估计总体参数的大小参数估计:用样本统计量去估计总体参数的大小。
假设检验:用样本统计量大小去推断总体参数是否有差异假设检验:用样本统计量大小去推断总体参数是否有差异1.1.参数点估计(略)参数点估计(略)直接用样本统计量大小代替总体参数同一总体参数可用多个统计量来估计,衡直接用样本统计量大小代替总体参数同一总体参数可用多个统计量来估计,衡量其好坏的指标有三个:量其好坏的指标有三个:无偏性无偏性、有效性有效性、一致性一致性易出选择题或填空题)(易出选择题或填空题)缺陷:缺陷:(1)(1)点估计值不一定是参数的真值,即使与真值相等也无法肯定这种相等点估计值不一定是参数的真值,即使与真值相等也无法肯定这种相等 (总体参数本身是未知的)总体参数本身是未知的)2)(2)点估计值只是未知参数的一个近似值,没有给出它与真值之间的误差范点估计值只是未知参数的一个近似值,没有给出它与真值之间的误差范 围(可靠程度),把握不大围(可靠程度),把握不大实例:实例:估计全省估计全省1818岁女孩的平均身高若根据实际样本,通过岁女孩的平均身高若根据实际样本,通过点估计法点估计法可能得到可能得到 女孩的平均身高估计值为女孩的平均身高估计值为162cm162cm而实际上,女孩的平均身高可能大于或小。
而实际上,女孩的平均身高可能大于或小 于于162cm162cm若能给出一若能给出一区间区间,能以,能以较大概率较大概率相信这个区间包含身高的真值,相信这个区间包含身高的真值,将会将会更有价值更有价值2 2、区间估计、区间估计在给定可靠程度在给定可靠程度1-1-下,用样本值通过合适统计量,估计总体参数下,用样本值通过合适统计量,估计总体参数所在区间的所在区间的方法置信区间与置信度置信区间与置信度设设是总体的未知参数,若由样本是总体的未知参数,若由样本X1,X2,X1,X2,Xn Xn 确定的两个统计量确定的两个统计量:对给定对给定(0(01),5050正态总体总体均数之差的区间估计、正态总体方差的区间估计(略)正态总体总体均数之差的区间估计、正态总体方差的区间估计(略)离散型总体参数的区间估计不作要求离散型总体参数的区间估计不作要求第第4 4讲讲 总体参数的假设检验总体参数的假设检验第第1 1节节 假设检验的基本思想假设检验的基本思想问题的提出问题的提出从吸烟人群和非吸烟人群中各抽取从吸烟人群和非吸烟人群中各抽取n=100n=100的样本,分别记为的样本,分别记为A A样本和样本和B B样本。
样本A A样本样本收缩压为收缩压为150mmHg150mmHg,B B样本为样本为130mmHg130mmHg原因有两种可能:原因有两种可能:(1)(1)两个两个总体均数不相同总体均数不相同 (2)(2)抽样误差抽样误差(两个总体均数相同)(两个总体均数相同)假设检验的基本思想假设检验的基本思想(1)(1)反证法反证法(2)(2)小概率原理:小概率原理:认为小概率事件在一次抽样中是不可能发生的认为小概率事件在一次抽样中是不可能发生的先假定一个假设先假定一个假设H0H0:1=21=2成立,如果由此导出一个不合理现象的发生(成立,如果由此导出一个不合理现象的发生(即出现即出现一个小概率事件),就拒绝这个假设;如果没有导出不合理的现象发生,就一个小概率事件),就拒绝这个假设;如果没有导出不合理的现象发生,就不能不能拒绝这个假设拒绝这个假设假设检验的基本步骤假设检验的基本步骤(1)(1)建立假设建立假设H0H0:1=1=2 2 (原(原假设)假设)H1H1:112 2 (备择假设)(备择假设)注意:注意:假设是针对总体,而不是样本假设是针对总体,而不是样本(2)(2)确定检验水准确定检验水准显著性水准,判定差别有无统计学意义的概率水准,确定了显著性水准,判定差别有无统计学意义的概率水准,确定了小概率事件的标小概率事件的标准准。
通常取通常取=0.05=0.05P P -小概率事件小概率事件(3)(3)选定检验方法,计算检验统计量选定检验方法,计算检验统计量根据研究目的、资料类型选用合适的检验方法;根据研究目的、资料类型选用合适的检验方法;统计量都是在统计量都是在H H0 0成立的前提下成立的前提下算出来的!算出来的!(4)(4)确定确定P P值值根据检验统计量确定根据检验统计量确定P P值值P P值:值:H H0 0成立的概率成立的概率如果如果PP0 0.05.05,即,即H H0 0成立的概率小于成立的概率小于0.050.05,可以认为,可以认为H H0 0成立是小概率事件,发成立是小概率事件,发生的生的可能性很小,就有理由怀疑可能性很小,就有理由怀疑H H0 0不成立!不成立!(5)(5)做出推断结论做出推断结论推断的结论推断的结论统计学结论统计学结论专业结论专业结论P P0.050.05,按,按=0.05=0.05检验水准,检验水准,不拒绝不拒绝H H0 0,差异,差异无无统计学意义,统计学意义,还不能认为还不能认为不同或不等不同或不等P0.05P0.05 ,按,按=0.05=0.05检验水准,检验水准,拒绝拒绝H H0 0,接受接受H H1 1,差异,差异有有统计学意义,统计学意义,可以可以认为认为不同或不等。
不同或不等下结论时,对下结论时,对H H0 0只能说只能说拒绝拒绝/不拒绝不拒绝;对;对H H1 1只能说只能说接受接受!不拒绝不拒绝H H0 0 接受接受H H0 0 第第2 2节节 单个正态总体的参数检验单个正态总体的参数检验2 2已知时正态总体均值的已知时正态总体均值的u u检验检验设总体设总体X XN(,N(,2 2),X1,X2,X1,X2,Xn,Xn为抽自总体为抽自总体X X的样本,方差的样本,方差2 2已知,则已知,则例例1.1.某药厂正常情况下生产的某药膏含甘草酸量某药厂正常情况下生产的某药膏含甘草酸量X XN N(4.454.45,0.10820.1082).现随机抽现随机抽查了查了5 5支药膏支药膏,其含甘草酸量分别为:其含甘草酸量分别为:4.40 4.25 4.21 4.33 4.464.40 4.25 4.21 4.33 4.46,若方,若方差不变,问此时药膏的平均含甘草酸量差不变,问此时药膏的平均含甘草酸量是否有显著变化?(是否有显著变化?(=0.05=0.05)解:解:H0H0:=0=0,H1H1:00;=0.05=0.05 根据显著水平根据显著水平=0.05=0.05,查正态分布双侧,查正态分布双侧 临界值临界值,得,得u u0.05/20.05/2=1.96=1.96|u|=2.485|u|=2.485u u0.05/2 0.05/2,所以拒绝,所以拒绝H H0 0,接受,接受H H1 1。
可以认为此药膏的平均含甘草酸量有显著性变化可以认为此药膏的平均含甘草酸量有显著性变化2 2未知时正态总体均值的未知时正态总体均值的u u检验检验设总体设总体X XN(,2)N(,2),X1,X2,X1,X2,Xn,Xn为抽自总体为抽自总体X X的样本,方差的样本,方差22未知,则未知,则例例2 2.正常人的脉搏平均为正常人的脉搏平均为7272(次(次/min/min),现测得现测得2020例慢性四乙基铅中毒患者例慢性四乙基铅中毒患者的脉的脉搏搏(次次/min)/min)的均值是的均值是63.5063.50,标准差是,标准差是5.605.60,若四乙基铅中毒患者的脉搏服,若四乙基铅中毒患者的脉搏服从正态从正态分布,问四乙基铅中毒患者的脉搏是否与正常人不同?(分布,问四乙基铅中毒患者的脉搏是否与正常人不同?(=0.05=0.05)解:解:H0 H0:=0=0,H1H1:00 =0.05 =0.05查查t t分布临界值表得:分布临界值表得:|t|=6.7882.093|t|=6.7882.093,所以拒绝,所以拒绝H0H0,接受,接受H1H1可认为四乙基铅中毒者的脉搏与正常人不同可认为四乙基铅中毒者的脉搏与正常人不同。
第第3 3节节 两个正态总体的参数检验两个正态总体的参数检验1.1.两个正态总体的方差齐性检验(略)两个正态总体的方差齐性检验(略)2.2.配对比较两个正态总体均数的检验(略)配对比较两个正态总体均数的检验(略)3.3.成组比较两个正态总体均数的检验(略)成组比较两个正态总体均数的检验(略)第第4 4节节 方差分析方差分析在多组总体均数比较时如采用在多组总体均数比较时如采用t t检验会增大犯第一类错误概率如三组之间检验会增大犯第一类错误概率如三组之间的两两的两两t t检验,三组之间的两两检验,三组之间的两两t t检验做完三次检验做完三次t t检验,总的显著性水平变为检验,总的显著性水平变为1-(1-1-(1-0.05)0.05)3 3=0.14=0.14,要大于设定的要大于设定的=0.05=0.05而方差分析是将三组数据放在一起做一次比而方差分析是将三组数据放在一起做一次比较,犯较,犯一类错误的概率仍为一类错误的概率仍为=0.05=0.05基本概念基本概念试验指标试验指标:衡量试验结果好坏的标准衡量试验结果好坏的标准因素因素:在试验过程中,影响试验结果的条件在试验过程中,影响试验结果的条件。
水平水平:因素在试验中可能处的状态因素在试验中可能处的状态总体1.N(1,12)-样本1(n1,S1)总体2.N(2,22)-样本2(n2,S2)总体3.N(3,32)-样本3(n3,S3)已知:12=22=32,问:1=2=3?2x1x3x 组间变异组间变异(不同药物效应引起(不同药物效应引起+随机误差引起)随机误差引起)总变异总变异 组内变异组内变异(随机误差引起)(随机误差引起)如不同药物的作用相同(如不同药物的作用相同(H0H0:均值相等),则:均值相等),则:F=F=组间变异组间变异/组内变异组内变异 =1=1在在H0H0条件下,条件下,F F虽不会正好等于虽不会正好等于1 1(抽样误差),但应当和(抽样误差),但应当和1 1相差不大相差不大F F越大,其概率越小,当越大,其概率越小,当FF以致其对应的概率以致其对应的概率P0.05P0.05,则可认为不同药物的,则可认为不同药物的作用作用是不相同的即样本均数之间的差异有统计学意义是不相同的即样本均数之间的差异有统计学意义方差分析的基本步骤方差分析的基本步骤(1)(1)提出假设提出假设H0H0:三种药物对小白鼠镇咳作用相同:三种药物对小白鼠镇咳作用相同H1H1:三种药物镇咳作用不完全相同三种药物镇咳作用不完全相同(2)(2)确定检验水准确定检验水准 =0.05 =0.05(3)(3)计算统计量计算统计量 SSe SSe的自由度为的自由度为N-kN-k,即,即40-3=3740-3=37,组内方差,组内方差SeSe2 2=SSe/(N-k)=SSe/(N-k)SS SSA A的自由度为的自由度为k-1k-1,即,即3-1=23-1=2,组间方差,组间方差S SA A2 2=SS=SSA A/(k-1)/(k-1)统计量统计量F=F=组间方差组间方差S SA A2 2 /组内方差组内方差SeSe2 2,将结果整理为,将结果整理为方差分析表方差分析表(4)(4)确定确定P P值值 (5)(5)作出推断结论作出推断结论在在=0.05=0.05水平上,拒绝水平上,拒绝H0H0,接受,接受H1H1,认为三种药物平均推迟咳嗽时间不全,认为三种药物平均推迟咳嗽时间不全相同。
相同方差齐是方差分析的前提条件之一,因此先进行方差齐是方差分析的前提条件之一,因此先进行方差齐性检验(略)方差齐性检验(略)方差分析中如果拒绝方差分析中如果拒绝HOHO,接受,接受H1H1,仅能认为多个水平间均数不全相等,但是,仅能认为多个水平间均数不全相等,但是哪些哪些水平间差异显著,哪些不显著,方差分析不能作结论因此需要进行水平间差异显著,哪些不显著,方差分析不能作结论因此需要进行两两间两两间多重多重比较的检验法(略)比较的检验法(略)两因素试验的方差分析不作要求两因素试验的方差分析不作要求第第5 5节节 离散型变量总体参数的假设检验离散型变量总体参数的假设检验单个总体率的假设检验(略)单个总体率的假设检验(略)两个总体率的假设检验(略)两个总体率的假设检验(略)第第6 6节节 列联表中独立性检验列联表中独立性检验2 22 2列联表(四格表)中的独立性检验列联表(四格表)中的独立性检验原理及步骤原理及步骤(1)(1)建立假设建立假设 H0 H0:两种药物治疗消化道溃疡的疗效相同:两种药物治疗消化道溃疡的疗效相同 H1 H1:两种药物治疗消化道溃疡的疗效不同:两种药物治疗消化道溃疡的疗效不同(2)(2)确立检验水准确立检验水准=0.05=0.05(3)(3)计算统计量计算统计量 在在H0H0成立的前提下,成立的前提下,假设假设1=2=PC1=2=PC(合计率),计算理论频数(合计率),计算理论频数T T两种药物治疗消化道溃疡4周后疗效处 理 愈合 未愈合 合计 愈合率(%)洛赛克 64(E11)21(E12)85 75.29雷尼替丁 51(E21)33(E22)84 60.71合 计 115 54 169 68.05合计愈合率合计愈合率=115/169=115/169,合计未愈合率,合计未愈合率=54/169=54/169,各个格子理论频数应为:,各个格子理论频数应为:E11=85E11=85*115/169 115/169,E12=85E12=85*54/169 54/169,E21=84 E21=84*115/169 115/169,E22=84E22=84*54/169 54/169统计学家统计学家PearsonPearson提出对提出对R RC C列联表使用统计量列联表使用统计量它服从自由度为它服从自由度为f f的的 2 2分布,其中分布,其中f=(R-1)f=(R-1)*(C-1)(C-1)。
4)(4)确定确定P P值2 20.05,10.05,1=3.84=3.84,得得P P Fa时,则拒绝H0,即认为X与Y之间有显著的线性关系第第3 3节节 预测与控制预测与控制建立了有统计学意义的回归方程以后,建立了有统计学意义的回归方程以后,X X变量变量=x0=x0时,时,Y Y变量为变量为a+bx0a+bx0,这个值,这个值是估是估计值,为提高可靠性,可以在进行区间估计,包括计值,为提高可靠性,可以在进行区间估计,包括预测预测和和控制控制(由(由x x0 0推算推算y y0 0称为预称为预测,由测,由y y0 0推算推算x x0 0称为控制)称为控制)略)(略)多元线性回归与非线性回归不做要求多元线性回归与非线性回归不做要求第第4 4节节 半数有效量半数有效量(ED50)(ED50)和半数致死量和半数致死量(LD50)(LD50)估计估计概率单位法(略)概率单位法(略)序贯法不做要求序贯法不做要求第第6 6讲讲 正交试验设计正交试验设计对于单因素或两因素试验,因其因素少,试验的设计、实施与分析比较简单对于单因素或两因素试验,。