文档详情

理学试验设计与分析的数理统计基础

dus****log
实名认证
店铺
PPT
3.55MB
约73页
文档ID:158976236
理学试验设计与分析的数理统计基础_第1页
1/73

动物试验设计 Experimental Design in Animal Science主 讲 郑惠玲 副教授使用教材使用教材l试验设计与分析Design and Analysis of Experiments 袁志发教授主编 2007年8月第二版 http:/210.27.80.165/wangluokecheng/2007/swtjx/index.html第一章 试验设计与分析的数理统计基础试验设计与分析:简称试验统计,是数理统计的一个分支,是进行科学研究不可缺少的工具包括两部分内容:一是对试验或调查进行周密而审慎的设计,然后经过试验或调查得到统计数据;二是对数据进行统计学分析,对试验或调查的结果给以合宜的结论统计分析的一般过程总体总体随机变量随机变量-参数:参数:N,2,随机样本随机样本获取数据资料,获取数据资料,x1,x2,数据整理数据整理 ,2sxn分析数据分析数据参数估计,假设检验参数估计,假设检验对总体作出推断对总体作出推断计算基本统计量:计算基本统计量:;作表,作图;作表,作图1 试验设计原理1-11-1试验误差试验误差系统误差:系统误差:观察值与真值之间发生了有一定方向的偏离,这种偏离叫做系统误差。

随机误差随机误差 如果观察值与真值之间仅发生了一些无方向的微小的偏离,即这种偏离具有随机性,这种偏离称为随机误差错失误差错失误差 试验中由于试验人员粗心大意所发生的差错称为错失误差准确度(accuracy):是指同一处理的观察值(observation)与其真值接近的程度,越是接近,则试验越准确 精确度(precision):是指同一处理的重复观察值间彼此接近的程度 由于处理的真值往往不知道,因而准确度不易确定;而精确度在统计上是可以计算的当试验没有系统误差时,精确度与准确度是一致的 图图1-1-1 系统误差与随机误差的大小系统误差与随机误差的大小a()大 的 系 统 误 差b()小 的 系 统 误 差c()大 的 随 机 误 差d()小 的 随 机 误 差生物及农业试验中误差的主要来源:(1)供试材料固有的差异供试材料固有的差异 (2)环境条件的差异环境条件的差异 (3)管理不一致所引起的差异管理不一致所引起的差异(4)观察测定的不一致性造成的差异观察测定的不一致性造成的差异 实践中应注意:实践中应注意:选择同质一致的试验材料;改进操作、管理及记载技术,使之标准化;控制引起差异的外界主要因素;应用良好的试验设计和相应的统计分析可起到消灭系统误差、降低随机误差的作用 1-2 1-2 试验方案试验方案 试验:试验:是人为控制条件下有目的地进行的一种实践活动。

试验指标:在任何试验中,都必须选定一个或几个判据,作为判明所研究对象优劣之用,这些判据称为试验指标 试验因素试验因素:在试验中所研究的影响试验指标的某一项目称为因素或因子因素水平:因素水平:试验因素所处的某种特定状态或数量等级称为因素水平,简称水平 试验处理:试验处理:事先设计好的实施在试验单元上的具体项目,即试验中具体比较的项目称为试验处理,简称处理 试验方案:试验方案:试验方案是指根据试验目的与要求所拟定的进行比较的一组试验处理的总称完全试验方案不完全试验方案多因素试验方案试验方案 单因素试验方案 按供试因素的多少可区分为单因素试验方案和多因素试验方案 在单因素试验中,一个水平就是一个处理,因此单因素试验方案由该试验因素的所有水平构成这是最基本、最简单的试验方案 多因素试验方案由该试验的所有试验因素的水平组合(即处理)构成多因素试验方案分为完全方案和不完全方案两类 在完全方案中,列出试验方案时,要求每一个因素的每个水平都要碰见一次这时,水平组合(即处理)数等于各个因素水平数的乘积 根据完全试验方案进行的试验称为全面试验 多因素全面试验的效率高于多个单因素试验的效率 全面试验的主要不足是,当因素个数和水平数较多时,水平组合(处理)数太多,以至于在试验时,人力、物力、财力等都难以承受,试验误差也不易控制因而全面试验宜在因素个数和水平数都较少时应用 不完全方案也是一种多因素试验方案但它是将试验因素的某些水平组合在一起形成少数几个水平组合这种在全部水平组合中挑选部分水平组合获得的方案称为不完全方案根据不完全方案进行的试验称为部分实施试验拟定试验方案的注意点拟定试验方案的注意点 根据试验提出的问题的多少决定用简单的或根据试验提出的问题的多少决定用简单的或复杂的方案复杂的方案 因素水平应力求简明,水平间的差异须适当因素水平应力求简明,水平间的差异须适当 试验方案中应包括作为比较标准的对照试验方案中应包括作为比较标准的对照 试验处理(包括对照)之间应遵循试验处理(包括对照)之间应遵循唯一差异唯一差异原则原则 1-3 1-3 试验单元与试验空间试验单元与试验空间 试验单元试验单元 :在试验中能够施以不同处理的最小的材料单元。

或提供处理的一个具有独立随机误差的观察值的单元试验空间:所有试验单元构成了试验空间 试验单元的形式是根据科学试验的要求而确定的它可以是一只培养瓶中的果蝇、一盆植物、一头家畜或一个笼中的若干只鸡等,随研究目的而定尽管如此,必须要求在试验中各试验单元是条件相同的,如果不相同就要在试验设计中予以重视设置重复设置重复 随机化随机化 局部控制(区组化)局部控制(区组化)1-4 Fisher1-4 Fisher试验设计的三个基本原理试验设计的三个基本原理 试验中同一处理的试验单元数,即为重复数 试验单元的分配和各个试验进行的次序都是随机确定的,这个原理称为随机化 当试验空间的非试验因素不均匀,即有系统误差时,单元分配必须运用局部控制原理 设置重复随机化排列局部控制消除系统误差,无偏的试验误差估计估计和降低随机误差与随机化相组合,分离系统误差,降低随机误差提高准确度和精确度,保证统计推断的可靠性1-5 1-5 试验模型试验模型试验的一般模型:试验的数学模型:试验单元输入(处理)输出(试验指标)随 机干 扰),(ijiijufxijxiu2 随机数据的属性及其简单处理 总体总体(population):根据研究目的确定的研:根据研究目的确定的研究对象的全体称为总体;究对象的全体称为总体;样本样本(sample):总体的一部分称为样本:总体的一部分称为样本 总体中的一个研究单位称为个体总体中的一个研究单位称为个体(individual);2-1 随机数据具有变异性随机数据具有变异性2-2 随机数据的频率分布2-2-1随机数据的频率分布 试验指标一般可分为数量性和质量性的两种,数量性的又分为计数性的和量测性的两种 数量性状(quantitative character)是指能够以量测或计数的方式表示其特征的性状。

观察测定数量性状而获得的数据就是数量性状资料(data of quantitative characteristics)如体高、产奶量、体重、绵羊剪毛量等数量性状资料的记载有量测和计数两种方式,因而数量性状资料又分为计量资料和计数资料两种质量性状质量性状(qualitative character)是指能观察到而不能直接测量的性状,如颜色、性别、生死等这类资料通过计数获得数据1)间断性数据的频率分布表 1-2-2 100 个麦穗每穗小穗数的频率分布表 每穗小穗数 划 计 次数if 频率nfi 15 正 6 0.06 16 正正正 15 0.15 17 正正正正正正正丅 32 0.32 18 正正正正正 25 0.25 19 正正正丅 17 0.17 20 正 5 0.05 合 计 100 1 小穗数频率(2)连续性数据的频率分布)连续性数据的频率分布【例 1-2-2】表 1-2-3 所示为黄瓜群体品种叶片中叶绿素 a 含量的 120 个测定值(/g鲜重)叶绿素含量为量测性的连续数据,它可以取某一区间内的任一数值,用分组整理法整理出它们的分布情况较上面的例子麻烦一些,但步骤一样 表 1-2-3 120 个黄瓜叶片中叶绿素 a 含量的测定值(/g 鲜重)1.86 1.83 1.77 1.81 1.81 1.80 1.79 1.82 1.82 1.81 1.81 1.87 1.82 1.78 1.80 1.81 1.87 1.81 1.77 1.78 1.77 1.78 1.77 1.77 1.77 1.71 1.95 1.78 1.81 1.79 1.80 1.77 1.76 1.82 1.80 1.82 1.84 1.79 1.90 1.82 1.79 1.82 1.79 1.86 1.76 1.78 1.83 1.75 1.82 1.78 1.73 1.83 1.81 1.81 1.83 1.89 1.81 1.86 1.82 1.82 1.78 1.84 1.84 1.84 1.81 1.81 1.74 1.78 1.78 1.80 1.74 1.78 1.75 1.79 1.85 1.75 1.71 1.71 1.88 1.82 1.76 1.85 1.73 1.78 1.81 1.79 1.77 1.78 1.87 1.87 1.83 1.65 1.64 1.78 1.75 1.82 1.80 1.80 1.77 1.81 1.83 1.83 1.90 1.80 1.85 1.81 1.77 1.78 1.82 1.84 1.85 1.84 1.85 1.85 1.84 1.82 1.85 1.84 1.78 1.78 表 1-2-4 120 个黄瓜叶片中叶绿素 a 含量(/g 鲜重)的频率分布表 组 限 iixx,1 划 计 次数if 频率 nfpii 累加频率iF 1.635-1.655 丅 2 0.0167 0.0167 1.655-1.675 0 0.0000 0.0167 1.675-1.695 0 0.0000 0.0167 1.695-1.715 丅 2 0.0167 0.0334 1.715-1.735 丅 2 0.0167 0.0501 1.735-1.755 正 8 0.667 0.1168 1.755-1.775 正正 13 0.1083 0.2251 1.775-1.795 正正正正 23 0.1917 0.4168 1.795-1.815 正正正正 24 0.2000 0.6168 1.815-1.835 正正正正 21 0.1570 0.7918 1.835-1.855 正正 14 0.1167 0.9085 1.855-1.875 正 6 0.0500 0.9585 1.875-1.895 丅 2 0.0167 0.9752 1.895-1.915 丅 2 0.0167 0.9919 1.915-1.935 0 0.0000 0.9919 1.935-1.955 1 0.0083 1.0002 总 计 120 1.0002 叶绿素含量频率00.050.10.150.20.251.61.651.71.751.81.851.91.952 图1-2-3 120个 黄 瓜 叶 片 中 叶 绿 素a含 量(/g鲜 重)的 频 率 分 布 多 边 形 图 叶 绿 素 含 量 频 率 图1-2-2 120个黄瓜叶片中叶绿素a含量(/g鲜重)的频率分布柱形图(3)质量性状数据的频率分布)质量性状数据的频率分布 表2-1 白猪和黑猪子二代的毛色分离情况 毛色 次数(f)频率(%)白色 332 73.78 黑色 96 21.33 花色 22 4.89 合 计 450 100.00 2-2-2 数据的中心位置数据的中心位置 构造刻画数据中心位置的量有算术平均数、中位数、众数和几何平均数等,最重要的是数据的算术平均数:niinxnxxxnx1211)(1算术平均数具有两个重要特性:(1)样本各观察值与其平均数的差数的总和等于零:niixx10)(2)样本各观察值与其平均数的差数平方的总和,较各观察值与任意其他数值的差数平方的总和为小,亦即离均差平方的总和最小 2-2-3 2-2-3 数据的变异度数据的变异度刻画数据变异的量:(1)极差极差(Range)(2)方差(方差(variance)或标准差或标准差(Standard Deviation,SD 刻画所有数据偏离中心的总变异量用数据的偏差平方和:刻画平均到每一个独立数据的变异度常用方差或标准差Sninininiiiiixxxnxxnxxxl1112122221)(21xxlsn1xxlsn(3)变异系数变异系数(coefficient of variation)100sCVx3 总体及其样本3-1 总体与样本总体与样本 通过试验或调查的实施,我们得到了各试验指标的观察值同一处理的不同次观察值形成了随机数据,它是数理统计分析处理的对象统计学是以概率论为基础的,概率论是研究随机变量的数学理论因此,在统计学中将同一处理的随机数据看成是有一定分布的随机变量一个试验指标称为一维随机变量,多个试验指标称为多维随机变量总体与样本的关系总体与样本的关系 3-2 总体的理论分布总体的理论分布 3-2-1离散型随机变量的分布及其数字特征离散型随机变量的分布及其数字特征若随机变量X 只取数轴上有限个或无限个孤立值x1,x2,并且这些值的取得对应着确定的概率p1,p2,即其概率函数为:iipxXP ,2,1i (1-3-1)则称随机变量X 是离散分布的其中1,0iipp,概率函数(1-3-1)可用相应的概率分布表及条形图1-3-2 来表示:X 1x 2x nx ()P X 1p 2p np 图图1-3-2 离散型随机变量分布的条形图离散型随机变量分布的条形图值一切XiipxXE)(2222)()(iiiipxpxXV(1 1)0-10-1分布分布0-1 分布所刻画的总体 X,其特点是只能出现非此即彼两种对立的结果(事件)如在一批产品中抽查一个产品的合格与否,在一块棉田中抽查一个植株的感病与否,施用农药后抽查一只蚜虫死活与否等 设两个对立事件为A与A,在总体中任抽一个个体是A的概率为 p,非A的概率为pq1,把A量化为 1,把A量化为 0,则 0-1 分布的概率分布表为:X 0 1()P X q p 其均值和方差分别为:pqpppqXVppqXE2222210)(10)((2 2)二项分布)二项分布(binomial distribution)在0-1 总体中,随机抽n个个体时,有n+1 种情况,即0 个A(全部为A),一个A和n1 个A,k 个A和nk个A,n 个A(全部为A)抽到k 个A和nk 个A的概率为:nkqpCkXPknkkn,2,1,0,(1-3-5)概率函数为(1-3-5)的总体变量X的分布称为二项分布,记为XB(n,p),这是因为kXp为()np q展开式中按p的升幂排列的第k+1 项(,)B n p的概率分布表为:X 0 1 2 k n()P X nq 11nnpqC 222nnqpC kkn knC p q np 由 于 每 次 随 机 独 立 抽 取n个 个 体,每 个 个 体ix均 为0-1分 布,即 对 每 个 个 体iX有pXEi)(,pqXVi)(,故B(n,p)的和2分 别 等 于 各E(Xi)之 和 与 各V(Xi)之 和,即:)()(21nXXXEXE)()()(21nXEXEXE (1-3-6)npppp)()(212nXXXVXV)()()(21nXVXVXV (1-3-7)npqpqpqpq 二项分布的概率分布条形图的形状决定于 p 和 n 当2/1 qp时,图形是对称的;如qp,图形为偏斜的;当 n 很大时,即使qp,图形亦趋于对称(3 3)泊松分布)泊松分布在二项分布中,当 p 很小而 n 很大时,描述的是大量试验中的随机稀疏现象如在一定时间内纺纱机的断头次数、某种昆虫在一定面积上的分布等 严格来讲,当n,0p,np时,二项分布 B(n,p)的极限分布称为泊松分布,记为)(PX,其概率函数为:!kekXPk,,2,1,0k (1-3-8)其概率分布表为:X 0 1 2 k ()P X e e 22!e !kek 例 题 见 p203-2-23-2-2连续型随机变量的分布及其数字特征连续型随机变量的分布及其数字特征试验中的某个指标X,随机重复n 次,每一次观察值xi中仅有处理的真值和随机误差i随机误差i是相互独立的,它描述了观察ix与的微小偏离,可正可负如果我们假定绝对值相等的误差i和i的概率相等,这样iix的概率分布就相当于2/1qp时的二项分布nqp)(的展开式如果n,相邻ix间的距离无限小,间断性已转变为连续性,其概率函数就转化为X的概率密度函数:22121)(xexf,x (1-3-11)正态分布(normal distribution)具有如下概率密度函数的随机变量称为正态分布随机变量:xexfx2)(2221)(=期望期望 2=方差方差),(N2X 正态分布概率密度函数的几何表示正态曲线正态曲线f(x)x曲线下某区间的面积即为随机变量在该区间取值的概率曲线下某区间的面积即为随机变量在该区间取值的概率S(-x1,-x2)-x1 -x2 x2 x1S(x1,x2)=S(-x2,-x1)正态分布的特点只有一个峰,峰值在x=处曲线关于x=对称,因而算术平均数=众数=中位数x轴为曲线向左、右延伸的渐进线曲线在x=处各有一个拐点由两个参数决定:平均数 和 标准差 决定曲线在x 轴上的位置 决定曲线的形状分布密度曲线与横轴所夹的面积为1 正态分布平均数的影响平均数的影响标准差的影响标准差的影响正态分布的标准化标准正态分布(standard normal distribution)(standard normal distribution):=0,2=1的正态分布。

),(2NX令Xuu服从正态分布服从正态分布)1,0(Nu标准正态分布标准正态分布对于0)(1)(1)(XEuE1)0(1)()(1)(222VarXVaruVar标准化标准化2)(2221)(xexfu称为标准正态变量或称为标准正态变量或标准正态离差标准正态离差(standard normal deviate)标准正态分布的概率密度函数ueufu2221)(0 标准正态分布的概率计算121)2(121)()(uuudueduufuuP(1)P(u u1)或 P(Z -u1)(u1 0)()(11uuPuuP直接查表直接查表(2)P(u -u1)或 P(u u1)(1)()(111uuPuuPuuP正态分布的概率计算)()()(auPbuPbuaP(3)P(a u b)()(1)(buPauPbuaP或或例:设例:设 u N(0,1),求,求 (1)P(u 0.64)(2)P(u 1.53)(3)P(-2.12 u -0.53)(4)P(-0.54 u 0.84)正态分布的概率计算几个特殊的标准正态分布概率 正态分布的概率计算68.3%95.5%99.7%P(-1 u 1)=68.26%P(-2 u 2)=95.45%P(-3 u 3)=99.73%P(-1.96 u 1.96)=95%P(-2.58 u 2.58)=99%对于给定的两尾概率求标准正态分布在x轴上的分位点)(111uuuP/2/2正态分布的概率计算)(11uuP2)(111uuuP用用2 查附表查附表2,可得一尾概率为,可得一尾概率为 时的分位点时的分位点u 对于给定的一尾概率求标准正态分布在x轴上的分位点正态分布的概率计算 一般正态分布的概率计算 转换为标准正态分布计算Xu)()()(xZPxXPxXP例:例:设设 X N(30,102),求,求P(X 40)8413.0)1()103040()40(uPuPXPX N(,2)uX正态分布的概率计算4 统计分析中常用的几个分布及抽样分布4-1 (chi-square)分布分布 2若nuuu,21均服从标准正态分布)1,0(N且相互独立,则随机变量 222212nuuu 服从自由度为n 的卡方分布,记为)(22n其概率密度函数为:2/)12/(22/22)2/(21)(xnnenfG 02 (1-4-1)其中)2/(nG为G函数,)(2n的均值和方差分别为:nnE)(2,nnV2)(22 (1-4-2)1n5n15n图图1-4-1 分布概率密度函数曲线分布概率密度函数曲线t分布分布 1n5n)(正态n图图1-4-2 t分布概率密度函数曲线分布概率密度函数曲线F分布分布 4-2 正态总体的抽样分布正态总体的抽样分布nNX2,,)1()1(2222nSnlXX,其中1n为2的自由度,亦为XXl的自由度自由度是指XXl中独立变量的个数,而niiXXXXl12)(,但niiXX10)(,故只有1n个是独立的,即其中1n个可独立取值,剩下一个要满足0)(XXi就不能独立取值了,故XXl的自由度为1n 由于X与2S独立,且)1,0(/NnX,)1()1(222nSn,因此由 t 分布的定义可得到一个非常有用的抽样分布:nSXnSnnXt22)1()1(/如果样本来自两个均值和方差都不同的正态总体,一个样本111121,nXXX,来自2111(,)XN,另一个样本221222,nXXX来自2222(,)XN,其均值和方差分别为1X,2X;21S,22S 由 于 两 个 样 本 是 独 立 的,且)1()1(1221211nSn,)1()1(2222222nSn,则由 F 分布的定义可推出抽样分布:)1,1()1()1()1()1(2121222221222222211211nnFSSnSnnSnF (1-4-11)当2221时有)1,1(212221nnFSSF 121222121212221122221212()()(2)(1)(1)2XXnntt nnnSnSnn1212122211221212()()(2)(1)(1)112XXtt nnnSnSnnnn当22221时,有抽样分布:Kukenholf Park谢谢大家谢谢大家。

下载提示
相关文档
正为您匹配相似的精品文档