文档详情

新课标版高中数学高考总复习专题11.5变量间的相关关系、统计案例(试题练)教学讲练

lil****n07
实名认证
店铺
DOCX
714.35KB
约23页
文档ID:156720229
新课标版高中数学高考总复习专题11.5变量间的相关关系、统计案例(试题练)教学讲练_第1页
1/23

数学高考总复习§11.5 变量间的相关关系、统计案例基础篇固本夯基【基础集训】考点一 变量间的相关关系1.已知x与y之间的一组数据如下表:x1234y0.53.24.87.5若y关于x的线性回归方程为y^=b^x+a^,,则a^的值为(  )A.1.25   B.-1.25   C.1.65   D.-1.65答案 D2.已知某产品的销售额y(万元)与广告费用x(万元)之间的关系如下表:x(单位:万元)01234y(单位:万元)1015203035若求得其线性回归方程为y^=6.5x+a^,则预计当广告费用为6万元时的销售额为(  )A.42万元   B.45万元   C.48万元   D.51万元答案 C3.下列说法错误的是(  )A.回归直线过样本点的中心(x,y)B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1C.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位D.对于分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小答案 D4.已知下表所示数据的回归直线方程为y^=4x+242,则实数a=    . x23456y251254257a266答案 2625.某学校为倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱.现统计了连续5天的售出和收益情况,如下表:售出水量x(单位:箱)76656收益y(单位:元)165142148125150 (1)若x与y线性相关,则某天售出8箱水时,预计收益为多少元;(2)期中考试以后,学校决定将诚信用水的收益以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级201~500名,获二等奖学金300元;考入年级501名以后的特困生将不获得奖学金.甲、乙两名学生获一等奖学金的概率均为25,获二等奖学金的概率均为13,不获得奖学金的概率均为415.①在学生甲获得奖学金的条件下,求他获得一等奖学金的概率;②已知甲、乙两名学生获得哪个等级的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额X(元)的分布列及数学期望.附:b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x.解析 (1)∵x=7+6+6+5+65=6,y=165+142+148+125+1505=146,∴b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=19+0+0+21+01+0+0+1+0=20,则a^=y-b^x=146-20×6=26,∴y^=20x+26,当x=8时,y^=20×8+26=186,故某天售出8箱水时,预计收益是186元.(2)①设事件A为“学生甲获得奖学金”,事件B为“学生甲获得一等奖学金”,则P(B|A)=P(AB)P(A)=251115=611,即在学生甲获得奖学金的条件下,他获得一等奖学金的概率为611.②X的可能取值(单位:元)为0,300,500,600,800,1 000,P(X=0)=415×415=16225,P(X=300)=C21×13×415=845,P(X=500)=C21×25×415=1675,P(X=600)=132=19,P(X=800)=C21×13×25=415,P(X=1 000)=252=425.X的分布列为X03005006008001 000P16225845167519415425E(X)=0×16225+300×845+500×1675+600×19+800×415+1 000×425=600(元).考点二 独立性检验6.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线城市一线城市总计愿生452065不愿生132235总计5842100附表:P(K2≥k)0.0500.0100.001k3.8416.63510.828由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)算得,K2=100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是(  )A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案 C7.假设有两个分类变量X和Y的2×2列联表:y1y2总计x1a10a+10x2c30c+30总计6040100对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为(  )A.a=45,c=15     B.a=40,c=20C.a=35,c=25     D.a=30,c=30答案 A8.为调查了解某省属师范大学师范类毕业生参加工作后从事的工作与教育是否有关的情况,随机调查了该校80位性别不都相同的2019年师范类毕业大学生,得到具体数据如下表:与教育有关与教育无关合计男301040女35540合计651580 (1)能否在犯错误的概率不超过5%的前提下,认为“师范类毕业生从事与教育有关的工作与性别有关”?(2)求这80位师范类毕业生从事与教育有关工作的频率;(3)以(2)中的频率作为概率,从该校近几年毕业的2 000名师范类大学生中随机选取4名,记这4名毕业生从事与教育有关工作的人数为X,求X的数学期望E(X).参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(n=a+b+c+d).附表:P(K2≥k0)0.500.400.250.150.100.050.0250.010k00.4550.7081.3232.0722.7063.8415.0246.635解析 (1)根据题意得K2=80×(30×5-35×10)240×40×65×15≈2.051 3,因为K2<3.841,所以在犯错误的概率不超过5%的前提下,不能认为“师范类毕业生从事与教育有关的工作与性别有关”.(2)由题表知这80位师范类毕业生从事与教育有关工作的频率为6580=1316.(3)由题意知X~B4,1316,得E(X)=4×1316=134.综合篇知能转换【综合集训】考法一 线性回归分析的应用1.(2018广东七校期末联考,5)某单位为了了解用电量y(千瓦时)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表:气温(℃)181310-1用电量(千瓦时)24343864由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量为(  )A.68千瓦时   B.67千瓦时   C.65千瓦时   D.64千瓦时答案 A2.(2018湖南张家界三模,4)已知变量x,y之间的线性回归方程为y^=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误的是(  )x681012y6m32A.变量x,y之间呈负相关关系B.可以预测,当x=20时,y^=-3.7C.m=4D.该回归直线必过点(9,4)答案 C3.(2019河南濮阳一模)根据下表中的数据,得到的回归方程为y^=b^x+9,则b^=(  )x45678y54321A.2   B.1   C.0   D.-1答案 D4.(2018广东化州二模,19)在“一带一路”的建设中,中石化集团获得了某地深海油田区块的开采权,集团在该地区随机初步勘探了几口井,取得了地质资料.进入全面勘探时期后,集团按网络点来布置井位进行全面勘探.由于勘探一口井的费用很高,如果新设计的井位与原有井位重合或接近,便利用旧井的地质资料,不必打这口新井,以节约勘探费用,勘探初期数据资料见下表:井号i123456坐标(x,y)(km)(2,30)(4,40)(5,60)(6,50)(8,70)(1,y)钻探深度(km)2456810出油量(L)407011090160205(1)在散点图中,1~6号旧井的位置大致分布在一条直线附近,借助前5组数据求得回归直线方程为y=6.5x+a,求a,并估计y的预报值;(2)现准备勘探新井7(1,25),若通过1、3、5、7号井计算出的b^,a^的值(b^,a^精确到0.01)与(1)中b,a的值的差即b^-bb,a^-aa不超过10%,则使用位置最接近的已有旧井6(1,y),否则在新位置打井,请判断可否使用旧井;参考公式和计算结果:b^=∑i=1nxiyi-nx·y∑i=1nxi2-nx  2,a^=y-b^x,∑i=14x2i-12=94,∑i=14x2i-1·y2i-1=945(3)设出油量与钻探深度的比值k不低于20的勘探井称为优质井,那么在原有6口井中任意勘探4口井,求勘探优质井数X的分布列与数学期望.解析 (1)利用前5组数据得到x=15×(2+4+5+6+8)=5,y=15×(30+40+60+50+70)=50,∵y=6.5x+a,∴a=50-6.5×5=17.5,∴回归直线方程为y=6.5x+17.5.当x=1时,y=6.5+17.5=24,∴y的预报值为24.(2)利用1、3、5、7号井的数据得x=2+5+8+14=4,y=30+60+70+254=46.25,又∑i=14x2i-12=94,∑i=14x2i-1y2i-1=945,∴b^=∑i=14x2i-1y2i-1-4x·y∑i=14x2i-12-4x2=945-4×4×46.2594-4×42≈6.83,又∵a^=y-b^x,∴a^=46.25-6.83×4=18.93,又b=6.5,a=17.5,∴b^-bb≈5%,a^-aa≈8%,均不超过10%,∴可使用位置最接近的已有旧井6(1,24).(3)由题意知,1、3、5、6这4口井是优质井,2,4这两口井是非优质井,∴勘探优质井数X的可能取值为2,3,4,由P(X=k)=C4kC24-kC64(k=2,3,4),可得P(X=2)=25,P(X=3)=815,P(X=4)=115.∴X的分布列为X234P25815115E(X)=2×25+3×815+4×115=83.考法二 独立性检验的应用5.(2018安徽黄山一模,3)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是(  )A.若K2的观测值k=6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D.以上三种说法都不正确答案 C6.(2018山东实验中学上学期第二次诊断,11)某中学学生会为了调查爱好游泳运动与性别是否有关,通过随机询问110名性别不都相同的高中生是否爱好游泳运动得到如下2×2列联表:男女总计爱好402060不爱好203050总计6050110由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)并参照附表,得到的正确结论是 (  )附表:P(K2≥k)0.0500.0100.001k3.8416.63510.828A.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别有关”B.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别无关”C.有99.9%的把握认为“爱好游泳运动与性别有关”D.有99.9%的把握认为“爱好游泳运动与性别无关”答案 A7.(2020届西南名校联盟高考适应性月考(一),19)为了实现文化脱贫,某高校鼓励即将毕业的大学生到西部偏远山区去支教,校学生就业部针对即将毕业的男女生是否愿意到西部支教进行问卷调查,得到的情况如下表所示:愿意去支教不愿意去支教总计女生20男生40总计70100 (1)完成上述列联表;(2)根据表中的数据,试通过计算,判断是否有95%的把握说明是否愿意去西部支教与性别有关;(3)若在接受调查的所有男生中按照“是否愿意去支教”进行分层抽样,随机抽取10人,再从10人中抽取3人进行面谈,记面谈的男生中,不愿意去支教的人数为ξ,求ξ的分布列及数学期望.参考数据及公式如下:P(K2≥k0)0.0500.0100.001k03.8416.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解析 (1)所求列联表如下:愿意去支教不愿意去支教总计女生302050男生401050总计7030100 (2)因为K2的观测值k0=100×(30×10-40×20)250×50×30×70=10021≈4.762>3.841.所以有95%的把握说明是否愿意去西部支教与性别有关.(3)由题意,抽取的10人中有8人愿意去西部支教,2人不愿意去西部支教,于是ξ=0,1,2.P(ξ=0)=C20C83C103=715,P(ξ=1)=C21C82C103=715,P(ξ=2)=C22C81C103=115,∴ξ的分布列为ξ012P715715115∴Eξ=0×715+1×715+2×115=35.8.(2020届四川邻水实验学校第一次月考,20)通过随机询问某地100名高中学生在选择座位时是否挑同桌,得到如下2×2列联表:男生女生总计挑同桌304070不挑同桌201030总计5050100 (1)从这50名男生中按是否挑同桌采取分层抽样的方法抽取一个容量为5的样本,现从这5人中随机选取3人做深度采访,求这3名学生中至少有2名要挑同桌的概率;(2)根据以上2×2列联表,判断是否有95%以上的把握认为“性别与在选择座位时是否挑同桌”有关.下面的临界值表供参考:P(K2≥k0)0.100.050.0250.0100.0050.001k02.7063.8415.0246.6357.87910.828参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d解析 (1)根据分层抽样方法可知抽取容量为5的样本中,挑同桌的有3人,记为A、B、C,不挑同桌的有2人,记为d、e;从这5人中随机选取3人,基本事件为ABC,ABd,ABe,ACd,ACe,Ade,BCd,BCe,Bde,Cde,共10种,这3名学生中至少有2名要挑同桌的基本事件为ABC,ABd,ABe,ACd,ACe,BCd,BCe,共7种,故所求的概率P=710.(2)根据2×2列联表,计算K2=100×(30×10-20×40)270×30×50×50≈4.761 9>3.841,对照临界值表知,有95%以上的把握认为“性别与在选择座位时是否挑同桌”有关.思路分析 (1)根据分层抽样原理求出样本中挑同桌的有3人,不挑同桌的有2人,利用列举法求出基本事件数,从而求概率;(2)根据2×2列联表计算K2,对照临界值表得出结论.【五年高考】考点一 变量间的相关关系1.(2017山东,5,5分)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y^=b^x+a^.已知∑i=110xi=225,∑i=110yi=1 600,b^=4.该班某学生的脚长为24,据此估计其身高为(  )A.160   B.163   C.166   D.170答案 C2.(2015福建,4,5分)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程y^=b^x+a^,其中b^=0.76,a^=y-b^x.据此估计,该社区一户年收入为15万元家庭的年支出为(  )A.11.4万元     B.11.8万元 C.12.0万元     D.12.2万元答案 B3.(2018课标Ⅱ,18,12分)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解析 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.方法总结 利用直线方程进行预测是对总体的估计,此估计值不是准确值;利用回归方程进行预测(把自变量代入回归直线方程)是对因变量的估计,此时,需要注意自变量的取值范围.4.(2015课标Ⅰ,19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑i=18(xi-x)2∑i=18(wi-w)2∑i=18(xi-x)(yi-y)∑i=18(wi-w)(yi-y)46.65636.8289.81.61 469108.8表中wi=xi,w=18∑i=18wi.(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:(i)年宣传费x=49时,年销售量及年利润的预报值是多少?(ii)年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β^=∑i=1n(ui-u)(vi-v)∑i=1n(ui-u)2,α^=v-β^ u.解析 (1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2分)(2)令w=x,先建立y关于w的线性回归方程.由于d^=∑i=18(wi-w)(yi-y)∑i=18(wi-w)2=108.81.6=68,c^=y-d^ w=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(6分)(3)(i)由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.(9分)(ii)根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.(12分)思路分析 (1)根据散点图中点的分布趋势进行判断.(2)先设中间量w=x,建立y关于w的线性回归方程,进而得y关于x的回归方程.(3)(i)将x=49代入回归方程求出y的预报值,进而得z的预报值,(ii)求出z关于x的回归方程,进而利用函数方法求最大值.考点二 独立性检验5.(2018课标Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2≥k)0.0500.0100.001k3.8416.63510.828.解析 (1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知m=79+812=80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于 K2=40×(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.思路分析 (1)根据茎叶图中的数据大致集中在哪个茎,作出判断;(2)通过茎叶图确定数据的中位数,按要求完成2×2列联表;(3)根据(2)中的列联表,将有关数据代入公式计算得K2的值,查表作出统计推断.解后反思 独立性检验问题的常见类型及解题策略(1)已知分类变量的数据,判断两个分类变量的相关性,可依据数据及公式计算K2,然后作出判断;(2)独立性检验与概率统计的综合问题,关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解.6.(2017课标Ⅱ,18,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法 (3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:P(K2≥k)0.0500.0100.001k3.8416.63510.828,K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解析 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.62×0.66=0.409 2.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 kg旧养殖法6238新养殖法3466K2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg).解后反思 解独立性检验问题的关注点:(1)两个明确:①明确两类主体;②明确研究的两个问题.(2)两个关键:①准确画出2×2列联表;②准确理解K2.教师专用题组1.(2014湖北,4,5分)根据如下样本数据x345678y4.02.5-0.50.5-2.0-3.0得到的回归方程为y^=bx+a,则(  )A.a>0,b>0     B.a>0,b<0C.a<0,b>0     D.a<0,b<0答案 B2.(2014重庆,3,5分)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是(  )A.y^=0.4x+2.3     B.y^=2x-2.4C.y^=-2x+9.5     D.y^=-0.3x+4.4答案 A3.(2014课标Ⅱ,19,12分,0.311)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年 份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9 (1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b^=∑i=1n(ti-t)(yi-y)∑i=1n(ti-t)2,a^=y-b^t.解析 (1)由所给数据计算得t=17×(1+2+3+4+5+6+7)=4,y=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i=17(ti-t)2=9+4+1+0+1+4+9=28,∑i=17(ti-t)(yi-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b^=∑i=17(ti-t)(yi-y)∑i=17(ti-t)2=1428=0.5,a^=y-b^t=4.3-0.5×4=2.3,所求回归方程为y^=0.5t+2.3.(2)由(1)知,b^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t=9代入(1)中的回归方程,得y^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.易错警示 解题时容易出现计算错误,计算时一定要仔细.【三年模拟】一、单项选择题(每题5分,共15分)1.(2019湖南长沙雅礼中学月考(一),5)已知回归直线方程的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是(  )A.y^=1.23x+4     B.y^=1.23x+0.8C.y^=1.23x+0.08     D.y^=1.23x-0.08答案 C2.(2018辽宁丹东期末教学质量监测,7)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算K2=6.705,则所得到的统计学结论是:有    的把握认为“学生性别与支持该活动没有关系”.(  ) 附:P(K2≥k)0.1000.0500.0250.0100.001k2.7063.8415.0246.63510.828A.99.9%   B.99%   C.1%   D.0.1%答案 C3.(2020届辽宁阜新高级中学10月月考,3)某饮料店某5天的日销售收入y(单位:百元)与当天平均气温x(单位:℃)之间的数据如下表:x-2-1012y54221若x与y之间是线性相关关系,且y关于x的线性回归方程是y^=-x+m,则实数m的值是(  )A.3   B.2.8   C.2.6   D.2.4答案 B二、多项选择题(每题5分,共10分)4.(改编题)下列说法中正确的是(  )A.在频率分布直方图中,中位数左边和右边的直方图的面积相等B.若A,B为互斥事件,则A的对立事件与B的对立事件一定互斥C.某个班级内有40名学生,抽10名学生去参加某项活动,则每4人中必有1人被抽中D.若回归直线y^=b^x+a^的斜率b^>0,则变量x与y正相关答案 AD5.(改编题)如图是国家统计局发布的2018年3月到2019年3月全国居民消费价格的涨跌幅情况折线图(注:2019年3月与2018年3月相比较称为同比,2019年2月与2019年1月相比较称为环比),根据该折线图,下列结论正确的是(  )A.2018年3月至2019年3月全国居民消费价格同比均上涨B.2018年3月至2019年3月全国居民消费价格环比有涨有跌C.2019年3月全国居民消费价格同比涨幅最大D.2019年3月全国居民消费价格环比变化最大答案 ABD三、填空题(共5分)6.(2018湖南师大附中月考(三),14)在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:感染未感染总计服用104050未服用203050总计3070100参照附表,在犯错误的概率不超过    (填百分比)的前提下,可认为“该种疫苗有预防埃博拉病毒感染的效果”. 参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.附表:P(K2≥k0)0.100.050.0250.0100.0050.001k02.7063.8415.0246.6357.87910.828答案 5%四、解答题(共70分)7.(2020届山东夏季高考模拟,20)下面给出了根据我国2012年—2018年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和线性回归方程的残差图(2012年—2018年的年份代码x分别为1—7).(1)根据散点图分析y与x之间的相关关系;(2)根据散点图相应数据计算得∑i=17yi=1 074,∑i=17xiyi=4 517,求y关于x的线性回归方程;(精确到0.01)(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果.附:回归方程y^=a^+b^x中斜率和截距的最小二乘估计公式分别为:b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x.解析 (1)根据散点图可知y与x正线性相关.(2)由所给数据计算得x=17×(1+2+…+7)=4,∑i=17(xi-x)2=28,∑i=17(xi-x)(yi-y)=∑i=17xiyi-x∑i=17yi=4 517-4×1 074=221,b^=∑i=17(xi-x)(yi-y)∑i=17(xi-x)2=22128≈7.89.a^=y-b^x=1 0747-7.89×4≈121.87.所以所求线性回归方程为y^=7.89x+121.87.(3)由题中给出的残差图知历年数据的残差均在-2到2之间,说明线性回归方程的拟合效果较好.8.(2019湖南娄底二模,19)随着食品安全问题逐渐引起人们的重视,有机、健康的高端绿色蔬菜越来越受到消费者的欢迎,同时生产—运输—销售一体化的直销供应模式,不仅减少了成本,而且减去了蔬菜的二次污染等问题.(1)在有机蔬菜的种植过程中,有机肥料使用是必不可少的.根据统计,某种有机蔬菜的产量与有机肥料的用量有关系,每个有机蔬菜大棚产量的增加量y(百千克)与使用堆沤肥料x(千克)之间对应数据如表:使用堆沤肥料x(千克)24568产量增加量y(百千克)34445依据表中的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^,并根据所求线性回归方程估计如果每个有机蔬菜大棚使用堆沤肥料10千克,则每个有机蔬菜大棚产量增加量y是多少百千克;(2)某大棚蔬菜种植基地将采摘的有机蔬菜以每份三千克称重并保鲜分装,以每份10元的价格销售到生鲜超市.“乐购”生鲜超市以每份15元的价格卖给顾客,如果当天前8小时卖不完,则超市通过促销以每份5元的价格卖给顾客(根据经验,当天能够把剩余的有机蔬菜都低价处理完毕,且处理完毕后,当天不再进货).该生鲜超市统计了100天有机蔬菜在每天的前8小时内的销售量(单位:份),制成如下表格(注:x,y∈N*,且x+y=30):每日前8个小时销售量(单位:份)15161718192021频数10x16161513y若以100天记录的频率作为每日前8小时销售量发生的概率,以该生鲜超市当天销售有机蔬菜利润的期望为决策依据,当购进17份比购进18份的利润的期望大时,求x的取值范围.附:回归方程系数公式b^=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a^=y^-b^x.解析 (1)x=2+4+5+6+85=5,y=3+4+4+4+55=4,计算得b^=0.3,a^=2.5,所以y关于x的线性回归方程为y^=0.3x+2.5,当x=10时,y^=0.3×10+2.5=5.5,所以如果每个有机蔬菜大棚使用堆沤肥料10千克,估计每个有机蔬菜大棚产量的增加量是5.5百千克.(2)若该超市一天购进17份这种有机蔬菜,设Y1表示当天的利润(单位:元),那么Y1的分布列为Y1657585P10100x10090-x100Y1的数学期望E(Y1)=65×10100+75×x100+85×90-x100=8 300-10x100;若该超市一天购进18份这种有机蔬菜,设Y2表示当天的利润(单位:元),那么Y2的分布列为Y260708090P10100x1001610074-x100Y2的数学期望E(Y2)=60×10100+70×x100+80×16100+90×74-x100=8 540-20x100,又购进17份比购进18份的利润的期望大,故8 300-10x100>8 540-20x100,解得x>24,故x的取值范围是(24,30)且x∈N*.9.(2019届安徽黄山11月“八校联考”,19)2018年7月24日,长春长生生物科技有限责任公司先被查出狂犬病疫苗生产记录造假,后又被测出百白破疫苗“效价测定”项不符合规定,由此引发的疫苗事件牵动了无数中国人的心.疫苗直接用于健康人群,尤其是新生儿和青少年,与人民的健康联系紧密.因此,疫苗在上市前必须经过严格的检测,并通过临床实验获得相关数据,以保证疫苗使用的安全和有效.某生物制品研究所将某一型号疫苗用在小白鼠身上进行科研和临床实验,得到统计数据如下:未感染病毒感染病毒总计未注射疫苗20xA注射疫苗30yB总计5050100现从所有实验小白鼠中任取一只,取到“注射疫苗”小白鼠的概率为25.(1)求2×2列联表中的数据x,y,A,B的值;(2)能否有99.9%的把握认为注射此种疫苗有效?(3)现从感染病毒的小白鼠中任意抽取三只进行病理分析,记已注射疫苗的小白鼠只数为ξ,求ξ的分布列和数学期望.附:K2=n(ad-bc)2(a+b)(a+c)(c+d)(b+d),n=a+b+c+d.P(K2≥k0)0.050.010.0050.001k03.8416.6357.87910.828解析 (1)设从所有实验小白鼠中任取一只,取到“注射疫苗”的小白鼠为事件A,由已知得P(A)=y+30100=25,所以y=10,则x=40,A=60,B=40.(2)K2=100×(20×10-30×40)250×50×40×60=503≈16.67>10.828.所以有99.9%的把握认为注射此种疫苗有效.(3)由已知得ξ的可能取值为0,1,2,3.P(ξ=0)=C100C403C503=247490,P(ξ=1)=C402C101C503=195490,P(ξ=2)=C401C102C503=45490,P(ξ=3)=C103C503=3490,∴ξ的分布列为Ξ0123P247490195490454903490数学期望E(ξ)=247490×0+195490×1+45490×2+3490×3=0.6.思路分析 (1)由从所有实验小白鼠中任取一只,取到“注射疫苗”小白鼠的概率为25,根据古典概型概率公式列方程可求得y=10,进而可求得x,A,B的值;(2)利用K2=n(ad-bc)2(a+b)(a+c)(c+d)(b+d)求得K2 ,与邻界值比较,即可得到结论;(3)ξ的可能取值为0,1,2,3,结合组合知识,利用古典概型概率公式求出各随机变量对应的概率,从而可得分布列,进而利用期望公式可得ξ的数学期望.10.(2019安徽马鞍山二模,19)某班的健康调查小组从所在学校共选取15名男同学,其年龄、身高和体重数据如下表所示(身高单位:cm,体重单位:kg).年龄(身高,体重)年龄(身高,体重)15(154,48),(161,65),(168,64)18(166,64),(168,72),(182,74)16(158,50),(162,59),(175,80)19(160,51),(172,68),(178,90)17(161,60),(167,62),(173,68) (1)如果某同学“身高-体重<100”,则认为该同学超重,从上述15名同学中任选两名同学,其中超重的同学人数为X,求X的分布列和数学期望;(2)根据表中数据,设计了两种方案预测学生身高.方案①:建立平均体重与年龄的线性回归模型,表中各年龄的体重按三名同学的平均体重计算,数据整理如表.i12345年龄ti1516171819平均体重si596363.37069.7方案②:建立平均体重与平均身高的线性回归模型,将所有数据按身高重新分成6组:[153,158),[158,163),[163,168),[168,173),[173,178),[178,183],并将每组的平均身高依次折算为155,160,165,170,175,180,各组的体重按平均体重计算,数据整理如表.i123456平均身高xi155160165170175180平均体重yi485763687482 (i)用方案①预测20岁男同学的平均体重和用方案②预测身高168 cm的男同学的平均体重,你认为哪个更合理?请给出理由;(ii)请根据方案②建立平均体重y与平均身高x的线性回归方程y=b^x+a^(数据精确到0.001).附:b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a^=y-b^x,∑i=16xiyi=66 225,∑i=16xi2=168 775,x=3352,y=1963.解析 (1)根据表中数据,15人中,有4人超重,故随机变量X的所有可能取值为0,1,2,P(X=0)=C40C112C152=1121,P(X=1)=C41×C111C152=44105,P(X=2)=C110C42C152=6105=235.所以X的分布列为X012P112144105235所以E(X)=0×1121+1×44105+2×235=56105=815.(2)(i)对比两种方案,用方案②预测身高168 cm的男同学的平均体重更合理.因为身高和体重的相关关系强于年龄与体重的相关关系.(ii)b^=∑i=1nxiyi-nxy∑i=1nxi2-nx2=66 225-6×3352×1963168 775-6×33522≈1.291,又因为(x,y)在回归直线上,所以a^=y-b^x=1963-1.291×3352≈-150.909.故平均体重y与平均身高x的线性回归方程为y^=1.291x-150.909.11.(2020届江西南昌开学摸底考,19)某“双一流”大学专业奖学金是以所学专业各科考试成绩作为评选依据,分为专业一等奖学金(金额为3 000元)、专业二等奖学金(金额为1 500元)及专业三等奖学金(金额为600元),且专业奖学金每个学生一年最多只能获得一次.图①是统计了该校2018年500名学生周课外平均学习时间频率分布直方图,图②是这500名学生在2018年周课外平均学习时间段获得专业奖学金的频率柱状图.图①图②(1)求这500名学生中获得专业三等奖学金的人数;(2)若周课外平均学习时间超过35小时称为“努力型”学生,否则称为“非努力型”学生,列2×2列联表并判断是否有99.9%的把握认为该校学生获得专业一、二等奖学金与是不是“努力型”学生有关;(3)若以频率作为概率,从该校任选一名学生,记该学生2018年获得的专业奖学金金额(单位:元)为随机变量X,求随机变量X的分布列和期望.附K2=n(ad-bc)2(a+b)(c+b)(d+c)(a+d),P(K2>k0)0.010.050.0100.0050.001k02.7063.8416.6357.87910.828解析 (1)获得专业三等奖学金学生的频率为(0.008+0.016+0.04)×5×0.15+(0.04+0.056+0.016)×5×0.4+(0.016+0.008)×5×0.4=0.32,500×0.32=160.故这500名学生获得专业三等奖学金的人数为160.(2)周课外平均学习时间不超过35小时的“非努力型”学生有500×(0.008+0.016+0.04+0.04+0.056+0.016)×5=440人,。

下载提示
相关文档
正为您匹配相似的精品文档