高考试题回归分析独立性检验

合集下载

高考五大高频考点例析

高考五大高频考点例析

(1)作散点图检验是否线性相关; (2)求回归方程;
(3)若市政府下一步再扩大两千煤气用户,试预测该市
煤气消耗量.
解:(1)作出散点图(如图),观察呈线性正相关.
1+1.1+1.5+1.6+1.8 7 (2) x = = , 5 5 6+7+9+11+12 y= =9, 5
x2=12+1.12+1.52+1.62+1.82=10.26, i
3π 第四次:sin 2π>sin 成立,a=1,T=T+a=2,k=5,5<6, 2 继续循环; 5π 第五次:sin >sin 2π 成立,a=1,T=T+a=3,k=6,6<6 2 不成立,跳出循环,输出 T 的值为 3.
答案:3
4.某保险公司业务流程如下:(1)保险投保,填单交费, 公司承保,出具保单;(2)保险提赔,公司勘查;同 意,则赔偿,否则拒赔.画出该公司的业务流程图. 解:业务流程图如下:
1)+3=-3,i=1;S=(-3)×(-1)+2= 5,i=0;S=-5+1=-4,i=-1,结 束循环,故输出的S=-4.
[答案]
-4
[跟踪演练]
3.(2012· 江西高考)下图为某算法的程序框图,则程序运
行后输出的结果是____________.
解析:此框图依次执行如下循环: π 第一次:T=0,k=1,sin >sin 0 成立,a=1,T=T+a=1, 2 k=2,2<6,继续循环; π 第二次:sin π>sin 不成立,a=0,T=T+a=1,k=3,3<6, 2 继续循环; 3π 第三次: sin >sin π 不成立, a=0, T=T+a=1, k=4, 4<6, 2 继续循环;
2
所以数列{an}的前 n 项和

回归直线方程与独立性检验【题集】-讲义(学生版)

回归直线方程与独立性检验【题集】-讲义(学生版)

回归直线方程与独立性检验【题集】1. 回归直线方程12(1)(2)1.科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的简单随机样本数据,如下表:(年龄岁)(脂肪含量)根据上表的数据得到如下的散点图.脂肪含量年龄岁)根据上表中的样本数据及其散点图.求.计算样本相关系数(精确到),并刻画它们的相关程度.若关于的线性回归方程为,求的值(精确到),并根据回归方程估计年龄为岁时人体的脂肪含量.附:参考数据:,,,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为,.(1)12(2)2.我市南澳县是广东唯一的海岛县,海区面积广阔,发展太平洋牡蛎养殖业具有得天独厚的优势,所产的“南澳牡蛎”是中国国家地理标志产品,产量高、肉质肥、营养好,素有“海洋牛奶精品”的美誉.根据养殖规模与以往的养殖经验,产自某南澳牡蛎养殖基地的单个“南澳牡蛎”质量(克)在正常环境下服从正态分布.购买只该基地的“南澳牡蛎”,会买到质量小于的牡蛎的可能性有多大?年该基地考虑增加人工投入,现有以往的人工投入增量(人)与年收益增量(万元)的数据如下:人工投入增量(人)年收益增量(万元)该基地为了预测人工投入增量为人时的年收益增量,建立了与的两个回归模型:模型①:由最小二乘公式可求得与的线性回归方程:;模型②:由散点图的样本点分布,可以认为样本点集中在曲线:的附近,对人工投入增量做变换,令,则,且有,,,.年收益增量(万元)人工投入增量(万人)根据所给的统计量,求模型②中关于的回归方程(精确到).根据下列表格中的数据,比较两种模型的相关指数,并选择拟合精度更高、更可靠的模型,预测人工投入增量为人时的年收益增量.回归模型模型①模型②回归方程附:若随机变量,则,;样本的最小二乘估计分式为:,,另,刻画回归效果的相关指数.(1)(2)3.某购物商场分别推出支付宝和微信“扫码支付”购物活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用“扫码支付”,现统计了活动刚推出一周内每天使用扫码支付的人次,用表示活动推出的天数,表示每天使用扫码支付的人次,统计数据如下表所示:参考数据:设,,,.参考公式:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.根据散点图判断,在推广期内,扫码支付的人次关于活动推出天数的回归方程适合用来表示,求出该回归方程,并预测活动推出第天使用扫码支付的人次.推广期结束后,商场对顾客的支付方式进行统计,结果如下表:支付方式现金会员卡扫码比例商场规定:使用现金支付的顾客无优惠,使用会员卡支付的顾客享受折优惠,扫码支付的顾客随机优惠,根据统计结果得知,使用扫码支付的顾客,享受折优惠的概率为,享受折优惠的概率为,享受折优惠的概率为,现有一名顾客购买了元的商品,根据所给数据用事件发生的频率来估计相应事件发生的概率,估计该顾客支付的平均费用是多少.(1)4.一个工厂在某年里连续个月每月产品的总成本(万元)与该月产量(万件)之间有如下一组数据:通过画散点图,发现可用线性回归模型拟合与的关系,请用相关系数加以说明.12(2)解答下列各题:建立月总成本与月产量之间的回归方程.通过建立的关于的回归方程,估计某月产量为万件时,此时产品的总成本为多少万元?(均精确到)附注:①参考数据:,,,,.②参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为:,.(1)(2)(3)5.某单位共有名员工,他们某年的收入如下表:员工编号年薪(万元)求该单位员工当年年薪的平均值和中位数.从该单位中任取人,此人中年薪收入高于万的人数记为,求的分布列和期望.已知员工年薪收入与工作年限成正相关关系,某员工工作第一年至第四年的年薪分别为万元,万元,万元,万元,预测该员工第五年的年薪为多少?附:线性回归方程中系数计算公式分别为:,,其中,为样本均值.6.全民健身倡导全民做到每天参加一次以上的体育健身活动,旨在全面提高国民体质和健康水平.某部门在该市年发布的全民健身指数中,其中的“运动参与”的评分值进行了统计,制成如图所示的散点图:运动参与评分值年份代码:注:年份代码分别对应年份(1)(2)根据散点图,建立关于的回归方程.从该市的市民中随机抽取了容量为的样本,其中经常参加体育锻炼的人数为,以频率为概率,若从这名市民中随机抽取人,记其中“经常参加体育锻炼”的人数为,求的分布列和数学期望.附:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:.(1)(2)7.某项科研活动共进行了次试验,其数据如表所示:特征量第次第次第次第次第次从次特征量的试验数据中随机地抽取两个数据,求至少有一个大于的概率.求特征量关于的线性回归方程;并预测当特征量为时特征量的值.(附:回归直线的斜率和截距的最小二乘法估计公式分别为,).8.某地区某农产品近几年的产量统计如表:年份年份代码年产量(万吨)(1)12(2)附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.根据表中数据,建立关于的线性回归方程.若近几年该农产品每千克的价格(单位:元)与年产量满足的函数关系式为,且每年该农产品都能售完.根据中所建立的回归方程预测该地区年该农产品的产量.当为何值时,销售额最大?(1)(2)9.在年俄罗斯世界杯期间,莫斯科的部分餐厅经营了来自中国的小龙虾,这些小龙虾均标有等级代码,为得到小龙虾等级代码数值与销售单价之间的关系,经统计得到如下数据:等级代码数值销售单价(元)已知销售单价与等级代码数值之间存在线性相关关系,求关于的线性回归方程(系数精确到).若莫斯科某餐厅销售的中国小龙虾的等级代码数值为,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对一组数据,,,,其回归直线的斜率和截距最小二乘估计分别为:,.参考数据:,.(1)(2)(3)10.某食品店为了了解气温对销售量的影响,随机记录了该店月份中天的日销售量(单位:千克)与该地当日最低气温(单位:)的数据,如表:求出与的回归方程.判断与之间是正相关还是负相关;若该地月份某天的最低气温为,请用所求回归方程预测该店当日的销售量.设该地月份的日最低气温,其中近似为样本平均数,近似为样本方差,求.附:①回归方程中,,.②,.若,则,.2. 独立性检验(1)(2)11.我市为改善空气环境质量,控制大气污染,政府相应出台了多项改善环境的措施,其中一项是为了减少燃油汽车对大气环境污染,从年起大力推广使用新能源汽车,鼓励市民如果需要购车,可优先考虑选用新能源汽车,政府对购买使用新能源汽车进行购物补贴,同时为了地方经济发展,对购买本市企业生产的新能源汽车比购买外地企业生产的新能源汽车补贴高,所以市民对购买使用本市企业生产的新能源汽车的满意度也相应有所提高,有关部门随机抽取本市本年度内购买新能源汽车的户,其中有户购买使用本市企业生产的新能源汽车,对购买使用新能源汽车的满意度进行调研,满意度以打分的形式进行,满分分,将分数按照,,,,分成组,得如下频率分布直方图.得分频数组距若本次随机抽取的样本数据中购买使用本市企业生产的新能源汽车的用户中有户满意度得分不少于分,得分不少于分为满意,根据提供的条件数据,完成下面的列联表,并判断是否有的把握认为购买使用新能源汽车的满意度与产地有关?满意不满意总计购买本市企业生产的新能源汽车户数 购买外地企业生产的新能源汽车户数总计以频率作为概率,政府对购买使用新能源汽车的补贴标准是:购买本市企业生产的每台补贴万元,购买外地企业生产的每台补贴万元,但本市本年度所有购买新能源汽车的补贴每台的期望值不超过万元,则购买外地产的新能源汽车每台最多补贴多少万元?附:,其中.(1)1(2)12.大学先修课程,是在高中开设的具有大学水平的课程,旨在让学有余力的高中生早接受大学思维方式、学习方法的训练,为大学学习乃至未来的职业生涯做好准备.某高中成功开设大学先修课程已有两年,共有人参与学习先修课程,这两年学习先修课程的学生都参加了高校的自主招生考试(满分分),结果如下表所示:分数人数参加自主招生获得通过的概率这两年学校共培养出优等生人,根据如图等高条形图,填写相应列联表,并根据列联表检验能否在犯错误的概率不超过的前提下认为学习先修课程与优等生有关系?非优等生优等生学习大学先修课程没有学习大学先修课程优等生非优等生总计学习大学先修课程 没有学习大学先修课程总计已知今年全校有名学生报名学习大学先修课程,并都参加了高校的自主招生考试,以前两年参加大学先修课程学习成绩的频率作为今年参加大学先修课程学习成绩的概率.在今年参与大学先修课程学习的学生中任取一人,求他获得高校自主招生通过的概率.2某班有名学生参加了大学先修课程的学习,设获得高校自主招生通过的人数为,求的分布列,试估计今年全校参加大学先修课程学习的学生获得高校自主招生通过的人数.参考数据:参考公式:,其中.(1)(2)13.某企业原有甲、乙两条生产线,为了分析两条生产线的效果,先从两条生产线生产的大量产品中各抽取了件产品作为样本.检测一项质量指标值,该项指标值落在内的产品视为合格品,否则为不合格品.乙生产线样本的频数分布表质量指标合计频数质量指标值频率组距甲生产线样本的频率分布直方图根据甲生产线样本的频率分布直方图,以从样本中任意抽取一件产品且为合格品的频率近似代替从甲生产线生产的产品中任意抽取一件产品且为合格品的概率,估计从甲生产线生产的产品中任取件恰有件为合格品的概率.现在该企业为提高合格率欲只保留其中一条生产线.根据上述图表所提供的数据,完成下面的列联表,并判断是否有的把握认为该企业生产的这种产品的质量指标值与生产线有关.若有的把握,请从合格率的角度分析保留哪条生产线较好.甲生产线乙生产线合计合格品不合格品合计附:,.12(1)(2)14.某共享单车经营企业欲向甲市投放单车,为制定适宜的经营策略,该企业首先在已投放单车的乙市进行单车使用情况调查.调查过程分随机问卷,整理分析及开座谈会三个阶段.在随机问卷阶段,,两个调查小组分赴全市不同区域发放问卷并及时收回;在整理分析阶段,两个调查小组从所获取的有效问卷中,针对至岁的人群,按比例随机抽取了份,进行了数据统计,具体情况如下表:组别年龄组统计结果组统计结果经常使用单车偶尔使用单车经常使用单车偶尔使用单车人人人人人人人人人人人人先用分层抽样的方法从上述人中按“年龄是否达到岁”抽出一个容量为人的样本,再用分层抽样的方法将“年龄达到岁”的被抽个体数分配到“经常使用单车”和“偶尔使用单车”中去.求这人中“年龄达到岁且偶尔使用单车”的人数.为听取对发展共享单车的建议,调查组专门组织所抽取的“年龄达到岁且偶尔使用单车”的人员召开座谈会,会后共有份礼品赠送给其中人,每人份(其余人员仅赠送骑行优惠券).已知参加座谈会的人员中有且只有人来自组,求组这人中得到礼品的人数的分布列和数学期望.从统计数据可直观得出“是否经常使用共享单车与年龄(记作岁)有关”的结论.在用独立性检验的方法说明该结论成立时,为使犯错误的概率尽可能小,年龄应取还是?请通过比较的观测值的大小加以说明.参考公式:,其中.15.年,依托用户碎片化时间的娱乐需求,分享需求以及视频态的信息负载力,短视频快速崛起,与此同时,移动阅读方兴未艾,从侧面反应了人们对精神富足的一种追求,在习惯了大众娱乐所带来的短暂愉悦后,部分用户依旧对有着传统文学底蕴的严肃阅读青睐有加.某读书抽样调查了非一线城市和一线城市各名用户的日使用时长(单位:分钟),绘制成频率分布直方图如下,其中日使用时长不低于分钟的用户记为“活跃用户”.(1)(2)(3)频率组距日使用时长分钟频率组距日使用时长分钟城市城市请填写以下列联表,并判断是否有的把握认为用户活跃与否与所在城市有关.活跃用户不活跃用户合计城市 城市合计以频率估计概率,从城市中任选名用户,从城市中任选名用户,设这名用户中活跃用户人数为,求的分布列和数学期望.该读书还统计了年个季度的用户使用时长(单位:百万小时),发现与季度()线性相关,得到回归直线为,已知这个季度的用户平均使用时长为百万小时,试以此回归方程估计年第一季度该读书用户使用时长约为多少百万小时.附:,其中.(1)16.在中国移动的赞助下,某大学就业部从该大学年已就业的、两个专业的大学本科毕业生中随机抽取了人进行月薪情况的问卷调查,经统计发现,他们的月薪收入在元到元之间,具体统计数据如下表:月薪(百元)人数将月薪不低于元的毕业生视为“高薪收入群体”,并将样本的频率视为总体的概率,已知该校届大学本科毕业生李阳参与了本次调查问卷,其月薪为元.请根据上述表格中的统计数据填写下面的列联表,并通过计算判断,是否能在犯错误的概率不超过的前提下认为“高薪收入群体”与所学专业有关?12(2) 非高薪收入群体高薪收入群体合计专业专业 合计经统计发现,该大学届的大学本科毕业生月薪(单位:百元)近似地服从正态分布,其中近似为样本平均数(每组数据取区间的中点值).若落在区间的左侧,则可认为该大学本科生属“就业不理想”的学生,学校将联系本人,咨询月薪过低的原因,为以后的毕业生就业提供更好的指导.试判断李阳是否属于“就业不理想”的学生.中国移动为这次参与调查大学本科毕业生制定了赠送话费的活动,赠送方式为:月薪低于的获赠两次随机话费,月薪不低于的获赠一次随机话费,每次赠送的话费及对应的概率分别为:赠送话费(单位:元)概率则李阳预期获得的话费为多少元?附:,其中,.(1)(2)17.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,从中国某城市的高中生中,随机抽取了人,从美国某城市的高中生中随机抽取了人进行答题.中国高中生答题情况是:选择家的占、朋友聚集的地方占、个人空间占.美国高中生答题情况是:家占、朋友聚集的地方占、个人空间占.为了考察高中生的“恋家(在家里感到最幸福)”是否与国别有关,构建了如下列联表.在家里最幸福在其它场所幸福合计中国高中生美国高中生合计请将列联表补充完整;试判断能否有的把握认为“恋家”与否与国别有关.从中国高中生的学生中以“是否恋家”为标准采用分层抽样的方法,随机抽取了人,再从这人中随机抽取人.若所选名学生中的“恋家”人数为,求随机变量的分布列及期望.附:,其中.视力频率组距(1)不做操做操近视不近视是否做操是否近视(2)(3)18.眼保健操是一种眼睛的保健体操,主要是通过按摩眼部穴位,调整眼及头部的血液循环,调节肌肉,改善眼的疲劳,达到预防近视等眼部疾病的目的.某学校为了调查推广眼保健操对改善学生视力的效果,在应届高三的全体名学生中随机抽取了名学生进行视力检查,并得到如图的频率分布直方图.附:,若直方图中后三组的频数成等差数列,试估计全年级视力在以上的人数.为了研究学生的视力与眼保健操是否有关系,对年纪不做眼保健操和坚持做眼保健操的学生进行了调查,得到下表中数据,根据表中的数据,能否在犯错的概率不超过的前提下认为视力与眼保健操有关系?在中调查的名学生中,按照分层抽样在不近视的学生中抽取人,进一步调查他们良好的护眼习惯,在这人中任取人,记坚持做眼保健操的学生人数为,求的分布列和数学期望.19.为调查某地人群年龄与高血压的关系,用简单随机抽样方法从该地区年龄在岁的人群中抽取人测量血压,结果如下:高血压非高血压总计年龄到岁(1)(2)年龄到岁总计附参考公式及参考数据:计算表中的、、值;是否有的把握认为高血压与年龄有关?并说明理由.现从这名高血压患者中按年龄采用分层抽样的方法抽取人,再从这人中随机抽取人,求恰好一名患者年龄在到岁的概率.(1)(2)20.随着移动支付的普及,中国人的生活方式正悄然巨变,带智能手机,不带钱包出门还渐成为中国人的新习惯. 年我国移动支付增长迅猛,据统计,某支付平台年移动支付的笔数占总支付笔数的.从该支付平台 年的所有支付中任取笔,求移动支付笔数的期望和方差.现有名使用该支付平台的用户,其中 名是城市用户,名是农村用户,调查他们年个人移动支付的比例是否达到了,得到列联表如下:个人移动支付达到了个人移动支付达到了合计城市用户农村用户合计根据上表数据,问是否有的把握认为年个人移动支付比例达到了与该用户是城市用户还是农村用户有关?附:.(1)21.学校为了了解高三学生每天自主学习中国古典文学的时间,随机抽取了高三男生和女生各名进行问卷调查,其中每天自主学习中国古典文学的时间超过小时的学生称为“古文迷”,否则为“非古文迷”,调查结果如表:古文迷非古文迷合计男生女生合计根据表中数据能否判断有的把握认为“古文迷”与性别有关?(2)(3)现从调查的女生中按分层抽样的方法抽出人进行调查,求所抽取的人中“古文迷”和“非古文迷”的人数.现从()中所抽取的人中再随机抽取人进行调查,记这人中“古文迷”的人数为,求随机变量的分布列与数学期望.参考公式:,其中.参考数据:(1)(2)(3)22.每年的月日为世界读书日,为调查某高校学生(学生很多)的读书情况,随机抽取了男生,女生各人组成的一个样本,对他们的年阅读量(单位:本)进行了统计,分析得到了男生年阅读量的频率分布表和女生阅读量的频率分布直方图.男生年阅读量的频率分布表(年阅读量均在区间内):本/年频数根据女生的频率分布直方图估计该校女生年阅读量的中位数.在样本中,利用分层抽样的方法,从男生年与度量在,的两组里抽取人,再从这人中随机抽取人,求这一组中至少有人被抽中的概率.若年阅读量不小于本为阅读丰富,否则为阅读不丰富,依据上述样本研究阅读丰富与性别的关系,完成下列列联表,并判断是否有的把握认为月底丰富与性别有关.性别 阅读量丰富不丰富合计男 女 合计附:,其中.频率组距分数(1)(2)(3)23.为了调查学生数学学习的质量情况,某校从高二年级学生(其中男生与女生的人数之比为)中,采用分层抽样的方法抽取名学生依期中考试的数学成绩进行统计.根据数学的分数取得了这名同学的数据,按照以下区间分为八组:①,②,③,④,⑤,⑥,⑦,⑧得到频率分布直方图如图.已知抽取的学生中数学成绩少于分的人数为人.求的值及频率分布直方图中第④组矩形条的高度;如果把“学生数学成绩不低于分”作为是否达标的标准,对抽取的名学生,完成下列列联表:达标未达标合计男生女生合计据此资料,你是否认为“学生性别”与“数学成绩达标与否”有关?若从该校的高二年级学生中随机抽取人,记这人中成绩不低于分的学生人数为,求的分布列、数学期望和方差.附1:“ 列联表”的卡方统计量公式:附2:卡方 统计量的概率分布表:…………(1)12(2)24.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”遍布了一二线城市的大街小巷.为了解共享单车在.市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了人进行抽样分析,得到下表(单位:人):经常使用偶尔或不用合计岁及以下岁以上合计根据以上数据,能否在犯错误的概率不超过的前提认为市使用共享单车情况与年龄有关?请回答下列问题:现从所抽取的岁以上的网民中,按“经常使用”与“偶尔或不用”这两种类型进行分层抽样抽取人,然后,再从这人中随机选出人赠送优惠券,求选出的人中至少有人经常使用共享单车的概率.将频率视为概率,从市所有参与调查的网民中随机抽取人赠送礼品,记其中经常使用共享单车的人数为,求的数学期望和方差.参考公式:,其中.参考数据:(1)(2)25.某调查机构对某校学生做了一个是否同意生“二孩”抽样调查,该调查机构从该校随机抽查了名不同性别的学生,调查统计他们是同意父母生“二孩”还是反对父母生“二孩”,现已得知人中同意父母生“二孩”占,统计情况如表:同意不同意合计男生 女生合计求,的值,根据以上数据,能否有的把握认为是否同意父母生“二孩”与性别有关?请说明理由.。

高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)

高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)

高考数学复习考点知识与题型专题讲解专题18 回归分析、独立性检验1.有关独立性检验的问题,解题思路如下:(1)利用频率估计概率;(2)根据题意,求得2K的值,对照临界值得结果.2.对于非线性回归方程及其应用,考查将非线性回归问题转化为线性回归问题求解,在解题的过程中,要注重回归方程的公式的正确计算,注意所给数据的正确应用.2倍.1 / 31(1)求表中a,b的值,并补全表中所缺数据;(2)运用独立性检验思想,判断是否有99.5%的把握认为中学生使用手机对学习有影响?参考数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】三省三校“3 3 3”2021届高考备考诊断性联考卷(二)【答案】(1)28,14,ab=⎧⎨=⎩,表格答案见解析;(2)有99.5%的把握认为中学生使用手机对学习有影响.【分析】(1)由题意可得122680,2a ba b+++=⎧⎨=⎩从而可求出,a b的值,进而可填出列联表;(2)直接利用公式()()()()()22n ad bcKa b c d a c b d-=++++求解,然后根据临界值表得结论【解析】(1)由己知得122680,2a ba b+++=⎧⎨=⎩解得28,14,ab=⎧⎨=⎩补全表中所缺数据如下:(2)根据题意计算观测值为()2280282614129.8257.87942384040K⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为中学生使用手机对学习有影响.2.某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度Cx︒时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a=+和z dx c=+(其中lnz y=)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程:(方程3 / 31表示为()y f x =的形式,数据计算结果保留两位小数)(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害. 附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 【试题来源】甘肃省兰州市2020-2021学年高三下学期诊断试题【答案】(1)乙同学模型的相关指数2R 更接近1;(2)应选择z dx c =+做为回归方程,0.22 2.22x y e -=;(3)近期当地不会发生虫害.【分析】(1)通过观察图象即可得出结论;(2)根据(1)的结论,应选择z dx c =+做为回归方程,利用最小二乘法即可求解,求出,d c 即可. (3)当25x =时,求出估计值,即可判断得出结论.【解析】(1)乙同学模型的相关指数2R 更接近1.(2)根据(1)的结论,应选择z dx c =+做为回归方程,根据公式,812221757826 3.30.22, 3.30.2226 2.425722826i i i nii x z nxzd c z dx xnx =-=--⨯⨯==≈=-≈-⨯=--⨯-∑∑, 0.22 2.42z x ∴=-,5 / 31故y 关于x 的回归方程为0.22 2.22x y e -=.(3)当25x =时,0.22 2.22 3.084x y e e e -==<,因此近期当地不会发生虫害. 3.人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:参考公式:相关系数()()niix x y y r --=∑,回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-. 【试题来源】2021年新高考测评卷数学(第二模拟)【答案】(1)答案见解析;(2)ˆ0.482192y x =+;(3)13100元.【分析】(1)将已知数据代入相关系数的求解公式即可得解;(2)根据题中数据及参考公式求得ˆb ,ˆa ,即可建立y 关于x 的线性回归方程;(3)由题意知半年人均盈余为ˆx y-,得到不等式ˆ4620x y -≥,解不等式即可. 【解析】(1)由题意知()()316839000000.983800018400iix x yy r --==≈⨯∑,因为y 与x 的相关系数近似为0.98,接近1,所以y 关于x 的线性相关程度非常高,因此可以用线性回归模型拟合y 与x 的关系.(2)()()()3113121683900000ˆ0.481412000000ii i ii xx y y bxx ==--==≈-∑∑,ˆˆ96320.48155002192ay bx =-≈-⨯=,所以ˆ0.482192y x =+. (3)半年人均盈余为ˆ0.4821920.522192x yx x x -=--=-, 令0.5221924620x -≥,得13100x ≥,故估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为131007 / 31元.4.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+dy c x=+建立y 关于x 的回归方程,令s =1t =得到如下数据:213t131i =∑21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374=15.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v uαβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数ni i u vnu vr -⋅∑.【试题来源】湖北省八市2021届高三下学期3月联考 【答案】(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54yx=-;(3)当温度为20时这种草药的利润最大.【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型dy c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz,利用基本不等式求得利润z 的最大值以及对应的x 值.【解析】(1)由题意知20.9953r =-,10.8858r ====,因为121r r <<,所有用dy c x=+模型建立y 与x 的回归方程更合适. (2)因为1311322113 2.1ˆ100.2113i ii ii t y t ydtt ==-⋅-===--∑∑, ˆˆ109.94100.16111.54cy dt =-=+⨯=,9 / 31所以ˆy关于x 的回归方程为10ˆ111.54y x=- (3)由题意知11012020(111.54ˆˆ)22zy x x x =-=--20012230.8()2x x =-+ 2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x 时等号成立,所以当温度为20时这种草药的利润最大.5.已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】山东省聊城市第一中学2021届高三一模检测题(一)【答案】(1)表格见解析,不能;(2)2930.【分析】(1)由已知完成列联表,结合公式计算2K 根据参考数据即可判断结果;(2)由分层抽样得在[)60,70里面抽6个,[)70,80里面抽4个,再用对立事件求解概率即可. 【解析】(1)做个皮尔逊卡方检验的话,有()2250286412 3.125 3.84132184010K ⨯⨯-⨯==<⨯⨯⨯故此不能推翻零假设,不能认定成绩和态度有关.(2)这样分层抽样,会在[)60,70里面抽6个,[)70,80里面抽4个,11 / 31设A 为没有人在[60,70)内的事件,则概率即为()1P P A =-3431029130C C =-=.6.某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++.【试题来源】江西省九所重点中学(玉山一中、临川一中等)2021届高三3月联合考试【答案】(1)该疫苗在M含量指标上是“安全的”;(2)表格见解析,没有. 【分析】(1)求出区间(]1.0,1.2上的频率,以及平均数即可得结论;(2)根据题意写出列联表,计算2K的值,并与3.841比较即可得出结论. 【解析】(1)由频率分布直方图得M含量数据落在区间(]1.0,1.2上的频率为0.150.20.03⨯=,故出现血症的比例为3%5%<,由直方图得平均数为0.30.20.50.30.70.30.90.17 1.10.030.606x=⨯+⨯+⨯+⨯+⨯=即志愿者的M含量的平均数为0.606%0.65%<综上,该疫苗在M含量指标上是“安全的”.(2)依题意得,抽取的50名志愿者中女性志愿者应为25人由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04 所以全部女性志愿者阳性共有2000.048⨯=人由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有4000.0312⨯=人因此男性志愿者被检测出阳性的人数是1284-=人.所以完成表格如下:由22⨯列联表可()22400419281961.375 3.84120020012388K⨯⨯-⨯=≈<⨯⨯⨯,由参考表格,可得,故没有超过95%的把握认为注射疫苗后,高铁血红蛋白血症与性别有关.7.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:(1)由上表数据可知,可用线性回归模型拟合y与x的关系.请用相关系数加以说明;(精确到0.01)(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.13 / 31参考公式:相关系数()()niix x y y r --=∑.线性回归方程ˆˆˆybx a =+中斜率和截距最小二乘估计计算公式:()()()121ˆniii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =-. 参考数据:()71()14.00i i i x x y y =--=∑,()7217.08i iy y =-=∑14.10≈.【试题来源】四川省成都市2021届高三第二次诊断性检测【答案】(1)答案见解析;(2)ˆ0.5 2.3yx =+,7.3万元. 【分析】(1)根据统计数据求x 、y 、()721i i x x =-∑,结合参考数据及相关系数公式,求相关系数r ,进而判断y 与x 的相关程度;(2)利用最小二乘法公式估计ˆb 、ˆa ,写出线性回归方程,进而将10x =代入估算求值.【解析】(1)由题意,知123456747x ++++++==,2.903.30 3.604.40 4.805.20 5.904.307y ++++++==,()()()()()()()()72222222211424344454647428i i x x =-=-+-+-+-+-+-+-=∑.所以结合参考数据知14.000.9914.10r ==≈≈.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系.15 / 31(2)因为()()()7172114ˆ0.528iii ii x x y y bx x ==--===-∑∑, 所以ˆˆ 4.30.54 2.3ay bx =-=-⨯=. 所以y 关于x 的线性回归方程为ˆ0.5 2.3y x =+,将10x =代入线性回归方程,得ˆ0.510 2.37.3y=⨯+=. 所以估算该种机械设备使用10年的失效费为7.3万元.8.人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【试题来源】2021年高三数学二轮复习讲练测(新高考版) 【答案】(1) 1.520.38x y e +=;(2)见解析.【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解 (2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解【解析】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c xy c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x y z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.17 / 31所以 1.520.38ln z x y =+=,所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍.【名师点睛】对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.9.随着手机游戏的发展,在给社会带来经济利益的同时,也使许多人深陷其中,从而产生一些负面的影响.A ,B 两所学校为了解学生每天玩游戏的时间,各自抽取了100名学生进行调查,得到的数据如表所示:A 学校B 学校(1)以样本估计总体,计算A 学校学生日游戏时间的平均数以及B 学校学生日游戏时间的中位数.(2)为了调查家长对孩子玩游戏的态度,学校相关领导随机抽取了200名男性家长和200名女性家长进行调查,并将所得结果统计如表所示,判断是否有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】普通高等学校招生全国统一考试数学预测卷(一)【答案】(1)A学校学生日游戏时间的平均数为64.7()min;B学校学生日游戏时间的中位数为74()min;(2)没有.【分析】(1)根据频率分布表,利用平均数公式求解;由中位数的定义求解;(2)根据22⨯列联表中的数据,利用()()()()()22n ad bcKa b c d a c b d-=++++求得2K的值,再与临界值表对照下结论.【解析】(1)A学校学生日游戏时间的平均数为3.50.1450.14550.16650.2750.18850.13950.0964.7⨯+⨯+⨯+⨯+⨯+⨯+⨯=()min.B学校学生日游戏时间的中位数为5037102070107425----+⨯=()min.19 / 31(2)由已知可得22⨯列联表:则()2240013639161648.17210.828200200297103K ⨯⨯-⨯=≈<⨯⨯⨯, 所以没有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关. 10.为了解国内不同年龄段的民众旅游消费的基本情况.某旅游网站从其数据库中随机抽取了1000条客户信息进行分析,这些客户一年的旅游消费金额数据如下表所示;把一年的旅游消费金额满8千元称为“高消费”,否则称为“低消费”. (1)从这些客户中随机选一人,求该客户是高消费的中老年人的概率; (2)完成下面的22⨯列联表,并判断能否有99%的把握认为旅游消费的高低与年龄有关.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++【试题来源】学科网2021年高三1月大联考考后强化卷(新课标Ⅱ卷)【答案】(1)15;(2)填表见解析;有.【分析】(1)用频率估计概率,计算样本中高消费的中老年人的频率即为概率;(2)将数据填入列联表,用2K的计算公式计算2K的观测值k,与附表中的数据比较可得出结论.【解析】(1)样本中总客户数为1000,其中高消费的中老年人有200人,随机选一人,则该客户是高消费的中老年人的概率为2001 10005=.(2)2×2列联表如下:21 / 31可得2K的观测值21000(300200100400)7.937400600700300k ⨯⨯-⨯=≈⨯⨯⨯, 因为7.937 6.635>,所以有99%的把握认为旅游消费的高低与年龄有关. 11.2020山东省旅游发展大会暨首届中国国际文化旅游博览会在济南奥体中心东荷体育馆隆重开幕.大会以“文旅融合发展,乐享好客山东”为主题,来自38个国家和地区的友好宾朋,跨越空间阻隔,相约线上交流,共同推动山东文化和旅游业发展谱写新的篇章.某机构为了解人们对博览会的关注度是否与年龄有关,随机抽取了200位市民(其中40周岁及以下与40周岁以上各100人)进行问卷调查,并得到如下的22⨯列联表:(1)根据22⨯列联表,判断是否有90%的把握认为对博览会的关注度与年龄有关;(2)若从关注度极高的被调查者中按年龄分层抽样的方法抽取9人了解他们从事的职业情况,再从9人中任意选取2人谈谈关注博览会的原因,求这2人中两个年龄段的市民各一人的概率.附:22()()()()()n ad bc Ka b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】普通高等学校招生全国统一考试数学预测卷(三)【答案】(1)有;(2)59.【分析】(1)根据22⨯列联表中的数据求得2K 值,再与临界值表对照下结论; (2)先利用分层抽样的方法抽取各层的人数,然后再求得9人中任意选取2人的基本事件数和这2人中两个年龄段的市民各一人的基本事件数,代入古典概型的概率公式求解.【解析】(1)由22⨯列联表可得22200(60524840) 2.899 2.70610010010892K ⨯⨯-⨯=≈>⨯⨯⨯,故有90%的把握认为对博览会的关注度与年龄有关.(2)根据题意,从关注度极高的被调查者中按年龄分层抽样的方法抽取9人, 则抽取40周岁及以下的有6095108⨯=人,40周岁以上的有954-=人. 从9人中任意选取2人的基本事件有29C 36=个,这2人中两个年龄段的市民各一人的基本事件有1154C C 20=个;则这2人中两个年龄段的市民各一人的概率205369P ==. 12.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:23 / 31(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()niix x y y r --=∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 临界值表:22.02.【试题来源】重组卷05-冲刺2021年高考数学之精选真题模拟重组卷(新课标卷)【答案】(1)0.84;管理时间y 与土地使用面积x 的线性相关程度为强相关;(2)有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.【分析】(1)根据参考公式和数据计算相关系数r 的值,并判断强弱关系;(2)根据列联表计算2K ,并和临界数表比较大小. 【解析】(1)1234535x ++++==,911142620165y ++++==, ()()()()()()()()113916231116331416niii x x y y =--=-⨯-+--+-⨯-∑()()()()43261653201637+--+--=,()()()()()()2222221132333435310ni i x x =-=-+-+-+-+-=∑, ()()()()()()22222219161116141626162016194ni i y y =-=-+-+-+-+-=∑44.04=≈,()()370.840.7544.04niix x y y r --==≈>∑, 所以管理时间y 与土地使用面积x 的线性相关程度为强相关.(2)由条件可知女性不愿意参与管理的人数为300140604060---=()223001406060402510.828200100180120K ⨯⨯-⨯==>⨯⨯⨯,所以有99.9%的把握认为村民的性别与参与管理的意愿具有相关性. 13.某公司对项目进A 行生产投资,所获得的利润有如下统计数据表:(1)请用线性回归模型拟合y 与x 的关系,并用相关系数加以说明; (2)该公司计划用7百万元对A 、B 两个项目进行投资.若公司对项目B 投资25 / 31()16x x ≤≤百万元所获得的利润y 近似满足:0.490.160.491y x x =-++,求A 、B 两个项目投资金额分别为多少时,获得的总利润最大? 附:①对于一组数据()11,x y 、()22,x y 、、(),n n x y ,其回归直线方程y bx a=+的斜率和截距的最小二乘法估计公式分别为1221ni ii nii x y nx yb xnx==-⋅=-∑∑,ˆa y bx=-. ②线性相关系数ni ix y nx yr -⋅=∑.一般地,相关系数r 的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱. 参考数据:对项目A 投资的统计数据表中111ni i i x y ==∑,212.24ni i y ==∑ 2.1≈.【试题来源】2021年高考数学金榜预测卷(山东、海南专用)【答案】(1)0.2y x =;答案见解析;(2)对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大.【分析】(1)计算出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出回归直线方程,并计算出相关系数r 的值,可得出结论;(2)求得()0.491.930.0411y x x ⎡⎤-++⎢+⎣=⎥⎦,利用基本不等式可求得y 的最大值,利用等号成立求得x 的值,即可得出结论.【解析】(1)对项目A 投资的统计数据进行计算,有3x =,0.6y =,52155i i x ==∑,所以515222151190.255535i ii i i x y x yb x x==-⋅-===-⨯-∑∑,0.60.230a y bx =--⨯==,所以回归直线方程为0.2y x =.线性相关系数55i ix y x yr -⋅==∑0.95340.95=≈>, 这说明投资金额x 与所获利润y 之间的线性相关关系较强, 用线性回归方程0.2y x =对该组数据进行拟合合理;(2)设对B 项目投资()16x x ≤≤百万元,则对A 项目投资()7x -百万元. 所获总利润()()0.490.490.490.27 1.930.60411110.x x y x x x ⎡⎤++-=⎥=--++⎢++⎣⎦1.93 1.65≤-=, 当且仅当()100.04194.x x =++,即 2.5x =时取等号, 所以对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大. 14.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:27 / 31根据以上数据,回答下面问题.(1)甲同学用曲线y =bx +a 来拟合,并算得相关系数r 1=0.97,乙同学用曲线y =ce dx 来拟合,并算得转化为线性回归方程所对应的相关系数r 2=0.99,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于x 的回归方程(系数精确到0.01). 参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令8820.4411ln ,0.84,()() 6.50,() 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑【试题来源】安徽省示范高中皖北协作区2021届高三下学期第23届联考 【答案】(1)答案见解析;(2)0.151.15x y e =.【分析】(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出x ,结合回归方程变形为ln ln y c dx =+,求出d 和ln c ,从而可求出回归方程.【解析】(1)因为1201r r <<<,所以dx y ce =更适合作为y 关于x 的回归方程类型. (2)12345678364.588x =++++++===,由dx y ce =得ln ln y c dx =+,即ln c dx ω=+,则1821()()6.50.1542()Niii ii x x d x x ωω==--==≈-∑∑, 13ln 0.84 4.50.1484c dx ω=-=-⨯≈,所以0.140.150.140.150.151.15dx x x x y ce e e e e +====. 【名师点睛】本题考查了回归方程的求解,本题第二问的关键是对回归方程,结合对数的运算性质进行变形,结合最小二乘法求线性回归方程的系数公式进行求解.15.打乒乓球是一项众多中学生喜爱的体育运动,某中学体育协会为了解这项运动与性别的关联性,随机调查了100名男生和100名女生,每位学生回答喜欢或不喜欢,得到下面的列联表:(1)分别估计该中学男、女生喜欢打乒乓球的概率;(2)能否有99.5%的把握认为中学生喜欢打乒乓球与性别有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【试题来源】吉林省白山市2021届高三第三次联考(4月份)【答案】(1)男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35;(2)有99.5%的把握认为中学生喜欢打乒乓球与性别有关.【分析】(1)根据题意,利用公式求得男生和女生喜欢打乒乓球的频率,从而估计出其概率;(2)由题意,求得2K的值,对照临界值得出结论.【解析】(1)由调查数据可知,男生喜欢打乒乓球的频率为550.55 100=,女生喜欢打乒乓球的频率为350.35 100=,因此该中学男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35.(2)因为2 2200(55653545)8001001009011099 K⨯⨯-⨯==⨯⨯⨯且80080087.879 99100>=>,所以有99.5%的把握认为中学生喜欢打乒乓球与性别有关.16.某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.29 / 31表中1i i u x =,8118i i u u ==∑(1)根据散点图判断:y a bx =+与dy c x=+哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.01);(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)附:对于一组数据1122(,),(,,,),()n n v v v ωωω⋯,其回归直线v αβω=+的斜率和截距的最小二乘估计分别为121()()()niii nii v v ωωβωω==--=-∑∑,v αβω=-.【试题来源】2021年高考数学考前信息必刷卷(江苏专用) 【答案】(1)d y c x =+更适合;(2)8.961.22y x=+;(3)至少印刷11120册才能使销售利润不低于80000元.【分析】(1)由散点图可知成反比例函数模型,故dy c x=+更适合; (2)令1u x=,根据表中的数据计算即可得y 关于u 的线性回归方程为1.228.96y u=+,进而得y 关于x 的回归方程为8.961.22y x=+; (3)根据题意只需解不等式8.969.22 1.2280x x x ⎛⎫-+≥ ⎪⎝⎭即可得答案.【解析】(1)由散点图判断,dy c x=+更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程. (2)令1u x=,先建立y 关于u 的线性回归方程,由于81821()()7.0498.9578.960.787()i iiiiu u y ydu u==-⋅-==≈≈-∑∑,所以 3.638.9570.269 1.22c yd u=-⋅=-⨯≈,所以y关于u的线性回归方程为 1.228.96y u=+,所以y关于x的回归方程为8.961.22yx =+(3)假设印刷x千册,依题意得8.969.22 1.2280x xx⎛⎫-+≥⎪⎝⎭,解得11.12x≥,所以至少印刷11120册才能使销售利润不低于80000元.31 / 31。

高考真题——回归分析和独立性检验

高考真题——回归分析和独立性检验

高考真题——回归分析和独立性检验副标题一、选择题(本大题共9小题,共45.0分)1.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是()参考公式:K2=附表:列联表中c的值为30,b的值为35B. 列联表中c的值为15,b的值为50C. 根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”D. 根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4成绩视力 C. 智商 D. 阅读量3.下列两个变量中具有相关关系的是()A. 正方形的面积与边长B. 匀速行驶的车辆的行驶距离与时间C. 人的身高与体重D. 人的身高与视力4.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程=3-5x,变量x增加1个单位时,y平均增加5个单位;③线性回归方程=x+必过(,);④设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越高;⑤在一个2×2列联表中,由计算得K2的值,则K2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是()A. 0B. 1C. 2D. 35.某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理分数对应如下表:绘出散点图如下:根据以上信息,判断下列结论:①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;③甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高.其中正确的个数为A. 0B. 3C. 2D. 16.有人认为在机动车驾驶技术上,男性优于女性.这是真的么?某社会调查机构与交警合作随机统计了经常开车的100名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面的列联表:附:K2=据此表,可得()A. 认为机动车驾驶技术与性别有关的可靠性不足B. 认为机动车驾驶技术与性别有关的可靠性超过C. 认为机动车驾驶技术与性别有关的可靠性不足D. 认为机动车驾驶技术与性别有关的可靠性超过7.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y=b1x+a1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y=b2x+a2,相关系数为r2.则()A. B. C. D.8.由K2=得K2=≈8.333>7.879A. 有以上的把握认为“爱好该项运动与性别有关”B. 有以上的把握认为“爱好该项运动与性别无关”C. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别无关”9.有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和身体健康情况;④圆的半径与面积;⑤汽车的重量和每千米耗油量.其中两个变量成正相关的是()A. ①③B. ②④C. ②⑤D. ④⑤二、填空题(本大题共1小题,共5.0分)10.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生。

高考数学二轮复习 第1部分 重点强化专题 专题3 概率与统计 专题限时集训7 回归分析、独立性检验

高考数学二轮复习 第1部分 重点强化专题 专题3 概率与统计 专题限时集训7 回归分析、独立性检验

专题限时集训(七) 回归分析、独立性检验(对应学生用书第91页)(限时:40分钟)1.(2017·某某一模)下列说法错误的是( )【导学号:07804050】A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^就增加0.2个单位C [根据相关定义知选项A ,B ,D 均正确;选项C 中,对分类变量X 与Y ,随机变量K 2的观测值k 越大,对判断“X 与Y 有关系”的把握程度越大,故C 错误.选C.]2.(2017·某某名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为C .99.5%D .95%D [由图表中数据可得,当k >3.841时,有0.05的几率说明这两个变量之间的关系是不可信的,即有1-0.05=0.95的几率,也就是有95%的把握认为变量之间有关系,故选D.]3.(2017·某某七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):广告费x 2 3 4 5 6 销售额y2941505971由上表可得回归方程为y ^=10.2x +a ^,据此模型,预测广告费为10万元时销售额约为( )【导学号:07804051】A .101.2万元B .108.8万元C .111.2万元D .118.2万元C [根据统计数据表,可得x =15×(2+3+4+5+6)=4,y =15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^=9.2,∴回归方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C.]4.(2017·某某二模)现行普通高中学生在高一升高二时面临着选文理科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如图7­7所示的两个等高堆积条形图.图7­7根据这两幅图中的信息,下列哪个统计结论是不正确的( ) A .样本中的女生数量多于男生数量B .样本中有理科意愿的学生数量多于有文科意愿的学生数量C .样本中的男生偏爱理科D .样本中的女生偏爱文科D [由图2知,样本中的女生数量多于男生数量,样本中的男生、女生均偏爱理科;由图1知,样本中有理科意愿的学生数量多于有文科意愿的学生数量,故选D.] 5.(2016·某某模拟)对四组不同数据进行统计,分别获得以下散点图,如果对它们的相关系数进行比较,下列结论中正确的是( )图7­8(1)图7­8(2)图7­8(3)图7­8(4)A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由给出的四组数据的散点图可以看出,图(1)和图(3)是正相关,相关系数大于0,图(2)和图(4)是负相关,相关系数小于0,图(1)和图(2)的点相对更加集中,所以相关性要强,所有r 1接近于1,r 2接近于-1,由此可得r 2<r 4<r 3<r 1.故选A.] 6.(2017·某某一模)设某中学的高中女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kgD .若该中学某高中女生身高为160 cm ,则可断定其体重必为50.29 kgD [因为回归直线方程y ^=0.85x -85.71中x 的系数为0.85>0,因此y 与x 具有正线性相关关系,所以选项A 正确;由最小二乘法及回归直线方程的求解可知回归直线过样本点的中心(x ,y ),所以选项B 正确;由于用最小二乘法得到的回归直线方程是估计值,而不是具体值,若该中学某高中女生身高增加 1 cm ,则其体重约增加0.85 kg ,所以选项C 正确,选项D 不正确.]7.在用线性回归方程研究四组数据的拟合效果中,分别作出下列四个关于四组数据的残差图,则用线性回归模式拟合效果最佳的是( )ABCDC[当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,对比4个残差图,易知选项C的图对应的带状区域的宽度越窄.故选C.]8.(2017·某某南城一中、高安中学第九校3月联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线一线合计愿生452065不愿生132235合计5842100由K2=n ad-bc2a+b c+d a+c b+d,得K2=100×45×22-20×13265×35×58×42≈9.616.参照下表,P(K2≥k)0.0500.0100.001k 3.841 6.63510.828A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”C[K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.]二、填空题9.(2017·某某二模)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.【导学号:07804052】6 [x =5=5,y =5=5,代入回归直线方程,得14+c5=0.85×5-0.25,解得c =6.]10.(2017·某某百校联盟二模)已知x 、y 的取值为:从散点图可知y 与x 呈线性相关关系,且回归直线方程为y =1.2x +a ,则当x =20时,y 的取值为________.27.6 [由表格可知x =3,y =7.2,所以这组数据的样本点的中心是(3,7.2),根据样本点的中心在回归直线上,得7.2=a ^+1.2×3,得a ^=3.6,所以这组数据对应的回归直线方程是y ^=1.2x +3.6,将x =20代入,得y =1.2×20+3.6=27.6.]11.(2017·某某某某五中一模)某小卖部销售某品牌的饮料的零售价与销量间的关系统计如下:已知x ,y 的关系符合回归方程y =b x +a ,其中b =-20.若该品牌的饮料的进价为2元,为使利润最大,零售价应定为________元. 3.75 [x =3.5,y =40,∴a ^=40-(-20)×3.5=110, ∴回归直线方程为:y ^=-20x +110,利润L =(x -2)(-20x +110)=-20x 2+150x -220, ∴x =15040=3.75元时,利润最大,故答案为3.75.]12.(2017·某某三中二模)以模型y =c e kx(e 为自然对数的底)去拟合一组数据时,为了求出回归直线方程,设z =ln y ,其变换后得到线性回归方程为z =0.4x +2,则c =________. e 2[∵y =c e kx,∴两边取对数,可得ln y =ln(c e kx )=ln c +ln e kx=ln c +kx , 令z =ln y ,可得z =ln c +kx , ∵z =0.4x +2, ∴ln c =2, ∴c =e 2.] 三、解答题13.(2017·某某一模)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如图7­9所示的茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.图7­9(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系? (2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X 的分布列及数学期望. 附:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .P (K 2≥k 0)0.025 0.010 0.005 k 05.0246.6357.879正常 偏高 合计 男性 16 4 20 女性 12 8 20 合计281240K 2=n ad -bc 2a +bc +d a +cb +d =40×16×8-4×12220×20×28×12≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数X 的可能取值为0,1,2,3,4,P (X =0)=⎝⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫1-352=4625, P (X =1)=C 1245⎝⎛⎭⎪⎫1-45⎝⎛⎭⎪⎫1-352+⎝ ⎛⎭⎪⎫1-452C 1235·⎝ ⎛⎭⎪⎫1-35=44625, P (X =2)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫1-352+C 1245⎝ ⎛⎭⎪⎫1-45·C 1235·⎝ ⎛⎭⎪⎫1-35+⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫352=169625, P (X =3)=C 1245⎝ ⎛⎭⎪⎫1-45⎝ ⎛⎭⎪⎫352+⎝ ⎛⎭⎪⎫452C 1235·⎝⎛⎭⎪⎫1-35=264625, P (X =4)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫352=144625,所以X 的分布列为X 0 1 2 3 4 P462544625169625264625144625所以E (X )=0×625+1×625+2×625+3×625+4×625=2.8.14.(2017·某某三湘名校联盟三模)为了研究一种昆虫的产卵数y 和温度x 是否有关,现收集了7组观测数据列于下表中,并作出了散点图,发现样本点并没有分布在某个带状区域内,两个变量并不呈线性相关关系,现分别用模型①:y =C 1x 2+C 2与模型②:y =e C 3x +C 4作为产卵数y 和温度x 的回归方程来建立两个变量之间的关系.温度x /℃ 20 22 24 26 28 30 32 产卵数y /个6 10 21 24 64 113 322 t =x 2 400 484 576 676 784 900 1024 z =ln y1.792.303.043.184.164.735.77xtyz26692803.57错误! 错误! 错误! 错误!1157.540.430.32 0.00012其中t i =x 2i ,t =∑ni =1t i ,z i =ln y i ,z =∑ni =1z i ,附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=β^u +α^的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .图7­10(1)在答题卡中分别画出y 关于t 的散点图、z 关于x 的散点图,根据散点图判断哪一个模型更适宜作为回归方程类型?(给出判断即可,不必说明理由).图7­11(2)根据表中数据,分别建立两个模型下y 关于x 的回归方程;并在两个模型下分别估计温度为30℃时的产卵数.(C 1,C 2,C 3,C 4与估计值均精确到小数点后两位)(参考数据:e 4.65≈104.58,e4.85≈127.74,e5.05≈156.02)(3)若模型①、②的相关指数计算得分分别为R 21=0.82,R 22=0.96,请根据相关指数判断哪个模型的拟合效果更好.【导学号:07804053】[解] (1)画出y 关于t 的散点图,如图1;z 关于x 的散点图,如图2.图1 图2根据散点图可判断模型②更适宜作为回归方程类型. (2)对于模型①:设t =x 2,则y =C 1x 2+C 2=C 1t +C 2,其中C ^1=∑7i =1t i -ty i -y∑7i =1t i -t2=0.43,C ^2=y -C ^1t =80-0.43×692=-217.56,所以y =0.43x 2-217.56,当x =30时,估计温度为y 1=0.43×302-217.56=169.44. 对于模型②:y =e C 3x +C 4⇒z =ln y =C 3x +C 4,word 其中C ^3=∑7i =1 z i -z x i -x∑7i =1x i -x2=0.32,C ^4=z -C ^3x =3.57-0.32×26=-4.75.所以y =e 0.32x -4.75,当x =30时,估计温度为y 2=e0.32×30-4.75=e 4.85≈127.74. (3)因为R 21<R 22,所以模型②的拟合效果更好.。

回归分析与独立性检验练习

回归分析与独立性检验练习

回归分析与独立性检验综合训练回归分析: 热身练习1. 在画两个变量的散点图时,下面哪个叙述是正确的( )(A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上 (C)可以选择两个变量中任意一个变量在x 轴上 (D)可以选择两个变量中任意一个变量在y 轴上 2. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93用这个模型预测这个孩子10岁时的身高,则正确的叙述是( ) A.身高一定是145.83cm; B.身高在145.83cm 以上; C.身高在145.83cm 以下; D.身高在145.83cm 左右.3. 两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下 ,其中拟合效果最好的模型是( )A.模型1的相关指数2R 为0.98 B.模型2的相关指数2R 为0.80 C.模型3的相关指数2R 为0.50 D.模型4的相关指数2R 为0.254. 若有一组数据的总偏差平方和为100,相关指数为0.5,则期残差平方和为_______ 回归平方和为____________5.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ6090yx =+,下列判断正确的是() A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元 C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资为90 独立性检验: 热身练习1.下面是一个2×2列联表:则表中a 、b 处的值分别为( )A .94、96B .52、50C .52、60D .54、52 2.下列关于等高条形图的叙述正确的是( ).A .从等高条形图中可以精确地判断两个分类变量是否有关系B .从等高条形图中可以看出两个变量频数的相对大小C .从等高条形图可以粗略地看出两个分类变量是否有关系D .以上说法都不对3.关于分类变量x 与y 的随机变量K 2的观测值k ,下列说法正确的是( ).A .k 的值越大,“X 和Y 有关系”可信程度越小B .k 的值越小,“X 和Y 有关系”可信程度越小C .k 的值越接近于0,“X 和Y 无关”程度越小D .k 的值越大,“X 和Y 无关”程度越大 4.若由一个2×2列联表中的数据计算得k =4.013,那么在犯错误的概率不超过________的前提下认为两个变量之间有关系.5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到k =50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性约为________.6.第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招幕了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动.(1)根据以上数据完成以下2×2列联表:喜爱运动 不喜爱运动 总计 男 10 16 女 614 总计30(2) 基础练习1.下列变量间的关系,不是函数关系的是( ) A .角度和它的余弦值 B .正方形的边长和面积C .正多边形的边数和顶点的角度之和D .人的年龄和身高2. “回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他提出的结论,在儿子的身高y 与父亲的身高x 的回归方程ˆya bx =+中,b ( )A .在(-1,0)内B .等于0C .在(0,1)内D .在[1,)+∞内 3.已知回归直线斜率的估计值为1.23,样本的中心点为(4,5),则回归直线方程为( )A .ˆ 1.234yx =+ B .ˆ 1.235y x =+ C .ˆ 1.230.08y x =+ D .ˆ0.08 1.23y x =+ 4.对于回归直线方程ˆ 4.67 2.85yx =+,当21x =时,y 的估计值为 5.一所大学图书馆有6台复印机供学生使用管理人员发现,每台机器的维修费用与其使用的时间有一定的关系,根据去年一年的记录,得到每周使用时间(单位:小时)与年维修费用(单位:元)的数据如下:时间 33 21 31 37 46 42 费用 16 14 25 29 38 34则使用时间与维修费用之间的相关系数为6.某种产品的广告支出与销售额(单位:百万元)之间有如下的对应关系x 2 4 5 6 8 y3040605070(1)假定x 与y 之间具有线性相关关系,求回归直线方程.(2)若实际销售额不少于60百万元,则广告支出应该不少于多少?7.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:32.5435464.566.5⨯+⨯+⨯+⨯=) 8.下表为收集到的一组数据:(1)作出x 与y 的散点图,猜测(2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预报x =40时y 的值.综合练习:一、选择题1.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( ) Ay ∧=1.23x +4 By ∧=1.23x+5 C y ∧=1.23x+0.08 D y ∧=0.08x+1.232.回归分析中,相关指数R 2的值越大,说明残差平方和( )A 越小B 越大C 可能大也可能小D 以上都不对3.为研究变量x 和y 的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线方程1l 和2l ,两人计算知x 相同,y 也相同,下列正确的是()A 1l 与2l 一定平行B 1l 与2l 相交于点),(y xC 1l 与2l 重合D 无法判断1l 和2l 是否相交 4.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值分别为11,9,8,5,若在实际问题中,y 的预报最大取值是10,则x 的最大取值不能超过( )A 16B 17C 15D 12二、填空题5.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是____________6.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定断言“X 和Y 有关系”的可信度。

回归方程和独立性检验知识点

回归方程和独立性检验知识点

回归分析和独立性检验一、回归分析1、回归直线方程 a x b yˆˆˆ+= x 叫做解释变量,y 叫做预报变量其中∑∑==---=ni i ni i ix x y y x xb121)())((ˆ=∑∑==--n i ini ii x n x yx n yx 1221由最小二乘法得出,考试时给出此公式中的一个x b y aˆˆ-= 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点; 2、几条结论:1回归直线过样本的中心点)(y x ,;2b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势; 3斜率b 的含义举例:如果回归方程为y=+2, 说明x 增加1个单位时,y 平均增加个单位; 如果回归方程为y=-+2,说明x 增加1个单位时,y 平均减少个单位; 4相关系数r 表示变量的相关程度; 范围:1≤r ,即 11≤≤-rr 越大.,相关性越强.;0>r 时,y 与x 正相关;0<r 时,y 与x 负相关;5相关指数2R 表示模型的拟合效果; 范围:]10[2,∈R 2R 越大.,拟合效果越好.,这时:残差平方和越小,残差点在带状区域内的分布比较均匀,带状区域宽度越窄,拟合精度越高;2R 表示解释变量x 对于预报变量y 变化的贡献率;例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”;6线性回归模型 e a bx y ++=, 其中e 叫做随机误差;y 是由x 和e 共同确定的;二、独立性检验1、原理:假设性检验类似反证法原理;一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2K 值,然后查表对照相应的概率P, 发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为1-P, 也就是“X 和Y 有关系”;表中的k 就是2K 的观测值,即2K k = 2、2⨯2列联表:))()()(()(22d b c a d c b a bc ad n K ++++-=考试给出部分对照表考试时会给出用到的一部分数据:3、范围:),0(2+∞∈K ; 性质:2K越大.,说明变量间越有关系...;三、典型例题123产7吨产品时,消耗的煤约为吨;例2、为了考察某药物预防疾病的效果,现对105人进行试验调查,得到2⨯2列联表;试判断:服用药物和患病之间是否有关系解:105=n ,10=a ,45=b ,20=c ,30=d≈> 提示:运算时尽量先约分化简,再计算所以,有1-=%的把握认为服用药物和患病之间有关系;。

高中高考考点难点常见题型(带答案解析) 独立性检验(解析版)

高中高考考点难点常见题型(带答案解析) 独立性检验(解析版)

D.有以上的把握认为“爱好该项运动与性别⽆关”
考点:利⽤k2进⾏独⽴性检验
知识点:2*2列联表、两分类变量之间关联的定性分析的⽅法答案:C 解析:,在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”
即有以上的把握认为“爱好该项运动与性别有关”故选:.
⼀般已测:4499次正确率:71.9 %
9.现⾏普通⾼中学⽣在⾼⼀升⾼⼆时⾯临着选⽂理科的问题,学校抽取了部分男、⼥学⽣意愿的⼀份样本,制作出如下两个等⾼堆积条形图:根据这两幅图中的信息,下列哪个统计结论是不正确的是( ).
A.样本中的⼥⽣数量多于男⽣数量
B.样本中有理科意愿的学⽣数量多于有⽂科意愿的学⽣数量
C.样本中的男⽣偏爱理科
D.样本中的⼥⽣偏爱⽂科
考点:列联表与等⾼条形图的应⽤知识点:等⾼条形图答案:D
解析:由图可知,男、⼥⽣均偏爱理科,故错误.故选.
简单已测:4267次正确率:96.0 %
10.如图的等⾼条形图可以说明的问题是( )
99%∵K = ≈7.8>6.6352
60×50×60×50
110×(40×30−20×20)2
∴0.01=1%99%C D D。

高考数学专题复习:独立性检验

高考数学专题复习:独立性检验

高考数学专题复习:独立性检验一、单选题1.某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有97.5%的把握但没有99%的把握认为偏爱蔬菜还是肉类与性别有关,则2K 的观测值可能为( ) k 2.706 A .2 3.206K =B .2 6.625K =C .27.869K =D .211.208K =2.某校为了解学生“玩手机游戏”和“学习成绩”是否有关,随机抽取了100名学生,运用2×2列联表进行独立性检验,经计算得到2 3.936K =,所以判定玩手机游戏与学习成绩有关系,那么这种判断出错的可能性为( )A .1%B .5%C .95%D .99%3.某校为了调查喜欢语文与性别的关系,随机调查了一些学生,数据如下表,由此判断喜欢语文与性别有关系,那么这种判断出错的可能性为( )()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .99.5%B .5%C .0.5%D .95%4.以下四个命题,其中正确的个数有( )①在独立性检验中,随机变量2K 的观测值越大,“认为两个分类变量有关”,这种判断犯错误的概率越小.②在线性回归方程ˆ0.80.35yx =-时,变量x 与y 具有负的线性相关关系; ③随机变量X 服从正态分布2(3,)N σ,若(4)0.64P X ≤=,则(23)0.07P X ≤≤=; ④两个随机变量相关性越强,则相关系数r 的值越接近于1. A .1个B .2个C .3个D .4个5.两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表如下表所示:则下列四组数据中,分类变量X 和Y 之间关系最强的是( ) A .4a =,2b =,3c =,6d = B .2a =,1b =,3c =,5d = C .4a =,5b =,6c =,8d =D .2a =,3b =,4c =,6d =6.为了丰富教职工业余文化生活,某校计划在假期组织70名老师外出旅游,并给出了两种方案(方案一和方案二),每位老师均选择且只选择一种方案,其中有50%的男老师选择方案一,有75%的女老师选择方案二,且选择方案一的老师中女老师占40%,则参照附表,得到的正确结论是( )附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.A .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别有关”B .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别无关”C .有95%以上的把握认为“选择方案与性别有关”D .有95%以上的把握认为“选择方案与性别无关”7.利用独立性检验的方法调查高中生性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用22⨯列联表,由计算可得27.236K =,参照下表:得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别无关”B .有99%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关"D .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别无关”8.如果根据性别与是否爱好运动的列联表得到2 3.852 3.841x ≈>,所以判断性别与运动有关,那么这种判断犯错的可能性不超过( ) A .2.5%B .0.5%C .1%D .5%9.某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用22⨯列联表进行独立性检验.经计算2 6.058K =,则所得到的统计学结论是:有( )的把握认为“学生性别与支持该活动有关系”A .0.025%B .97.5%C .99%D .99.9%10.根据分类变量x 与y 的观测数据,计算得到2 2.974χ=.依据0.05α=的独立性检验,结论为( )A .变量x 与y 不独立B.变量x与y不独立,这个结论犯错误的概率不超过0.05C.变量x与y独立D.变量x与y独立,这个结论犯错误的概率不超过0.05二、填空题11.为了调查高中学生参加课外兴趣活动选篮球和舞蹈是否与性别有关,现随机调查了30名学生,得到如下22⨯列联表:根据表中的数据,及观测值2K(其中22()()()()()n ad bcKa b c d a c b d-=++++),参考数据:则在犯错误的概率不超过__________前提下,认为选择舞蹈与性别有关.12.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:(单位:人)由上表中数据计算得2K的观测值22105(10302045)6.10955503075K⨯⨯-⨯=≈⨯⨯⨯,请估计在犯错误的概率不超过__________的前提下认为“文化程度与月收入有关系”.13.利用独立性检验的方法调查高中性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用22⨯列联表,由计算可得27.245K≈,参照下表2.706 至少有__________以上的把握认为“爱好该项运动与性别有关”.14.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =250(1320107)23272030⨯⨯-⨯⨯⨯⨯≈4.844.则认为选修文科与性别有关系出错的可能性为__________.三、解答题15.为了解某市市民对政府出台楼市限购令的态度,在该市随机抽取了50名市民进行调查,他们月收入(单位:百元)的频率分布直方图如下:(1)求该市市民平均月收入的估计值(每组数据以区间中点值为代表).(2)将月收入不低于7500元称为“高收入”,否则称为“非高收入”,根据已知条件完成下面的22⨯列联表,并判断能否有99%的把握认为市民对楼市限购令的态度与收入有关.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.16.为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果: 表1:男生上网时间与频数分布表表2:女生上网时间与频数分布表(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数; (2)完成联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”.附:()()()()22()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.0.45517.某大学为鼓励学生进行体育锻炼,购买了一批健身器材供学生使用,并从该校大一学生中随机抽取了100名学生调查使用健身器材的情况,得到数据如表所示:(1)设每周使用健身器材的次数不低于3次为“爱好健身”,根据上表数据,填写22⨯列联表,并判断能否在犯错误的概率不超过0.10的前提下认为“男生和女生在使用健身器材的爱好方面有差异”;(2)从上述每周使用健身器材3次的学生中,利用分层抽样的方法抽取5名学生,再从抽取的5名学生中随机抽取3人,求3人中至多有一名女生的概率.18.在对人们休闲方式的一次调查中,仅就看电视与运动这两种休闲方式比较喜欢哪一种进行了调查.调查结果:接受调查总人数110人,其中男、女各55人;受调查者中,女性有30人比较喜欢看电视,男性有35人比较喜欢运动.(1)请根据题目所提供的调查结果填写下列22⨯列联表:(2)能否在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系”?注:22()()()()()n ad bcKa b c d a c b d-=++++,(其中n a b c d=+++为样本容量)参考答案1.B【分析】根据把握率确定2K的观测值区间范围即可选择.【详解】∵有97.5%的把握但没有99%的把握,∴2K的观测值区间范围为[5.024,6.635),结合选项可知,2K的观测值可能为6.625.故选:B2.B【分析】根据2K的值,对照附表即可得解.【详解】由题得2 3.936 3.841K=>,所以判定玩手机游戏与学习成绩有关系,这种判断出错的可能性为5%. 故选:B3.C【分析】计算出2K的值可得答案.【详解】因为()22501520510258.33320307.89225753K⨯⨯-⨯==≈>⨯⨯⨯,所有这种判断出错的可能性0.5%.故选:C.4.A【分析】利用随机变量2K的观测值越大,说明两个变量有关系的可能性越大判断①;根据回归方程一次项系数的正负判断②;根据正态分布的性质判断③; 利用线性相关的概念判断④. 【详解】①:在独立性检验中,因为随机变量2K 的观测值越大,说明两个变量有关系的可能性越大,即犯错误的概率越大,故①错误;②:回归方程ˆ0.80.35yx =-的一次项系数为-0.35<0,故变量x 与y 具有负的线性相关关系,故②正确;③:随机变量X 服从正态分布2(3)N σ,,则(34)(4)(3)0.640.50.14P X P X P X <≤=≤-<=-=, 由对称性可知,(23)0.14P X ≤≤=,故③错误;④:两个随机变量的线性相关关系越强,则相关系数r 的绝对值越接近于1,故④错误. 正确的选项有1个. 故选:A 5.A 【分析】逐项求出ad bc -的值并加以对比,最大值对应的分类变量之间关系最强. 【详解】我们可以用ad bc -的大小近似的判断两个分类变量之间关系的强弱,ad bc -的值越小,关系越弱,越大,关系越强.这四组数据中ad bc -的值分别为18、7、2、0, 所以A 组数据的ad bc -的值最大,相比较而言这组数据反应的X 和Y 的关系最强. 故选:A. 6.C 【分析】设该校男老师的人数为x ,女老师的人数为y ,根据条件,得到22⨯列联表,求出x ,y 的值,利用公式计算2K 的值,再与表中临界值比较可得结果. 【详解】设该校男老师的人数为x ,女老师的人数为y ,则可得如下表格:由题意0.40.50.25x y =+,可得43y x =,可得30x =,40y =,则()227015301510 4.667 3.84125453040K ⨯-⨯=≈>⨯⨯⨯, 但4.667 5.024<,所以无97.5%以上有95%以上的把握认为“选择方案与性别有关”. 故选:C. 7.B 【分析】由已知的27.236K =,对比临界值表可得答案 【详解】解:因为27.236 6.635K =>,所以有99%以上的把握认为“爱好该项运动与性别有关”. 故选:B. 8.D 【分析】根据临界值附表比较,即得结论. 【详解】根据以下临界值附表可知这种判断犯错的可能性不超过5%. 故选:D 9.B【分析】将2K 的值与表中数据比较大小可知5.024 6.058 6.635<<,由此确定出相应的把握有多少.【详解】因为2 6.058K =,对照表格:5.024 6.058 6.635<<,所以有10.0250.97597.5%-==的把握认为“学生性别与是否支持该活动有关系”. 故选:B.10.C【分析】由表中数据以及独立性检验的思想即可得出结果.【详解】0.05α=时,2 3.841 2.974χ=>,所以在犯错概率不超过0.1时变量x 与y 有关.故选:C11.0.025【分析】由列联表中的数据,根据公式计算出2K 的值,再对照临界表即可得答案.【详解】 解:由列联表中的数据可得,2230(13827)27 5.4 5.024*********K ⨯⨯-⨯===>⨯⨯⨯, 所以在犯错误的概率不超过0.025的前提下,认为选择舞蹈与性别有关.故答案为:0.025.12.0.025【分析】根据2K ,对比临界值即可得出结论.【详解】∵6.109 5.024>,故能在犯错误的概率不超过0.025的前提下认为“文化程度与月收入有关系”.故答案为:0.025.13.99%【分析】根据卡方的值与参考数据比较即可判断;【详解】解:因为27.245K ≈,6.6357.2457.879<<,所以10.0199%-=故至少有99%以上的把握认为“爱好该项运动与性别有关”,故答案为:99%14.5%【分析】根据观测值k ≈4.844以及独立性检验的基本思想即可得出结果.【详解】K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.故答案为:5%15.(1)63;(2)表格见解析,有.【分析】(1)每组数据区间中点值乘以该组的频率求和可得答案;(2)根据每组频率乘以50可得每组的人数可完成列联表,计算2K 可得答案.【详解】(1)该市市民平均月收入的估计值为400.1500.2600.3700.2800.1900.163⨯+⨯+⨯+⨯+⨯+⨯=.(2)根据频率分布直方图知每组的人数分别为5,10,15,10,5,5.可得22⨯列联表如下:所以()22502882128.33340103020K ⨯⨯-⨯=≈⨯⨯⨯,因为8.333 6.635>,所以有99%的把握认为市民对楼市限购令的态度与收入有关.16.(1)225;(2)列联表答案见解析,没有90%的把握认为“大学生上网时间与性别有关”.【分析】(1)设上网时间不少于60分钟的人数为x ,依题意有30750100x =,计算即可; (2)填写列联表,计算2K ,对照临界值得出结论.【详解】(1)设上网时间不少于60分钟的人数为x ,依题意有30750100x =,解得225x =,所以估计其中上网时间不少于60分钟的人数是225.(2)塻22⨯列联表如下:由表中数据可得到22200(60304070) 2.20 2.70610010013070K ⨯-⨯=≈<⨯⨯⨯, 故没有90%的把握认为“大学生上网时间与性别有关”.17.(1)表格见解析,不能;(2)710. 【分析】(1)根据已知数据统计列联表中的各项的人数,填写列联表,进而计算2K 并与0.1的临界值进行比较,得到论断;(2)利用分层抽样的等比例原则求得抽取的5人中男女生的人数,利用符号表示每个学生,利用列举法计数,得到所求概率.【详解】解:(1)填写的列联表如下所示:()2210222422320.506 2.70644565446K ⨯⨯-⨯=≈<⨯⨯⨯.所以不能在犯错误的概率不超过0.1的前提下认为“男生和女生在使用健身器材的爱好方面有差异”.(2)从每周使用健身器材3次的学生中,利用分层抽样的方法抽取5名学生,则抽取男生3名,抽取女生2名.将抽取的3名男生分别记为a ,b ,c ,2名女生分别记为m ,n ,则从5人中随机抽取3人的不同情况有abc ,abm ,abn ,acm ,acn ,amn ,bcm ,bcn ,bmn ,cmn ,共10种, 其中至多有一名女生的情况有abc ,abm ,abn ,acm ,acn ,bcm ,bcn ,共7种. 所以从抽取的5名学生中随机抽取3人,至多有一名女生的概率为710. 18.(1)答案见解析;(2)不能.【分析】(1)由题意填写列联表即可;(2)代入数据计算2K 的观测值,比较观测值与3.841的大小,判断能否在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系” .【详解】解.(1)根据题目所提供的调查结果,可得下列22⨯列联表:(2)根据列联表中的数据,可计算()2211030352025 3.66750605555K ⨯⨯-⨯=≈⨯⨯⨯,因为03.667 3.841k k ≈<=,所以不能在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系”.。

回归分析与独立性检验常考题型与解题对策

回归分析与独立性检验常考题型与解题对策

回归分析与独立性检验常考题型与解题对策作者:刘金泉
来源:《中学生数理化·高二版》2016年第04期
统计案例内容主要包括回归分析和独立性检验,它们是统计中的两种重要方法,也是各类考试中常涉及的知识点,下面通过对典型例题的归类、解析,使同学们进一步了解回归分析及独立性检验(2×2列联表)的基本思想、方法,并能初步应用这些方法解决一些简单的实际问题。

题型一相关关系概念辨析
例1下列两个变量之间是相关关系的是(
)。

A.圆的面积与半径
B.单产量为常数时,土地面积与粮食总产量
c.球的体积与半径
D.一个考生的数学成绩与物理成绩
解析:区分相关关系与函数关系的不同。

函数关系中的两个变量间是一种确定性关系,例如正方形面积S与边长x之间的关系s=x2就是函数关系。

相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系,例如商品的销售额与广告费是相关关系。

两个变量具有相关关系是回归分析的前提。

这里A、B、C都是确定的函数关系,一个考生的数学成绩与物理成绩相关但不确定,所以选D。

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
(2)相关关系:这是一种非确定性关系,①两个变量中一个为可控制变量,另一个为 随机变量,例如施肥量是可控制变量,而农作物的产量是随机变量。②两个变量均为随机变
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1

高考数学真题分类集训课件考点32 回归分析与独立性检验

高考数学真题分类集训课件考点32 回归分析与独立性检验

0.050 3.841
0.010 0.001 6.635 10.828
(3)K 2
n(ad bc)2
40(1515 5 5)2
(a b)(c d )(a c)(b d ) 20 20 20 20
10 6.635, 所以有99%的把握认为两种生产方式的效率有差异
i 1
i 1
某学生脚长为24,据此估计其身高为( C )
A. 160
B. 163
C. 166
D. 170
x 22.5, y 160, a 160 4 22.5 70, yˆ 4 24 70 166
2.为了解某社区居民的家庭年收入与年支出的关系,随机 调查了该社区5户家庭,得到如下统计数据表:
(ii)从计算结果看,相对于2016年的环境基础设施投资 额220亿元,由模型①得到的预测值226.1亿元的增幅明显 偏低,而利用模型②得到的预测值的增幅比较合理,说明 利用模型②得到的预测值更可靠.
以上给出了2种理由,考生答出其中一种或其他合理理由 均可得分.
4.某工厂为提高生产效率,开展技术创新活动,提出了完 成某项生产任务的两种生产方式,为比较两咱生产方式的 效率,选取40名工人,将他们随机分成两组,每组20人, 第一组工人用第一种生产方式,第二组工人用第二种生产 方式.根据工人完成生产任务的工作时间(单位:min) 绘制了如下茎叶图:
8
由于d

(wi w)( yi
i 1
8
(wi w)2
y)

108.8 16
68.
i 1
c y d w 563 68 6.8 100.6
y 100.6 68w,即y 100.6 68 x

高考数学三轮冲刺专题回归分析及独立性检验练习(含解析)(2021年整理)

高考数学三轮冲刺专题回归分析及独立性检验练习(含解析)(2021年整理)

回归分析及独立性检验一、选择题(本大题共12小题,共60分)1。

设某中学的高中女生体重单位:与身高单位:具有线性相关关系,根据一组样本数据2,3,,,用最小二乘法近似得到回归直线方程为,则下列结论中不正确的是A。

y与x具有正线性相关关系B。

回归直线过样本的中心点C. 若该中学某高中女生身高增加1cm,则其体重约增加D。

若该中学某高中女生身高为160cm,则可断定其体重必为(正确答案)D【分析】本题考查了回归分析与线性回归方程的应用问题,是基础题目根据回归分析与线性回归方程的意义,对选项中的命题进行分析、判断正误即可.【解答】解:由于线性回归方程中x的系数为,因此y与x具有正的线性相关关系,A正确;由线性回归方程必过样本中心点,因此B正确;由线性回归方程中系数的意义知,x每增加1cm,其体重约增加,C正确;当某女生的身高为160cm时,其体重估计值是,而不是具体值,因此D错误.故选:D.2. 为了研究某班学生的脚长单位:厘米和身高单位:厘米的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为,已知,,,该班某学生的脚长为24,据此估计其身高为A。

160 B. 163 C。

166 D. 170(正确答案)C解:由线性回归方程为,则,,则数据的样本中心点,由回归直线方程样本中心点,则,回归直线方程为,当时,,则估计其身高为166,故选C.由数据求得样本中心点,由回归直线方程必过样本中心点,代入即可求得,将代入回归直线方程即可估计其身高.本题考查回归直线方程的求法及回归直线方程的应用,考查计算能力,属于基础题.3. 为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下收入x 万元支出y 万元据上表得回归直线方程,其中,,据此估计,该社区一户收入为15万元家庭年支出为A. 万元B. 万元C. 万元 D。

万元(正确答案)B解:由题意可得,,代入回归方程可得,回归方程为,把代入方程可得,故选:B.由题意可得和,可得回归方程,把代入方程求得y值即可.本题考查线性回归方程,涉及平均值的计算,属基础题.4. 下列说法错误的是A。

高考数学常见题型解法归纳反馈训练第65讲回归分析和独立性检验(2021年整理)

高考数学常见题型解法归纳反馈训练第65讲回归分析和独立性检验(2021年整理)

第65讲 回归分析和独立性检验【知识要点】(一)变量间的相关关系、回归分析的基本思想及初步运用 一、相关关系1、概念:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系.2、相关关系与函数关系的异同点。

相同点:两者均是指两个变量间的关系.不同点:函数关系是一种确定关系,是一种因果系.如正方形的面积和边长的关系就是一种函数关系。

相关关系是一种非确定的关系,也不一定是因果关系.如产品的销售额与广告费的投入的关系.二、散点图表示具有相关关系的两个变量的一组数据的图形叫做散点图.正相关:如果散点图中的点散布在从左小角到右上角的区域内,称为正相关。

负相关:如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.注:如果关于两个变量统计数据的散点图呈现发散状,则这两个变量之间不具有相关关系. 三、回归分析1、对具有相关关系的两个变量进行统计分析的方法叫回归分析。

回归分析的一般步骤为画散点图→求回归直线方程→用回归直线方程进行预报.2、回归直线方程回归直线:观察散点图的特征,如果各点大致分布在一条直线的附近,就称两个变量之间具有线性相关的关系,这条直线叫做回归直线。

回归直线方程:设所求的直线方程为,其中,s a 2s a=y bx a∧=+121()(),()niii ni i x x y y b a y bxx x ==--==--∑∑称为样本点的中心,回归直线过样本点的中心.回归方程的截距和斜率是用最小二乘法计算出来的。

3、相关系数两个变量之间线性相关关系的强弱用相关系数来衡量.相关系数: ,表示两个变量正相关;,表示两个变量负相关;的绝对值越接近1,表明两个变量的线性相关性越强.的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系。

通常,的绝对值大于0。

75时,表明两个变量的线性相关性很强。

4、建立回归模型的基本步骤:①确定研究对象,明确哪个是解释变量,哪个是预报变量;②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系)③由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)④按照公式计算回归方程中的参数(如最小二乘法) ⑤得出结果后检查数据模型是否合适检查数据模型拟合效果的好坏,一般有两种方法.方法一:通过残差分析,如果残差点比较均匀地落在水平的带状区域中,则说明选用的模型比较合适,反之,不合适) 方法二:用相关指数来刻画回归的效果,其计算公式是:其中=真实值-预报值=残差,值越大,说明残差的平方和越小,也就是说模型的拟合效果越好。

高考数学复习与策略专题8回归分析、独立性检验

高考数学复习与策略专题8回归分析、独立性检验

图 8-3
(1)应收集多少位女生的样本数据?
(2)根据这 300 个样本数据,得到学生每周平均体育运动时间的频率分布直
方图 (如图 8-3 所示 ),其中样本数据的分组区间为: [0,2],(2,4] ,(4,6] ,(6,8],(8,10],
(10,12],估计该校学生每周平均体育运动时间超过 4 小时的概率.
d=36,n=52,
2
K2=52×20×4×322×0-161×6×3612 =633670.
C 中, a= 8,b= 12,c=8,d=24,a+ b=20,c+d=32, a+ c=16,b+d
= 36,nБайду номын сангаас52,
K2=
52× 8× 24-12×8 20× 32×16× 36
2

13 10.
D 中, a= 14,b=6,c=2,d=30, a+ b= 20,c+d=32, a+ c=16,b+d
又因为样本数据中有 210 份是关于男生的, 90 份是关于女生的,所以每周
平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
5
7
t =4,∑ i=1 (ti- t )2=28,
7
∑i =1 yi- y 2= 0.55,
7
7
7
∑i=1 (ti- t )(yi- y )=∑i =1tiyi- t ∑i=1yi=40.17- 4× 9.32=2.89,2 分
2.89 ∴r ≈0.55× 2× 2.646≈0.99.
因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从
= 36,n=52,
2
K2=

高考试题回归分析独立性检验

高考试题回归分析独立性检验

回归分析与独立性检验1.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是;②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是.2.根据下面给出的2004年至2013年我国二氧化碳年排放量(单位:万吨)柱形图,以下结论中不正确的是()A.逐年比较,2008年减少二氧化碳排放量的效果最显着B.2007年我国治理二氧化碳排放显现成效C.2006年以来我国二氧化碳年排放量呈减少趋势D.2006年以来我国二氧化碳年排放量与年份正相关3.为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆˆy bx a=+,其中ˆˆˆ0.76,b a y bx==-,据此估计,该社区一户收入为15万元家庭年支出为( )]A.万元 B.万元 C.万元 D.万元4.在画两个变量的散点图时,下面哪个叙述是正确的()A.预报变量在x轴上,解释变量在y轴上B.解释变量在x轴上,预报变量在y轴上C.可以选择两个变量中任意一个变量在x轴上D.可以选择两个变量中任意一个变量在y轴上5()A.种子经过处理跟是否生病有关B.种子经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的6.变量x与y具有线性相关关系,当x取值16,14,12,8时,通过观测得到y的值分别为11,9,8,5,若在实际问题中,y的预2004年2005年2006年2007年2008年2009年2010年2011年2012年2013年报最大取值是10,则x 的最大取值不能超过 ( )A .16B .17C .15D .127.在研究身高和体重的关系时,求得相关指数≈2R ___________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”所以身高对体重的效应比随机误差的效应大得多。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高考试题回归分析独立
性检验
文档编制序号:[KKIDT-LLE0828-LLETD298-POI08]
回归分析与独立性检验
1.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙为该班三位学生.
从这次考试成绩看,
①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是;
②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是.
2.根据下面给出的2004年至2013年我国二氧化碳年排放量(单位:万吨)柱形图,以下结论中不正确的是()
A.逐年比较,2008年减少二氧化碳排放量的效果最显着
B.2007年我国治理二氧化碳排放显现成效
C.2006年以来我国二氧化碳年排放量呈减少趋势
D.2006年以来我国二氧化碳年排放量与年份正相关
3.为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
根据上表可得回归直线方程
ˆ
ˆˆ
y bx a
=+,其中ˆˆ
ˆ
0.76,
b a y bx
==-,据此估计,该社区一户收入为15万元家
庭年支出为( )]
A.万元 B.万元 C.万元 D.万元
4.在画两个变量的散点图时,下面哪个叙述是正确的()A.预报变量在x轴上,解释变量在y轴上
B.解释变量在x轴上,预报变量在y轴上
C.可以选择两个变量中任意一个变量在x轴上
D.可以选择两个变量中任意一个变量在y轴上
5
()A.种子经过处理跟是否生病有关B.种子经过处理跟是否生病无关
2004年2005年2006年2007年2008年2009年2010年2011年2012年2013年
C .种子是否经过处理决定是否生病
D .以上都是错误的 6.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到
y 的值分别为11,9,8,5,若在实际问
题中,y 的预报最大取值是10,则x 的最大取值不能超过
( )
A .16
B .17
C .15
D .12
7.在研究身高和体重的关系时,求得相关指数≈2
R ___________,可以叙述为“身高解释了64%的体重变化,而随机
误差贡献了剩余的36%”所以身高对体重的效应比随机误差的效应大得多。

8.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(I )由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (II )建立y 关于t 的回归方程(系数精确到),预测2016年我国生活垃圾无害化处理量。

参考数据:
7
1
9.32i
i y
==∑,7
1
40.17i i i t y ==∑,
7
2
1
()
0.55i
i y y =-=∑,
7≈.
参考公式:相关系数1
2
2
1
1
()()
()(y
y)n
i
i
i n n
i i
i i t t y y r t t ===--=
--∑∑∑,
回归方程
y a bt =+ 中斜率和截距的最小二乘估计公式分别为:
9.某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图. 根据该折线图,下列结论错误的是 A .月接待游客量逐月增加 B .年接待游客量逐年增加
C .各年的月接待游客量高峰期大致在7,8月
D .各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳 10.为了研究某班学生的脚长x (单位:厘米)和身高
y (单位:厘米)的关系,从该班随机抽取10名学生,根据
测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy
bx a =+.已知10
1
225i i x ==∑,10
1
1600i
i y
==∑,ˆ4b
=.该班某学生的脚长为24,据此估计其身高为 (A )160 (B )163 (C )166 (D )170
11.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg )某频率分布直方图如下:
(1) 设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg, 新养殖法的箱产量不低
于50kg”,估计A 的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到)附:。

相关文档
最新文档