第4课时线性回归分析与统计案例
多元线性回归分析案例
多元线性回归分析案例1. 引言多元线性回归分析是一种用于探究多个自变量与一个连续型因变量之间关系的统计分析方法。
本文将以一个虚构的案例来介绍多元线性回归分析的应用。
2. 背景假设我们是一家电子产品制造公司,我们想了解哪些因素会对产品销售额产生影响。
为了解决这个问题,我们收集了一些数据,包括产品的价格、广告费用、竞争对手的产品价格和销售额。
3. 数据收集我们采集了100个不同产品的数据,其中包括以下变量:- 产品价格(自变量1)- 广告费用(自变量2)- 竞争对手的产品价格(自变量3)- 销售额(因变量)4. 数据分析为了进行多元线性回归分析,我们首先需要对数据进行预处理。
我们检查了数据的缺失情况和异常值,并进行了相应的处理。
接下来,我们使用多元线性回归模型来分析数据。
模型的方程可以表示为:销售额= β0 + β1 × 产品价格+ β2 × 广告费用+ β3 × 竞争对手的产品价格+ ε其中,β0、β1、β2、β3是回归系数,ε是误差项。
5. 结果解释我们使用统计软件进行回归分析,并得到了以下结果:- 回归系数的估计值:β0 = 1000, β1 = 10, β2 = 20, β3 = -5- 拟合优度:R² = 0.8根据回归系数的估计值,我们可以解释模型的结果:- β0表示当产品价格、广告费用和竞争对手的产品价格都为0时,销售额的估计值为1000。
- β1表示产品价格每增加1单位,销售额平均增加10单位。
- β2表示广告费用每增加1单位,销售额平均增加20单位。
- β3表示竞争对手的产品价格每增加1单位,销售额平均减少5单位。
拟合优度R²的值为0.8,说明模型可以解释销售额的80%变异程度。
这意味着模型对数据的拟合程度较好。
6. 结论根据我们的多元线性回归分析结果,我们可以得出以下结论:- 产品价格、广告费用和竞争对手的产品价格对销售额有显著影响。
计量经济学_四元线性回归模型案例分析
计量经济学课程设计班级:学号:姓名:2011年月一、引言财政收入是衡量一国政府财力的重要指标,国家在社会活动中提供公共物品和服务,很大程度上需要财政收入的鼎力相助。
财政收入既是国家的集中性分配活动,又是国家进行宏观调控的重要工具。
税收是国家为实现其职能的需要,凭借其政治权利并按照特定的标准,强制、无偿的取得财政收入的一种形式,它是现代国家财政收入最重要的收入形式和最主要的收入来源。
本课题跟据我国最近几年的经济发展水平和税收收入并结合我国各地区在2008年的实际情况,利用《中国统计年鉴2009》做出了税收收入的计量模型,比较分析了职工工资总额、财政支出和人均家庭总收入等变量对税收收入的不同影响,得出了几个重要的结论。
税收是国家在社会经济活动中为提供公共物品和服务的主要收入来源,在很大程度上决定于财政收入的充裕状况。
税收是国家集中性分配活动,又是国家进行宏观调控的重要工具。
我国自改革开放以来税收一直随经济的增长在快速的增长,尤其是进入21世纪以来成高速发展趋势。
由1999年的10682.58亿元到2008年的54233.79亿元,十年来增加了5.08倍(见表1)。
近几年以来,尤其是2008年以来社会不公平和贫富差距进一步了大,造成了社会的不稳定。
2010年两会期间温家宝总理提出调整税收基数,从而来缩小贫富差距和社会公平问题。
表1 我国十年来税收一览表二、理论基础税收是国家为了实现其职能,以政治权利为基础,按规定标准以政治权力为基础,按预定标准像经济组织和居民无偿课征而取得的一种财政收入。
税收的影响因素有很多包括一国的经济实力,经济发展水平,劳动者的素质,职工工资总额,财政支出,家庭总收入,生产总值,商品零售价格指数等。
职工工资总额,指各单位或组织在一定时期内直接支付给本单位全部职工的劳动报酬总额。
个人所得税的税基就是劳动报酬总额。
而个人所得税是税收收入的组成部分。
生产总值,生产总值是经济发展的最重要指标,税收与生产总值的关系集中反映了税收与经济的关系。
统计案例(精讲)(提升版)(原卷版)
8.5 统计案例(精讲)(提升版)思维导图考点一独立性检验【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活动小组对高一学生进行了问卷调查,问卷共100道题,每题1分,总分100分,该课外活动小组随机抽取了100名学生的问卷成绩(单位:分)进行统计,将数据按照[0,20),[20,40),[40,60),[60,80),[80,100]分成5组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理科方向”学生.(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为“文科方向”与性别有关?理科方向文科方向总计男40女45考点呈现例题剖析总计 1001人,共抽取4次,记被抽取的4人中“文科方向”的人数为X ,若每次抽取的结果是相互独立的,求X 的分布列和数学期望.参考公式:()()()()22()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.参考临界值:()2P k αχ=0.10 0.05 0.025 0.010 0.005 0.001k2.7063.841 5.024 6.635 7.879 10.828【一隅三反】1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工序,每道工序的生产互不影响,这三道工序的次品率分别为118,119,120.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.0500.0100.0050.001 k 3.841 6.6357.87910.828(①P①100X(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列22⨯列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.甲型号乙型号合计满意不满意合计2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22⨯列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时 17 20 线上销售时间不足8小时合计45售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X ,求X 的分布列和数学期望. 附: ()20P K k ≥0.050 0.010 0.001 0k3.841 6.635 10.828参考公式:()()()()2 n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.考点二 线性回归方程【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y (单位:千度)进行了统计分析,得出下表数据:月份(x )5 6 7 8 日平均用电量(y )1.93.4t7.11.7877ˆ.0y x =-t 的值为( )A .5.8B .5.6C .5.4D .5.2【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iii ii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X ,求随机变量X 的分布列和数学期望.(视频率为相应事件发生的概率)【一隅三反】1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x 次 1 2 3 4 5 测试成绩y3940484850根据上表,可得关于的线性回归方程为ˆ3ˆy x a =+,下列结论不正确的是( )A .ˆ36a= B .这5次测试成绩的方差为20.8 C .y 与x 的线性相关系数0r < D .预测第6次体育测试的成绩约为542.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第i (i 1239)x =,,,,天的口罩的销售量i y (百件),得到的数据如下:99i i i=1i=145171x y ==∑∑,,()99922ii i i i=1i=1i=1312528510953x x y y y ==-=∑∑∑,,. 参考公式:相关系数()()()()iii=122iii=1i=1nnnx x y y r x x y y --=--∑∑∑数据()i i ()i 123x y n =,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计分别为()()()iii i1222i i11ˆˆˆnn i inni i x x y y x y nxybay bx x x xnx ===---===---∑∑∑∑, (1)若用线性回归模型ˆˆˆybx a =+拟合y 与x 之间的关系,求该回归直线的方程; (2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到i x 与i y 之间的关系,且模型2的相关系数20989r =.,试通过计算说明模型1,2中,哪一个模型的拟合效果更好. 3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iiiii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X,求随机变量X的分布列和数学期望.(视频率为相应事件发生的概率)考点三非线性回归方程【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个) 2.156 3.7278.30524.27936.224(1)根据表中数据判断,y a bx=+与e dxy c=(其中 2.71828e=…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;①每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;①在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =). 附:样本(),(1,2,,)i i x y i n =的最小二乘法估计公式为1221ˆni ii nii x y nx ybxnx==-=-∑∑,ˆa y bx=-.【一隅三反】1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x 1 2 3 4 5 市场规模y3.984.565.045.866.36参考数据: 5.16y =, 1.68v =,145.10i ii v y==∑,其中i i v x =.参考公式:对于一组数据()11v y ,,()22v y ,,…,()n n v y ,,其回归直线ˆˆˆybv a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i v y nvybv nv ==-=-∑∑,ˆˆay bv =-. (1)由上表数据可知,可用函数模型ˆˆyx a =拟合y 与x 的关系,请建立y 关于x 的回归方程(ˆa ,ˆb 的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p ,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X ,若()()34P X P X ===,求X 的分布列与期望.2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:ˆv . (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为z x x=,根据(1)的结果,问该公司哪一个月的月利润预报值最大? 参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.11 / 113.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y (单位:千万吨标准煤)的数据表格: 年份2016 2017 2018 2019 2020 年份代号x1 2 3 4 5 能源消费总量近似值y (单位:千万吨标准煤) 442 456 472 488 498以x 为解释变量,y 为预报变量,若以11为回归方程,则相关指数210.9946R ≈,若以22ˆln ya b x =+为回归方程,则相关指数220.9568R ≈. (1)判断11ˆyb x a =+与22ˆln y a b x =+哪一个更适宜作为能源消费总量近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程.参考数据:512356i i y ==∑,517212i i i x y ==∑.参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn ni i i ii i n n ii i i x x y y x y nxy b x x x nx ====---==--∑∑∑∑,ˆˆa y bx =-.。
3.1 回归分析(四)
作散点图,并由计算器得: y 和 t 之间的线性回归方程为 y=0.367t-202.543,相关指数R2=0.802
将t=x2代入线性回归方程得: y=0.367x2 -202.543 当x=28时,y=0.367×282202.54≈85,且R2=0.802, 所以,二次函数模型中温度解 释了80.2%的产卵数变化。
ˆ (1) f ( x, a) ˆ y
i 1
(3)若
ˆ ˆ (2) g ( x, b) 的好;反之, y(1) f ( x, a) y ˆ ˆ ˆ 果不如 y(2) g ( x, b) 的好。 ˆ
ˆ (1) Q(2) ,则 y(1) f ( x, a) ˆ Q ˆ ˆ
i
i
2
即解释变量天数对预报变量繁殖细菌得个数解释了99.99%.
练习
假设关于某设备的使用年限x和所支出的维修费用 y(万 元),有如下的统计资料。
使用年限x
维修费用y
2
2.2
3
3.8
4
5.5
5
6.5
6
7.0
若由资料知,y对x呈线性相关关系。试求: (1)线性回归方程
ˆ ˆ ˆ y bx a
的回归系数
的效果比
的效
练习:为了研究某种细菌随时间x变化,繁殖的个数, 收集数据如下:
天 数 x/ 天
繁殖个数 y/个
1 6
2 12
3 25
4 49
5
95
6 190
回归分析教学案例
《回归分析》教学案例山东省青州实验中学262500聂公民王垒适用人民教育出版教学选修2-3 第三章统计案例《回归分析》教学教学目标1、知识与技能(1)学生通过收集现实问题中两个变量的数据,会画出散点图,分析数据,认为判断两个变量的关系。
(2)能求出回归系数,确定回归方程,并根据回归方程作出数据预测。
(3)了解非线性回归问题,能找出解决一般问题的思路。
(4)通过相关检验,了解回归分析的思想与方法,例如用表格收集数据,画散点图分析数据等。
2、过程与方法(1)通过复习线性回归方程,探究相关性检验的基本方法与思想。
(2)通过收集数据,分析数据,培养学生类比、迁移、化归的能力,合情推理推理的能力,解决问题的能力。
3、情感态度与价值观培养学生合作探究、积极参与、大胆探索的精神,增强学生的数据分析意识。
教学重点与难点重点:回归分析的思想与方法难点:回归分析的应用教学方法:学生自主实践探究为主,教师指导为辅,形成完整的知识结构。
师生共同将知识深入探究,为增强直观性,采用多媒体辅助教学,注重计算机、计算机在数据分析中的应用,注意计算机、计算器的操作指导。
预备活动教师准备A.预备活动纸(见附件1),B.课上活动纸(见附件2),C.课后活动纸(见附件3),提前一天分发给学生,学生利用课余时间提前完成。
设计意图:帮助学生回顾复习必修3相关内容,为学习新知识作好准备。
并提出启发性问题,便于引入课题。
教学过程:一、复习引入学生回答“预备活动纸”。
教师总结由活动纸上问题“比较三组数据的相关性显著程度”引出相关检验,进入课题。
设计意图:为新知识讲授作铺垫。
二、举例精解教师分发课上活动纸。
例1(1)研究某灌溉渠道的水流速度y m/s与水深x m之间的关系,测得数据如下:表格 1预测当水深为1.50m时水流速度为多少?(2)为了解某地母亲身亲x与女儿身高y的相关关系,随机测得10对母女的身高数据如下:表格 2母亲身高为161cm,预测女儿身高为多少?课件展示。
高考数学一轮复习第10章算法初步与统计第4课时线性回
(4)某同学研究卖出的热饮杯数y与气温 x(℃)之间的关系,得 回归方程 y =-2.352x+147.767,则气温为2 ℃时,一定可卖出 143杯热饮. (5)事件X,Y关系越密切,则由观测数据计算得到的K2的观 测值越大. (6)由独立性检验可知,在犯错误的概率不超过1%的前提下 认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他 有99%的可能物理优秀.
∧
直线方程: y =0.254x+0.321.由回归直线方程可知,家庭年收入 每增加1万元,年饮食支出平均增加________万元.
2 n ( ad - bc ) 构造一个随机变量 K 2 = , ( a+ b)( c+d )(a + c)( b +d )
其中 n=a+b+ c+d 为样本容量.
(3)独立性检验. 利用随机变量 K2 来确定是否能有一定把握认为“两个分类 变量有关系”的方法称为两个分类变量的独立性检验.
1.判断下面结论是否正确(打“√”或“×”). (1)相关关系与函数关系都是一种确定性的关系,也是一种 因果关系. (2)“名师出高徒”可以解释为教师的教学水平与学生的水 平成正相关关系. (3)只有两个变量有相关关系,所得的回归模型才有预测价 值.
答案
C
解析 由已知,变量 x,y 成负相关,排除 A,B. ∵回归直线 - 必过点(x,y),经验算可知,选项 C 满足.
4.(2018· 河南开封一模)下列说法错误的是(
)
A.自变量取值一定时,因变量的取值带有一定随机性的两 个变量之间的关系叫做相关关系 B.在线性回归分析中,相关系数 r 的值越大,变量间的相 关性越强 C.在残差图中,残差点分布的带状区域的宽度越狭窄,其 模型拟合的精度越高 D.在回归分析中,R2 为 0.98 的模型比 R2 为 0.80 的模型拟 合的效果好
案例之四回归分析:销售额影响因素--------解答
销售额影响因素XD是一家大型通讯设备生产公司,在我国主要的大中型城市都设有子公司。
张伟最近被提拔为销售部经理。
在即将召开的全国各地子公司负责人会议上,他想让大家清楚地了解影响销售额的相关因素。
于是,从全国各地的子公司中,随机收集了十五个城市子公司的销售额、促销活动投入额和竞争对手销售额的数据。
表1 XD子公司销售额及相关因素数据(百万元)子公司地址子公司销售额子公司促销活动投入额竞争对手销售额成都101.80 1.30 20.40沈阳44.40 0.70 30.50长春108.30 1.40 24.60哈尔滨85.10 0.50 21.70青岛77.10 0.50 25.50武汉158.70 1.90 21.70西安180.40 1.20 6.80南京64.20 0.40 12.60济南74.60 0.60 31.30广州143.40 1.30 18.60厦门120.60 1.60 19.90深圳69.70 1.00 25.60大连67.80 0.80 27.40杭州106.70 0.60 24.30宁波119.60 1.10 13.70计算与思考:1)分析子公司销售额与促销活动投入额、竞争对手销售额间的关系。
答:子公司销售额与促销活动投入额的散点图如下:可以看出大致趋势为子公司销售额与促销活动投入额成正比关系子公司销售额与竞争对手销售额间的散点图如下可以看出子公司销售额与竞争对手销售额间成反比关系2)建立子公司促销活动投入额对其销售额的回归方程;解释方程的含义,说明子公司促销活动投入额对其销售额的影响程度;假设某地的子公司促销活动投入额为120万元,预计其销售额及在置信水平95%下的预测区间。
答:设y为销售额,x为促销活动投入额,做回归分析过程如下SUMMARY OUTPUT回归统计Multiple R 0.707693R Square 0.500829Adjusted R Square 0.462431标准误差27.9912观测值15方差分析df SS MS F SignificanceF回归分析 1 10219.42 10219.42 13.04317 0.003161 残差13 10185.59 783.5072总计14 20405.01Coefficients 标准误差t Stat P-value Lower 95% Upper95%下限95.0%Intercept 42.21206 17.93509 2.353601 0.03499 3.465645 80.95847 3.465645 X Variable 1 59.67914 16.5246 3.611532 0.003161 23.9799 95.37837 23.9799子公司促销活动投入额对其销售额的回归方程为:y = 59.679x + 42.212 R² = 0.5008子公司促销活动投入额对其销售额的影响程度:从R² = 0.5008,可以看出回归方程拟合优度不高,子公司促销活动投入额对其销售额的影响程度仅为50%。
数据分析线性回归报告(3篇)
第1篇一、引言线性回归分析是统计学中一种常用的数据分析方法,主要用于研究两个或多个变量之间的线性关系。
本文以某城市房价数据为例,通过线性回归模型对房价的影响因素进行分析,以期为房地产市场的决策提供数据支持。
二、数据来源与处理1. 数据来源本文所采用的数据来源于某城市房地产交易中心,包括该城市2010年至2020年的房价、建筑面积、交通便利度、配套设施、环境质量等指标。
2. 数据处理(1)数据清洗:对原始数据进行清洗,去除缺失值、异常值等。
(2)数据转换:对部分指标进行转换,如交通便利度、配套设施、环境质量等指标采用五分制评分。
(3)变量选择:根据研究目的,选取建筑面积、交通便利度、配套设施、环境质量等指标作为自变量,房价作为因变量。
三、线性回归模型构建1. 模型假设(1)因变量与自变量之间存在线性关系;(2)自变量之间不存在多重共线性;(3)误差项服从正态分布。
2. 模型建立(1)选择合适的线性回归模型:根据研究目的和数据特点,采用多元线性回归模型。
(2)计算回归系数:使用最小二乘法计算回归系数。
(3)检验模型:对模型进行显著性检验、方差分析等。
四、结果分析1. 模型检验(1)显著性检验:F检验结果为0.000,P值小于0.05,说明模型整体显著。
(2)回归系数检验:t检验结果显示,所有自变量的回归系数均显著,符合模型假设。
2. 模型结果(1)回归系数:建筑面积、交通便利度、配套设施、环境质量的回归系数分别为0.345、0.456、0.678、0.523,说明这些因素对房价有显著的正向影响。
(2)R²:模型的R²为0.876,说明模型可以解释约87.6%的房价变异。
3. 影响因素分析(1)建筑面积:建筑面积对房价的影响最大,说明在房价构成中,建筑面积所占的比重较大。
(2)交通便利度:交通便利度对房价的影响较大,说明在购房时,消费者对交通便利性的需求较高。
(3)配套设施:配套设施对房价的影响较大,说明在购房时,消费者对生活配套设施的需求较高。
最新北师大版高中数学高中数学选修2-3第三章《统计案例》测试题(包含答案解析)
一、选择题1.已知x 与y 之间的几组数据如下表:参考公式:线性回归方程y bx a =+,其中()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-;相关系数()()niix x y y r --=∑上表数据中y 的平均值为2.5,若某同学对m 赋了三个值分别为1.5,2,2.5得到三条线性回归直线方程分别为11y b x a =+,22y b x a =+,33y b x a =+,对应的相关系数分别为1r ,2r ,3r ,下列结论中错误..的是( ) A .三条回归直线有共同交点 B .相关系数中,2r 最大 C .12b b >D .12a a >2.下列说法错误..的是( ) A .10xy ≠是5x ≠或2y ≠的充分不必要条件B .若命题p :x R ∀∈,210x x ++≠,则p ⌝:x R ∃∈,210x x ++=C .已知随机变量()2~2,X N σ,且()40.84P X ≤=,则()00.16P X ≤=D .相关系数r 越接近1,表示线性相关程度越弱. 3.已知两个统计案例如下:①为了探究患肺炎与吸烟的关系,调查了339名50岁以上的人,调查结果如下表:②为了解某地母亲与女儿身高的关系,随机测得10对母女的身高如下表:则对这些数据的处理所应用的统计方法是( ) A .①回归分析,②取平均值 B .①独立性检验,②回归分析 C .①回归分析,②独立性检验D .①独立性检验,②取平均值4.对于独立性检验,下列说法正确的是( ) A .2 3.841K >时,有95%的把握说事件A 与B 无关 B .2 6.635K >时,有99%的把握说事件A 与B 有关 C .2 3.841K ≤时,有95%的把握说事件A 与B 有关 D .2 6.635K >时,有99%的把握说事件A 与B 无关 5.下列命题中正确命题的个数是(1)对分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握越大;(2)若将一组样本数据中的每个数据都加上同一个常数后,则样本的方差不变; (3)在残差图,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高; (4)设随机变量ξ服从正态分布()0,1N ; 若()1P p ξ>=,则()1102P p ξ-<<=-( ) A .4B .3C .2D .16.对四对变量Y 和x 进行线性相关性检验,已知n 是观测值组数,r 是相关系数,且已知: ①n=7,r=0.953 3;②n=15,r=0.301 2;③n=17,r=0.499 1;④n=3,r=0.995 0,则变量Y 和x 具有线性相关关系的是( ) A .①和② B .①和③ C .②和④D .③和④7.给出下列说法:①用()()221211ˆni i i n i i i y y R y y ==-=--∑∑刻画回归效果,当2R 越大时,模型的拟合效果越差,反之则越好;②归纳推理是由特殊到一般的推理,而演绎推移则是由一般到特殊的推理;③综合法证明数学问题是“由因索果”,分析法证明数学问题是“执果索因”;④设有一个回归方程ˆ35yx =+,变量x 增加1个单位时,y 平均增加5个单位;⑤线性回归方程ˆˆˆy bx a =+必过点(),x y .其中错误的个数有( )A .0个B .1个C .2个D .3个8.为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试,统计得到成绩与专业的列联表:( )附:参考公式及数据:(1)统计量:()()()()()22n ad bcKa b c d a c b d-=++++,(n a b c d=+++).(2)独立性检验的临界值表:则下列说法正确的是A.有95%的把握认为环保知识测试成绩与专业有关B.有95%的把握认为环保知识测试成绩与专业无关C.有99%的把握认为环保知识测试成绩与专业有关D.有99%的把握认为环保知识测试成绩与专业无关9.通过随机询问250名不同性别的高中生在购买食物时是否看营养说明书,得到如下列联表:从调查的结果分析,认为性别和读营养说明书的关系为()附:()()()()()22n ad bc K a b c d a c b d -=++++ . A .95%以上认为无关 B .90%~95%认为有关 C .95%~99.9%认为有关D .99.9%以上认为有关10.某种产品的广告费支出x 与销售额y (单位:万元)之间有下表关系: x 2 4 5 6 8 y3040605070y 与x 的线性回归方程为 6.5175ˆ.y x =+,当广告支出5万元时,随机误差的效应(残差)为( ) A .40 B .20 C .30D .1011.下列说法中,不正确的是A .两个变量的任何一组观测值都能得到线性回归方程B .在平面直角坐标系中,用描点的方法得到表示两个变量的关系的图象叫做散点图C .线性回归方程反映了两个变量所具备的线性相关关系D .线性相关关系可分为正相关和负相关 12.有下列数据: x123y35.9912.01下列四个函数中,模拟效果最好的为( ) A .B .C .D .二、填空题13.对相关系数r ,①r 越大,线性相关程度越大; ②r 越小,线性相关程度越大;③|r|越大,线性相关程度越小,|r|越接近0,线性相关程度越大; ④|r|≤1且|r|越接近1,线性相关程度越大,|r|越接近0,线性相关程度越小 以上说法中,正确说法的序号是__________.14. 2.5PM 是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,下图是据某地某日早7点至晚8点甲、乙两个 2.5PM 监测点统计的数据(单位:毫克/每立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是_________.15.某单位为了了解用电量y (度)与气温x (度)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下的对照表由表中数据,得回归直线方程ˆˆˆy bx a =+,若ˆ2b=-,则ˆa =________. 16.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考查某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:附表:参照附表,在犯错误的概率不超过______(填百分比)的前提下,认为“小动物是否被感染与有没有服用疫苗有关”.17.已知方程ˆ0.8582.71yx =-是根据女大学生的身高预报她的体重的回归方程,其中x 的单位是cm ,ˆy的单位是kg ,那么针对某个体(160,53)的残差是______________. 18.给出下列结论:(1)在回归分析中,可用相关指数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好;(2)某工产加工的某种钢管,内径与规定的内径尺寸之差是离散型随机变量; (3)随机变量的方差和标准差都反映了随机变量的取值偏离于均值的平均程度,它们越小,则随机变量偏离于均值的平均程度越小;(4)若关于x 的不等式2x x a a -+-≥在R 上恒成立,则a 的最大值是1;(5)甲、乙两人向同一目标同时射击一次,事件A :“甲、乙中至少一人击中目标”与事件B :“甲,乙都没有击中目标”是相互独立事件.其中结论正确的是 .(把所有正确结论的序号填上)19.给出下列四个结论:(1)相关系数r的取值范围是1r<;(2)用相关系数r来刻画回归效果,r的值越大,说明模型的拟合效果越差;(3)一个袋子里装有大小相同的5个白球和5个黑球,从中任取4个,则其中所含白球个数的期望是2;(4) 一个篮球运动员投篮一次得3分的概率为a,得2分的概率为b,不得分的概率为c,且(),,0,1a b c∈,已知他投篮一次得分的数学期望为2,则213a b+的最小值为163.其中正确结论的序号为______________.20.为了了解司机开车时礼让斑马线行人的情况,交警部门调查了100名机动车司机,得到以下统计数据:礼让斑马线行人不礼让斑马线行人男性司机人数4015女性司机人数2025若以2χ为统计量进行独立性检验,则2χ的值是__________.(结果保留2位小数)参考公式()11221221 21212n n n n nn n n nχ++++-=三、解答题21.我国新型冠状病毒肺炎疫情期间,以网络购物和网上服务所代表的新兴消费展现出了强大的生命力,新兴消费将成为我国消费增长的新动能.某市为了了解本地居民在2020年2月至3月两个月网络购物消费情况,在网上随机对1000人做了问卷调查,得如表频数分布表:(1)作出这些数据的频率分布直方图,并估计本市居民此期间网络购物的消费平均值;(2)在调查问卷中有一项是填写本人年龄,为研究网购金额和网购人年龄的关系,以网购金额是否超过4000元为标准进行分层抽样,从上述1000人中抽取200人,得到如表列联表,请将表补充完整并根据列联表判断,在此期间是否有95%的把握认为网购金额与网购人年龄有关.参考公式和数据:()()()()()22n ad bcKa b c d a c b d-=++++.(其中n a b c d=+++为样本容量)22.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图:(1)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50kg箱产量≥50kg合计旧养殖法新养殖法合计(2)在新养殖法养殖的网箱中,按照分层抽样的方法从箱产量少于50kg和不少于50kg的网箱中随机抽取5箱,再从中抽取3箱进行研究,这3箱中产量不少于50kg的网箱数为X,求X的分布列和数学期望.()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++ ()2P K k ≥ 0.1000.050 0.010 0.005 0.001 k 2.706 3.8416.6357.87910.82823.支付宝和微信支付是目前市场占有率较高的支付方式,某第三方调研机构对使用这两种支付方式的人数作了对比,从全国随机抽取了100个地区作为研究样本,计算了各个地区样本的使用人数,其频率分布直方图如下,(1)记A 表示事件“微信支付人数低于50千人”,估计A 的概率;(2)填写下面2╳2列联表,并根据2╳2列联表判断是否有99%的把握认为支付人数与支付方式有关;()()()()()2n ad bc K a b c d a c b d -=++++.24.在第十五次全国国民阅读调查中,某地区调查组获得一个容量为200的样本,其中城镇居民150人,农村居民50人,在这些居民中,经常阅读的城镇居民100人,农村居民24人.(1)完成上面2×2列联表,并判断是否有95%的把握认为经常阅读与居民居住地有关? (2)从该地区居民城镇的居民中,随机抽取5位居民参加一次阅读交流活动,记这5位居民中经常阅读的人数为X ,若用样本的频率作为概率,求随机变量X 的分布列和期望.附:K 2=2()()()()()n ad bc a b c d a c b d -++++,其中n =a +b +c +d .25.电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图;将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下列联表,并判断能否在犯错误率不超过0.05的前提下认为“体育迷”与性别有关?非体育迷体育迷合计男女合计(2)将日均收看该体育项目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.050.01k 3.841 6.63526.为迎接2022年北京冬季奥运会,普及冬奥知识,某校开展了“冰雪答题王”冬奥知识竞赛活动.现从参加冬奥知识竞赛活动的学生中随机抽取了100名学生,将他们的比赛成绩(满分为100分)分为6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]得到如图所示的频率分布直方图.(Ⅰ)求a 的值;(Ⅱ)记A 表示事件“从参加冬奥知识竞赛活动的学生中随机抽取一名学生,该学生的比赛成绩不低于80分”,估计A 的概率;(Ⅲ)在抽取的100名学生中,规定:比赛成绩不低于80分为“优秀”,比赛成绩低于80分为“非优秀”.请在答题卡上将22⨯列联表补充完整,并判断是否有99.9%的把握认为“比赛成绩是否优秀与性别有关”?参考公式及数据:22()()()()()n ad bc K a b c d a c b d -=++++,n a b c d =+++.()20P K k ≥ 0.100.05 0.025 0.010 0.005 0.001 0k 2.7063.8415.0246.6357.87910.828【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【分析】由题意可得5m n +=,分别取m 与n 的值,由公式计算出1122123,,,,,,b a b a r r r 的值,逐一分析四个选项,即可得到答案. 【详解】由题意,1410m n +++=,即5m n +=. 若 1.5m =,则 3.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 1.5 2.53 2.5 3.5 2.54 2.54 2.5 5.5iii x x y y =--=--+--+--+--=∑ ,()()()4222221 1.50.50.5 1.55i i x x =-=-+-++=∑ , ()()()42222211.511 1.5 6.5i i y y =-=-+-++=∑.则1 5.51.15b ==,1 2.5 1.1 2.50.25a =-⨯=- ,1r =≈; 若2m =,则3n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.52 2.53 2.53 2.54 2.54 2.55iii x x y y =--=--+--+--+--=∑,()4215ii x x =-=∑,()()()42222211.50.50.5 1.55i i y y =-=-+-++=∑.2515b ==,2 2.51 2.50a =-⨯=,21r ==; 若 2.5m =,则 2.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 2.5 2.53 2.5 2.5 2.54 2.54 2.5 4.5iii x x y y =--=--+--+--+--=∑,()4215i i x x =-=∑,()()422211.5 1.5 4.5i i y y =-=-+=∑,3r ==由样本点的中心相同,故A 正确;由以上计算可得,相关系数中,2r 最大,12b b >,12a a <,故B ,C 正确,D 错误. 故选:D . 【点睛】本题考查线性回归方程与相关系数的求法,考查计算能力,是中档题.2.D解析:D 【分析】A 选项,由“若10xy ≠,则5x ≠或2y ≠”的逆否命题判断充分性,由其否命题判断必要性;由全称命题的否定的概念判断选项B ;由正态分布的性质判断选项C ;由相关系数的概念判断选项D. 【详解】对于选项A,命题“若10xy ≠,则5x ≠或2y ≠”的逆否命题为“若5x =且2x =,则10xy =”,为真命题,而命题“若10xy =,则5x =且2x =”为假命题,所以10xy ≠是5x ≠或2y ≠的充分不必要条件,故A 正确;对于选项B,由全称命题的否定可得p ⌝:x R ∃∈,210x x ++=,故B 正确;对于选项C,由随机变量()2~2,X N σ,且()40.84P X ≤=,则()()()041410.840.16P X P X P X ≤=≥=-≤=-=,故C 正确;对于选项D,相关系数r 越接近1,表示线性相关程度越强,故D 错误, 故选:D 【点睛】本题考查充分不必要条件的判断,考查全称命题的否定,考查正态分布的概率,考查相关系数的概念,熟练掌握各知识点是解题关键.3.B解析:B 【分析】根据独立性检验和回归分析的概念,即可作出判定,得到答案. 【详解】由题意,独立性检验通常是研究两个分类变量之间是否有关系,所以①采用独立性检验, 回归分析通常是研究两个具有相关关系的变量的相关程度,②采用回归分析, 综上可知①是独立性检验,②是回归分析,故选B . 【点睛】本题主要考查了独立性检验和回归分析的概念及其判定,其中解答中熟记独立性检验和回归分析的概念是解答的关键,着重考查了分析问题和解答问题的能力,属于基础题.4.B解析:B 【分析】根据独立性检验中卡方的概念知,选B. 【详解】根据独立性检验中卡方的概念知,2 6.635K >时,有99%的把握说事件A 与B 有关选B. 【点睛】本题主要考查了独立性检验中卡方的概念,属于中档题.5.B解析:B 【解析】 【分析】根据独立性检验的定义可判断(1);根据方差的性质可判断(2);根据残差的性质可判断(3);根据正态分布的对称性可判断(4). 【详解】(1)对分类变量X 与Y 的随机变量2K 的观测值K 来说,K 越大,判断“X 与Y 有关系”的把握越大,故(1)错误;(2)若将一组样本数据中的每个数据都加上同一个常数后,数据的离散程度不变,则样本的方差不变,故(2)正确;(3)根据残差的定义可知,在残差图,残差点分布的带状区域的宽度越狭窄,预测值与实际值越接近,其模型拟合的精度越高,(3)正确;(4)设随机变量ξ服从正态分布()0,1N ,若()1P p ζ>=,则()1P p ζ<-=,则()1112P p ζ-<<=-,则()1102P p ζ-<<=-,故(4)正确, 故正确的命题的个数为3个,故选B. 【点睛】本题主要通过对多个命题真假的判断,主要综合考查独立性检验的定义、方差的性质、残差的性质以及正态分布的对称性,属于中档题. 这种题型综合性较强,也是高考的命题热点,同学们往往因为某一处知识点掌握不好而导致“全盘皆输”,因此做这类题目更要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的自己已经掌握的知识点入手,然后集中精力突破较难的命题.6.B解析:B 【解析】分析:先查相关系数检验的临界值表,再判断变量Y 和x 具有线性相关关系的选项. 详解: 查相关系数检验的临界值表 ①r 0.05=0.754,r >r 0.05; ②r 0.05=0.514,r <r 0.05; ③r 0.05=0.482,r >r 0.05; ④r 0.05=0.997,r 0.05>r.∴y 和x 具有线性相关关系的是①③.故答案为B.点睛:本题主要考查相关系数,意在考查学生对这些知识的掌握水平.7.B解析:B 【解析】分析:①可由相关指数的概念判断;②③由推理,综合法和反证法的概念判断;④和⑤由线性回归分析判断即可.详解:①相关指数2R 越大,则相关性越强,模型的拟合效果越好.错误;② 归纳推理是由特殊到一般的推理,而演绎推理是由一般到特殊的推理,由归纳推理与演绎推理的概念可知正确.③综合法证明数学问题是“由因索果”,分析法证明数学问题是“执果索因”,由概念可知正确. ④由回归方程的系数意义知,当变量x 增加1个单位时,y 平均增加5个单位,正确;⑤线性回归方程ˆˆˆy bx a =+必过样本中心点(),x y ,正确.故选B.点睛:本题是一道综合性考题,即考查了推理与证明的原理,又考查了利用2R 判断模型拟合程度,同时还考查了线性回归分析的相关概念,属于中档题.8.A【解析】分析:首先计算观测值k 0的值,然后给出结论即可. 详解:由列联表计算观测值:()2401413672804.912 3.8412119202057k ⨯⨯-⨯==≈>⨯⨯⨯, 则有95%的把握认为环保知识测试成绩与专业有关. 本题选择A 选项.点睛:本题主要考查独立性检验及其应用等知识,意在考查学生的转化能力和计算求解能力.9.D解析:D 【解析】分析:由列联表中的数据,利用公式()()()()()22n ad bc K a b c d a c b d -=++++求得2K ,与邻界值比较,即可得到结论. 详解:()222509070603021.6310.828120130150100K ⨯⨯-⨯=≈>⨯⨯⨯,∴有0099.9的把握认为性别和读营养说明书的有关.点睛:独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式()()()()()22n ad bc K a b a d a c b d -=++++计算2K 的值;(3) 查表比较2K 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误.)10.D解析:D 【解析】∵y 与x 的线性回归方程为 6.5175ˆ.y x =+ 当5x =时,ˆ50y=. 当广告支出5万元时,由表格得:60y = 故随机误差的效应(残差)为605010.-= 故选D .11.A解析:A 【解析】要得到线性回归方程应至少有两个变量的两组观测值,因此A 不正确.根据散点图、线性回归方程、线性相关关系的概念可得B ,C ,D 都正确.故选A .12.A【解析】当x=1,2,3时,分别代入求y值,离y最近的值模拟效果最好,可知A模拟效果最好.故选A.考点:非线性回归方程的选择.二、填空题13.④【解析】两个变量之间的相关系数r的绝对值越接近于1表示两个变量的线性相关性越强r的绝对值非常接近于0时表示两个变量之间几乎不存在线性相关故答案为④解析:④【解析】两个变量之间的相关系数,r的绝对值越接近于1,表示两个变量的线性相关性越强,r的绝对值非常接近于0时,表示两个变量之间几乎不存在线性相关.故答案为④.14.甲【解析】根据茎叶图中的数据可知甲地的数据都集中在006和007之间数据分布比较稳定而乙地的数据分布比较分散不如甲地数据集中故甲地的方差小故答案为甲解析:甲【解析】根据茎叶图中的数据可知,甲地的数据都集中在0.06和0.07之间,数据分布比较稳定,而乙地的数据分布比较分散,不如甲地数据集中,故甲地的方差小,故答案为甲. 15.【解析】试题分析:由题意得即样本中心点代入回归直线方程得考点:回归直线方程的应用解析:60【解析】试题分析:由题意得18131011542x++-==,24343864404y+++==,即样本中心点15(,40)2,代入回归直线方程,得15402602ˆˆa a=-⨯+⇒=.考点:回归直线方程的应用.16.%【解析】试题分析:所以在犯错误不超过%的前提下认为小动物是否被感染与有没有服用疫苗有关考点:1卡方统计量2统计;【易错点晴】本题主要考查的是统计中的卡方统计量属于容易题解题时一定要注意计算问题很多解析:%【解析】试题分析:,所以在犯错误不超过%的前提下,认为“小动物是否被感染与有没有服用疫苗有关” . 考点:1.卡方统计量,2.统计;【易错点晴】本题主要考查的是统计中的卡方统计量,属于容易题.解题时一定要注意计算问题,很多同学列式正确计算错误,从而不能正确得到结果.另外,学生容易把答案写为%,所以一定要注意本题中的问题是什么,否则很容易出现错误.17.【解析】将代入得所以残差 解析:0.29-【解析】将160x =代入0.85 2.1ˆ87yx =-,得0.8516082.71ˆ53.29y =⨯-=,所以残差5353.ˆ290ˆ.29ey y =-=-=-. 18.(1)(3)(4)【分析】根据相关指数离散型随机变量随机变量的方差和标准差绝对值不等式和相互独立事件相关的知识对五个结论逐一分析由此得出正确结论的序号【详解】对于(1)R2越大模型的拟合效果越好结论解析:(1),(3),(4) 【分析】根据相关指数、离散型随机变量、随机变量的方差和标准差、绝对值不等式和相互独立事件相关的知识,对五个结论逐一分析,由此得出正确结论的序号. 【详解】对于(1),R 2越大,模型的拟合效果越好,结论正确.对于(2),内径与规定的内径尺寸之差是连续型随机变量,结论错误.对于(3),根据随机变量的方差和标准差的知识可判断出结论正确.对于(4),根据绝对值不等式有22x x a a a -+-≥-≥,所以2a a -≤-或2a a -≥,前者解得1a ≤,后者无解,故a 的最大值为1,结论正确.对于(5),事件A :“甲、乙中至少一人击中目标”与事件B :“甲,乙都没有击中目标”是对立事件,不是相互独立事件,结论错误.综上所述,正确结论为(1),(3),(4). 【点睛】本小题主要考查关指数、离散型随机变量、随机变量的方差和标准差、绝对值不等式和相互独立事件相关的知识,考查分析与解决问题的能力,属于基础题.19.(3)(4)【解析】分析:(1)相关系数的范围;(2)由相关指数r 的含有知|r|的值越大说明模型的拟合效果越好;(3)离散型随机变量的期望;(4)根据期望公式得到3a+2b=2进而利用均值不等式求最解析:(3)(4) 【解析】分析:(1)相关系数的范围;(2)由相关指数r 的含有知,|r|的值越大,说明模型的拟合效果越好;(3)离散型随机变量的期望;(4)根据期望公式得到3a+2b=2,进而利用均值不等式求最值.详解:(1)相关系数r 的取值范围是1r ≤,故(1)错误;(2)用相关指数r 来刻画回归效果,|r|的值越大,说明模型的拟合效果越好,故(2)错误;(3)含零个白球的概率为5210,含一个白球的概率为50210,含二个白球的概率为100210,含三个白球的概率为50210,含四个白球的概率为5210, 白球个数的期望为:550100505012342210210210210210⨯+⨯+⨯+⨯+⨯=,故(3)正确; (4)∵3a+2b+0•c=2,a ,b ,c ∈(0,1), ∴213a b +=(213a b +)•12(3a+2b )=12(6+4b a +a b +23)≥12(203+24b aa b ⋅) =12(203+4)=163(当且仅当a=2b ,即a=12,b=14时取“=”),故(4)正确. 其中正确结论的序号为:(3)(4). 故答案为(3)(4).点睛:本题考查相关系数的有关概念,考查离散型随机变量的期望及概率统计与基本不等式的综合应用,属于中档题.20.【解析】分析:根据题意填写2×2列联表计算观测值对照临界值得出结论详解:填写2×2列联表如下:根据数表计算=≈825>7879所以有995的把握认为开车时使用手机与司机的性别有关;点睛:独立性检验的 解析:8.25【解析】分析:根据题意填写2×2列联表,计算观测值,对照临界值得出结论. 详解:填写2×2列联表,如下:根据数表,计算()()()()()22n ad bc a b c d a c b d -X =++++=()21004025201555456040⨯⨯-⨯⨯⨯⨯≈8.25>7.879,所以有99.5%的把握认为开车时使用手机与司机的性别有关;点睛:独立性检验的一般步骤:(I )根据样本数据制成22⨯列联表;(II )根据公式()()()()()22n ad bc K a b a d a c b d -=++++计算2K 的值;(III ) 查表比较2K 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误.)三、解答题21.(1)直方图见解析,3360元;(2)列联表见解析,没有95%的把握认为网购金额与网购人年龄有关. 【分析】(1)由频数分布表计算出各组数据的纵坐标(频率除以组距),再做出频率分布直方图, 由频率分布直方图估计平均值的定义可得本市居民此期间网络购物的消费平均值; (2) 根据频数分布表中的数据可知网购金额不超过4000元的有700人,超过4000元的有300人,根据分层抽样可得网购金额不超过4000元需要抽取140人,超过4000元的需要抽取60人,再根据列联表的性质即可完成表格,再根据列联表的数据计算出2K 并与给定的参考表对照得到结论. 【详解】(1)由题可知随机对1000人做问卷调查,消费数据的组距为2000, 可求得频率分布直方图纵轴上每组的数据(频率除以组距), 即3000.0001510002000=⨯,4000.000210002000=⨯,1800.0000910002000=⨯,600.0000310002000=⨯,则[]0,2000,(]2000,4000,(]4000,6000,(]6000,8000,(]8000,10000, 对应的的数据(频率除以组距)分别是0.00015,0.0002,0.00009,0.00003,0.00003, 从而得出频率分布直方图,由频率分布直方图估计平均值的定义,可得10000.330000.450000.1870000.0690000.0630012009004205403360x =⨯+⨯+⨯+⨯+⨯=++++=(元),故本市居民此期间网络购物的消费平均值为3360元; (2)由数据可知以网购金额不超过4000元的有2007001401000⨯=(人), 超过4000元的有200300601000⨯=(人),可得列联表.由()()()()220075356525502.3813.8411406010010021n ad bc K a b c d a c b d -⨯⨯-⨯===≈<++++⨯⨯⨯. 故在此期间没有95%的把握认为网购金额与网购人年龄有关. 【点睛】本题第一问考查了平均数的计算、画出频率分布直方图,其中主要是计算出纵坐标的值(频率除以组距)属于常见题型,第二问主要考查完善列联表,2K 的计算,属于中档题目,解题中对计算能力要求较高.22.(1)列联表见解析,有把握;(2)分布列见解析,1.8. 【分析】(1)完成列联表求出2K ,从而有99%的把握认为箱产量与养殖方法有关.(2)推导出X 的可能取值为1,2,3,分别求出相应的概率,由此能求出X 的分布列和数学期望. 【详解】解:(1)依题意,得下表:2200(62603840)9.68 6.63510298100100K ⨯-⨯∴=≈>⨯⨯⨯,即2( 6.635)0.010P K ∴>=所以,有99%的把握认为箱产量与养殖方法有关;(2)按照分层抽样的方法从箱产量少于50kg 和不少于50kg 的网箱中随机抽取5箱,分别为2箱和3箱,从中再抽3箱,则1,2,3X =则2123353(1)10C C P X C ===,1223356(2)10C C P X C ===,0323351(3)10C C P X C ===,X 的分布列为所以,1123 1.8101010EX=⨯+⨯+⨯=【点睛】本题考查独立检验的应用,考查离散型随机变量的分布列、数学期望的求法,考查运算求解能力,属于中档题.23.(1)0.62;(2)列联表见解析,有99%的把握认为支付人数与支付方式有关.【分析】(1)由频率分布直方图可得微信支付人数低于50千人的频率;(2)根据频率分布直方图得出<50千人和≥50千人的人数,得列联表,计算出2K,比较后可得结论.【详解】(1)根据题意,由微信支付人数的频率分布直方图可得:()()0.0120.0140.0240.0340.04050.62P A=++++⨯=(2)根据题意,补全列联表可得:则有()22006266383415.705 6.63510010096104K⋅⨯-⨯=≈>⨯⨯⨯,故有99%的把握认为支付人数与支付方式有关.【点睛】本题考查频率分布直方图,考查列联表,独立性检验,计算出2K即得,本题属于基础题.24.(1)见解析;(2)分布列见解析,期望是10 3.【分析】(1)先根据题中数据完成列联表,再进行计算,判断;(2)根据题意得X服从二项分布,进而求解.【详解】(1)由题意得,。
线性回归案例ppt课件
2003-1 -1.151 -0.331 0.299 4.085 0.188 11.919 0.004 0.078 21.492 -0.403
2003-2 0.338 -0.611 0.3 1.402 5.369 18.418 -0.669 0.167 20.456 0.211
2003-3 0.722 0.794 0.016 -2.929 0.749 -20.886 -0.733 0.327 21.532 1.085
.
回归分析的根本目的
探寻因变量同自变量之是的数量关系,为此需假设它们之间 的数量关系满足某种函数形式,而最简单最常用的函数形式 就是线性函数。
y i0 1 x i1 2 x i2 p x ip i i1,2,...n,
➢ 其中 0为常 ,j数 (j1,项 2, ,p)为第 j 个解释性变量 xij
…
…
…
…
…
…
…
…
…
…
…
2002-498 0.3 0.5 0.255 3.167 2.5 16.795 -1.419 -0.071 19.701 -0.25
2002-499 0.484 0.127 0.287 -2.593 2.473 -4.511 0.4 0.184 20.199 0.884
2002-500 0.063 -0.416 0 -1.739 2.482 -4.809 1.793 -0.009 19.747 1.017
.
预测
.
令R
2 i
为辅助回归的判定系数
则方差膨胀因子为:
VIFi
1 1 Ri2
它反映了在多大程度上第i个自变量所包含的信息
被其他自变量覆盖
• 当VIF≥10时,说明存在多重共线性。
回归分析案例
身高 0.75 0.85 0.95 1.08 1.12 1.16 1.35 1.51 1.55 1.6 1.63 1.67 1.71 1.78 1.85 体重 101215172022354148505154596675Matlab 实现:h=[0.75 0.85 0.95 1.08 1.12 1.16 1.35 1.51 1.55 1.6 1.63 1.67 1.71 1.78 1.85]; m=[10 12 15 17 20 22 35 41 48 50 51 54 59 66 75]; plot(x,y,'*')可令:adh m =,求系数可用p=polyfit(x,y,n), 其中h x m y ln ,ln ==,n=1,结果:p=[2.3,2.823]由此得d=16.8,a=2.3,即有经验公式:3..28.16h m =。
也直接利用Matlab 统计工具箱中的命令regress 求解,使用格式:[b,bint,r,rint,stats]=regress(y,x,alpha) alpha 为置信水平,r 为残差向量βˆx y -,stats 为回归模型的检验统计量,有3个值,第一个是回归方程的决定系数2R ,第二个是F 统计量值,第三个是与F 统计量对应的概率值p 。
上例可如下操作:y=log(m)';x=[ones(length(y),1),log(h)'];[b,bint,r,rint,stat]=regress(y,x)b =2.82282.3000 stat =1 1024 0.0000残差分析:rcoplot(r,rint)----------------------------------------------------------------------------------------------------------------------------------例2:施肥效果分析(1992建模赛题)磷肥施用量 0244973 98 147 196 245 294 342 土豆产量 33.46 32.47 36.06 37.96 41.04 40.09 41.26 42.17 40.36 42.73 磷肥施用量 0244973 98 147 196 245 294 342 土豆产量33.46 34.76 36.0637.9641.0440.0941.2642.1740.3642.73氮肥施用量 0244973 98 147 196 245 294 342 土豆产量33.46 34.76 36.0637.9641.0440.0941.2642.1740.3642.73对于磷肥-----土豆:可选择函数xbea y -+=1 或威布尔函数 0,≥-=-x Be A y cx对于氮肥-----土豆:可选择函数0,2210≥++=x x b x b b y2)模型的参数估计:可如下操作:x=[0 34 67 101 135 202 259 336 404 471]';y=[15.18 21.36 25.72 32.29 34.03 39.45 43.15 43.46 40.83 30.75]';X=[ones(length(y),1),x,x.^2];[b,bint,r,rint,stat]=regress(y,X)b =14.74160.1971-0.0003stat =0.9863 251.7971 0.0000 即20003.01971.07416.14x x y -+=拟合曲线图:3) 显著性检验: (仅以氮肥-----土豆模型为例说明)A):回归方程的显著性检验:检验的概率p=0,说明方程是高度显著的.B):回归系数的的显著性检验:对1β: 0:110=βH 检验统计量 =T 对2β: 0:220=βH检验统计量 =T -1004341.84343142都有 8945.1)7(05.0=>t T ,所以,均应拒绝原假设,认为系数)2,1(=i i β显著地不为0.4)残差诊断:标准化残差图如下12345678910标准化残差基本上均匀分布于-2至2之间,可以认为模型拟合是合理的.------------------------------------------------------------------------------------------------------------------------------ 案例:牙膏的销售量某牙膏制造企业要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下的销售量。
统计案例
- x)
i
∑(y
n i=1
2
- y)
i
n 2 _ 2 n 2 _ 2 ∑xi − n x ∑yi − ny i=1 i=1
相关系数的性质 (1)|r|≤1. (1)|r|≤1. (2)|r|越接近于 越接近于1 相关程度越强;|r|越接近于 越接近于0 (2)|r|越接近于1,相关程度越强;|r|越接近于0, 相关程度越弱. 相关程度越弱. • 注:b 与 r 同号 • 问题:达到怎样程度,x、y线性相关呢?它们的相 问题:达到怎样程度, 线性相关呢? 关程度怎样呢? 关程度怎样呢?
问题二:在线性回归模型中, 是用 是用bx+a预报真实值 的随机误 预报真实值y的随机误 问题二:在线性回归模型中,e是用 预报真实值
差, 它是一个不可观测的量,那么应如何研究随机误差呢? 它是一个不可观测的量,那么应如何研究随机误差呢? e=y-(bx+a)
残差:一般的对于样本点(x1,y),(x2,y2 ),...,(xn ,yn ),它们的随机误差为 1 ei = yi −bxi − a, i =1,2,...n, 其估计值为ei = yi − yi = yi −bxi − a, i =1,2,...n
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系 函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一 般的情况
问题2: 问题 :对于线性相关的两个变量用什么方法 来刻划之间的关系呢? 来刻划之间的关系呢? 2、最小二乘估计 、 最小二乘估计下的线性回归方程: 最小二乘估计下的线性回归方程:
求根据一名女大学生的身高预报她的体重的回归方程, 求根据一名女大学生的身高预报她的体重的回归方程,并预报一名 身高为172cm的女大学生的体重。 的女大学生的体重。 身高为 的女大学生的体重 解:1、选取身高为自变量 ,体重为因变量 ,作散点图: 、选取身高为自变量x,体重为因变量y,作散点图:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第4课时线性回归分析与统计案例1甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 如下表:则哪位同学的试验结果体现 A ,B 两变量有更强的线性相关性 ) A .甲 B .乙 C .丙 D .丁 答案 D 2. (2018湖北七市联考)广告投入对商品的销售额有较大影响•某电商对连续 5个年度的广告费x 和销售额y进行统计,得到统计数据如下表 (单位:万元):由上表可得回归方程为y =io.2x +a ,据此模型,预测广告费为io 万元时销售额约为() A . 101.2 万元 C . 111.2 万元 答案 C B . 108.8 万元 D . 118.2 万元 一 1 一 1 A解析 根据统计数据表,可得 x =-x (2 + 3+ 4 + 5+ 6) = 4, y =-x (29+ 41 + 50 + 59+ 71) = 50,而回归直线y 5 5 =10.2x + a 经过样本点的中心 (4, 50) ,••• 50 = 10.2 X 4+ ;,解得;=9.2,二回归方程为 b = 10.2x + 9.2,二当 x =10 时,y = 10.2X 10 + 9.2= 111.2,故选 C. 3. (2018赣州一模)以下四个命题:① 从匀速传递的产品生产流水线上,质检员每 20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分 层抽样; ② 两个随机变量相关性越强,则相关系数的绝对值越接近于 1; ③ 在回归直线方程y = 0.2x + 12中,当解释变量x 每增加1个单位时,预报变量平均增加 0.2个单位; ④ 分类变量X 与Y ,对它们的随机变量 K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大. 其中真命题为() A .①④ B .②④ C .①③ 答案 D D .②③解析 ①为系统抽样;④分类变量X 与Y ,对它们的随机变量 K 2的观测值k 来说,k 越大,“X 与Y 有关系的把握程度越大.4 .下面是一个2X 2列联表其中a , b 处填的值分别为( )A. 94 72 C . 52 74答案 C解析 由 a + 21= 73,得 a = 52, a + 22= b ,得 b = 74•故选 C.5. (2018湖南衡阳联考)甲、乙、丙、丁四位同学各自对 A , B 两个变量的线性相关性做试验,并用回归分析 方法分别求得相关系数r 与残差平方和 m ,如下表:则哪位同学的试验结果体现 A , B 两变量有更强的线性相关性 ()A .甲B .乙C .丙D .丁答案 D解析r 越大,m 越小,线性相关性越强.故选D. 6. (2018衡水中学调研)以下四个命题中,真命题是 ( )A •对分类变量x 与y 的随机变量K 2的观测值k 来说,k 越小,判断“ x 与y 有关系”的把握程度越大 B.两个随机变量的线性相关性越强,相关系数的绝对值越接近于C. 若数据X 1, X 2, X 3, , , X n 的方差为1,则2X !, 2x ?, 2X 3, , , 2x “的方差为2D .在回归分析中,可用相关指数 R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好答案 D解析 对于A ,对分类变量x 与y 的随机变量K 2的观测值k 来说,k 越大,判断“x 与y 有关系”的把握程度 越大,故A 错误;对于B ,两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故B 错误;对于C ,若数据X 1, X 2, X 3, , , X n 的方差为1,贝U 2X 1, 2X 2, 2X 3 , , , 2X n 的方差为4,故C 错误;对于 D , 根据离散变量的线性相关及相关指数的有关知识可知D 正确.7. 2015年年度史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》 .某记者调查了大量《芈月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在[10 , 14], [15 ,19], [20 , 24], [25 ,29][30, 34]的爱看比例分别为 10%, 18% , 20%, 30% , t%.现用这5个年龄段的中间值代表年龄段,女口 12代 表[10 , 14] , 17代表[15 , 19],根据前四个数据求得爱看比例 y 关于x 的线性回归方程为y = (kx — 4.68)% ,由此可推测t 的值为()B . 52 50 D . 7452A. 33B. 35C. 37D . 39 答案B1 解析 依题意,X =:x (12+ 17+ 22 + 27) = 19.5, 41 y = (10% + 18% + 20% + 30%) = 19.5% ,& (2018广西南宁月考)某同学寒假期间对其 30位亲属的饮食习惯进行了一次调查,列出了如下列联表:则可以说其亲属的饮食习惯与年龄有关的把握为 ( )附: K2= (a +b )( n+d )d —(ba + c )(b +d )■C . 99% 答案 C属的饮食习惯与年龄有关.9. 2017世界特色魅力城市 200强新鲜出炉,包括黄山市在内的 28个中国城市入选,美丽的黄山风景和人文景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在黄山旅游节期间,随机抽取了 100人,得如下所示的列联表:参照公式,得到的正确结论是( )A •有99.5%以上的把握认为“赞成‘自助游’与性别无关”B. 有99.5%以上的把握认为“赞成‘自助游’与性别有关”C.在犯错误的概率不超过 0.1的前提下,认为“赞成’自助游’与性别无关”D •在犯错误的概率不超过 0.1的前提下,认为“赞成’自助游’与性别有关” 参考公式: K 2= “j :d~~ ,其中 n = a + b + c + d.(a + b )( c + d ) ( a + c )( b + d )'又•/回归直线必过点 (x , y), 2 418•••19.5%= (k X 19.5 — 4.68)% ,解得 k = -,1 9502 418•当x =32 时,(贡X 32—4・68)%D . 99.9%解析 由2X 2列联表知, K 2=30X (4X 2 — 16X 8)12X 18X 20X 10210.T K >6.635,K 2<10.828, •••有99%的把握认为其亲C . y = 0.7X — 2.3D . y = 0.7X + 2.3ny君 x i y — nx y y y(相关公式: b = —n , a = y — bx)E x i 2— nx 2i = 1答案 C答案 73所以 66= 0.36 X 70 + 彳,解得 a = 40.8. 所以 0.36X 90 + 40.8 = 73.2~ 73.12.某工厂为了对一种新研发的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据: 单价X (元)4 5 6 7 8 9 销量y (件)908483807568由表中数据,求得线性回归方程为y =—4X +a.若在这些样本点中任取一点,则它在回归直线左下方的概率为答案 Dk °2.072 2.7063.841 5.024 6.635 7.87910.828解析 将2X 2列联表中的数据代入计算,得K 2=100 X ( 30X 10 — 45X 15)45 X 55 X 75 X 25 3.030,•/ 2.706<3.030<3.841 ,•••在犯错误的概率不超过 0.1的前提下, 10 •某研究机构对高三学生的记忆力 xA • y = 2.3X — 0.7X 6 8 10 12 y2356解析 4vE x i y i = 6X 2+ 8X 3+ 10X 5 + 12X 6 = 158,6+ 8 + 10+ 12 小 X = = 9, y = 42 +3 + 5+ 6= 4.4158— 4X 9X 436 + 64 + 100 + 144— 4 X81a = 4 — 0.7X 9= — 2.3.解析60 + 65+ 70+ 75 + 805 62+ 64+ 66+ 68 + 705=66,2可以认为 “赞成’自助游’与性别有关 和判断力y 进行统计分析,所得数据如下表:B • y = 2.3X + 0.7现已知其线性回归方程为y =0.36X +a ,则根据此线性回归方程估计数学得 90分的同学的物理成绩为_______ (四舍五入到整数). =70,1答案3 解析 由表中数据得x = 6.5, y = 80,由y =— 4x +彳,得a = 106,故线性回归方程为y =- 4x + 106•将(4,90), (5, 84), (6, 83), (7, 80), (8, 75), (9, 68)分别代入回归方程,可知有 6个基本事件,因 84< — 4X 5+ 1062 1=86, 68< — 4X 9+ 106= 70,故(5, 84)和(9, 68)在直线的左下方,满足条件的只有 2个,故所求概率为-=-.6 313.已知某学校的特长班有50名学生,其中有体育生 20名,艺术生30名,在学校组织的一次体检中,该班所有学生进行了心率测试,心率全部介于50次/分到75次/分之间,现将数据分成五组,第一组[50, 55),第二组[55, 60),,,第五组[70, 75],按上述分组方法得到的频率分布直方图如图所示. 因为学习专业的原因,体育生常年进行系统的身体锻炼,艺术生则很少进行系统的身体锻炼,若前两组的学生中体育生有8 名. (1)根据频率分布直方图及题设数据完成下列2 X 2列联表.心率小于60次/分心率不小于60次/分合计 体育生20艺术生30 合计5060次/分与常年进行系统的身体锻炼有关”.附:K 22n (ad — be ) 2P(K > k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828答案(1)见解析(2)有关解析(1)根据频率分布直方图可知,前两组的学生总数为 (0.032 + 0.08) X 5X 50= 10,又前两组的学生中体育生有8名,所以前两组的学生中艺术生有2名,故2X 2列联表如下:心率小于60次/分心率不小于60次/分合计 体育生 8 12 20 艺术生 2 28 30 合计104050⑵由⑴中数据知,K 2 =二黑/—。