3 第3讲 变量间的相关关系、统计案例
高考数学(理)一轮复习课件:统计与概率-3变量间的相关关系与统计案例(人教A版)
第3课时 变量间的相关关系与统计案例
考纲下载 1.会作两个有关联变量的数据的散点图,会利用散点 图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方 程系数公式建立线性回归方程.
3.了解独立性检验(只要求 2×2 列联表)的基本思想、 方法及其简单应用.
4.了解回归分析的基本思想、方法及其简单应用.
y2 总计
x1
a
x2
2
总计 b
21 73 25 27 46
则表中a、b处的值分别为( )
A.94、96
B.52、50
C.52、54
D.54、52
答案:C 解析:a=73-21=52,b=a+2=54,故选C.
5. [原创]某医疗研究所为了了解某种血清预防感冒的 作用,把 500 名使用过血清的人与另外 500 名未使用血清 的人一年中的感冒记录作比较,提出假设 H0:“这种血清 不能起到预防感冒的作用”,利用 2×2 列联表计算得 K2 ≈3.918,经查临界值表知 P(K2≥3.841)≈0.05.则下列结论 中,正确结论的序号是________.
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
随机变量 K2=(a+b)(cn+(da)d-(bac+)c2)(b+d), 其中 n=a+b+c+d 为样本容量.
(3)独立性检验 利用随机变量 K2 来确定在多大程度上可以认为“两
个分分类类变变量量有有关关系系”的方法称为两个分类变量的独立性
nn
(xi - x )(y i- y )
ii==11
为:^b=
, ^a=y-y---^b^bx-x- .
12第一部分 板块二 专题四 概率与统计 第1讲 概率与统计(小题)
第1讲概率与统计(小题)热点一随机抽样1.随机抽样的各种方法中,每个个体被抽到的概率都是相等的.2.系统抽样又称“等距”抽样,被抽到的各个号码间隔相同.3.分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.例1(1)(2019·汉中联考)某机构对青年观众是否喜欢跨年晚会进行了调查,人数如下表所示:不喜欢喜欢男性青年观众3010女性青年观众3050现要在所有参与调查的人中用分层抽样的方法抽取n人做进一步的调研,若在“不喜欢的男性青年观众”的人中抽取了6人,则n等于()A.12 B.16 C.20 D.24(2)(2019·上饶联考)某校高三科创班共48人,班主任为了解学生高考前的心理状况,将学生按1至48的学号用系统抽样方法抽取8人进行调查,若抽到的最大学号为48,则抽到的最小学号为________.跟踪演练1(1)(2019·漳州质检)某工厂利用随机数表对生产的600个零件进行抽样测试,先将600个零件进行编号,编号分别为001,002,…,599,600从中抽取60个样本,如下提供随机数表的第4行到第6行:32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 4284 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 0432 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45若从表中第6行第6列开始向右依次读取3个数据,则得到的第6个样本编号为()A .522B .324C .535D .578(2)(2019·合肥质检)某工厂生产的A ,B ,C 三种不同型号的产品数量之比为2∶3∶5,为研究这三种产品的质量,现用分层抽样的方法从该工厂生产的A ,B ,C 三种产品中抽出样本容量为n 的样本,若样本中A 型产品有10件,则n 的值为( ) A .15 B .25 C .50 D .60 热点二 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数 频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.4.对于其他的统计图表,要注意结合问题背景分析其所表达的意思,进而解决所给问题. 例2 (1)(2019·厦门质检)下图是某公司2018年1月至12月空调销售任务及完成情况的气泡图,气泡的大小表示完成率的高低,如10月份销售任务是400台,完成率为90%,则下列叙述不正确的是( )A .2018年3月的销售任务是400台B .2018年月销售任务的平均值不超过600台C .2018年第一季度总销售量为830台D .2018年月销售量最大的是6月份(2)(2019·临沂质检)已知8位学生的某次数学测试成绩的茎叶图如图,则下列说法正确的是( )A .众数为7B .极差为19C.中位数为64.5 D.平均数为64跟踪演练2(1)已知某高中的一次测验中,甲、乙两个班级的九科平均分的雷达图如图所示,下列判断错误的是()A.乙班的理科综合成绩强于甲班B.甲班的文科综合成绩强于乙班C.两班的英语平均分分差最大D.两班的语文平均分分差最小(2)(2019·黄冈模拟)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示:将阅读时间不低于30分钟的学生称为“阅读霸”,则下列命题正确的是()A.抽样表明,该校约有一半学生为阅读霸B.该校只有50名学生不喜欢阅读C.该校只有50名学生喜欢阅读D.抽样表明,该校有50名学生为阅读霸热点三变量间的相关关系、统计案例高考中解决变量间的相关关系问题时需注意:(1)回归直线一定过样本点的中心(x,y).(2)随机变量K2的观测值k越大,说明“两个变量有关系”的可能性越大.例3(1)(2019·皖江联考)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温x (℃) 18 13 10 -1 用电量y (度)24343864由表中数据得线性回归方程y ^=b ^x +a ^中b ^=-2,预测当温度为-5 ℃时,用电量的度数约为( )A .64B .66C .68D .70(2)某研究型学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如下表:使用智能手机不使用智能手机总计 学习成绩优秀 4 8 12 学习成绩不优秀16 2 18 总计201030附表:P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828经计算K 2的观测值k =10,则下列选项正确的是( ) A .有99.5%的把握认为使用智能手机对学习有影响 B .有99.5%的把握认为使用智能手机对学习无影响 C .有99.9%的把握认为使用智能手机对学习有影响 D .有99.9%的把握认为使用智能手机对学习无影响跟踪演练3 (1)(2019·长春质检)某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:厘米),上图为选取的15名志愿者身高与臂展的折线图,下图为身高与臂展所对应的散点图,并求得其回归方程为y ^=1.16x -30.75,以下结论中不正确的为( )A .15名志愿者身高的极差小于臂展的极差B .15名志愿者身高和臂展成正相关关系C .可估计身高为190厘米的人臂展大约为189.65厘米D .身高相差10厘米的两人臂展都相差11.6厘米(2)(2019·泸州模拟)随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线城市一线城市 总计 愿生 45 20 65 不愿生 13 22 35 总计5842100附表:P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算得,K 2的观测值k =100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”真题体验1.(2019·全国Ⅰ,文,6)某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生2.(2018·全国Ⅰ,文,3)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半3.(2018·全国Ⅲ,文,14)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.押题预测1.某市气象部门根据2018年各月的每天最高气温平均值与最低气温平均值(单位:℃)数据,绘制如下折线图:那么,下列叙述错误的是( )A .各月最高气温平均值与最低气温平均值总体呈正相关B .全年中,2月份的最高气温平均值与最低气温平均值的差值最大C .全年中各月最低气温平均值不高于10 ℃的月份有5个D .从2018年7月至12月该市每天最高气温平均值与最低气温平均值都呈下降趋势 2.给出如下列联表患心脏病 患其他病 总 计 高血压 20 10 30 非高血压 30 50 80 总 计5060110P (K 2≥10.828)≈0.001,P (K 2≥6.635)≈0.010,参照公式k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得到的正确结论是( )A .有99%以上的把握认为“高血压与患心脏病无关”B .有99%以上的把握认为“高血压与患心脏病有关”C .在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病无关”D .在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病有关” 3.某设备的使用年数x 与所支出的维修总费用y 的统计数据如下表:使用年数x (单位:年) 2 3 4 5 6 维修总费用y (单位:万元)1.54.55.56.57.5根据上表可得线性回归方程为y ^=1.4x +a ^.若该设备维修总费用超过12万元就报废,据此模型预测该设备最多可使用________年.A 组 专题通关1.(2019·河北省五个一名校联盟联考)经调查,某市骑行共享单车的老年人、中年人、青年人的比例为1∶3∶6,用分层抽样的方法抽取了一个容量为n 的样本进行调查,其中中年人数为12人,则n 等于( ) A .30 B .40 C .60D .802.某校李老师本学期负责高一甲、乙两个班的数学课,两个班都是50个学生,如图反映的是两个班的本学期5次数学测试中的班级平均分对比情况,根据图中信息,下列结论不正确的是( )A .甲班的数学平均成绩高于乙班B .乙班的数学成绩没有甲班稳定C .下次测试乙班的数学平均分高于甲班D .在第1次测试中,甲、乙两个班总平均分为783.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5 B .0.6 C .0.7 D .0.84.某学校为落实学生掌握社会主义核心价值观的情况,用系统抽样的方法从全校2 400名学生中抽取30人进行调查.现将2 400名学生随机地从1~2 400编号,按编号顺序平均分成30组(1~80号,81~160号,…,2 321~2 400号),若第3组与第4组抽出的号码之和为432,则第6组抽到的号码是( ) A .416 B .432 C .448 D .4645.(2019·郑州质检)若1,2,3,4,m (m ∈R )这五个数的平均数等于其中位数,则m 等于( ) A .0或5 B .0或52 C .5或52 D .0或5或526.(2019·长春质检)下列命题:①在线性回归模型中,相关指数R 2表示解释变量x 对于预报变量y 的贡献率,R 2越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在线性回归方程y ^=-0.5x +2中,当解释变量x 每增加一个单位时,预报变量y ^平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的个数是( ) A .1 B .2 C .3 D .47.(2019·衡水质检)某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是( )A .得分在[40,60)之间的共有40人B .从这100名参赛者中随机选取1人,其得分在[60,80)的概率为0.5C .估计得分的众数为55D .这100名参赛者得分的中位数为658.(2019·济宁模拟)如图为某市国庆节7天假期的楼房认购量与成交量的折线图,小明同学根据折线图对这7天的认购量(单位:套)与成交量(单位:套)作出如下判断:①日成交量的中位数是16;②日成交量超过日平均成交量的有2天;③认购量与日期正相关;④10月7日认购量的增幅大于10月7日成交量的增幅.则上述判断正确的个数为( )A .0B .1C .2D .39.(2019·广东天河区普通高中测试)为保证树苗的质量,林业管理部门在每年3月12日植树节前都对树苗进行检测,现从甲、乙两种树苗中各抽测了10株树苗的高度(单位:cm),其茎叶图如图所示,则下列描述正确的是( )A .甲种树苗的平均高度大于乙种树苗的平均高度,甲种树苗比乙种树苗长得整齐B .甲种树苗的平均高度大于乙种树苗的平均高度,乙种树苗比甲种树苗长得整齐C .乙种树苗的平均高度大于甲种树苗的平均高度,乙种树苗比甲种树苗长得整齐D .乙种树苗的平均高度大于甲种树苗的平均高度,甲种树苗比乙种树苗长得整齐10.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得出2×2列联表,由计算可得K 2≈8.806.P (K 2≥k 0)0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828参照附表,得到的正确结论是( )A .有99.5%以上的把握认为“爱好该项运动与性别无关”B .有99.5%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别无关”11.已知变量x ,y 之间的线性回归方程为y ^=-0.7x +10.3,且变量x ,y 之间的一组数据如下表所示,则下列说法中错误的是( )x 6 8 10 12 y6m32A.变量x ,y 之间呈现负相关关系 B .可以预测当x =20时,y ^=-3.7 C .m =4D .由表格数据知,该回归直线必过点(9,4)12.(2019·江淮质检)为了了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是( )A .是否倾向选择生育二胎与户籍有关B .是否倾向选择生育二胎与性别有关C .倾向选择生育二胎的人员中,男性人数与女性人数相同D .倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数13.(2019·河南省九师联盟质检)为了了解世界各国的早餐饮食习惯,现从由中国人、美国人、英国人组成的总体中用分层抽样的方法抽取一个容量为m 的样本进行分析.若总体中的中国人有400人、美国人有300人、英国人有300人,且所抽取的样本中,中国人比美国人多10人,则样本容量m =________.14.某班40名学生参加普法知识竞赛,成绩都在区间[40,100]内,其频率分布直方图如图所示,则成绩不低于60分的人数为________.15.(2019·成都模拟)节能降耗是企业的生存之本,树立一种“点点滴滴降成本,分分秒秒增效益”的节能意识,以最好的管理,来实现节能效益的最大化.为此某国企进行节能降耗技术改造,下面是该国企节能降耗技术改造后连续五年的生产利润:年号1 2 3 4 5 年生产利润y (单位:千万元)0.70.811.11.4预测第8年该国企的生产利润约为________千万元.参考公式及数据:b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2;a ^=y -b ^x ,∑i =15(x i -x )(y i-y )=1.7, i =15(x i -x )2=10.根据该折线图,下列结论正确的是________(填序号). ①月接待游客量逐月增加;②年接待游客量逐年增加; ③各年的月接待游客量髙峰期大致在7,8月份;④各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳.B 组 能力提高17.(2019·葫芦岛模拟)近日,据媒体报道称,“杂交水稻之父”袁隆平及其团队培育的超级杂交稻品种“湘两优900(超优千号)”再创亩产世界纪录,经第三方专家测产,该品种的水稻在实验田内亩产1 203.36公斤.中国工程院院士袁隆平在1973年率领科研团队开启了杂交水稻王国的大门,在数年的时间内就解决了十多亿人的吃饭问题,有力回答了世界“谁来养活中国”的疑问.2012年,在袁隆平的实验田内种植了A ,B 两个品种的水稻,为了筛选出更优的品种,在A ,B 两个品种的实验田中分别抽取7块实验田,如图所示的茎叶图记录了这14块实验田的亩产量(单位:10 kg),通过茎叶图比较两个品种的平均数及方差,并从中挑选一个品种进行以后的推广,有如下结论:①A 品种水稻的平均产量高于B 品种水稻,推广A 品种水稻;②B 品种水稻的平均产量高于A 品种水稻,推广B 品种水稻;③A 品种水稻的产量比B 品种水稻更稳定,推广A 品种水稻;④B 品种水稻的产量比A 品种水稻更稳定,推广B 品种水稻;其中正确结论的编号为( )A .①②B .①③C .②④D .①④18.(2019·南昌模拟)已知具有线性相关的五个样本点A 1(0,0),A 2(2,2),A 3(3,2),A 4(4,2),A 5(6,4),用最小二乘法得到回归直线l 1:y ^=b ^x +a ^,过点A 1,A 2的直线l 2:y =mx +n ,那么下列说法中,正确的有________.(填序号) ①m >b ^,a ^>n ; ②直线l 1过点A 3;③∑i =15(y i -b ^x i -a ^)2≥∑i =15 (y i -mx i -n )2; ④∑i =15|y i -b ^x i -a ^|≥∑i =15|y i -mx i -n |.⎝ ⎛⎭⎪⎪⎫参考公式:b ^=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2= ∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2,a ^=y -b ^x。
完整版变量间的相关关系统计案例
完整版变量间的相关关系统计案例引言:经济学中一个重要的分支是相关关系的研究,通过统计分析不同变量之间的相关性,可以帮助我们理解变量之间的关系。
本文以汽车生产数量和国内生产总值(GDP)为例,通过统计分析两者之间的相关关系,展示相关分析在实际问题中的应用。
方法:本案例采用了经济学中常用的相关分析方法,包括Pearson相关系数和散点图。
本文使用了国在过去10年内的汽车生产数量和GDP的数据。
汽车生产数量的数据来自国家汽车协会,GDP数据来自国家统计局。
分析过程:1.数据收集和整理:将过去10年内的每年汽车生产数量和GDP数据整理成一个数据表格,便于后续分析。
2.描述统计分析:计算汽车生产数量和GDP的均值、标准差和极差等描述性统计量,以了解数据的整体情况。
3.散点图绘制:将每年的汽车生产数量和GDP数据绘制成散点图,横轴表示汽车生产数量,纵轴表示GDP,每个散点表示一个年份。
4.相关性分析:计算汽车生产数量和GDP之间的Pearson相关系数,该系数介于-1和1之间。
系数为正则表示两者正相关,系数为负则表示两者负相关,系数越接近于1或-1,则相关性越强。
结果:1.描述统计分析结果显示,过去10年内每年的汽车生产数量均值为X辆,标准差为X辆,极差为X辆;每年GDP的均值为X万元,标准差为X万元,极差为X万元。
2.散点图显示,汽车生产数量和GDP呈现出一定的正相关趋势。
随着汽车生产数量的增加,GDP也有相应增加的趋势。
3. 相关性分析结果显示,汽车生产数量和GDP之间的Pearson相关系数为X。
由于该系数为正数且接近于1,可以得出结论:汽车生产数量与GDP存在着强正相关关系。
讨论:本案例通过相关分析的方法,探讨了汽车生产数量与GDP之间的关系。
研究结果表明,两者之间存在着强正相关关系,即汽车生产数量的增加会促进GDP的增长。
可能的解释是汽车工业作为一个重要的制造业部门,对于经济的增长有着显著的贡献。
【精品课件】新教材一轮复习北师大版第10章第3讲变量间的相关关系、统计案例课件
求得回归方程^y=0.67x+54.9.
零件数 x(个) 10 20 30 40 50
加工时间 y(min) 62
75 81 89
现发现表中有一个数据看不清,请你推断出该数据的值为__6_8__.
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
[解析] 由-x =30,得-y =0.67×30+54.9=75. 设表中的“模糊数字”为 a, 则 62+a+75+81+89=75×5,∴a=68.
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
返回导航
5.(2019·高考全国Ⅰ卷)某商场为提高服务质量,随机调查了 50 名 男顾客和 50 名女顾客,每位顾客对该商场的服务给出满意或不满意的评 价,得到下面列联表:
满意 不满意 男顾客 40 10 女顾客 30 20
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
考点一
相关关系的判断——自主练透
(1)(2021·四 川 资 阳 模
拟)在一次对人体脂肪含量和年龄关
系的研究中,研究人员获得了一组样
本数据,并制作成如图所示的人体脂
肪含量与年龄关系的散点图.根据该
图,下列结论中正确的是 ( )
返回导航
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
积相近的 200 个地块,从这些地块中用简单随机抽样的方法抽取 20 个作
为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中 xi 和 yi 分别表 示第 i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计
20
20
20
算得xi=60,yi=1 200,
第3讲 变量间的相关关系与统计案例
K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1
变量间的相关关系与统计案例
1n niyi =1
(-,-) x y
华翰教辅
教辅旗舰
考 点 串 串 讲 考点归纳与解析 思维拓展与迁移
华翰教辅
教辅旗舰
1.变量之间的两种关系 (1)函数关系 函数关系是确定性的关系,变量之间的关系可以用函数表示, 例如:圆的面积 S 与半径长 r 之间就是确定性关系,可以用函数 S =πr2 表示. (2)相关关系 相关关系是变量之间有一定的联系, 但不能完全用函数来表达, 例如,人的体重 y 与身高 x 有关.一般来说,身体越高体重越重, 但不能用一个函数来严格地表示身高与体重之间的关系.
华翰教辅
教辅旗舰
2.散点图 (1)散点图定义 将样本中 n 个数据点(xi,yi)(i=1,2,„,n)描在平面直角坐标系 中, 以表示具有相关关系的两个变量的一组数据的图形叫做散点图. (2)利用散点图可以判断变量之间有无相关关系 利用散点图可以作出如下判断: ①如果所有样本点都落在某一函数图象上,那么变量之间具有 函数关系,就用该函数来描述它们之间的关系. ②如果所有样本点都落在某一函数图象附近,那么变量之间具 有相关关系. ③如果所有样本点都落在某一直线附近,那么变量之间具有线 性相关关系.
华翰教辅
教辅旗舰
(2)求回归直线方程的步骤 ①作出散点图,判断散点是否在一条直线附近; ^ ^ ②如果散点在一条直线附近,用公式求出a ,b ,并写出线性回 归方程. (3)回归直线方程的应用:研究变量间的相关关系,能帮助发现 事物发展的一些规律,为我们的判断和决策提供依据. ^ ^ (4)回归直线中一次项系数为b ,常系数为a ,这与一次函数习惯 表示不同.
i=1 n
^ 其中b= x xi2-n-2
变量间的相关关系与统计案例
第3课时 变量间的相关关系与统计案例一、基础知识总结复习1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散分布在从左下角到右上角的区域内. ②负相关:从散点图上看,点散分布在从左上角到右下角的区域内. (2)线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. (3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法. ②回归方程:两个具有线性相关关系的变量的一组数据:11(,)x y ,22(,)x y ,…,(,)n n x y ,其回归方程为y bx a =+,其中,112222211()()()nniii ii i nniii i x x y y x y nx yxy x y b x xx x xnx====----===---∑∑∑∑,a y bx =-b 是斜率,a 是y 轴上的截距.0b 正相关,0b 负相关.③样本中心:(,)x y 叫做具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的样本点的中心. (4)样本相关系数:()()niix x y y xy x y r --==∑,用它来衡量两个变量间的线性相关关系的强弱. ①当r >0时,表明两个变量正相关; ②当r <0时,表明两个变量负相关;③r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近0, 表明两个变量的线性相关性越弱.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.(5)相关指数2R :① 22121()1()niii niii y y R y y ==-=--∑∑(线性回归模型中21R 0≤≤,且2R 越大拟合效果越好).②在含一个解释变量的线性相关关系中,22R r =,残差平方和越小,2R 越大.(6)总偏差平方和、残差平方和、回归平方和总偏差平方和:21()ni i y y =-∑;残差平方和21()ni i i y y =-∑;回归平方和21()ni i y y =-∑.残差的平方和越小,观测值更接近预报值,拟合效果越好,相关性也越强,预报更准确.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.一般地,假设有两个分类变量X 和Y ,它们的可能取值分别为{}12,x x 和{}12,y y ,则样本频数列联表(称为2×2列联表)为:随机变量22()()()()()n ad bc K a b a c b d c d -=++++ (其中n a b c d =+++为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”. 2K 越大,X 与Y 的无关性越小,相关性越强.二、基础知识过关判断下列结论的正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(×)(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.(√) (3)通过回归方程y bx a =+可以估计和观测变量的取值和变化趋势.(√) (4)任何一组数据都对应着一个回归直线方程.(×)有线性和非线性拟合 (5)事件X ,Y 关系越密切,则由观测数据计算得到的2K 的观测值越大.(√) (6)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(√) (7)只有两个变量有相关关系,所得到的回归模型才有预测价值.(√) (8)某同学研究卖出的热饮杯数y 与气温x (C )之间的关系,得回归方程 2.352147.767y x =-+,则气温为2℃时,一定可卖出143杯热饮.(×),只能预报不能确定(9)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(×)只能说相关的可能性大,但不能预报优秀程度 (10)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小(×).应越大 三、典型例题与练习20()P K k ≥ 0k 0.001 10.828 0.50 0.455 0.010 6.635 0.005 7.879 0.025 5.024 0.05 3.841 0.10 2.706 0.15 2.072 0.25 1.323 0.40 0.708[例1](1)对变量x ,y 有观测数据()i i x y ,(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据()i i u v , (i =1,2,…,10),得散点图2.由这两个散点图可以判断( ) A .变量x 与y 正相关,u 与v 正相关 B .变量x 与y 正相关,u 与v 负相关 C .变量x 与y 负相关,u 与v 正相关 D .变量x 与y 负相关,u 与v 负相关 解:由图1可知,各点整体呈递减趋势,x 与y 负相关;由图2可知,各点整体呈递增趋势,u 与v 正相关.选C(2)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( ) A .r 2<r 4<0<r 3<r 1 B .r 4<r 2<0<r 1<r 3 C .r 4<r 2<0<r 3<r 1 D .r 2<r 4<0<r 1<r 3解:因为正相关0r ,负相关0r ,132400 00r r r r ,,,∴又因为相关性越强,r 越大,从散点看(1)(2)相关性强,图象近似成直线了,24r r |24310r r r r ∴;故选A.练习1.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用21c xy c e =拟合时的相关指数为21R ,用拟合时的相关指数为22R , 则2212R R ;③x 、y 之间不能建立回归直线方程. 解:①显然正确;由散点图知,用21c xy c e =拟合的效果比用y bx a =+拟合的效果要好,2212R R ∴,故②正确;x ,y 之间能建立回归直线方程,只不过预报精度不高,故③不正确.故填:①②2.如图所示,有A ,B ,C ,D ,E 五组数据,去掉________组数据后,剩下的四组数据具有较强的线性相关关系. 解:因为散点图呈带状区域时有较强的线性相关关系,带关区域越窄,相关性越强,故去掉D 组数据.填写答案:D[例2]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:719.32i i y ==∑,7140.17i i i t y ==∑,0.55= 2.646≈.参考公式:相关系数1()()niii t t y y r =--=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,a y bt =-解:(1) 由折线图中数据得4t=,721()28i i t t =-=∑∴,0.55=0.55 1.1 2.646 2.9106=⨯=⨯=又7711()()7i i i i i i t t y y t y t y ==--=-∑∑∵,719.32i i y ==∑,7117i i y y ==∑∴777111()()40.1749.32 2.89i i i i i i i i t t y y t y t y ===--=-=-⨯=∑∑∑∴, 2.890.9932.9106r =≈因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2) 719.32i i y ==∑∵,7119.321.3377i i y y ===≈∑∴,又721()28i i t t =-=∑∵, 71()() 2.89i ii t t y y =--=∑∴, 2.890.1028b =≈∴,1.330.1040.93a y bt =-=-⨯=∴所以,y 关于t 的回归方程为0.930.1y t =+.根据年份代码,2016年对应t =9,0.930.109 1.83y =+⨯= 所以预测2016年我国生活垃圾无害化处理量约为1.83亿吨.练习.某公司为确定下一年度投入某种产品的宣 传费,需了解年宣传费x (单位:千元)对年 销售量y (单位:t)和年利润z (单位:千元)的 影响.对近8年的年宣传费x i 和年销售量 y i (i =1,2,…,8)数据作了初步处理,得 到下面的散点图及一些统计量的值.表中i i x ω=8118i i ωω==∑, (1)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为0.2z y x =-.根据(2)的结果回答下列问题: ①年宣传费49x =时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率 和截距的最小二乘估计分别为:121()()()nii i nii uu v v uu β==--=-∑∑,v u αβ=-解:(1)由散点图可以判断,y c x =+适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)先作变换,令w =x ,则y c d ω=+,所以先建立y 关于w 的线性回归方程. 根据题目所给出的统计量有:81821()()108.8681.6()iii ii y y d ωωωω==--===-∑∑ 6.8,563y ω==∵,56368 6.8100.6c y d ω=-=-⨯=∴,100.668y ω=+∴,因此y 关于x 的回归方程为100.668y x =+(3)①由(2)知, 100.668y x =+所以当x =49时,年销售量y 的预报值100.66849576.6y =+=,0.2z y x =-∵∴年利润z 的预报值0.2576.64966.32z =⨯-=.②根据(2)的结果知,年利润z 的预报值:0.2(100.620.12z x x =+-=-+∵所以当13.66.82==时,即46.24x =时,z 取得最大值.[例3] 为了解某地区观众对某大型综艺节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众观看该节目的场数与所对应的人 数的表格:将收看该节目场数不低于13场的观众称为“歌迷”,已知“歌迷”中有10名女性.(1)根据已知条件完成如下2×2列联表,并判断我们能否有95%的把握认为是否为“歌迷”与性别有关?(2)将收看该节目所有场数(14场)的观众称为“超级歌迷”,已知“超级歌迷”中有2名女性,若从“超级歌迷”中任意选取2人,求至少有1名女性观众的概率. 注:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解:(1)由统计表可知,在抽取的100人中,“歌迷”有25人,非歌迷有75人,哥歌迷中有10名女性,所以男歌迷有15人,又因为100名观众中有55名女性,所以非歌迷中有45名女性,所以非歌迷的男性有30名,从而完成2×2列联表如下:2100(30104515)100 3.0303.8417525554533K ⨯-⨯==≈⨯⨯⨯所以我们没有95%的把握认为是否为“歌迷”与性别有关. (2)由统计表可知,“超级歌迷”有5人,其中2名女性,3名男性,记“从“超级歌迷”中任意选取2人,至少有1名女性观众”的事件为A ,因为从5名歌迷中任选2人的不同选法有2510C =种,其中有一名是女性的选法有11326C C =种,有两名女性的选法有221C =种, 16()0.710P A +==∴. [注] :1.独立性检验的一般步骤(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值.(3)查表比较K 2与临界值的大小关系,作统计判断 2.两个分类变量x 和y 是否有关系的判断方法(1)当K 2≤2.706时,没有充分的证据判定变量x ,y 有关联,可以认为变量x ,y 没有关联; (2)当K 2>2.706时,有90%的把握判定变量x ,y 有关联; (3)当K 2>3.841时,有95%的把握判定变量x ,y 有关联; (4)当K 2>6.635时,有99%的把握判定变量x ,y 有关联; (5)当K 2>10.828时,有99.9%的把握判定变量x ,y 有关联.练习.大家知道,莫言是中国首位获得诺贝尔奖的文学家,国人欢欣鼓舞.某高校文学社从男女学生中各抽取50名同学调查他们对莫言作品的了解程度,结果如下:(1)试估计该校学生阅读莫言作品超过50篇的概率;(2)对莫言作品阅读超过75篇的则称为“对莫言作品非常了解”,否则为“一般了解”.根据题意完成下表,并判断能否有75%的把握认为对莫言作品非常了解与性别有关?附:K 2=解:(1)由抽样调查表可知,学生阅读莫言作品在50篇以上的人有79人,所以估计该校学生阅读莫言作品超过50篇的概率约为79100.(2)因为阅读超过75篇的男生有30人,女生有25人,阅读不超过75篇的男生有20人,女生有25人,所以列联表如下:。
第九章 变量间的相关关系统计案例
返回
(2)∵ xiyi=3 245, x =25, y =15.43, x2=5 075,7( x )2=4 375,7x y=2 695 i
i= 1 i= 1
7
7
--
y xiyi-7 x ·
i= 1
7
^ ∴b =
≈0.79,
xi2-7 x 2
i= 1
7
^= y -b x =-4.32,∴回归直线方程是y =0.79x-4.32. ^ a (3)进店人数80人时,商品销售的件数y=0.79×80-4.32≈59件.
^ B.y =2x+100 ^ D.y =2x-100
^ 解析:B、D为正相关,C中y 值恒为负,不符合题意.
答案: A
返回
2.两个变量y与x的回归模型中,分别选择了4个不同模
型,它们的相关指数R2如下,其中拟合效果最好的 模型是 A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 解析:相关指数R2越大拟合效果越好. ( )
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该 项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认为“爱好该 项运动与性别无关”
返回
[自主解答]
根据独立性检验的定义,由K2≈7.8>6.635
可知我们有99%以上的把握认为“爱好该项运动与性别
^= a
^ y -b x .
n
^ ^ Q= yi-b xi-a 2 的最小值而得到回归直线的方 3.通过求
i= 1
法,即求回归直线,使得样本数据的点到它的距离的平 方和最小,这一方法叫做最小二乘法.
第三节 变量间的相关关系、统计案例(数学建模八)
A.①② B.②③ C.③④ D.①④
答案 D
^^ ^
^
^
解析 由回归直线方程 y = bx+ a,知当 b>0时,y与x正相关;当 b<0时,y与x负
相关,∴①④一定不正确.故选D.
考点突破 栏目索引
方法技巧 判定两个变量正、负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从 左上角到右下角,两个变量负相关. (2)相关系数:r>0时,正相关:r<0时,负相关. (3)线性回归方程: b^ >0时,正相关: b^ <0时,负相关.
教材研读 栏目索引
(3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在⑤ 一条直线附近 ,就称这 两个变量之间具有线性相关关系,这条直线叫做回归直线. (4)最小二乘法 求回归直线,使得样本数据的点到它的⑥ 距离的平方和最小 的方法 叫做最小二乘法.
教材研读 栏目索引
(5)回归方程
考点突破 栏目索引
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回 归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归 模型拟合) (2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分
第九章 第三节 变量间的相关关系、统计案例
A.变量x与y正相关,u与v正相关 .变量 与 正相关 正相关, 与 正相关 B.变量x与y正相关,u与v负相关 .变量 与 正相关 正相关, 与 负相关 C.变量x与y负相关,u与v正相关 .变量 与 负相关 负相关, 与 正相关 D.变量x与y负相关,u与v负相关 .变量 与 负相关 负相关, 与 负相关
[究 疑 点] 究 1.相关关系与函数关系有何异同点? .相关关系与函数关系有何异同点? 提示:相同点:两者均是指两个变量的关系. 提示:相同点:两者均是指两个变量的关系. 不同点:(1)函数关系是一种确定关系,相关关系是一 函数关系是一种确定关系, 不同点: 函数关系是一种确定关系 种非确定的关系; 种非确定的关系; (2)函数关系是一种因果关系,而相关关系不一定是因 函数关系是一种因果关系, 函数关系是一种因果关系 果关系,也可能是伴随关系. 果关系,也可能是伴随关系.
2.根据独立性检验的基本思想,得出的两个分类变量有 .根据独立性检验的基本思想, 关系,这样的结论一定是正确的吗? 关系,这样的结论一定是正确的吗? 提示:在实际问题中, 提示:在实际问题中,独立性检验的结论仅仅是一种 数学关系,得出的结论也可能犯错误,比如: 数学关系,得出的结论也可能犯错误,比如:在推测 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 我们得到“吸烟与患肺癌有关”的结论, 我们得到“吸烟与患肺癌有关”的结论,并且有超过 99%的把握说明吸烟与患肺癌有关系,或者这个结论 的把握说明吸烟与患肺癌有关系, 的把握说明吸烟与患肺癌有关系 出错的概率为0.01以下.但实际上一个人吸烟也不一 以下. 出错的概率为 以下 定会患肺癌, 定会患肺癌,这是数学中的统计思维与确定性思维差 异的反映. 异的反映.
2018年高考数学(文)一轮复习文档第十章统计、统计案例第3讲变量间的相关关系、统计案例Word版含答案
第3讲 变量间的相关关系、统计案例, )1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y ∑n i =1x 2i -n x 2,a ^=y -b ^x .(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.非线性回归分析如果在样本数据的散点图中,样本点并没有分布在某一条直线附近,而是分布在某一条曲线(如二次函数、指数函数、对数函数等)的周围,我们就称这两个变量之间不具有线性相关关系,而是非线性相关关系.对这样的两个变量进行回归分析,称为非线性回归分析.4.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).1.辨明四个易误点(1)易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.(2)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.(3)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).(4)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法 (1)求线性回归方程的方法求解回归方程的关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x ,y ,∑ni =1x 2i ,∑ni =1x i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x ,y ),即有y =b ^x +a ^,可确定a ^.(2)非线性回归分析的步骤①通过散点图,判断回归模型的形式是线性的还是非线性的,若为非线性的,可以通过变化趋势选择合适的模型,求出模型后,通过相关指数判断哪个模型拟合效果较好;②非线性回归问题可以通过变换转化为用线性回归方法去解决,转化过程中,注意数据也相应地跟着变化;③利用变量替换转化为线性问题,解决后要再转化回来.1.有关线性回归的说法,不正确的是( ) A .具有相关关系的两个变量是非确定性关系 B .散点图能直观地反映数据的相关程度C .回归直线最能代表线性相关的两个变量之间的关系D .散点图中的点越集中,两个变量的相关性越强 D2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A .0.1%B .1%C .99%D .99.9%C 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.3.教材习题改编 改革开放以来,我国教育事业发展迅速,某省把近10年来农村、县城、地级市和省城每年考入大学的百分比作为因变量,把年份x 作为自变量得到四条回归直线.省城y ^=2.84x +9.50,地级市y ^=2.52x +8.35, 县城y ^=2.31x +6.76,农村y ^=0.42x +1.80,则四个区域中,大学入学率年增长率最快的区域是( )A .省城B .地级市C .县城D .农村A 四条回归直线,斜率最大的是省城,故选A.4.对于下列表格所示的五个散点,已知求得的回归直线方程为y ^=0.8x -155.则实数m 的值为( )A.8 B .8.2 C .8.4D .8.5A 依题意得x -=15×(196+197+200+203+204)=200,y -=15×(1+3+6+7+m )=17+m 5,因为回归直线必经过样本点的中心,所以17+m5=0.8×200-155,解得m =8,选A.5.下面是一个2×2列联表则表中a 、b 处的值分别为________. 因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54, 52、54相关关系的判断(1)(2015·高考湖北卷)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关(2)对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图①;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关【解析】 (1)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(2)由题图①可知,各点整体呈递减趋势,x 与y 负相关;由题图②可知,各点整体呈递增趋势,u 与v 正相关.【答案】 (1)C (2)C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关:r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.1.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )D 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3A 由相关系数的定义,以及散点图所表达的含义可知r2<r4<0<r3<r1.线性回归方程及其应用(高频考点)线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.高考中对线性回归问题的考查主要有以下两个命题角度:(1)求回归直线方程;(2)利用回归方程进行预测.(2017·山西四校联考)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 010,z =y -5得到下表2:(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x·y∑i =1nx 2i -n x2,a ^=y -b ^x )【解】 (1) t -=3,z -=2.2,∑i =15 t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z --b ^t -=2.2-3×1.2=-1.4,所以z ^=1.2t -1.4.(2)将t =x -2 010,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 010)-1.4,即y ^=1.2x -2 408.4. (3)因为y ^=1.2×2 020-2 408.4=15.6,所以预测到2020年年底,该地储蓄存款额可达15.6千亿元.最小二乘估计的三个步骤(1)作出散点图,判断是否线性相关. (2)如果是,则用公式求a ^,b ^,写出回归方程. (3)根据方程进行估计.回归直线方程恒过点(x -,y -).角度一 求回归直线方程1.某企业每天由空气污染造成的经济损失y (单位:元)与空气污染指数API(记为x )的数据统计如下:(1)求出y 与x 的线性回归方程y ^=b ^x +a ^;(2)若该地区某天的空气污染指数为800,预测该企业当天由空气污染造成的经济损失.附:回归方程中⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x ) (y i-y )∑i =1n(x i-x )2a ^=y -b ^x(1)x =14×(150+200+250+300)=225,y =14×(200+350+550+800)=475,∑i =14(x i -x)(y i -y )=(-75)×(-275)+(-25)×(-125)+25×75+75×325=50000,∑i =14(x i -x )2=(-75)2+(-25)2+252+752=25×25×20=12 500,b ^=4,a ^=y -b ^x =475-4×225=-425,所以y ^=4x -425.(2)当x =800时,y ^=2 775.角度二 利用回归方程进行预测2.(2015·高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元B 由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,所以a ^=8-0.76×10=0.4, 所以当x =15时, y ^=0.76×15+0.4=11.8(万元).独立性检验(2017·沈阳模拟)为考查某种疫苗预防疾病的效果,进行动物实验,得到统计数据如下:现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值; (2)绘制发病率的条形统计图,并判断疫苗是否有效?(3)能够有多大把握认为疫苗有效?附:K 2=n (ad -bc )2(a +b )(a +c )(c +d )(b +d ),n =a +b +c +d【解】 (1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件E , 由已知得P (E )=y +30100=25,所以y =10,B =40,x =40,A =60. (2)未注射疫苗发病率为4060=23,注射疫苗发病率为1040=14.发病率的条形统计图如图所示,由图可以看出疫苗影响到发病率.(3)K 2=100×(20×10-30×40)250×50×40×60=1 000 00050×20×60=503≈16.67>10.828.所以至少有99.9%的把握认为疫苗有效.独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K2与临界值的大小关系,作出统计判断.(2017·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),n=a+b+c+d(1)x男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)60×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”., )——回归直线方程的求解与运用(本题满分12分)(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2分)(2)令w =x ,先建立y 关于w 的线性回归方程. 由于=108.81.6=68,(4分)c ^=y -d ^w =563-68×6.8=100.6,(5分)所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (6分)(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. (9分)②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. (12分)(1)求解本题的思路①根据散点图中的点的分布规律作出判断.②若x ,y 为线性相关,可直接求其线性回归方程,若x ,y 为非线性相关,可通过换元先建立线性回归方程,然后再转化为非线性回归方程.③利用②中求出的回归方程求最大预报值. (2)求解本题渗透的思想①通过散点图判断回归类型,体现了数形结合思想.②通过换元法将问题转化为线性回归分析,体现了化归转化思想., )1.已知变量x ,y 呈线性相关关系,线性回归方程为y ^=0.5+2x ,则变量x ,y 是( ) A .线性正相关关系B .由回归方程无法判断其正负相关C .线性负相关关系D .不存在线性相关关系A 随着变量x 增大,变量y 有增大的趋势,则x ,y 称为正相关.2.某商品的销售量y (件)与销售价格x (元/件)存在线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=-5x +150,则下列结论正确的是( )A .y 与x 具有正的线性相关关系B .若r 表示y 与x 之间的线性相关系数,则r =-5C .当销售价格为10元时,销售量为100件D .当销售价格为10元时,销售量为100件左右D 由回归直线方程知,y 与x 具有负的线性相关关系,A 错,若r 表示y 与x 之间的线性相关系数,则|r |≤1,B 错.当销售价格为10元时,y ^=-5×10+150=100,即销售量为100件左右,C 错,故选D.3.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x (单位:元)和销售量y (单位:件)之间的四组数据如下表:为决策产品的市场指导价,用最小二乘法求得销售量y 与售价x 之间的线性回归方程为y ^=-1.4x +a ^,那么方程中的a ^值为( )A .17B .17.5C .18D .18.5B x -=4+4.5+5.5+64=5,y -=12+11+10+94=10.5,因为回归直线过样本点的中心, 所以a ^=10.5+1.4×5=17.5.故选B.4.甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差的平方和m 如下表:则哪位同学的试验结果体现A 、B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙D .丁D 相关系数r 越接近于1和残差平方和m 越小,两变量A ,B 的线性相关性越强.故选D.5.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%D 因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y ^=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.6.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:则下面的正确结论是( )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”A 由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k =100×(675-300)255×45×75×25≈3.030.因为 2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.0.2458.某单位为了了解用电量y 千瓦·时与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温.由表中数据得线性回归方程y ^=a ^+b ^x 中b ^=-2,据此预测当气温为5℃时,用电量的千瓦·时数约为________.因为回归直线经过样本中心点,故由已知数表可得x -=10,y -=30,即(10,30)在回归直线上,代入方程可得a ^=50,即回归直线方程为y ^=50-2x ,故可预测当气温为5℃时,用电量的度数约为50-2×5=40.409.某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).(1)根据以上数据完成下列2×2列联表.(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析. (1)2×2列联表如下:(2)因为K 2=30×(4×2-16×8)12×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.10.(2017·唐山第一次模拟)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,预测t =8时,细菌繁殖个数.(1)由表中数据计算得,t -=5,y -=4,∑i =15(t i -t -)(y i -y -)=8.5,∑i =15(t i -t -)2=10,b ^=∑i =15(t i -t) (y i -y )∑i =15(t i -t )2=0.85,a ^=y --b ^t -=-0.25.所以回归方程为y ^=0.85t -0.25.(2)将t =8代入(1)的回归方程中得y ^=0.85×8-0.25=6.55. 故预测t =8时,细菌繁殖个数为6.55千个.11.(2017·梅州一模)在2016年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,回归直线一定经过样本中心(x ,y ),即6+n5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.1012.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚).(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图; (2)下表是近五届奥运会中国代表团获得的金牌数之和y (从第26届算起,不包括之前已获得的金牌数)随时间x 变化的数据:作出散点图如下:由图可以看出,金牌数之和y 与时间x 之间存在线性相关关系,请求出y 关于x 的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?参考数据:x -=28,y -=85.6,∑i =1n(x i -x -)(y i -y -)=381,∑i =1n(x i -x -)2=10.(1)近五届奥运会两国代表团获得的金牌数的茎叶图如下:(2)b ^=∑i =1n(x i -x) (y i -y )∑i =1n(x i -x )2=38110=38.1, a ^=y --b ^x -=85.6-38.1×28=-981.2,所以金牌数之和y 关于时间x 的线性回归方程为y ^=38.1x -981.2.当x =32时,中国代表团获得的金牌数之和的预报值 y ^=38.1×32-981.2=238,故预测到第32届奥运会时中国代表团获得的金牌数之和为238枚.13.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d(1)依题意得⎩⎪⎨⎪⎧10(0.035+0.025+c +2b +a )=12b =a +c解得b =0.01,因为成绩在内的有6人,所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48, 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得K 2=60×(22×4-26×8)48×12×30×30≈1.666 7<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.。
变量间的相关关系与统计案例教师版
变量间的相关关系与统计案例教师版教师版:变量间的相关关系与统计案例引言:在统计学中,了解变量间的相关关系是非常重要的。
相关关系描述了两个或更多变量之间的连接,帮助我们理解它们如何相互影响和变化。
本文将介绍变量间相关关系的基本概念,并提供一些统计案例来帮助教师教授有关此主题的课程。
第一部分:相关性的定义和计算相关性是指两个或多个变量之间的关系程度。
直观上,当一个变量的值增加时,另一个变量的值是否也随之增加或减少。
相关性可以是正面的(变量之间的关系是正向的),也可以是负面的(变量之间的关系是反向的)。
相关性的计算可以通过两种方法来完成:Pearson相关系数和Spearman等级相关系数。
Pearson相关系数用于度量两个连续变量之间的线性关系,它的值介于-1和1之间。
当其值接近1时,表示两个变量之间的关系很强;当其值接近-1时,表示两个变量之间的关系是反向的;当其值接近0时,表示两个变量之间的关系较弱。
Spearman等级相关系数用于度量两个等级变量之间的关系,它的计算方式类似于Pearson相关系数,但在计算前将变量转换为等级。
第二部分:相关关系的案例研究案例1:学生的学习时间和学生成绩在这个案例中,我们研究了学生的学习时间和他们的学生成绩之间的相关关系。
我们收集了一组学生的学习时间(以小时为单位)和他们的学生成绩(以百分制为单位)数据。
通过计算Pearson相关系数,我们发现学习时间和学生成绩之间存在较强的正面相关关系(r = 0.8)。
这意味着学习时间越多,学生成绩越高。
案例2:家庭收入和孩子的学习成绩在这个案例中,我们研究了家庭收入与孩子学习成绩之间的相关关系。
我们收集了一组家庭收入水平(以年收入为单位)和孩子的学习成绩(以百分制为单位)数据。
通过计算Pearson相关系数,我们发现家庭收入和孩子学习成绩之间存在较弱的正面相关关系(r = 0.4)。
这意味着家庭收入较高的孩子往往有更好的学习成绩,但这种关系不是很强。
2015届高考数学总复习第九章 第五节 变量间的相关关系、统计案例课件 理
身 54 54.3 63 66 69 73 82 83 80.3 高
91 93.2 94 94
低蛋白食物组
年 龄 身 高 0.4 0.7 52 55 1 61 1 63. 4 1.5 66 2 68.5 2 67.9 2. 4 7 2 2. 8 3 1.3 1.8 0.2 69 51 3 77
76 74 65
点图如图所示.由图可以看出某地的年降雨量 (mm)与年平均
气温(℃)不具有相关关系.故选D.
答案:(1)A (2)D
点评:(1)在散点图中,如果所有的样本点都落在某一函 数的曲线上,就用该函数来描述变量之间的关系,即变量之 间具有函数关系.如果所有的样本点都落在某一函数的曲线 附近,变量之间就有相关关系.如果所有的样本点都落在某
通过分析,发现销售量y与商品的价格x具有线性相关关 系,则销售量y关于商品的价格x的线性回归方程为
________.
解析: xiyi=392,- x =10,- y =8, x2 i =502.5,
i=1 i=1
5
5
^ =-3.2,所以, ^ ^ - 代入公式,得 b a =- y -b x =40,故线性 ^=-3.2x+40. 回归方程为y ^=-3.2x+40 答案:y
根据以上数据求线性回归方程.
^ =b ^x+^ 解析:设回归直线方程为y a,
6 6 21 426 2 - x = 6 ,- y = 6 =71, xi =79, xiyi=1 481, i=1 i =1
x - y xiyi-6- ^= 所以代入公式b
i=1
6
, x2 xi2-6-
i=1 6
③某人每日吸烟量和身体健康情况;
④圆的半径与面积; ⑤汽车的重量和每公里耗油量. 其中两个变量成正相关的是( A.①③ B.②④ ) D.④⑤ C.②⑤
新课标理科数学第九章第四节变量间的相关关系、统计案例
03 统计案例分析
线性回归分析案例
线性回归分析是研究两个或多个 变量之间关系的统计方法,其中 一个变量是因变量,另一个变量
是自变量。
线性回归分析案例可以包括研究 广告投入与销售额之间的关系、 研究温度与产品销售量之间的关
系等。
在线性回归分析中,需要确定自 变量和因变量,收集数据,进行 模型拟合和参数估计,最后进行
THANKS FOR WATCHING
感谢您的观看
描述性统计分析
Python的NumPy和Pandas库提供了描述性统计分析的功能,如求和、 平均值、中位数、标准差等。
相关性分析
Python可以使用Scipy库进行相关性分析,如计算皮尔逊相关系数、 斯皮尔曼秩相关等。
回归分析
Python的Scikit-learn库提供了多种回归分析方法,如线性回归、多 项式回归、岭回归等,可以根据研究目的选择合适的回归模型。
模型评估和预测。
非线性回归分析案例
非线性回归分析是研究非线性关系的统计方法,适用于自变量和因变量之间关系不 是线性的情况。
非线性回归分析案例可以包括研究药物剂量与疗效之间的关系、研究投资与回报之 间的关系等。
在非线性回归分析中,需要选择合适的非线性模型,进行模型拟合和参数估计,最 后进行模型评估和预测。
新课标理科数学第九章第四节变量 间的相关关系、统计案例
contents
目录
• 引言 • 变量间的相关关系 • 统计案例分析 • 统计软件应用 • 总结与思考
01 引言
主题简介
变量间的相关关系
探讨变量间关系的性质和特点, 包括线性相关和非线性相关。
统计案例
通过实际案例分析,了解相关关 系在各个领域的应用,如医学、 经济学、社会学等。
(旧教材适用)2023高考数学一轮总复习第十章统计统计案例第3讲变量间的相关关系与统计案例课件
抽取次序 9 10 11 12 13 14 15 16 零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经
计
算
得
-x
=
1 16
16
x
i
=
9.97
,
s
=
i=1
1 16
16
xi--x 2
=
i=1
0.050 0.010
k0
3.841 6.635
附:K2=a+bcn+add-ab+cc2b+d.
0.005 7.879
0.001 10.828
解析 根据题目所给数据得到如下 2×2 列联表:
乐观
不乐观
总计
国内代表
60
40
100
国外代表
40
60
100
总计
100
100
200
则 K2=20100×0×6100×0×601-004×0×104002=8>6.635,所以有 99%的把握认为是否
∵y 与 x 的相关系数近似为 0.9966,说明 y 与 x 的线性相关程度相当强,
∴可以用线性回归模型拟合 y 与 x 的关系.
(3)建立 y 关于 x 的回归方程,预测第 5 年的销售量约为多少?
参考数据:
∑4
i=1
yi--y 2≈32.7,
5≈2.24,i∑=4 1xiyi=418.
参考公式:
(3)回归分析 ①定义:对具有 □06 相关关系的两个变量进行统计分析的一种常用方法. ②样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),…, (xn,yn)中,-x =1n(x1+…+xn),-y =1n(y1+…+yn),a^ =-y -b^ -x ,(-x ,-y ) 称为样本点的中心.
第3讲 变量间的相关关系、统计案例
第3讲变量间的相关关系、统计案例一、知识梳理1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线方程叫线性回归方程.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y =bx +a ,其中b =∑n^ i =1x i y i -nx -y -∑n ^ i =1x 2i -n x -2,a =y -b x -.(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.3.独立性检验设A ,B 为两个变量,每一个变量都可以取两个值,变量A :A 1,A 2=A -1;变量B :B 1,B 2=B -1,通过观察得到下表所示数据:则χ2=n (ad -bc )(a +b )(c +d ))(a +c )(b +d ),用它的大小来检验变量之间是否独立.①当χ2≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的;②当χ2>2.706时,有90%的把握判定变量A ,B 有关联; ③当χ2>3.841时,有95%的把握判定变量A ,B 有关联; ④当χ2>6.635时,有99%的把握判定变量A ,B 有关联. 常用结论1.求解线性回归方程的关键是确定回归系数a ,b ,应充分利用线性回归方程过样本中心点(x -,y -).2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.3.根据线性回归方程计算的y 值,仅是一个预报值,不是真实发生的值.二、教材衍化1.已知x与y之间的一组数据如表:x 0123y m 3 5.57答案:0.52.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720 根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:χ2≈4.844>3.841,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.()(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.()(4)事件X,Y的关系越密切,由观测数据计算得到的χ2的观测值越大.()(5)通过线性回归方程y=bx+a可以估计和观测变量的取值和变化趋势.()答案:(1)×(2)√(3)√(4)√(5)√二、易错纠偏常见误区|K(1)混淆相关关系与函数关系;(2)对独立性检验χ2值的意义不清楚;(3)不知道线性回归直线必过样本点中心.1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是()A.①②③B.②③①C.②①③D.①③②解析:选D.第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.()A.0.1% B.1%C.99% D.99.9%解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.3.已知x,y的取值如下表,从散点图可以看出y与x线性相关,且线性回归方程为y =0.95x+a,则a=________.x 013 4y 2.2 4.3 4.8 6.7解析:由已知得x=2,y=4.5,因为线性回归方程经过点(x,y),所以a=4.5-0.95×2=2.6.答案:2.6相关关系的判断(师生共研)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关D.x与y负相关,x与z正相关【解析】因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+a,b>0,则z=by+a=-0.1bx+b+a,故x与z负相关.【答案】 C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归方程中:b>0时,正相关;b<0时,负相关.1.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图如图①,对变量u,v 有观测数据(u i,v i)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由散点图可得两组数据均线性相关,且题图①的线性回归方程斜率为负,题图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2.对变量x,y有观测数据(x i,y i)(i=1,2,3,4,5),得表1;对变量u,v有观测数据(u i,v i)(i=1,2,3,4,5),得表2.由这两个表可以判断()表1:x 12345y 2.9 3.3 3.6 4.4 5.1u 12345v2520211513B .变量x 与y 负相关,u 与v 正相关C .变量x 与y 负相关,u 与v 负相关D .变量x 与y 正相关,u 与v 负相关解析:选D.由题可知,随着x 的增大,对应的y 值增大,其散点图呈上升趋势,故x 与y 正相关;随着u 的增大,v 减小,其散点图呈下降趋势,故u 与v 负相关.线性回归方程及其应用(师生共研)(2020·江西宜春模拟)随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y (单位:个)与一定范围内的温度x (单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:日期 2日 7日 15日 22日 30日 温度x /℃ 10 11 13 12 8 产卵数y /个2325302616关于x 的线性回归方程,再对被选取的2组数据进行检验.(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y 关于x 的线性回归方程;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?附:线性回归方程的斜率和截距的最小二乘估计公式分别为b =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a =y --b x -.【解】 (1)由已知数据得x -=12,y -=27,∑3i =1 (x i -x -)(y i -y -)=5,∑3i =1 (x i -x -)2=2.所以b ^=∑3i =1(x i -x -)(y i -y -)∑3i =1(x i -x -)2=52, a =y --52x -=27-52×12=-3.所以y 关于x 的线性回归方程为y =52x -3.(2)由(1)知,y 关于x 的线性回归方程为y =52x -3.当x =10时,y =52×10-3=22,|22-23|<2,当x =8时,y =52×8-3=17,|17-16|<2.所以(1)中所得的线性回归方程y =52x -3是可靠的.线性回归分析问题的类型及解题方法(1)求线性回归方程①利用公式,求出回归系数b ,a ;②待定系数法:利用线性回归方程过样本点的中心求系数. (2)样本数据的相关系数r =∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2∑ni =1(y i -y -)2,反映样本数据的相关程度,|r |越大,则相关性越强.1.对两个变量x ,y 进行线性回归分析,计算得到相关系数r =-0.996 2,则下列说法中正确的是( )A .x 与y 正相关B .x 与y 具有较强的线性相关关系C .x 与y 几乎不具有线性相关关系D .x 与y 的线性相关关系还需进一步确定解析:选B.因为相关系数r =-0.996 2,所以x 与y 负相关,因为|r |=0.996 2,非常接近1,所以相关性很强,故选B.2.(2020·成都第一次诊断性检测)在2018年俄罗斯世界杯期间,莫斯科的部分餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x 与销售单价y (单位:元)之间的关系,经统计得到如下数据:等级代码数值x 38 48 58 68 78 88 销售单价y /元16.818.820.822.82425.8程(系数精确到0.1);(2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其线性回归方程y =bx +a的斜率和截距的最小二乘估计分别为b =∑ni =1x i y i -n x - y -∑n i =1x 2i -n x -2,a =y --b x -.参考数据:∑6i =1x i y i =8 440,∑6i =1x 2i=25 564. 解:(1)由题意,得x -=38+48+58+68+78+886=63,y -=16.8+18.8+20.8+22.8+24+25.86=21.5,b =∑6i =1x i y i -6x - y -∑6i =1x 2i -6x -2=8 440-6×63×21.525 564-6×63×63≈0.2,a =y --b x -=21.5-0.2×63=8.9. 故所求线性回归方程为y =0.2x +8.9.(2)由(1),知当x =98时,y =0.2×98+8.9=28.5. 所以估计该等级的中国小龙虾销售单价为28.5元.独立性检验(师生共研)(2019·高考全国卷Ⅰ改编)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (χ2>k ) 0.050 0.010 0.001 k3.8416.63510.828【解】 (1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)χ2=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.(1)独立性检验的一般步骤①根据样本数据制成2×2列联表;②根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算χ2的值;③查表比较χ2与临界值的大小关系,作出统计判断. (2)解独立性检验的应用问题的关注点①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题; ②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解χ2.(2020·陕西渭南模拟考试)为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查,已知该校共有学生960人,其中男生560人,从全校学生中抽取了容量为n 的样本,得到一周参加社区服务时间的统计数据如下表:超过1小时不超过1小时男 20 8 女12m(2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关?附:P (χ2>k ) 0.050 0.010 0.001 k3.8416.63510.828χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )解:(1)由已知,该校有女生400人,故12+m 20+8=400560,得m =8,从而n =20+8+12+8=48. (2)作出2×2列联表如下: 超过1小时的人数不超过1小时的人数总计 男 20 8 28 女 12 8 20 合计321648χ2=48×(160-96)228×20×32×16=2435≈0.685 7<3.841.所以没有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关.[基础题组练]1.(2020·陕西西安陕师大附中等八校联考)设两个变量x 和y 之间具有线性相关关系,它们的相关系数为r ,y 关于x 的线性回归方程为y =kx +b ,则( )A .k 与r 的符号相同B .b 与r 的符号相同C .k 与r 的符号相反D .b 与r 的符号相反解析:选A.因为相关系数r 为正,表示正相关,回归直线方程上升,r 为负,表示负相关,回归直线方程下降,所以k 与r 的符号相同.故选A.2.在一次对性别与说谎是否相关的调查中,得到如下数据:说谎 不说谎 总计 男 6 7 13 女 8 9 17 总计141630A .在此次调查中有95%的把握认为是否说谎与性别有关B .在此次调查中有99%的把握认为是否说谎与性别有关C .在此次调查中有99.5%的把握认为是否说谎与性别有关D .在此次调查中没有充分的证据显示说谎与性别有关解析:选D.由已知得χ2=30×(6×9-7×8)213×17×14×16≈0.002<0.455,所以在犯错误的概率不超过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关.3.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y =0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2454.如图是一组数据(x ,y )的散点图,经最小二乘估计公式计算,y 与x 之间的线性回归方程为y =bx +1,则b =________.解析:由题图知x -=0+1+3+44=2,y -=0.9+1.9+3.2+4.44=2.6,将(2,2.6)代入y =bx +1中,解得b =0.8. 答案:0.85.(2020·陕西汉中略阳天津高级中学等12校联考)某市为了了解民众对开展创建文明城市工作以来的满意度,随机调查了40名群众,并将他们随机分成A ,B 两组,每组20人,A 组群众给第一阶段的创文工作评分,B 组群众给第二阶段的创文工作评分,根据两组群众的评分绘制了如图所示的茎叶图.(1)根据茎叶图比较群众对两个阶段的创文工作满意度评分的平均值和集中数据(不要求计算出具体值,给出结论即可);(2)完成下面的2×2列联表,并通过计算判断是否有99%的把握认为民众对两个阶段创文工作的满意度存在差异?低于70分不低于70分总计参考公式:χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解:(1)根据题中茎叶图可以看出,B 组群众给第二阶段创文工作满意度评分的平均值高于A 组群众给第一阶段创文工作满意度评分的平均值,且给分相对于A 组更集中些.(2)填写2×2列联表如下:所以χ2=40×(11×17-9×3)220×20×14×26≈7.033>6.635.所以有99%的把握认为民众对两个阶段创文工作的满意度存在差异.6.某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x 个月)和市场占有率(y %)的几组相关对应数据:(1)(2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精准到月).解:(1)根据表中数据,计算x -=15×(1+2+3+4+5)=3,y -=15×(0.02+0.05+0.1+0.15+0.18)=0.1,所以b =1×0.02+2×0.05+3×0.1+4×0.15+5×0.18-5×3×0.112+22+32+42+52-5×32=0.042,所以a=0.1-0.042×3=-0.026,所以线性回归方程为y=0.042x-0.026.(2)由上面的线性回归方程可知,上市时间与市场占有率正相关,即上市时间每增加1个月,市场占有率都增加0.042个百分点;由y=0.042x-0.026>0.5,解得x≥13;预计上市13个月时,该款旗舰机型市场占有率能超过0.5%.[综合题组练]1.(2020·兰州市诊断考试改编)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:热烈参与者”.(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数;(2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?附:χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d)(n为样本容量)8解:(1)以200人中“热烈参与者”的频率作为概率,则该市“热烈参与者”的人数约为20 000×40200=4 000.(2)2×2列联表为热烈参与者非热烈参与者总计 男 35 105 140 女 5 55 60 总计40160200χ2=200×(35×55-105×5)240×160×140×60≈7.292>6.635.故能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关. 2.(2020·鹰潭市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如下表:月份 1 2 3 4 5 6 广告投入量/万元 2 4 6 8 10 12 收益/万元14.2120.3131.831.1837.8344.67bx 行残差分析,得到如图所示的残差图及一些统计量的值:x -y - ∑6i =1x i y i ∑6i =1x 2i 7301 464.24364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除. ①剔除异常数据后,求出(1)中所选模型的线性回归方程;②广告投入量x =18时,(1)中所选模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其线性回归方程y =bx +a 的斜率和截距的最小二乘估计分别为:b =∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -n x - y -∑n i =1x 2i -n x -2,a =y --b x -. 解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,线性回归方程的预报精度高.(2)①剔除异常数据,即3月份的数据后,得 x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64.∑5i =1x i y i =1 464.24-6×31.8=1 273.44, ∑5i =1x 2i =364-62=328. b =∑5i =1x i y i -5x - y -∑5i =1x 2i -5x -2=1 273.44-5×7.2×29.64328-5×7.2×7.2=206.468.8=3,a =y --b x -=29.64-3×7.2=8.04.所以y 关于x 的线性回归方程为y =3x +8.04.②把x =18代入(ⅰ)中所求线性回归方程得y =3×18+8.04=62.04. 故预报值为62.04万元.。
11、变量间的相关关系、统计案例(有答案)解读
学科教师辅导教案学员编号: 年 级:高一 课时数:3课时 学员姓名: 辅导科目:数学 学科教师:授课类型 T 同步知识梳理 C 相关专题训练T 能力提高教学目标星级★★★授课日期及时段 2016.教学内容 :变量间的相关关系、统计案例一、同步知识梳理 1. 变量间的相关关系2. 散点图以一个变量的取值为横坐标,另一个变量的相应取值为纵坐标,在直角坐标系中描点,这样的图形叫做散点图. 3. 回归直线方程与回归分析(1)直线方程y ^=a +bx ,叫做Y 对x 的回归直线方程,b 叫做回归系数.要确定回归直线方程,只要确定a 与回归系数b .(2)用最小二乘法求回归直线方程中的a ,b 有下列公式b ^=∑ni =1x i y i -n x y ∑ni =1x 2i -n x 2,a ^ =y -b ^ x ,其中的a ^ ,b ^表示是求得的a ,b 的估计值.(3)相关性检验①计算相关系数r ,r 有以下性质:|r |≤1,并且|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱;②|r|>r0.05,表明有95%的把握认为变量x与Y直线之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.二、题型解答题型一相关关系的判断思维点播判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.例15个学生的数学和物理成绩如下表:学生A B C D E学科数学8075706560物理7066686462画出散点图,并判断它们是否具有相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.巩固(1)对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图②,由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C(2)(2012·课标全国)在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 利用相关系数的意义直接作出判断.样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y i ^,代入相关系数公式r =1-∑i =1n(y i -y i ^)2∑i =1n(y i -y )2=1.题型二 线性回归分析思维点播 (1)回归直线方程y ^=b ^x +a ^必过样本点的中心(x ,y ).(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过回归直线方程估计和预测变量的值.例2 某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的回归直线方程y ^=b ^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时?(注:b^=∑i=1nx i y i-n x y∑i=1nx2i-n x2,a^=y-b^x)思维启迪求回归直线方程的系数b^时,为防止出错,应分别求出公式中的几个量,再代入公式.解(1)散点图如图.(2)由表中数据得:∑i=14x i y i=52.5,x=3.5,y=3.5,∑i=14x2i=54,∴b^=0.7,∴a^=1.05,∴y^=0.7x+1.05,回归直线如图所示.(3)将x=10代入回归直线方程,得y^=0.7×10+1.05=8.05,故预测加工10个零件约需要8.05小时.巩固1为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:时间x 1234 5命中率y 0.40.50.60.60.4小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.答案0.50.53解析小李这5天的平均投篮命中率y=0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x=3.根据表中数据可求得b^=0.01,a^=0.47,故回归直线方程为y^=0.47+0.01x,将x=6代入得6号打6小时篮球的投篮命中率约为0.53.巩 固2 (2013·大连模拟)某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归直线方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元答案 B解析 ∵x =4+2+3+54=72,y =49+26+39+544=42,又y ^ =b ^ x +a ^ 必过(x ,y ),∴42=72×9.4+a ^ ,∴a ^ =9.1.∴回归直线方程为y ^ =9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元).家庭作业1. 某地区调查了2~9岁的儿童的身高,由此建立的身高y (cm)与年龄x (岁)的回归模型为y ^=8.25x +60.13,下列叙述正确的是( )A .该地区一个10岁儿童的身高为142.63 cmB .该地区2~9岁的儿童每年身高约增加8.25 cmC .该地区9岁儿童的平均身高是134.38 cmD .利用这个模型可以准确地预算该地区每个2~9岁儿童的身高 答案 B2. 设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图), 以下结论中正确的是 ( )A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 答案 A解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B 、C 错误.D 中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以D 错误.根据线性回归直线一定经过样本点中心可知A 正确.3. (2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由于回归直线方程中x 的系数为0.85, 因此y 与x 具有正的线性相关关系,故A 正确.又回归直线方程必过样本点中心(x ,y ),因此B 正确.由回归直线方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确. 当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.4. 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由已知可计算求出x =30,而回归直线必过点(x ,y ), 则y =0.67×30+54.9=75,设模糊数字为a ,则 a +62+75+81+895=75,计算得a =68.5.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( ) A.63.6万元 B.65.5万元 C.67.7万元D.72.0万元解析:由题意可知x =3.5,y =42,则42=9.4×3.5+a ^,a ^=9.1,y ^=9.4×6+9.1=65.5,答案应选B. 答案:A6.下列各图中所示两个变量具有相关关系的是( )A .①②B .①③C .②④D .②③答案:D7.已知x ,y 的取值如下表所示:x 0 1 3 4 y2.24.34.86.7从散点图分析,y 与x 线性相关,且y ^=0.95x +a ^,则a ^=__________.答案:2.6。
考点51 变量间的相关关系与统计案例
考点五十一 变量间的相关关系与统计案例知识梳理1.相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系. 2.散点图通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图. 3.正相关与负相关从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关. 4.回归直线方程 (1)曲线拟合从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合. (2)线性相关在两个变量x 和y 的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线叫回归直线.若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. (3)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (4)回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ,b 是待定参数. ⎩⎪⎨⎪⎧b =∑n i =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i -n x y ∑ni =1x 2i -n x 2,a =y -b x .说明:回归直线必过样本中心(x,y),但是样本数据不一定在回归直线上,甚至可能所有的样本数据点都不在直线上.5.相关系数相关系数r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-y)2=∑ni=1x i y i-n x y(∑ni=1x2i-n x2)(∑ni=1y2i-n y2);当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.6.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1;2×2列联表:构造一个随机变量χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d).利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A,B有关联;当χ2>2.706时,有90%的把握判定变量A,B有关联;当χ>3.841时,有95%的把握判定变量A,B有关联;当χ>6.635时,有99%的把握判定变量A,B有关联.典例剖析题型一相关关系判断例1变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则________.①r2<r1<0 ②0<r2<r1③r2<0<r1④r2=r1答案③解析 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.变式训练 四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是________. 答案 ①④解析 由回归直线方程y ^=b ^x +a ^,知当b ^>0时,x 与y 正相关,当b ^<0时,x 与y 负相关,所以①④一定错误.解题要点 判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱. 题型二 回归分析例2 已知x ,y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =________. 答案 1.45解析 ∵x =0+1+4+5+6+86=4,y =1.3+1.8+5.6+6.1+7.4+9.36=5.25,又y ^=0.95x +a 过(x ,y ),∴5.25=0.95×4+a ,得a =1.45. 变式训练 已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程y =2.1x +0.85,则m 的值为________. 答案 0.5解析 x =0+1+2+34=32,y =m +3+5.5+74=15.5+m4,把(x ,y )代入线性回归方程,15.5+m 4=2.1×32+0.85,m =0.5. 解题要点 回归直线方程y ^=b ^x +a ^必过样本点中心(x ,y ).利用这一结论,可以快速求出回归方程中的参数.例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解析 (1)由题意,作散点图如图.(2)由对照数据,计算得∑i =14x i y i =66.5,∑i =14x 2i =32+42+52+62=86,x =4.5,y =3.5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35, 所以回归方程为y ^=0.7x +0.35.(3)当x =100时,y =100×0.7+0.35=70.35(吨标准煤),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).变式训练 (2015新课标Ⅰ文)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.5452504846444240表中w i =x i ,w =18∑i =18w i .(I)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(II)根据(I)的判断结果及表中数据,建立y 关于x 的回归方程;(III)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(II)的结果回答下列问题: (i )当年宣传费90x =时,年销售量及年利润的预报值时多少? (ii )当年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α^=v -β^u .解析 (I)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(II)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18(w i -w )·(y i -y )∑i =18(w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(III)(i )由(II)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.(ii )根据(II)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.解题要点 (1)正确运用计算b ,a 的公式和准确的计算,是求线性回归方程的关键. (2)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(3) 求解回归方程关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x -,y -,i =1∑n,i =1)x 2i ,i =1∑n,i =1)x i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x -,y -),即有y =b ^x -+a ^,可确定a ^. 题型三 相关分析例4 有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是________.① 列联表中c 的值为30,b 的值为35 ② 列联表中c 的值为15,b 的值为50 ③根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”④根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 答案 ③解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到χ2=2105(10302045)55503075⨯⨯-⨯⨯⨯⨯≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.变式训练 在研究色盲与性别的关系调查中,调查了男性480人,其中有38人患色盲,调查的520名女性中,有6人患色盲. (1)根据以上数据建立一个2×2列联表;(2)若认为“性别与患色盲有关系”,求出错的概率. 解析 (1)2×2列联表如下:(2)0χ2=1 000×(38×514-6×442)2480×520×44×956≈27.14,又P (χ2≥10.828)=0.001,即H 0成立的概率不超过0.001,故若认为“性别与患色盲有关系”,则出错的概率为0.1%.解题要点 (1)独立性检验的关键是正确列出2×2列联表,并计算出χ2的值.(2)弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.当堂练习1.(2015湖北文)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是________.①x 与y 正相关,x 与z 负相关 ②x 与y 正相关,x 与z 正相关 ③x 与y 负相关,x 与z 负相关 ④x 与y 负相关,x 与z 正相关 答案 ③解析 因为y =-0.1x +1,-0.1<0,所以x 与y 负相关.又y 与z 正相关,故可设z =ay +b (a >0),所以z =-0.1ax +a +b ,-0.1a <0,所以x 与z 负相关. 2.(2014·湖北卷) 根据如下样本数据得到的回归方程为y =bx +a ,则________.①a >0,b <0 ②a >0,b >0 ③a <0,b <0 ④a <0,b >0 答案 ①解析 作出散点图如下:由图象不难得出,回归直线y ^=bx +a 的斜率b <0,截距a >0,所以a >0,b <0. 3. 通过随机询问110名大学生是否爱好某项运动,得到如下列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是________.① 有99%以上的把握认为“爱好该项运动与性别有关” ② 有99%以上的把握认为“爱好该项运动与性别无关”③ 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” ④ 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 答案 ①解析 因为7.8>6.635,所以选项①正确.4.下列有关样本相关系数的说法不正确的是________.①相关系数用来衡量变量x 与y 之间的线性相关程度 ②|r |≤1,且|r |越接近于1,相关程度越大 ③|r |≤1,且|r |越接近0,相关程度越小 ④|r |≥1,且|r |越接近1,相关程度越小 答案 ④5.两个相关变量满足如下关系:答案 y ∧=0.56x +997.4解析 回归直线经过样本中心点(20,1 008.6),经检验只有选项A 符合题意.课后作业一、 填空题1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为_____. 答案 1解析 根据相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是______. ①y 与x 具有正的线性相关关系 ②回归直线过样本点的中心(x ,y )③若该大学某女生身高增加1cm ,则其体重约增加0.85kg ④若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 答案 ④解析 由回归方程为y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-,所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以④不正确.3.(2015新课标II文)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图.以下结论不正确...的是________.①逐年比较,2008年减少二氧化硫排放量的效果最显著②2007年我国治理二氧化硫排放显现成效③2006年以来我国二氧化硫年排放量呈减少趋势④2006年以来我国二氧化硫年排放量与年份正相关答案④解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,①选项正确;2007年二氧化硫排放量较2006年降低了很多,②选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,即③选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,④选项错误,故选④.4.下面是一个2×2列联表其中a,b处填的值分别为答案5274解析由a+21=73,得a=52,a+22=b,得b=74.5.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算K2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为________.答案99%解析因为K2=8.01>6.635,所以有99%以上的把握认为“喜欢乡村音乐与性别有关系”.6.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为________. 答案 3解析 由y =0.7x +0.35得2.5+t +4+4.54=0.7×3+4+5+64+0.35⇒11+t 4=3.5⇒t =3.7.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是________.表1 表2表3 表4答案 阅读量解析 通过计算可得,表1中的χ2≈0.009,表2中的χ2≈1.769,表3中的χ2=1.300,表4中的χ2≈23.481.8.已知某车间加工零件的个数x 与所花费时间y (h)之间的线性回归方程为y ^=0.01x +0.5,则加工600个零件大约需要的时间为________. 答案 6.5 h解析 将600代入线性回归方程y ^=0.01x +0.5中得需要的时间为6.5 h.9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文科与性别有关系出错的可能性约为________. 答案 5%解析 由K 2的观测值k ≈4.844>3.841,故认为选修文科与性别有关系出错的可能性约为5%. 10.考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________cm. 答案 56.19解析 根据回归方程y ^=1.197x -3.660,将x =50代入,得y =56.19,则肱骨长度的估计值为56.19 cm.11.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线的回归方程为________.答案 y ^=1.23x +0.08解析 设回归直线方程为y ^=1.23x +a ,由题意得:5=1.23×4+a ,得a =0.08,故回归方程为y ^=1.23x +0.08. 二、解答题12. (2013·重庆文)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 附:线性回归方程y =bx +a 中,b =∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a =y -b x ,其中x -,y -为样本平均值,线性回归方程也可写为y ∧=b ∧x +a ∧.解析 (1)由题意知n =10,x =1n ∑i =110x i =8010=8,y =1n ∑i =110y i =2010=2,又∑i =110x 2i -n x 2=720-10×82=80, ∑i =110x i y i -n x y =184-10×8×2=24,由此得b =∑i =110x i y i -n x y∑i =110x 2i -n x2=2480=0.3, a =y -b x =2-0.3×8=-0.4,故所求回归方程为y ∧=0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄约为y =0.3×7-0.4=1.7千元. 13.近年空气质量逐步恶化,雾霾天气现象出现增多,大气污染危害加重,大气污染可引起心悸,呼吸困难等心肺疾病,为了解某市心肺疾病是否与性别有关,在某医院随机对入院50人进行了问卷调查,得到了如下的列联表.(1)(2)为了研究心肺疾病是否与性别有关,请计算出统计量K2,并回答有多大把握认为心肺疾病与性别有关?参考公式:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解析(1)在患心肺疾病人群中抽6人,则抽取比例为630=15,∴男性应该抽取20×15=4人.(2)∵K2≈8.333,且P(K2≥7.879)=0.005=0.5%,所以有99.5%的把握认为患心肺疾病与性别有关系.。
第十章 统计与概率10-3变量间的相关关系与统计案例
(3)利用回归直线方程对总体进行估计 ^ ^ ^ 若回归直线方程为y=bx+a,则在x=x0处的估计值: ^0=bx0+a. ^ y ^ (4)线性相关强度的检验: 对于变量x与y随机取到的n对数据(xi,yi),用y与x间 x y xi--yi--
i=1 n
的相关系数r= x y xi--2· yi--2
i=1 4 ^
所以,由最小二乘法确定的回归直线方程的系数 为:
(3)由(2)的回归方程及技改前生产100吨甲产 品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).
(2010·山东枣庄模考)某单位为了了解用电 量y(度)与气温x(℃)之间的关系,随机统计 了某4天的用电量与当天气温,并制作了对 照表: 18 13 10 -1 气温(℃)
疱疹面积不 疱疹面积小 合计 小于 2 于70mm 70mm2 注射药物 A a= b=
注射药物 nad-bc2 c= d= 2 附:χ = B a+bc+da+cb+d 合计
n=
[解析]
(1)
可以看出注射药物A后的疱疹面积的中位数 在65至70之间,而注射药物B后的疱疹面积 的中位数在70至75之间,所以注射药物A后 疱疹面积的中位数小于注射药物B后疱疹面 积的中位数. (2)表3: 疱疹面积 疱疹面积不 合计 小于 小于 70mm2 70mm2 100 注射药物A a=70 b=30 100 注射药物B c=35 d=65 105 95 合计 n=200
关关系,这条直线叫做回归直线. 数为:
(2)回归直线方程的求法——最小二乘法.
n n y x y xiyi-n x · xi--yi-- i=1 i=1 ^ = b= n n 2 2 x xi -n x xi--2 i=1 i=1 a=--b x ^ y ^ 1 n 1 n 其中 - = x i, - = y i,( - , - )称作样本点的中 x y x y n i=1 n i=1 心. ^ ^ a , b 表示由观察值用最小二乘法求得的a,b的估计 值,叫回归系数.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3讲 变量间的相关关系、统计案例1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. 2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=,a ^=y --b ^x -.(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性. 3.独立性检验(1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d(2)K 2K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).判断正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 的关系越密切,由观测数据计算得到的K 2的观测值越大.( ) (5)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) 答案:(1)× (2)√ (3)√ (4)√ (5)√某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( ) A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200D.y ^=10x -200解析:选A.因为商品销售量y (件)与销售价格x (元/件)负相关,所以b ^<0,排除B ,D. 又因为x =0时,y >0,所以应选A.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( ) 附:P (K 2≥k 0)0.100 0.050 0.025 0.010 0.001 k 02.7063.8415.0246.635 10.828A.0.1%B .1%C .99%D .99.9%解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”. 下面是一个2×2列联表y 1 y 2 总计 x 1 a 21 73 x 2 2 25 27 总计b46则表中a 、b 处的值分别为解析:因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54. 答案:52、54已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=________.x 0 1 3 4 y2.24.34.86.7解析:由已知得x -=2,y -=4.5,因为回归方程经过点(x -,y -),所以a ^=4.5-0.95×2=2.6. 答案:2.6相关关系的判断[典例引领]已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关【解析】 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关. 【答案】 C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.[通关练习]1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.某公司在2017年上半年的收入x (单位:万元)与月支出y (单位:万元)的统计资料如表所示:月份 1月份 2月份 3月份 4月份 5月份 6月份 收入x 12.3 14.5 15.0 17.0 19.8 20.6 支出y5.635.755.825.896.116.18A .月收入的中位数是15,x 与y 有正线性相关关系B .月收入的中位数是17,x 与y 有负线性相关关系C .月收入的中位数是16,x 与y 有正线性相关关系D .月收入的中位数是16,x 与y 有负线性相关关系解析:选C.月收入的中位数是15+172=16,收入增加,支出增加,故x 与y 有正线性相关关系.线性回归方程及其应用(高频考点)线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.高考中对线性回归问题的考查主要有以下三个命题角度: (1)由回归直线方程求参数值; (2)求回归直线方程; (3)利用回归方程进行预测.[典例引领]角度一 由回归直线方程求参数值(2017·高考山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑i =110x i =225 ∑i =110y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A .160 B .163 C .166D .170【解析】 由题意可知y ^=4x +a ^,又x -=22.5,y -=160,因此160=22.5×4+a ^,所以a ^=70,因此y ^=4x +70.当x =24时,y ^=4×24+70=96+70=166. 【答案】 C角度二、三 求回归直线方程并进行预测(2016·高考全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y -)2=0.55,7≈2.646.参考公式:相关系数r =回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:【解】 (1)由折线图中数据和附注中参考数据得2.89,r = 2.890.55×2×2.646≈0.99. 因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y -=9.327≈1.331及(1)得b ^==2.8928≈0.103,a ^=y --b ^t ≈1.331-0.103×4≈0.92. 所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.求回归直线方程的步骤[提醒] 利用回归直线方程进行预测是对总体的估计,此估计值不是准确值.(2018·石家庄市教学质量检测(二))为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:x 1 2 3 4 5 y7.06.55.53.82.2(1)求y 关于x 的线性回归方程y =b x +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i-n x -y -∑n i =1x 2i -n x -2, a ^=y --b ^x -.解:(1) x -=3,y -=5,∑5i =1x i y i =62.7,∑5i =1x 2i =55, 解得b ^=-1.23,a ^=8.69, 所以y ^=8.69-1.23x .(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,所以当x ≈2.72时,年利润z 最大.独立性检验[典例引领](2017·高考全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg, 新养殖法的箱产量不低于50 kg ”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)精确到0.01). 附:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).【解】 (1)记B 表示事件“旧养殖法的箱产量低于50 kg ”,C 表示事件“新养殖法的箱产量不低于50 kg ”.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466K 2=200×(62×66-34×38)100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).(1)独立性检验的一般步骤①根据样本数据制成2×2列联表;②根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;③查表比较K 2与临界值的大小关系,作出统计判断. (2)解独立性检验的应用问题的关注点①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题. ②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解K 2.(2018·惠州市第三次调研考试)在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为1∶3,且成绩分布在[40,100],分数在80以上(含80)的同学获奖.按文、理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如图所示.(1)求a 的值,并计算所抽取样本的平均值x (同一组中的数据用该组区间的中点值作代表); (2)填写下面的2×2列联表,并判断能否有超过95%的把握认为“获奖与学生的文、理科有关”?文科生 理科生 总计 获奖 5 不获奖 总计200附表及公式:K 2=(a +b )(c +d )(a +c )(b +d )P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828x -=45×0.1+55×0.15+65×0.25+75×0.3+85×0.15+95×0.05=69. (2)2×2列联表如下:文科生 理科生 总计 获奖 5 35 40 不获奖 45 115 160 总计50150200因为K 2=200×(5×115-35×45)40×160×50×150=256≈4.167>3.841, 所以有超过95%的把握认为“获奖与学生的文、理科有关”.求回归方程,关键在于正确求出系数a ^,b ^,由于a ^,b ^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式; (2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势; (3)求出线性回归方程. 易错防范(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为是准确值,而实质上是预测值(期望值). (3)独立性检验中统计量K 2的观测值k 的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.1.(2018·南昌市第一次模拟测试)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5).根据收集到的数据可知x 1+x 2+x 3+x 4+x 5=150,由最小二乘法求得回归直线方程为y ^=0.67x +54.9,则y 1+y 2+y 3+y 4+y 5的值为( ) A .75 B .155.4 C .375D .466.2解析:选C.由x 1+x 2+x 3+x 4+x 5=150,得x -=30,代入回归直线方程y ^=0.67x +54.9,得y -=75,则y 1+y 2+y 3+y 4+y 5=375.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析:选C.根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.3.(2018·赣州摸底考试)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________. 解析:令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i 6=72,y=∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57.答案:574.有甲、乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表:) 解析:成绩与班级有无关系,就是看随机变量的值与临界值2.706的大小关系. 由公式得K 2的观测值k =90×(10×38-7×35)217×73×45×45≈0.653<2.706,所以成绩与班级无关.答案:无关5.(2018·广东省六校联考)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.(1)请完成上面的列联表;(2)根据列联表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”. 参考公式与临界值表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解:(1)(2)K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.6.(2018·成都市第二次诊断性检测)某项科研活动共进行了5次试验,其数据如下表所示:y 601 605 597599 598(1)从特征量y 的5次试验数据中随机地抽取两个数据,求至少有一个大于600的概率; (2)求特征量y 关于x 的线性回归方程y ^=b ^x +a ^,并预测当特征量x 为570时特征量y 的值. (附:回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=解:(1)记“至少有一个大于600”为事件A , 则P (A )=1-C 23C 25=710.(2)由题中表格可知,x -=555+559+551+563+5525=556,y -=601+605+597+599+5985=600.所以b ^=-1×1+3×5+(-5)×(-3)+7×(-1)+(-4)×(-2)(-1)2+32+(-5)2+72+(-4)2=30100=0.3,a ^=y --b ^x -=600-0.3×556=433.2, 所以线性回归方程为y ^=0.3x +433.2. 当x =570时,y ^=0.3×570+433.2=604.2 故特征量x 为570时,特征量y 的估计值为604.2.1.(2018·张掖市第一次诊断考试)中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65岁的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:年龄 [15,25)[25,35)[35,45)[45,55)[55,65]支持“延迟 退休”的人数155152817(1)由以上统计数据填2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;(2)若以458人参加某项活动.现从这8人中随机抽2人.(ⅰ)抽到1人是45岁以下时,求抽到的另一人是45岁以上的概率. (ⅱ)记抽到45岁以上的人数为X ,求随机变量X 的分布列及数学期望. 参考数据:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )解:(1)列联表如下:因为K 2=100×(35×5-45×15)50×50×80×20=254=6.25>3.841, 所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.(2)(ⅰ)抽到1人是45岁以下的概率为68=34,抽到1人是45岁以下且另一人是45岁以上的概率为C 16C 12C 28=37.故所求概率为3734=47.(ⅱ)从不支持“延迟退休”的人中抽取8人,则45岁以下的应抽6人,45岁以上的应抽2人.则X =0,1,2.P (X =0)=C 26C 28=1528,P (X =1)=C 16C 12C 28=1228=37,P (X =2)=C 22C 28=128.可得随机变量X 的分布列为X 0 1 2 P152837128故E (X )=1×37+2×128=12.2.(2018·广东汕头模拟)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:使用年数x 2 3 4 5 6 7 售价y 20 12 8 6.4 4.4 3 z =ln y3.002.482.081.861.481.10下面是z(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明; (2)求y 关于x 的回归方程,并预测某辆A 型号二手车当使用年数为9年时售价约为多少;(b ^、a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年. 参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i -n x -y -∑ni =1x 2i -n x -2,a ^=y --b ^x -,r =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2∑ni =1(y i -y -)2参考数据:∑6i =1x i y i =187.4,∑6i =1x i z i =47.64,∑6i =1x 2i =139, ∑6i =1(x i -x -)2≈4.18, ∑6i =1(y i -y -)2≈13.96,∑6i =1(z i -z -)2≈1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34. 解:(1)由题意,知x -=16×(2+3+4+5+6+7)=4.5,z -=16×(3+2.48+2.08+1.86+1.48+1.10)=2,又∑6i =1x i z i =47.64,∑6i =1(x i -x -)2≈4.18, ∑6i =1(z i -z -)2≈1.53, 所以r =47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99,所以z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)b ^=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36, 所以a ^=z --b ^x -=2+0.36×4.5=3.62, 所以z 与x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62.令x =9,得y ^=e -0.36×9+3.62=e 0.38,因为ln 1.46≈0.38,所以y ^=1.46,即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元.(3)当y ^≥0.711 8,即e -0.36x +3.62≥0.711 8=e ln 0.711 8=e -0.34时,则有-0.36x +3.62≥-0.34,解得x ≤11,因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.。