第2讲相关性、最小二乘估计与统计案例
相关性与最小二乘估计
02
最小二乘估计
最小二乘法的起源与原理
起源
最小二乘法最早由法国数学家勒让德于1805年提出,作为解决误差分析问题的数学工具。
原理
最小二乘法基于最小化预测值与实际观测值之间的平方误差和,通过求解线性方程组来找到最佳参数 估计值。
最小二乘估计的步骤
构建模型
根据问题背景和数据特征,选 择合适的数学模型,通常为线 性模型。
对异常值敏感
最小二乘法对异常值比较敏感,异常值可能会对参数估计造成较大影 响。
无法处理非线性关系
最小二乘法只适用于线性回归模型,对于非线性关系的数据无法给出 准确的参数估计。
无法处理分类变量
最小二乘法无法直接处理分类变量,需要将其转化为虚拟变量或哑变 量才能使用。
05
相关性与最小二乘估计的实际应用
相关性系数
计算方法
相关性系数通过计算两个变量之间的皮尔逊积矩相关系数、斯皮尔曼秩相关系数等来获得。
解释
相关性系数的大小和方向可以用来判断两个变量之间的关联程度和方向。
相关性检验
方法
相关性检验通常采用皮尔逊相关系数 检验、斯皮尔曼秩相关检验等统计方 法。
目的
通过相关性检验可以判断两个变量之 间是否存在显著的相关性,以及这种 关系的强度和方向。
相关性与最小二乘估计
• 相关性概念 • 最小二乘估计 • 相关性与最小二乘估计的关系 • 最小二乘估计的优缺点 • 相关性与最小二乘估计的实际应用 • 案例分析
01
相关性概念
定义与性质
定义
相关性描述两个或多个变量之间关系 的强度和方向,通常用相关系数表示。
性质
相关性系数介于-1和1之间,其中1表 示完全正相关,-1表示完全负相关, 0表示无相关性。
高考数学一轮复习 第9章 算法初步、统计与统计案例 第4节 相关性、最小二乘估计与统计案例教师用书
第四节相关性、最小二乘估计与统计案例 [考纲传真] 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及其简单应用.1.相关性(1)线性相关若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的.(2)非线性相关若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关的.(3)不相关如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.2.最小二乘估计(1)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(x n,y n)可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[y n-(a+bx n)]2.使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.(2)线性回归方程方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的线性回归方程,其中a,b是待定参数.3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,(x ,y )称为样本点的中心.(3)相关系数r①r =∑i =1nx i y i -n x y∑i =1nx 2i -n x2∑i =1ny 2i -n y 2;②当r >0时,称两个变量正相关. 当r <0时,称两个变量负相关. 当r =0时,称两个变量线性不相关. 4.独立性检验 若一个2×2列联表为:BAB 1 B 2 总计A 1 a b a +b A 2c d c +d 总计a +cb +dn =a +b +c +d则它们的独立性检验公式为:χ2=n ad -bc 2a +bc +d a +cb +d.(1)当χ2≤2.706时,可以认为变量A ,B 是没有关联的; (2)当χ2>2.706时,有90%的把握判定变量A ,B 有关联; (3)当χ2>3.841时,有95%的把握判定变量A ,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A ,B 有关联.1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)若事件A,B关系越密切,则由观测数据计算得到的χ2的值越小.( )[答案] (1)√(2)×(3)×(4)×2.(2017·某某一模)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y=0.4x+2.3 B.y=2x-2.4C.y=-2x+9.5 D.y=-0.3x+4.4A[因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5)在回归直线上,排除B,选项A满足.]3.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图941A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关D[对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是 ( )A .有99%的人认为该电视栏目优秀B .有99%的人认为该电视栏目是否优秀与改革有关系C .有99%的把握认为该电视栏目是否优秀与改革有关系D .没有理由认为该电视栏目是否优秀与改革有关系D [只有χ2>6.635才能有99%的把握认为“该电视栏目是否优秀与改革有关系”,而即使χ2>6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关,故只有D 正确.]5.(教材改编)若8名学生的身高和体重数据如下表:编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157170 175 165 155 170 体重/kg48575464614359第3名学生的体重漏填,但线性回归方程是y ^=0.849x -85.712,则第3名学生的体重估计为________kg.50 [设第3名学生的体重为a ,则18(48+57+a +54+64+61+43+59)=0.849×18(165+165+157+170+175+165+155+170)-85.712. 解得a ≈50.]相关关系的判断(1)(2015·某某高考)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关(2)x 和y 的散点图如图942所示,则下列说法中所有正确命题的序号为________.图942①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关系数的平方为r21,用y=bx+a拟合时的相关系数的平方为r22,则r21>r22;③x,y之间不能建立线性回归方程.(1)C(2)①②[(1)因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+a,b>0,则z=by+a=-0.1bx+b+a,故x与z负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y=bx+a拟合效果要好,则r21>r22,故②正确;x,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.][规律方法] 1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.若所有点看上去都在一条直线附近波动,则称变量间是线性相关的.2.判断两个变量正相关还是负相关,有三种方法:(1)利用散点图.(2)利用相关系数r的符号.当r>0时,正相关;r<0时,负相关.(3)在已知两变量线性相关时,也可以利用回归方程y=a+bx.当b>0时,两变量是正相关,当b<0时,两变量是负相关.[变式训练1] 某公司利润y与销售总额x(单位:千万元)之间有如下对应数据:x 10151720252832y 1 1.3 1.82 2.6 2.7 3.3判断y与x之间是否具有相关关系.[解]散点图如下:由散点图可以看出各点在一条直线附近且利润随销售总额的增加而增大,它们之间不仅具有相关关系,而且呈正相关.线性回归方程及应用(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.图943注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1 t i -ty i -y∑ni =1t i -t2∑n i =1y i -y2,回归方程y =a +bt中斜率和截距的最小二乘估计公式分别为b =∑ni =1t i -ty i -y∑ni =1t i -t2,a =y --b t .[解] (1)由折线图中的数据和附注中的参考数据得t =4,∑7i =1(t i -t )2=28,∑7i =1y i -y2=0.55,2分∑7i =1(t i -t )(y i -y )=∑7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系. 5分(2)由y =9.327≈1.331及(1)得b =∑7i =1t i -ty i -y∑7i =1t i -t2=2.8928≈0.103. 8分 a =y -b t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y =0.92+0.10t . 10分将2016年对应的t =9代入回归方程得y =0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 12分[规律方法] 1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.2.(1)正确运用计算b ,a 的公式和准确的计算,是求线性回归方程的关键.(2)回归直线y =bx +a 必过样本点的中心(x ,y ).[变式训练2] (2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:年 份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b =∑ni =1t i -t-y i -y-∑ni =1t i -t-2,a =y --b t -.[解] (1)由所给数据计算得t -=17(1+2+3+4+5+6+7)=4,y -=17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑7i =1 (t i -t -)2=9+4+1+0+1+4+9=28,3分∑7i =1(t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b =∑7i =1t i -t-y i -y-∑7i =1t i -t-2=1428=0,5, a =y --b t -=4.3-0.5×4=2.3, 所求回归方程为y =0.5t +2.3. 6分(2)由(1)知,b =0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元. 9分将2015年的年份代号t =9代入(1)中的回归方程,得y =0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元. 12分独立性检验(2017·某某调研)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图944所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12).估计该校学生每周平均体育运动时间超过4小时的概率;图944(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.P (χ2≥x 0) 0.10 0.05 0.010 0.005x 02.7063.841 6.635 7.879附:χ2=n ad -bc 2a +bc +d a +cb +d.[解] (1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据. 4分(2)由频率分布直方图得1-2×(0.025+0.100)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75. 8分(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时. 10分又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生 女生 总计 每周平均体育运动时间不超过4小时 45 30 75 每周平均体育运动时间超过4小时165 60 225 总计21090300将2×2列联表中的数据代入公式计算,得χ2的值 χ2=300×45×60-165×30275×225×210×90=10021≈4.762>3.841. 所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 12分 [规律方法] 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表; (2)根据公式χ2=n ad -bc 2a +ba +cb +dc +d计算χ2的值;(3)比较χ2与临界值的大小关系,作统计推断.[变式训练3] (2017·某某联考)某市地铁即将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下;月收入(单位:百元) [15,25) [25,35) [35,45) [45,55) [55,65) [65,75) 赞成定价者人数 1 2 3 5 3 4 认为价格偏高者人数4812521(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.月收入不低于55百元的人数月收入低于55百元的人数 总计 认为价格偏高者 赞成定价者 总计附:χ2=n ad -bc 2a +bc +d a +c a +d.P (χ2≥x 0)0.05 0.01 x 03.8416.635[解] (1)“赞成定价者”的月平均收入为x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元). 5分(2)根据条件可得2×2列联表如下:月收入不低于55百元的人数月收入低于55百元的人数总计 认为价格偏高者 3 29 32 赞成定价者 7 11 18 总计104050χ2=50×3×11-7×29210×40×18×32≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”. 12分[思想与方法]word1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.2.根据χ2的值可以判断两个分类变量有关的可信程度.[易错与防X]1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量χ2的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.。
最小二乘法的用法举例
最小二乘法是一种数学优化技术,它通过最小化误差的平方和来寻找数据的最佳函数匹配。
在许多领域,如线性回归分析、曲线拟合、机器学习、信号处理、控制系统、金融预测和经济建模等,最小二乘法都得到了广泛的应用。
以下是一些最小二乘法的用法举例:1. 线性回归分析线性回归分析是一种统计学方法,用于研究因变量和自变量之间的关系。
最小二乘法可以用于估计线性回归模型的参数,使得预测值和实际观测值之间的残差平方和最小化。
2. 曲线拟合曲线拟合是一种数学方法,用于将一组数据拟合到一个特定的函数模型中。
最小二乘法可以用于估计模型的参数,使得模型预测值和实际观测值之间的残差平方和最小化。
3. 机器学习机器学习是一种人工智能技术,用于让计算机从数据中学习并自动改进其性能。
最小二乘法可以用于训练机器学习模型,例如线性回归模型、逻辑回归模型和支持向量机等。
4. 信号处理信号处理是一种技术,用于对信号进行变换、分析和合成。
最小二乘法可以用于估计信号的参数,例如频率、幅度和相位等,使得信号的预测值和实际观测值之间的残差平方和最小化。
5. 控制系统控制系统是一种技术,用于控制系统的行为并使其达到预期的性能指标。
最小二乘法可以用于估计控制系统的参数,例如传递函数和状态空间模型等,使得控制系统的预测值和实际观测值之间的残差平方和最小化。
6. 金融预测金融预测是一种技术,用于预测金融市场的走势和未来趋势。
最小二乘法可以用于估计金融模型的参数,例如ARIMA模型和神经网络模型等,使得模型的预测值和实际观测值之间的残差平方和最小化。
7. 经济建模经济建模是一种技术,用于建立经济系统的数学模型并对其进行仿真和分析。
最小二乘法可以用于估计经济模型的参数,例如生产函数和需求函数等,使得模型的预测值和实际观测值之间的残差平方和最小化。
高考数学一轮总复习之相关性、最小二乘估计与统计案例
抓住3个考点
突破3个考向
揭秘3年高考
考向三
独立性检验的基本思想及应用
【例3】►在调查男女乘客是否晕机的事件中,已知男乘客晕 机为28人,不晕机的也是28人,而女乘客晕机为28人, 不晕机的为56人. (1)根据以上数据建立一个2×2的列联表;
(2)能否有95%的把握认为晕机与性别有关系?
抓住3个考点
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关 解析 由图(1)可知,各点整体呈递减趋势,x与y负相关; 由图(2)可知,各点整体呈递增趋势,u与v正相关.
答案
C
抓住3个考点
突破3个考向
揭秘3年高考
3.(2012· 湖南)设某大学的女生体重y(单位:kg)与身高 x(单位:cm)具有线性相关关系,根据一组样本数据 (xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方 程为y=0.85x-85.71,则下列结论中不正确的是
i= 1
5
308 = ≈0.196 2, 1 570
308 ∴a= y -b x =23.2-109× ≈1.816 6. 1 570 ∴所求回归直线方程为^ y =0.196 2x+1.816 6. (2)由第(1)问可知,当 x=150 m2 时,销售价格的估 计值为y=0.196 2×150+1.816 6=31.246 6(万元).
抓住3个考点 突破3个考向 揭秘3年高考
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散 点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…, 10),得散点图(2).由这两个散点图可以判断 ( ).
抓住3个考点
最小二乘法估计
机器学习领域应用
线性回归模型
在机器学习中,最小二乘法是线性回归模型的核心算法之一。通过最小化预测值与实际值之间的平方误差,可以 训练出预测精度较高的线性回归模型。
特征选择
最小二乘法也可以用于特征选择,通过计算特征的系数大小,可以判断哪些特征对模型的预测结果影响较大,从 而进行特征筛选和优化。
06 最小二乘法的未来发展与 研究方向
用于研究社会现象和人类行为 ,如市场调查、人口统计等。
最小二乘法的历史与发展
历史
最小二乘法最早由法国数学家勒让德 于1805年提出,并广泛应用于天文、 物理和工程领域。
发展
随着计算机技术的进步,最小二乘法 在数据处理和统计分析方面得到了广 泛应用和改进,出现了多种扩展和变 种,如加权最小二乘法、广义最小二 乘法等。
加权最小二乘法(WLS)
总结词
详细描述
加权最小二乘法是一种改进的线性回 归分析方法,通过给不同观测值赋予 不同的权重来调整误差的平方和。
加权最小二乘法(Weighted Least Squares,WLS)是对普通最小二乘法 的改进,通过给不同观测值赋予不同 的权重来调整误差的平方和。这种方 法适用于存在异方差性的数据,即误 差项的方差不恒定的情况。通过合理 地设置权重,WLS能够更好地拟合数 据并提高估计的准确性。
广泛的应用领域
最小二乘法适用于多种统计模型 和回归分析,是线性回归分析中 最常用的方法之一。
缺点
假设限制
01
最小二乘法要求数据满足线性关系和误差项独立同分布等假设,
这些假设在实际应用中可能难以满足。
对异常值敏感
02
虽然最小二乘法相对稳健,但仍然容易受到异常值的影响,可
能导致估计结果偏离真实值。
高考数学一轮总复习之相关性、最小二乘估计与统计案例 精品优选公开课件
抓住3个考点
突破3个考向
揭秘3年高考
考点自测
1.下列两个变量之间的关系是相关关系的是
( ).
A.正方体的棱长与体积 B.单位面积的产量为常数时,土地面积与总产量 C.日照时间与水稻的亩产量 D.电压一定时,电流与电阻 解析 A,B,D中两个变量间的关系都是确定的,所以是 函数关系;C中的两个变量间是相关关系,对于日照时间 一定的水稻,仍可以有不同的亩产量,故选C. 答案 C
抓住3个考点
突破3个考向
揭秘3年高考
①当χ2≤2.706时,没有充分的证据判定变量A,B有关联, 可以认为变量A,B是没有关联的; ②当χ2>2.706时,有90%的把握判定变量A,B有关联; ③当χ2>3.841时,有95%的把握判定变量A,B有关联; ④当χ2>6.635时,有99%的把握判定变量A,B有关联.
计值为y=0.196 2×150+1.816 6=31.246 6(万元).
抓住3个考点
突破3个考向
揭秘3年高考
考向三 独立性检验的基本思想及应用
【例3】►在调查男女乘客是否晕机的事件中,已知男乘客晕 机为28人,不晕机的也是28人,而女乘客晕机为28人, 不晕机的为56人. (1)根据以上数据建立一个2×2的列联表; (2)能否有95%的把握认为晕机与性别有关系?
抓住3个考点
突破3个考向
揭秘3年高考
[审题视点] (1)列2×2列联表;(2)代入公式求χ2的值进行判 断.
解 (1)2×2列联表如下:
晕机 不晕机 合计
男乘客
28
28
56
女乘客
28
56
84
合计
56
84
140
(2)χ2=140×5(6×288×4×565-6×288×4 28)2=395≈3.889>3.841. 所以有 95%的把握认为晕机与性别有关系.
北师大版高中数学第十章 第3节相关性、最小二乘估计与统计案例
第3节相关性、最小二乘估计与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.(2)回归直线方程的求法——最小二乘法.设具有线性相关关系的两个变量x,y的一组观察值为(x i,y i)(i=1,2,…,n),则回归直线方程y=a+bx的系数为:称为样本点的中心.(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1.2×2列联表构造一个随机变量χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(2)独立性检验利用随机变量来判断“两个变量有关联”的方法称为独立性检验.(3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断①当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B 是没有关联的;②当χ2>2.706时,有90%的把握判定变量A,B有关联;③当χ2>3.841时,有95%的把握判定变量A,B有关联;④当χ2>6.635时,有99%的把握判定变量A,B有关联.[微点提醒]1.求解回归方程的关键是确定回归系数a ,b ,应充分利用回归直线过样本中心点(x -,y -).2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y 值,仅是一个预报值,不是真实发生的值.基 础 自 测1.判断下列结论正误(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y =bx +a 可以估计预报变量的取值和变化趋势.( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)事件X ,Y 关系越密切,则由观测数据计算得到的χ2值越大.( ) 答案 (1)√ (2)√ (3)× (4)√2.(选修2-3P87问题提出)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 B.均值与方差 C.独立性检验D.概率解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 答案 C3.(选修2-3P78讲解改编)两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关系数r 如下,其中拟合效果最好的模型是( ) A.模型1的相关系数r 为0.98 B.模型2的相关系数r 为0.80 C.模型3的相关系数r 为0.50D.模型4的相关系数r 为0.25解析 在两个变量y 与x 的回归模型中,它们的相关系数r 越近于1,模拟效果越好,在四个选项中A 的相关系数最大,所以拟合效果最好的是模型1. 答案 A4.(2019·焦作模拟)已知变量x 和y 的统计数据如下表:x 3 4 5 6 7 y2.5344.56根据上表可得回归直线方程为y =bx -0.25,据此可以预测当x =8时,y =( ) A.6.4B.6.25C.6.55D.6.45解析 由题意知x =3+4+5+6+75=5,y =2.5+3+4+4.5+65=4,将点(5,4)代入y =bx -0.25,解得b =0.85, 则y =0.85x -0.25,所以当x =8时,y =0.85×8-0.25=6.55,故选C. 答案 C5.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B 正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D6.(2019·丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算χ2=6.705,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动有关系”()A.95%B.99%C.1%D.5%解析因为6.705>6.635,因此有99%的把握认为“学生性别与支持该活动有关系”,故选B.答案 B考点一相关关系的判断【例1】(1)观察下列各图形,其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁R 0.820.780.690.85M 106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关系数r越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b>0时,正相关;b<0时,负相关.【训练1】(1)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关系数为r1,用y=bx+a拟合时的相关系数为r2,则r1> r2;③x,y之间不能建立线性回归方程.解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y=bx+a拟合效果要好,则r1>r2,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2018·西安调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 012,z=y-5得到下表2:表2(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出y关于x的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y=bx+a,其中b =∑ni =1x i y i -nx -·y -∑ni =1x 2i -nx -2,a =y --bx -)解 (1)t -=3,z -=2.2,∑5i =1t i z i =45,∑5i =1t 2i =55,b =45-5×3×2.255-5×9=1.2,a =z --bt -=2.2-3×1.2=-1.4, 所以z =1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z =1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y =1.2x -2 410.8. (3)因为y =1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.规律方法 1.(1)正确理解计算b ,a 的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y =bx +a 必过样本点中心(x -,y -).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)对于非线性回归分析问题,应先进行变量代换, 求出代换后的回归直线方程,再求非线性回归方程.【训练2】 (2018·全国Ⅱ卷)如图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2, (17)建立模型①:y=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.考点三独立性检验【例3】(2019·湖南长沙雅礼中学、河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:空气质优良轻度污染中度污染重度污染严重污染量等级某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:空气质量优良轻度污染中度污染重度污染严重污染天数11271173 1根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.空气质量优、良空气质量污染总计限行前限行后总计解(1)因为限行分单双号,王先生的车被限行的概率为0.05,所以空气重度污染和严重污染的概率应为0.05×2=0.1,由频率分布直方图可知(0.004+0.006+0.005+m)×50+0.1=1,解得m=0.003.(2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1, 按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A 1,A 2,A 3,A 4,空气中度污染的天气被抽取的有2天,记作B 1,B 2,从这6天中随机抽取2天,所包含的基本事件有(A 1,A 2),(A 1,A 3),(A 1,A 4),(A 1,B 1),(A 1,B 2),(A 2,A 3),(A 2,A 4),(A 2,B 1),(A 2,B 2),(A 3,A 4),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(B 1,B 2),共15个,记事件A 为“至少有一天空气质量是中度污染”,则事件A 所包含的事件有(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(B 1,B 2),共9个,故P (A )=915=35,即至少有一天空气质量是中度污染的概率为35. (3)2×2列联表如下:由表中数据可得,χ2=240×(90×22-90×38)2180×60×128×112≈3.214>2.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式χ2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算χ2的值;(3)比较χ2的值与临界值的大小关系,作统计推断.【训练3】为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844.则有________的把握认为是否选修文科与性别有关系.解析χ2≈4.844>3.841,则有95%的把握认为是否选修文科与性别有关系.答案95%[思维升华]1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.2.独立性检验是根据χ2的值判断两个分类变量有关的可信程度.[易错防范]1.求回归方程,关键在于正确求出系数a,b,由于a,b的计算量大,计算时应仔细谨慎,分步进行,避免因计算而产生错误.2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.3.独立性检验中统计量χ2的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.基础巩固题组(建议用时:40分钟)一、选择题1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2<r4<0<r3<r1,故选A.答案 A2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关系数r来刻画回归的效果,r值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是()A.①②B.②③C.①③D.①②③答案 D3.在一次对性别与说谎是否相关的调查中,得到如下数据:说谎不说谎总计根据表中数据,得到如下结论正确的一项是( ) A.在此次调查中有95%的把握认为是否说谎与性别有关 B.在此次调查中有99%的把握认为是否说谎与性别有关 C.在此次调查中有90%的把握认为是否说谎与性别有关 D.在此调查中没有充分的证据显示说谎与性别有关解析 由已知得χ2=30×(6×9-7×8)213×17×14×16≈0.002<2.706,所以,在此调查中没有充分的证据显示说谎与性别有关. 答案 D4.(2019·衡水中学调研)已知变量x ,y 之间的线性回归方程为y =-0.7x +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误..的是( )A.变量x ,y 之间呈负相关关系B.可以预测,当x =20时,y =-3.7C.m =4D.该回归直线必过点(9,4)解析 由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y =-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x -=14×(6+8+10+12)=9,y -=14(6+m +3+2)=11+m 4,则11+m 4=-0.7×9+10.3,解得m =5,故C错;由m =5,得y -=6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.故选C. 答案 C5.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,χ2=110×(40×30-20×20)260×50×60×50≈7.8.得到的正确结论是( )A.有99%的把握认为“爱好该项运动与性别有关”B.有99%的把握认为“爱好该项运动与性别无关”C.有95%的把握认为“爱好该项运动与性别有关”D.有95%以上的把握认为“爱好该项运动与性别无关”解析 根据独立性检验的定义,由χ2≈7.8>6.635,可知我们有99%的把握认为“爱好该项运动与性别有关”. 答案 A 二、填空题6.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y =bx +a 中的b =-2,预测当气温为-4 ℃时,用电量约为________度.解析 根据题意知x -=18+13+10+(-1)4=10,y -=24+34+38+644=40.所以a=40-(-2)×10=60,y =-2x +60.所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量约为68度.答案 687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)几何题 代数题 总计 男同学 22 8 30 女同学 8 12 20 总计302050根据上述数据,有________的把握可推断视觉和空间想象能力与性别有关系. 解析 由列联表计算χ2=50(22×12-8×8)230×20×20×30≈5.556>3.841,所以,有95%的把握可推断视觉和空间想象能力与性别有关系. 答案 95%8.(2019·广东深中、华附、省实、广雅四校联考)如图是一组数据(x ,y )的散点图,经最小二乘估计公式计算,y 与x 之间的线性回归方程为y =bx +1,则b =________.解析 由题图知x -=0+1+3+44=2,y -=0.9+1.9+3.2+4.44=2.6,将(2,2.6)代入y =bx +1中,解得b =0.8. 答案 0.8 三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.解(1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这5人中任选2人,共有10种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.其中恰好是男、女用户各1人的有6种情况:ar,as,br,bs,cr,cs.故所求的概率为P=610=0.6.(2)由题意,得χ2=80×(30×20-20×10)2(30+20)×(10+20)×(30+10)×(20+20)=163≈5.333>3.841.故有95%的把握认为“产品用户是否满意与性别有关”.10.调查某公司的五名推销员,其工作年限与年推销金额如下表:(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程; (3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额. 附:b =∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2,a =y --bx -. 解 (1)年推销金额关于工作年限的散点图如图:从散点图可以看出,各点散布在从左下角到右上角的区域里,因此, 工作年限与年推销金额正相关,即工作年限越长,年推销金额越大. (2)由表中数据可得:x -=15×(2+3+5+7+8)=5, y -=15×(3+3.5+4+6.5+8)=5,b =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=(-3)×(-2)+(-2)×(-1.5)+0+2×1.5+3×39+4+0+4+9=2126,a =y --bx -=5-2126×5=2526,∴年推销金额关于工作年限的回归直线方程为y =2126x +2526.(3)当x =10时,y =2126×10+2526=23526,∴预测工作年限为10年的推销员的年推销金额为23526万元.能力提升题组 (建议用时:20分钟)11.(2019·黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )A.若χ2=6.678,则有99%的把握认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B.由独立性检验可知,在有99%的把握认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C.若从统计量中求出有99%的把握认为吸烟与患肺癌有关系,是指有99%的可能性使得判断正确D.以上三种说法都不正确解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出有99%的把握认为吸烟与患肺癌有关系,是指有99%的可能性使得判断正确.故选C. 答案 C12.(2019·承德期末)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( )A.最低气温与最高气温为正相关B.10月的最高气温不低于5月的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 ℃的月份有4个解析 在A 中,最低气温与最高气温为正相关,故A 正确; 在B 中,10月的最高气温不低于5月的最高气温,故B 正确;在C 中,月温差(最高气温减最低气温)的最大值出现在1月,故C 正确; 在D 中,最低气温低于0 ℃的月份有3个,故D 错误.故选D. 答案 D13.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:价格x 9 9.5 m 10.5 11 销售量y11n865由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y =-3.2x +40,且m +n =20,则其中的n =________. 解析 x -=9+9.5+m +10.5+115=8+m 5,y -=11+n +8+6+55=6+n5.回归直线一定经过样本中心(x -,y -), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1014.(2018·山东、湖北部分重点中学模拟)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加有n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =C 1·2C 2x ,其中C 1,C 2为常数(2013年至2019年该市中学生人数大致保持不变).y -k -∑5i =1(k i -k -)2∑5i =1(y i -y -)2∑5i =1(x i -x -)(y i -y -)∑5i =1(x i -x -)(k i -k -)2.31.23.14.621其中k i =log 2 y i ,k -=15∑5i =1k i . (1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少.附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线方程v =βu +α的斜率和截距的最小二乘估计分别为β=∑ni =1(u i -u -)(v i -v -)∑ni =1 (u i -u -)2,α=v --βu -.②解 (1)因为x -=15×(13+14+15+16+17)=15,所以∑5i =1(x i -x -)2=(-2)2+(-1)2+02+12+22=10.由k =log 2 y 得k =log 2 C 1+C 2x , 所以C 2=∑5i =1(x i -x -)(k i -k -)∑5i =1(x i -x -)2=110, log 2 C 1=k --C 2x -=1.2-110×15=-0.3,所以C 1=2-0.3=0.8,所以y =0.8×2x10.当x =18时,y =0.8×21.8=0.8×3.5=2.8(万元). 即该市2018年人均可支配收入为2.8万元.(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200 000×7%=14 000人,一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配收入比2017年增长0.8×21.8-0.8×21.70.8×21.7=20.1-1=0.1=10%,所以2018年该市特别困难的中学生有2 800×(1-10%)=2 520人. 很困难的的学生有4 200×(1-20%)+2 800×10%=3 640人, 一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.所以2018年的“专项教育基金”的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).。
最小二乘原理范文
最小二乘原理范文在统计学中,我们常常需要通过一系列的观测数据来推断总体参数的值。
然而,由于观测数据存在测量误差或随机误差,直接通过观测数据来估计总体参数的值通常是不准确的。
因此,我们需要寻找一种方法来优化估计过程,以减小估计值与实际值之间的误差。
最小二乘原理的核心思想是,通过最小化观测值与预测值之间的残差平方和来确定最优的参数估计值。
这是因为残差平方和是一种衡量观测值和预测值之间差异的指标,我们希望通过最小化这个指标来找到最接近真实值的参数估计值。
对于线性回归问题,最小二乘原理的应用非常直接。
我们假设观测数据和预测值之间存在一种线性关系:y=β0+β1x+ε,其中β0和β1是我们需要估计的参数,ε是残差项。
我们的目标是通过最小化残差平方和来确定最优的参数估计值β0和β1、具体而言,最小二乘原理通过对残差平方和关于参数的一阶偏导数为零来确定最小化残差平方和时的参数估计值。
当偏导数为零时,得到的参数估计值是最小二乘估计。
对于非线性回归问题,最小二乘原理的应用稍微复杂一些。
我们假设观测数据和预测值之间存在一种非线性关系:y=f(β,x)+ε,其中β是我们需要估计的参数,f(β,x)是一个非线性函数,ε是残差项。
这时,我们需要利用最小二乘原理的扩展形式,即高斯-牛顿方法或强化高斯-牛顿方法来确定最优的参数估计值β。
这些方法通过迭代过程,将非线性回归问题转化为一系列线性回归问题,并利用最小二乘原理对每个线性回归问题求解最优参数估计值。
最小二乘原理不仅仅适用于回归问题,还可以应用于其他统计模型的参数估计。
例如,最小二乘原理可以用于确定时间序列模型中的自回归系数,用于确定混合模型中的混合权重,用于确定多元统计模型中的因子载荷矩阵等等。
最小二乘原理的优点是简单而直观,容易理解和应用。
它提供了一种有效的方法来确定统计模型的参数估计值,以及模型的最优拟合曲线或平面。
然而,最小二乘原理的一个缺点是对异常值敏感。
如果观测数据中存在异常值,它们可能会极大地影响最小二乘估计的结果。
2020高中数学第九章 4《相关性、最小二乘估计与统计案例》复习学案+检测
2020高中数学复习学案 第9章 算法初步、统计与统计案例 4相关性、最小二乘估计与统计案例【要点梳理·夯实知识基础】1.相关性 (1)线性相关:若两个变量x 和y 的散点图中,所有点看上去都在 一条直线 附近波动,则称变量间是线性相关的.(2)非线性相关:若所有点看上去都在 某条曲线(不是一条直线) 附近波动,则称此相关为非线性相关的.2.最小二乘估计 (1)最小二乘法:如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n )可以用下面的表达式来刻画这些点与直线y =a +bx 的接近程度: [y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2 .使得上式达到 最小值 的直线y =a +bx 就是我们所要求的直线,这种方法称为最小二乘法.(2)线性回归方程:假设样本点为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),如果用x -表示x 1+x 2+…+x nn ,用y -表示y 1+y 2+…+y n n,则可以求得b =(x 1-x -)(y 1-y -)+(x 2-x -)(y 2-y -)+…+(x n -x -)(y n -y -)(x 1-x -)2+(x 2-x -)2+…+(x n-x -)2=x 1y 1+x 2y 2+…+x n y n -n x - y -x 21+x 22+…+x 2n-n x-2a =y --b x -.这样得到的直线方程y=a+bx称为线性回归方程,a、b是线性回归方程的系数.3.相关系数r(1)r=ni=1x i y i-n x-y-ni=1x2i-n x-2ni=1y2i-n y-2(2)当r>0时,称两个变量正相关;当r<0时,称两个变量负相关;当r=0时,称两个变量线性不相关.4.独立性检验独立性检验的相关概念(1)分类变量可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量(2)2×2列联表假设有两个分类变量A和B,它们的值域分别为{A1,A2}和{B1,B2},其样本频数列联表(称为2×2列联表)为B1B2合计A1 a b a+bA2 c d c+d总计a+c b+d a+b+c+d(3)独立性检验利用随机变量=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.【学练结合】[思考辨析]判断下列说法是否正确,正确的在它后面的括号里打“√”,错误的打“×”.(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y=bx+a可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案:(1)√(2)√(3)×(4)√[小题查验]1.下列两个变量之间的关系是相关关系的是()A.正方体的棱长与体积B.单位面积的产量为常数时,土地面积与总产量C.日照时间与水稻的亩产量D.电压一定时,电流与电阻解析:C[A、B、D中两个变量间的关系都是确定的,所以是函数关系;C 中的两个变量间是相关关系,对于日照时间一定的水稻,仍可以有不同的亩产量,故选C.]2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力()A.回归分析B.均值与方差C.独立性检验D.概率解析:C[“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.]3.已知x、y取值如表:画散点图分析可知:y与x线性相关,且求得回归方程为y=x+1,则m的值(精确到0.1)为()A.1.5 B.1.6C.1.7 D.1.8解析:C [由题意知,x -=0+1+4+5+65=3.2,将x -=3.2代入回归方程yx +1可得y -=4.2,则4m =6.7,解得m =1.675,则精确到0.1后m 的值为1.7,故选C.]4.下面是一个2×2列联表则表中a ,b 处的值分别为 ________ .解析:因为a +21=73,所以a =52.又因为a +2=b ,所以b =54. 答案:52,545.自2018年起,我国将每年的农历的秋分设为“中国农民丰收节”.某农业主管部门调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到回归直线方程:y 0.254x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均约增加 ________ 万元.解析:由题意知回归直线的斜率为0.254,故家庭年收入每增加1万元,年饮食支出平均约增加0.254万元.答案:0.254【考点探究·突破重点难点】考点一 相关关系的判断(自主练透)[题组集训]1.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )解析:D[观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.]2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y与x负相关且y-2.756x+7.325;②y与x负相关且y=3.476x+5.648;③y与x正相关且y=-1.226x-6.578;④y与x正相关且y=8.967x+8.163.其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④[思路引导]线性回归方程y=bx+a中,回归系数b的正、负说明两个变量成正、负相关关系.解析:B[根据题意,依次分析四个结论:对于①,线性回归方程符合负相关的特征,此结论正确;对于②,由线性回归方程知,y与x的关系是正相关,此结论错误;对于③,由线性回归方程知,y与x的关系是负相关,此结论错误;对于④,线性回归方程符合正相关的特征,此结论正确.故选B.]【解题反思】判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归方程中:b>0时,正相关;b<0时,负相关.考点二回归方程的求法及回归分析(师生共研)[典例]如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.【解题方法指导】1.回归直线方程中系数的两种求法(1)利用公式,求出回归系数b,a.(2)待定系数法:利用回归直线过样本点中心求系数.2.回归分析的两种策略(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数b.3.选择、填空中选一组数据的线性回归直线方程的方法(1)过定点(x-,y-),验证.(2)正、负相关看b^的符号.(3)代入数据看误差大小.[跟踪训练]基于移动互联网技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验.某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如下表:月份2017.82017.92017.102017.112017.122018.1 月份代码x 12345 6市场占有111316152021 率y(%)(1)请在给出的坐标纸中作出散点图,并用相关系数说明能否用线性回归模型拟合市场占有率y与月份代码x之间的关系;(2)求y关于x的线性回归方程,并预测该公司2018年2月份的市场占有率.解:(1)作出散点图如下:∴两变量之间具有较强的线性相关关系,故可用线性回归模型拟合市场占有率y与月份代码x之间的关系.考点三独立性检验(师生共研)[典例](2018·全国Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m 不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(≥k)0.0500.0100.001k 3.841 6.63510.828[解](1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟,因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80分钟;用第二种生产方式的工人完成生产任务所需平均时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)(2)由茎叶图知,m=80.得2×2列联表为超过m 不超过m第一种生产方式15520第二种生产方式51520202040(3)=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=40(152-52)220×20×20×20=10>6.635.所以有99%的把握认为两种生产方式的效率有差异.【解题规律总结】利用统计量进行独立性检验的步骤(1)根据数据列出2×2列联表;(2)根据公式计算找观测值k;(3)比较观测值k与临界值表中相应的检验水平,作出统计推断.[跟踪训练]2018年是倡仪“一带一路”五周年,相关话题在网络上引起了网友们的高度关注,为此,21财经APP联合UC推出“一带一路”大数据微报告,在全国抽取的7亿网民(其中30%为高学历)中有2亿人(其中70%为高学历)对此关注.(1)根据以上统计数据填写下面2×2列联表;(2)根据列联表,用独立性检验的方法分析,能否有99%的把握认为“一带一路”的关注度与学历有关系?高学历网民非高学历网民总计 关注 不关注 总计附参考公式:=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d . P (≥k0)0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001K 00.455 0.7081.3232.0722.7063.8415.0246.6357.87910.828解:(1)高学历网民 非高学历网民 总计 关注 1.4×108 0.6×108 2×108 不关注 0.7×108 4.3×108 5×108 总计2.1×1084.9×1087×108(2)=7×108×(1.4×108×4.3×108-0.6×108×0.7×108)22.1×108×4.9×108×2×108×5×108≈2.13×108,因为2.13×108>6.635,所以有99%的把握认为“一带一路”的关注度与学历有关系.2020高中数学复习学案 第9章 算法初步、统计与统计案例 4相关性、最小二乘估计与统计案例检测一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( D ) A .①② B .②③ C .③④D .①④解析:正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④. 2.下列说法错误的是( B )A .自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好 解析:根据相关关系的概念知A 正确;当r >0时,r 越大,相关性越强,当r <0时,r 越大,相当性越弱,故B 不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好,二是R 2越大,拟合效果越好,所以R 2为0.98的模型比R 2为0.80的模型拟合的效果好,C 、D 正确,故选B.3.为了解某商品销售量y (件)与其单价x (元)的关系,统计了(x ,y )的10组值,并画成散点图如图,则其回归方程可能是( B )A.y ^=-10x -198 B.y ^=-10x +198 C.y ^=10x +198D.y ^=10x -198解析:由图象可知回归直线方程的斜率小于零,截距大于零,故选B. 4.若一函数模型为y =ax 2+bx +c (a ≠0),为将y 转化为t 的回归直线方程,需作变换t =( C ) A .x 2 B .(x +a )2 C.⎝ ⎛⎭⎪⎫x +b 2a 2 D .以上都不对解析:y 关于t 的回归直线方程,实际上就是y 关于t 的一次函数.因为y =a ⎝ ⎛⎭⎪⎫x +b 2a 2+4ac -b 24a ,所以可知选项C 正确. 5.广告投入对商品的销售额有较大影响,某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元)由表可得回归方程为y =10.2x +a ,据此模拟,预测广告费为10万元时的销售额约为( C )A .101.2B .108.8C .111.2D .118.2解析:由题意得:x =4,y =50,∴50=4×10.2+a ^,解得a ^=9.2,∴回归直线方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C. 6.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( D ) A .66% B .67% C .79%D .84%解析:因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市职工人均工资为x =5,所以可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%. 7.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”解析:∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”. 二、填空题8.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表:由表中数据得线性回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量为68度.解析:回归直线过点(x ,y ), 根据题意得x =18+13+10+(-1)4=10,y =24+34+38+644=40,将(10,40)代入y ^=-2x +a ^,解得a ^=60,则y ^=-2x +60,当x =-4时,y ^=(-2)×(-4)+60=68,即当气温为-4 ℃时,用电量约为68度.9.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:生产能手非生产能手总计25周岁以上25356025周岁以下103040 总计3565100解析:由2×2列联表可知,K2=100×(25×30-10×35)2≈2.93,40×60×35×65因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.三、解答题10.某公司为了了解广告投入对销售收益的影响,在若干地区各投入万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入x(单位:万元)1234 5栏,并计算y 关于x 的线性回归方程.解:(1)设各小长方形的宽度为m ,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.1+0.14+0.12+0.04+0.02)·m =0.5m =1,故m =2.(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20, 0.28, 0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.2+5×0.28+7×0.24+9×0.08+11×0.04=5.(3)空白栏中填5. 由题意可知,x =1+2+3+4+55=3,y =2+3+2+5+75=3.8,∑i =15x i y i =1×2+2×3+3×2+4×5+5×7=69,∑i =15x 2i =12+22+32+42+52=55. 根据公式可求得b ^=69-5×3×3.855-5×32=1210=1.2,a ^=3.8-1.2×3=0.2,即线性回归方程为y ^=1.2x +0.2.11.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程y ^=b ^x +a ^中的b ^=0.8(用最小二乘法求得).那么,当广告费用为6千元时,可预测销售额约为( B ) A .3.5万元 B .4.7万元 C .4.9万元D .6.5万元解析:依题意得x =4.5,y =3.5,由回归直线必过样本中心点得a =3.5-0.8×4.5=-0.1.当x =6时,y ^=0.8×6-0.1=4.7.12.近代统计学的发展起源于二十世纪初,它是在概率论的基础上发展起来的,统计性质的工作则可以追溯到远古的“结绳记事”和《二十四史》中大量的关于我国人口、钱粮、水文、天文、地震等资料的记录.近几年,雾霾来袭,对某市该年11月份的天气情况进行统计,结果如下表:表一日期12345678910 天气晴霾霾阴霾霾阴霾霾霾日期11121314151617181920 天气阴晴霾霾霾霾霾霾阴晴日期21222324252627282930 天气霾霾晴霾晴霾霾霾晴霾一个调查机构对比以上两年11月份(该年不限行30天、次年限行30天,共60天)的调查结果:表二不限行限行总计没有雾霾a有雾霾b总计303060(1)概率;(2)请用统计学原理计算,若没有90%的把握认为雾霾与限行有关系,则限行时有多少天没有雾霾?P(K2≥k0)0.1000.0500.0100.001k0 2.706 3.841 6.63510.828解:(a)a=10,b=20,所求概率P=630=15.(2)设限行时有x天没有雾霾,则有雾霾的天数为30-x,由题意得K2的观测值k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)≤3,代入数据化简得21x2-440x+1 500≤0,x∈[0,30],x∈N*,即(7x-30)(3x-50)≤0,解得307≤x≤503,所以5≤x≤16,且x∈N*,所以若没有90%的把握认为雾霾与限行有关系,则限行时有5~16天没有雾霾.尖子生小题库——供重点班学生使用,普通班学生慎用13.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=1.63+0.99x ,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果回答下列问题: ①广告费x =20时,销售量及利润的预报值是多少? ②广告费x 为何值时,利润的预报值最大?(精确到0.01)参考公式:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .参考数据:5≈2.24.解:(1)∵x =8,y =4.2,∑i =17x i y i =279.4,∑i =17x 2i =708,∴b ^=∑i =17x i y i -7x y∑i =17x 2i -7x 2=279.4-7×8×4.2708-7×82=0.17,a ^=y -b ^x =4.2-0.17×8=2.84, ∴y 关于x 的线性回归方程为y ^=0.17x +2.84.(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好,∴选用y ^=1.63+0.99x 更好.(3)由(2)知,①当x =20时,销售量的预报值y ^=1.63+0.9920≈6.07(万台),利润的预报值z=200×(1.63+0.9920)-20≈1 193.04(万元).②z=200(1.63+0.99x)-x=-x+198x+326=-(x)2+198x+326=-(x-99)2+10 127,∴当x=99,即x=9 801时,利润的预报值最大,故广告费为9 801万元时,利润的预报值最大.。
高考数学大一轮复习第十章统计与统计案例10.3相关性、最小二乘估计与统计案例课件文
产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单
位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
解答
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与 养殖方法有关:
箱产量<50 kg 箱产量≥50 kg 旧养殖法 新养殖法
解答
②在(-x -3s,-x +3s)之外的数据称为离群值,试剔除离群值,估计这条生产 线当天生产的零件尺寸的均值与标准差.(精确到 0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数 r= 0.008≈0.09.
n
xi--x yi--y
i=1
,
n
xi--x 2
n
跟踪训练 (2018·惠州月考)以下是某地收集到的新房屋的销售价格y和房 屋的面积x的数据:
房屋面积x(m2) 115 110 80 135 105 销售价格y(万元) 24.8 21.6 18.4 29.2 22
(1)画出数据对应的散点图; 解 数据对应的散点图如图所示:
解答
(2)求线性回归方程,并在散点图中画出回归直线;
√C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有
关”.
123456
解析 答案
6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学 和物理成绩具有线性相关关系)
学生的编 12345
第十章 统计与统计案例
§10.3 变量间的相关关系、统计案例
内容索引
统计推断中的最小二乘法理论
统计推断中的最小二乘法理论统计推断是统计学中一个重要的领域,用于通过观察样本数据来对总体进行推断。
最小二乘法则是统计推断中的一种常用方法,用于估计总体参数。
1. 引言统计推断的目标是通过采集样本数据来对总体进行推断。
在实际情况中,我们很难获取到总体的全部数据,因此需要通过样本数据进行参数估计。
最小二乘法是一种常用的参数估计方法,特别是在线性回归模型中得到广泛应用。
2. 最小二乘法原理最小二乘法原理基于最小化残差的平方和来进行参数估计。
在线性回归模型中,我们假设总体的分布与一个线性模型相吻合。
假设我们的样本数据为(x1, y1), (x2, y2), ..., (xn, yn),线性模型如下:y = β0 + β1x其中,y是因变量,x是自变量,β0和β1是待估计的参数。
我们的目标是找到一条直线,使得观测值与估计值之间的残差平方和最小。
3. 最小二乘法的求解为了得到最小二乘法的估计量,我们需要通过最小化残差平方和来求解参数β0和β1。
具体的求解过程可以通过计算导数或者求解正规方程组来实现。
3.1 求解导数我们可以对残差平方和进行求导,然后令导数为0,求解出β0和β1的估计值。
这种方法需要对求导运算进行数学推导,并且需要解决线性方程组。
3.2 求解正规方程组另一种常见的方法是通过求解正规方程组来得到最小二乘估计量。
正规方程组可以通过将残差平方和的导数为0代入线性回归模型得到。
4. 最小二乘法的性质最小二乘法有一些重要的性质,其中最主要的是无偏性和有效性。
无偏性意味着最小二乘估计量的期望值等于真实参数的值。
有效性则表示最小二乘估计量的方差最小。
4.1 无偏性当样本量趋向于无穷大时,最小二乘估计量的期望值将收敛于真实参数的值。
这意味着最小二乘估计量是一个无偏估计量。
4.2 有效性最小二乘估计量是一个有效估计量,即它在所有无偏估计量中具有最小的方差。
这意味着最小二乘估计量在统计推断中具有更小的误差。
5. 应用案例最小二乘法在实际应用中有着广泛的应用。
第2讲相关性最小二乘估计与统计案例
第2讲 相关性、最小二乘估计与统计案例一、选择题1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ). A .-1B .0C.12D .1答案 D2.已知x ,y 取值如下表:,则a =( ). A .1.30B .1.45C .1.65D .1.80解析 依题意得,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25.又直线y =0.95x +a 必过样本中心点(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45,选B. 答案 B3. 设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是 ( ).A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同解析 由样本的中心(x ,y )落在回归直线上可知A 正确;x 和y 的相关系数表示为x与y之间的线性相关程度,不表示直线l的斜率,故B错;x和y的相关系数应在-1到1之间,故C错;分布在回归直线两侧的样本点的个数并不绝对平均,即无论样本点个数是奇数还是偶数,故D错.答案 A4.某产品的广告费用x与销售额y的统计数据如下表:6万元时销售额为().A.63.6万元B.65.5万元C.67.7万元D.72.0万元解析x=4+2+3+54=3.5(万元),y=49+26+39+544=42(万元),∴a=y-b x=42-9.4×3.5=9.1,∴回归方程为y=9.4x+9.1,∴当x=6(万元)时,y=9.4×6+9.1=65.5(万元).答案 B5.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y对x().A.y=x-1 B.y=x+1C.y=88+12x D.y=176解析由题意得x=174+176+176+176+1785=176(cm),y=175+175+176+177+1775=176(cm),由于(x,y)一定满足线性回归方程,经验证知选C.答案 C6.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y=3-5x,变量x增加一个单位时,y平均增加5个单位;③线性回归方程y=bx+a必过(x,y);④在一个2×2列联表中,由计算得χ2=13.079,则有99%以上的把握认为这两个变量间有关系.其中错误的个数是().A.0 B.1 C.2 D.3解析只有②错误,应该是y平均减少5个单位.答案 B二、填空题7.已知施化肥量x与水稻产量y的试验数据如下表,则变量x与变量y是________相关(填“正”或“负”).解析因为散点图能直观地反映两个变量是否具有相关关系,所以画出散点图如图所示:通过观察图象可知变量x 与变量y 是正相关. 答案 正8.考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y =1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________ cm.解析 根据线性回归方程y =1.197x -3.660,将x =50代入得y =56.19,则肱骨长度的估计值为56.19 cm. 答案 56.199.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:χ2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系的可能性约为________.解析 ∵χ2≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断正确的可能性约为95%. 答案 95%10.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.解析 由题意父亲身高x cm 与儿子身高y cm 对应关系如下表:则x =173+170+1763=173,y =170+176+1823=176,∑i =13(x i -x )(y i -y )=(173-173)×(170-176)+(170-173)×(176-176)+(176-173)(182-176)=18,∑i =13(x i -x )2=(173-173)2+(170-173)2+(176-173)2=18.∴b =1818=1.∴a =y -b x =176-173=3.∴线性回归直线方程y =bx +a =x +3. ∴可估计孙子身高为182+3=185(cm). 答案 185 三、解答题11.某班主任对全班50名学生进行了作业量多少的调查.数据如下表:(1)(2)试通过计算说明有多大把握认为喜欢玩游戏与作业量的多少有关系? 解 (1)(2)将表中的数据代入公式χ2=(a +b )(c +d )(a +c )(b +d )=50×(18×15-8×9)226×24×27×23≈5.059>3.841,即说明有95%以上的把握认为喜欢玩游戏与作业量的多少有关系.12.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y =bx +a ;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:∑i =14x 2i =86,x =3+4+5+64=4.5(吨),y =2.5+3+4+4.54=3.5(吨).已知∑i =14x i y i =66.5, 所以,由最小二乘法确定的回归方程的系数为:b =∑i =14x i y i -4x ·y∑i =14x 2i -4x2=66.5-4×4.5×3.586-4×4.52=0.7,a =y -b x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y =0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:90-(0.7×100+0.35)=19.65(吨标准煤).13. 某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验. (1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y =bx +a .解 (1)设抽到不相邻两组数据为事件A ,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻两组数据的情况有4种,所以P (A )=1-410=35.(2)由数据,求得x -=12,y -=27.11×25+13×30+12×26=977,112+132+122=434,由公式,求得b =52,a =y --b x -=-3.所以y 关于x 的线性回归方程为y =52x -3.14.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.已知从全部105人中随机抽取1人为优秀的概率为27. (1)请完成上面的列联表;(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”;(3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6号或10号的概率. 解 (1)(2)χ2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.(3)设“抽到6号或10号”为事件A ,先后两次抛掷一枚均匀的骰子,出现的点数为(x ,y ),则所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共36个. 事件A 包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个, ∴P (A )=836=29.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2讲 相关性、最小二乘估计与统计案例一、选择题1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ). A .-1B .0C.12D .1答案 D2.已知x ,y 取值如下表:,则a =( ). A .1.30B .1.45C .1.65D .1.80解析 依题意得,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25.又直线y =0.95x +a 必过样本中心点(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45,选B. 答案 B3. 设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是 ( ).A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同解析 由样本的中心(x ,y )落在回归直线上可知A 正确;x 和y 的相关系数表示为x与y之间的线性相关程度,不表示直线l的斜率,故B错;x和y的相关系数应在-1到1之间,故C错;分布在回归直线两侧的样本点的个数并不绝对平均,即无论样本点个数是奇数还是偶数,故D错.答案 A4.某产品的广告费用x与销售额y的统计数据如下表:6万元时销售额为().A.63.6万元B.65.5万元C.67.7万元D.72.0万元解析x=4+2+3+54=3.5(万元),y=49+26+39+544=42(万元),∴a=y-b x=42-9.4×3.5=9.1,∴回归方程为y=9.4x+9.1,∴当x=6(万元)时,y=9.4×6+9.1=65.5(万元).答案 B5.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y对x().A.y=x-1 B.y=x+1C.y=88+12x D.y=176解析由题意得x=174+176+176+176+1785=176(cm),y=175+175+176+177+1775=176(cm),由于(x,y)一定满足线性回归方程,经验证知选C.答案 C6.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y=3-5x,变量x增加一个单位时,y平均增加5个单位;③线性回归方程y=bx+a必过(x,y);④在一个2×2列联表中,由计算得χ2=13.079,则有99%以上的把握认为这两个变量间有关系.其中错误的个数是().A.0 B.1 C.2 D.3解析只有②错误,应该是y平均减少5个单位.答案 B二、填空题7.已知施化肥量x与水稻产量y的试验数据如下表,则变量x与变量y是________相关(填“正”或“负”).解析因为散点图能直观地反映两个变量是否具有相关关系,所以画出散点图如图所示:通过观察图象可知变量x 与变量y 是正相关. 答案 正8.考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y =1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________ cm.解析 根据线性回归方程y =1.197x -3.660,将x =50代入得y =56.19,则肱骨长度的估计值为56.19 cm. 答案 56.199.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:χ2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系的可能性约为________.解析 ∵χ2≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断正确的可能性约为95%. 答案 95%10.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.解析 由题意父亲身高x cm 与儿子身高y cm 对应关系如下表:则x =173+170+1763=173,y =170+176+1823=176,∑i =13(x i -x )(y i -y )=(173-173)×(170-176)+(170-173)×(176-176)+(176-173)(182-176)=18,∑i =13(x i -x )2=(173-173)2+(170-173)2+(176-173)2=18.∴b =1818=1.∴a =y -b x =176-173=3.∴线性回归直线方程y =bx +a =x +3. ∴可估计孙子身高为182+3=185(cm). 答案 185 三、解答题11.某班主任对全班50名学生进行了作业量多少的调查.数据如下表:(1)(2)试通过计算说明有多大把握认为喜欢玩游戏与作业量的多少有关系? 解 (1)(2)将表中的数据代入公式χ2=(a +b )(c +d )(a +c )(b +d )=50×(18×15-8×9)226×24×27×23≈5.059>3.841,即说明有95%以上的把握认为喜欢玩游戏与作业量的多少有关系.12.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y =bx +a ;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:∑i =14x 2i =86,x =3+4+5+64=4.5(吨),y =2.5+3+4+4.54=3.5(吨).已知∑i =14x i y i =66.5, 所以,由最小二乘法确定的回归方程的系数为:b =∑i =14x i y i -4x ·y∑i =14x 2i -4x2=66.5-4×4.5×3.586-4×4.52=0.7,a =y -b x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y =0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:90-(0.7×100+0.35)=19.65(吨标准煤).13. 某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验. (1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y =bx +a .解 (1)设抽到不相邻两组数据为事件A ,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻两组数据的情况有4种,所以P (A )=1-410=35.(2)由数据,求得x -=12,y -=27.11×25+13×30+12×26=977,112+132+122=434,由公式,求得b =52,a =y --b x -=-3.所以y 关于x 的线性回归方程为y =52x -3.14.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.已知从全部105人中随机抽取1人为优秀的概率为27. (1)请完成上面的列联表;(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”;(3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6号或10号的概率. 解 (1)(2)χ2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.(3)设“抽到6号或10号”为事件A ,先后两次抛掷一枚均匀的骰子,出现的点数为(x ,y ),则所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共36个. 事件A 包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个, ∴P (A )=836=29.。