《统计案例》学案2(人教A版选修1-2)
【数学】新课标人教A版选修1-2第一章统计案例教案
4
选修 1—2 第一章统计案例
若H0成立 , 则K2应该很小 . 把表中数据代入公式
2
K2 = 9965 7775 49-42 2099
56.632
7817 2148 9874 91
在H0成立的情况下 . 统计学家估算出如下概率
P K2 6.635 0.01
即在H0成立的情况下 ,K 2的值大于 6.635 的概率非常小. 如果K2 6.635, 就断定H 0不成立 , 出错的可能性有多大? 出现K2=56.632 6.635 的概率不超过 1% .
周围 .
令 z=lny , a=lnc1 , b=c2 则 z=bx+a
此时可用线性回归来拟合 z=0.272x-3.843
因此红铃虫的产卵数对温度的非线性回归方程为 Y=e0.272x-3.843
1、1 回归分析的基本思想及其初步应用(习题课) (第五课时 )
目标 :通过习题巩固所学知识
过程 :1、复习有关知识
教学重点: 独立性检验的步骤。 例 2。 教学难点: 对临界值的理解。 教学过程 :1、复习独立性检验的步骤。
2、可信程度。 3、举例。 例 2。略。 补充例题: 对 196 个接受心脏搭桥手术的病人和 196 个接受血管清 障手术的病人进行 3 年跟踪研究, 调查他们是否又发作过心脏病, 调查结果如下 表所示:
尿汞含量 x
2
消光系数 y
64
4
6
8
10
138
205
285
360
连山高级中学高二数学备课组
3
选修 1—2 第一章统计案例
(1)求回归方程。( 2)求相关指数 R2。
解:略 。
3. 练习:选择、填空用小黑板给出。 (题来源于数学天地报) 。 4. 小结。 5. 作业。
(新)高中数学复习课(一)统计案例教学案新人教A版选修1-2
复习课(一) 统计案例回归分析(1)变量间的相关关系是高考解答题命题的一个,主要考查变量间相关关系的判断,求解回归方程并进行预报估计,题型多为解答题,有时也有小题出现.(2)掌握回归分析的步骤的是解答此类问题的关键,另外要掌握将两种非线性回归模型转化为线性回归分析求解问题.[考点精要]1.一个重要方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其线性回归直线方程为y ^=b ^x +a ^.其中b ^=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b ^x .2.重要参数相关指数R 2是用来刻画回归模型的回归效果的,其值越大,残差平方和越小,模型的拟合效果越好.3.两种重要图形 (1)散点图:散点图是进行线性回归分析的主要手段,其作用如下:一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;二是判断样本中是否存在异常. (2)残差图:残差图可以用来判断模型的拟合效果,其作用如下:一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高.二是确认样本点在采集中是否有人为的错误.[典例] (全国卷Ⅲ)如图是我国2008年到2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .[解] (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.892×2.646×0.55≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. [类题通法]回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是先画出散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从而建立较好的回归方程,并且用该方程对变量值进行分析;有时回归模型可能会有多种选择(如非线性回归模型),此时可通过残差分析或利用相关指数R 2来检查模型的拟合效果,从而得到最佳模型.[题组训练]1.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:选C 画散点图,由散点图可知X 与Y 是正相关,则相关系数r 1>0,U 与V 是负相关,相关系数r 2<0,故选C .2.寒假中, 某同学为组织一次爱心捐款, 在网上给网友发了张帖子, 并号召网友转发,下表是发帖后一段时间收到帖子的人数统计:天数x 1 2 3 4 5 6 7 人数y711212466115325(1)作出散点图,并猜测x 与y 之间的关系. (2)建立x 与y 的关系, 预报回归模型.(3)如果此人打算在帖子传播10天时进行募捐活动, 根据上述回归模型, 估计可去多少人.解:(1)画出散点图如图所示.从散点图可以看出x 与y 不具有线性相关关系, 同时可发现样本点分布在某一个函数曲线y =k e mx的周围, 其中k, m 是参数.(2)对y =k e mx两边取对数,把指数关系变成线性关系. 令z =ln y ,则变换后的样本点分布在直线z =bx +a (a =ln k, b =m )的周围, 这样就可以利用线性回归模型来建立x 与y 之间的非线性回归方程了, 数据可以转化为:天数x 1 2 3 4 5 6 7人数的 对数z 1.946 2.398 3.045 3.178 4.190 4.745 5.784求得回归直线方程为z ^=0.620x +1.133, 所以y ^=e 0.620x +1.133.(3)当x =10, 此时y ^=e 0.620×10+1.133≈1 530(人). 所以估计可去1 530人.独立性检验(1)近几年高考中对独立性检验的考查频率有所降低,题目多以解答题形式出现,一般为容易题,多与概率、统计等内容综合命题.(2)独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系” 这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系” 成立,在该假设下构造的随机变量K 2应该很小,如果由观测数据计算得到的K 2的观测值k 很大,则在一定程度上说明假设不合理,根据随机变量K 2的含义,可以通过概率P (K 2≥6.635)≈0.01来评价该假设不合理的程度,由实际计算出的k >6.635,说明该假设不合理的程度约为99%,即“两个分类变量有关系” 这一结论成立的可信程度约为99%.[考点精要]在实际问题中常用的几个数值(1)K 2≥6.635表示认为“X 与Y 有关系”犯错误的概率不超过0.01. (2)K 2≥3.841表示认为“X 与Y 有关系”犯错误的概率不超过0.05.(3)K2≥2.706表示认为“X与Y有关系”犯错误的概率不超过0.1.[典例] 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食为肉类为主.)(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯.(2)根据以上数据完成如表所示的2×2列联表.主食蔬菜主食肉类总计50岁以下50岁以上总计(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?[解] (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.(2)2×2列联表如表所示:主食蔬菜主食肉类总计50岁以下481250岁以上16218总计201030(3)随机变量K2的观测值k=30×8-128212×18×20×10=30×120×12012×18×20×10=10>6.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.[类题通法]独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K2统计量法:通过公式K 2=n ad -bc 2a +bc +d a +cb +d先计算观测值k ,再与临界值表作比较,最后得出结论.[题组训练]1.下表是某地区的一种传染病与饮用水的调查表:得病 不得病 总计 干净水 52 466 518 不干净水 94 218 312 总计146684830(1)能否在犯错误概率不超过0.01的前提下认为这种传染病与饮用水的卫生程度有关,请说明理由.(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析能否在犯错误概率不超过0.025的前提下认为这种疾病与饮用水有关.解:(1)把表中的数据代入公式得 K 2的观测值k =830×52×218-466×942146×684×518×312≈54.21.∵54.21>6.635,所以在犯错误的概率不超过0.01的前提下,认为该地区这种传染病与饮用水不干净有关.(2)依题意得2×2列联表:得病 不得病 总计 干净水 5 50 55 不干净水 9 22 31 总计147286此时,K 2的观测值k =86×5×22-50×9214×72×55×31≈5.785.因为5.785>5.024,所以能在犯错误概率不超过0.025的前提下认为该种疾病与饮用水不干净有关. 2.2016年第三十一届奥运会在巴西首都里约热内卢举行,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:是否愿意提供志愿者服务性别愿意不愿意男生 20 10 女生1020(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人, 其中男生抽取多少人?(2)在(1)中抽取的6人中任选2人, 求恰有一名女生的概率.(3)你能否在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关?下面的临界值表供参考:P (K 2≥k 0)0.150.100.05 0.025 0.010 0.005 0.001k 02.072 2.706 3.841 5.024 6.635 7.879 10.828独立性检验统计量K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)由题意,男生抽取6×2020+10=4(人),女生抽取6×1020+10=2(人).(2)在(1)中抽取的6人中任选2人,恰有一名女生的概率P =C 14C 12C 26=815.(3)K 2=60×20×20-10×10230×30×30×30≈6.667,由于6.667>6.635,所以能在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关.1.在两个学习基础相当的班级实行某种教学措施的实验,测试结果见下表,则实验效果与教学措施( )优、良、中差 总计 实验班 48 2 50 对比班 38 12 50 总计86 14100A .有关 C .关系不明确D .以上都不正确解析:选A 随机变量K 2的观测值k =100×48×12-38×2250×50×86×14≈8.306>6.635,则有99%的把握认为“实验效果与教学措施有关”.2.下列说法中正确的有:( ) ①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.A .①②B .②③C .①③D .①②③解析:选C 若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确.r <0,表示两个变量负相关,x 增大时,y 相应减小,故②错误.|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.3.有下列数据( )x 1 2 3y35.99 12.01下列四个函数中,模拟效果最好的为( ) A .y =3×2x -1B .y =log 2xC .y =3xD .y =x 2解析:选A 分别把x =1,2,3,代入求值,求最接近y 的值.即为模拟效果最好,故选A .4.若两个变量的残差平方和是325, i =1n(y i -y )2=923,则随机误差对预报变量的贡献率约为( )A .64.8%B .60%C .35.2%D .40%解析:选C 由题意可知随机误差对预报变量的贡献率约为325923≈0.352.5.已知x 与y 之间的几组数据如下表:x 1 2 3 4 5 6 y21334假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y ′=b ′x +a ′,则以下结论正确的是( )A .b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C .b ^< b ′,a ^>a ′ D.b ^<b ′,a ^<a ′解析:选C 过(1,0)和(2,2)的直线方程为y =2x -2,画出六点的散点图,回归直线的大概位置如图所示,显然b ^<b ′,a ^>a ′. 故选C .6.收集一只棉铃虫的产卵数y 与温度x 的几组数据后发现两个变量有相关关系,并按不同的曲线来拟合y 与x 之间的回归方程,并算出了对应相关指数R 2如下表:拟合曲线直线指数曲线 抛物线二次曲线 y 与x 回归方程y ^=19.8x -463.7 y ^=e 0.27x -3.84y ^=0.367x 2-202 y ^=x -0.782-1相关指数R 20.7460.9960.9020.002则这组数据模型的回归方程的最好选择应是( ) A .y ^=19.8x -463.7 B .y ^=e 0.27x -3.84 C .y ^=0.367x 2-202 D .y ^=x -0.782-1解析:选B 用相关指数R 2来刻画回归效果,R 2的值越大,说明模型的拟合效果越好. 7.某学校对课程《人与自然》的选修情况进行了统计,得到如下数据:选 未选 总计 男 405 45 450 女 230 220 450 总计635265900那么,认为选修《人与自然》与性别有关的把握是________. 解析:K 2=n ad -bc 2a +bc +d a +cb +d=163.794>10.828,即有99.9%的把握认为选修《人与自然》与性别有关. 答案:99.9%8.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min) 62758189现发现表中有一个数据模糊看不清,请你推断出该数据的值为________.解析:由表知x =30,设模糊不清的数据为m ,则y =15(62+m +75+81+89)=307+m5,因为y =0.67x +54.9,即307+m5=0.67×30+54.9,解得m =68. 答案:689.变量U 与V 相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U 与V 的线性回归分析,R 2表示解释变量对于预报变量变化的贡献率,则R 2=______.解析:在线性回归中,相关指数R 2等于相关系数,由x 1=1,x 2=2,x 3=3,x 4=4得:x =2.5,y 1=1.4,y 2=2.2,y 3=3,y 4=3.8得:y =2.6,所以相关系数r =∑i =14x i -xy i -y∑i =14x i -x2∑i =14y i -y2= 1.5×1.2+0.5×0.4+0.5×0.4+1.5×1.2-1.52+-0.52+0.52+1.52·-1.22+-0.42+0.42+1.22=45× 3.2=44=1.故R 2=1. 答案:110.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据,试问:文科学生总成绩不好与数学成绩不好有关系吗?总成绩情况数学成绩情况总成绩好 总成绩不好总计 数学成绩好 478 12 490 数学成绩不好399 24 423 总计87736913解:根据题意,计算随机变量的观测值: K 2=913×478×24-399×122490×423×877×36≈6.233>5.024,因此有97.5%的把握认为“文科学生总成绩不好与数学成绩不好有关系”. 11.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如表所示:积极参加 班级工作 不太主动 参加班级工作总计 学习积极性高 18学习积极性一般19总计50(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是1225,请完成上面的2×2列联表.(2)在(1)的条件下,试运用独立性检验的思想方法分析:在犯错误概率不超过0.1%的情况下判断学生的学习积极性与对待班级工作的态度是否有关?并说明理由.P (K 2≥k 0)0.010 0.005 0.001 k 06.635 7.879 10.828解:(1)如果随机抽查这个班的一名学生,抽到积极参加班级工作的学生的概率是1225,所以积极参加班级工作的学生有24人,由此可以算出学习积极性一般且积极参加班级工作的人数为6,不太主动参加班级工作的人数为26,学习积极性高但不太主动参加班级工作的人数为7,学习积极性高的人数为25,学习积极性一般的人数为25,得到:积极参加 班级工作 不太主动 参加班级工作总计 学习积极性高 18 7 25 学习积极性一般6 19 25 总计 242650(2)K 2=50×18×19-6×7225×25×24×26≈11.538,因为11.538>10.828,所以在犯错误的概率不超过0.001的前提下可以认为学习积极性与对待班级工作的态度有关系.12.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷总计男女1055总计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:K2=n ad-bc2a+b c+d a+c b+d.P(K2≥k0)0.050.01k03.8416.635解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:非体育迷体育迷总计男301545女451055总计7525100将2×2列联表中的数据代入公式计算,得K2=n ad-bc2a+b c+d a+c b+d=100×30×10-45×15275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}.其中a i表示男性,i=1,2,3.b j表示女性,j=1,2.Ω由10个基本事件组成,而且这些基本事件的出现是等可能的.用A表示“任选2人中,至少有1人是女性”这一事件,则A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},事件A由7个基本事件组成,因而P(A)=710.。
统计案例教案
word 专业资料-可复制编辑-欢迎下载高中数学人教版选修 1-2 全套教案第一章统计案例第一课时 1.1 回归分析的基本思想及其初步应用(一)教学要求:通过典型案例的探索,进一步了解回归分析的基本思想、方法及初步应用. 教学重点: 了解线性回归模型与函数模型的差异, 了解判断刻划模型拟合效果的方法- 相关指数和残差分析.教学难点:解释残差变量的含义,了解偏差平方和分解的思想. 教学过程: 一、复习准备: 1. 提问: “名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学 生吗?这两者之间是否有关? 2. 复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是 对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:采集数据 作散 点图 求回归直线方程 利用方程进行预报. 二、讲授新课: 1. 教学例题: ① 例 1 从某大学中随机选取 8 名女大学生,其身高和体重数据如下表所示: 8 170/cm 体 重 /kg求根据一位女大学生的身高预报她的体重的回归方程, 并预报一位身高为 172cm 的女大 学生的体重. (分析思路 教师演示 学生整理)70 60 50 40体 3020 10 0 155 160 165身高/cm170 175 180150编 号 身 高 4 1706 1653 1572 1651 1657 1555 1754843 61 64 54 5950 57第一步:作散点图第二步:求回归方程第三步:代值计算②提问:身高为 172cm 的女大学生的体重一定是 60.316kg 吗?不一定,但普通可以认为她的体重在 60.316kg 摆布.③ 解释线性回归模型与一次函数的不同事实上,观察上述散点图,我们可以发现女大学生的体重y 和身高x 之间的关系并不能用一次函数y = bx + a 来严格刻划(因为所有的样本点不共线,所以线性模型只能近似地刻划身高和体重的关系) . 在数据表中身高为 165cm 的 3 名女大学生的体重分别为48kg、57kg 和 61kg,如果能用一次函数来描述体重与身高的关系,那末身高为 165cm 的 3 名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果e (即残差变量或者随机变量) 引入到线性函数模型中,得到线性回归模型y = bx + a + e ,其中残差变量e 中包含体重不能由身高的线性函数解释的所有部份. 当残差变量恒等于 0 时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的普通形式.2. 相关系数:相关系数的绝对值越接近于 1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是故意义.3. 小结:求线性回归方程的步骤、线性回归模型与一次函数的不同.第二课时 1.1 回归分析的基本思想及其初步应用(二)教学要求:通过典型案例的探索,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学过程:一、复习准备:1.由例 1 知,预报变量(体重)的值受解释变量(身高)或者随机误差的影响. 2.为了刻划预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大 程度上与随机误差有关?我们引入了评价回归效果的三个统计量: 总偏差平方和、 残差 平方和、回归平方和. 二、讲授新课:1. 教学总偏差平方和、残差平方和、回归平方和:(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即 SST =n(y y)2 .ii =1残差平方和:回归值与样本值差的平方和,即 SSE =n(y y )2 .i ii =1回归平方和:相应回归值与样本均值差的平方和,即 SSR =n(y y)2 .ii =1(2)学习要领:①注意 y 、 y 、 y 的区别;②预报变量的变化程度可以分解为由解释i i变 量 引 起 的 变 化 程 度 与 残 差 变 量 的 变 化 程 度 之 和 , 即n(y y)2 =n(y y )2 +n(y y)2 ;③当总偏差平方和相对固定时,残差平方和i i i ii =1 i =1 i =1越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数 R 2 = 1来刻划回归的效果, 它表示解释变量对预报变i =1量变化的贡献率. R 2 的值越大, 说明残差平方和越小, 也就是说模型拟合的效果越好. 2. 教学例题:例 2 关于x 与Y 有如下数据:为了对 x 、 Y 两个变量进行统计分析,现有以下两种线性模型: y = 6.5x +17.5 ,y = 7x +17 ,试比较哪一个模型拟合的效果更好.分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和, 也可分别 求出两种模型下的相关指数,然后再进行比较,从而得出结论.4 408 706 502 305 60xy(答案: R 2 = 1 i = 1 = 1 = 0.845 ,5(y y )21 5 (y y)21000ii =1R 2 = 12 = 1= 0.82 ,84.5%>82%,所 5 (y y)21000 ii =1以甲选用的模型拟合效果较好.)3. 小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同 模型拟合效果的好坏.第三课时 1.1 回归分析的基本思想及其初步应用(三)教学要求:通过典型案例的探索,进一步了解回归分析的基本思想、方法及初步应用. 教学重点: 通过探索使学生体味有些非线性模型通过变换可以转化为线性回归模型, 了 解在解决实际问题的过程中寻觅更好的模型的方法.教学难点: 了解常用函数的图象特点, 选择不同的模型建模, 并通过比较相关指数对不 同的模型进行比较. 教学过程: 一、复习准备:1. 给出例 3:一只红铃虫的产卵数 y 和温度x 有关,现采集了 7 组观测数据列于下表中, 试建立 y 与x 之间的回归方程.(学生描述步骤,教师演示)2. 讨论:观察右图中的散点图, 发现样本点并没有分布在某 个带状区域内,即两个变量不呈线性相关关系,所以不能直接 用线性回归方程来建立两个变量之间的关系. 二、讲授新课:1. 探索非线性回归方程的确定:① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果温度x / C 产 卵 数 y /个32 11535 32529 6625 2123 1127 2421 7产 150100 50 0350 300 250 数 200 20 温度40卵3010i i 155 i i180散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模.② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线 y = C e C 2 x 的周围1(其中 c , c 是待定的参数),故可用指数函数模型来拟合这两个变量.1 2③ 在上式两边取对数, 得ln y = c x + ln c ,再令 z = ln y ,则 z = c x + ln c ,而 z 与x 间2 1 2 1的关系如下:7 6 5 4 3 2 1 0 20 x观察 z 与x 的散点图,可以发现变换后样本点分布在一条直线的附近,因此可以用线性 回归方程来拟合.④ 利 用 计 算 器 算 得 a = 3.843, b = 0.272 , z 与 x 间 的 线 性 回 归 方 程 为z = 0.272x 3.843 ,因此红铃虫的产卵数对温度的非线性回归方程为 y = e 0.272 x3.843.⑤ 利用回归方程探索非线性回归问题,可按“作散点图 建模 确定方程”这三个 步骤进行.其关键在于如何通过适当的变换, 将非线性回归问题转化成线性回归问题. 2. 小结:用回归方程探索非线性回归问题的方法、步骤. 三、巩固练习:为了研究某种细菌随时间x 变化,繁殖的个数, 采集数据如下:(1)用天数作解释变量, 繁殖个数作预报变量,作出这些数据的散点图;(2 ) 试求出预报变量对解释变量的回归方程. (答案: 所求非线性回归方程为=e 0.69 x +1.112 .)第四课时 1.1 回归分析的基本思想及其初步应用(四)天数 x /天 繁殖个数 y /个6 1904 492 123 255 951 6X 21 23 25 27 29 32 35 z 1.946 2.398 3.045 3.178 4.190 4.745 5.784403010z教学要求:通过典型案例的探索,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:通过探索使学生体味有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻觅更好的模型的方法,了解可用残差分析的方法,比较两种模型的拟合效果.教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较.教学过程:一、复习准备:1. 提问:在例 3 中,观察散点图,我们选择用指数函数模型来拟合红铃虫的产卵数y 和温度x 间的关系,还可用其它函数模型来拟合吗?2. 讨论:能用二次函数模型t 441 529 625 729 841 1024 1225y 7 11 21 24 66 115 325 400300 y = c x2 + c 来拟合上述两个变量间的关系3 4y 200100 吗?(令t = x2 ,则y = c t + c ,此时y 与t 间3 4************的关系如下:t观察y 与t 的散点图,可以发现样本点并不分布在一条直线的周围,因此不宜用线性回归方程来拟合它,即不宜用二次曲线y = c x2 + c3 4 来拟合y 与x 之间的关系. )小结:也就是说,我们可以通过观察变换后的散点图来判断能否用此种模型来拟合. 事实上,除了观察散点图以外,我们也可先求出函数模型,然后利用残差分析的方法来比较模型的好坏.二、讲授新课:1. 教学残差分析:① 残差:样本值与回归值的差叫残差,即e = y y .i i i② 残差分析:通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.③ 残差图:以残差为横坐标,以样本编号,或者身高数据,或者体重估计值等为横坐标,作出的图形称为残差图. 观察残差图,如果残差点比较均匀地落在水平的带状区域中,word 专业资料-可复制编辑-欢迎下载说明选用的模型比较合适,这样的带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高.2. 例 3 中的残差分析:计算两种模型下的残差普通情况下,比较两个模型的残差比较艰难 (某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果. 残差平方和越小的模型,拟合的效果越好.由于两种模型下的残差平方和分别为 1450.673 和 15448.432,故选用指数函数模型的拟合效果远远优于选用二次函数模型. (固然,还可用相关指数刻划回归效果)3. 小结:残差分析的步骤、作用三、巩固练习:练习:教材 P13 第 1 题第一课时 1.2 独立性检验的基本思想及其初步应用(一)教学要求:通过探索“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的实施步骤与必要性.教学重点:理解独立性检验的基本思想及实施步骤.教学难点:了解独立性检验的基本思想、了解随机变量K2 的含义.教学过程:一、复习准备:回归分析的方法、步骤,刻划模型拟合效果的方法 (相关指数、残差分析)、步骤.二、讲授新课:1. 教学与列联表相关的概念:① 分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.② 列联表:分类变量的汇总统计表(频数表).普通我们只研究每一个分类变量只取两个值,这样的列联表称为2 2 . 如吸烟与患肺癌的列联表:2. 教学三维柱形图和二维条形图的概念:由列联表可以粗略估计出吸烟者和不吸烟者患肺癌的可能性存在差异. (教师在课堂上用 EXCEL 软件演示三维柱形图和二维条形图,引导学生观察这两类图形的特征,并分析由图形得出的结论)3. 独立性检验的基本思想:① 独立性检验的必要性 (为什么中能只凭列联表的数据和图形下结论? ):列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上合用于总体.②独立性检验的步骤 (略) 及原理 (与反证法类似):③上例的解决步骤第一步:提出假设检验问题H :吸烟与患肺癌没有关系一0H :吸烟与患肺癌有1关系假设检验备择假设 H1在 H 不成立的条件下,即 H 成立的条件下进行推理1 0推出有利于 H 成立的小概率事件(概率不超过α 的事件)1发生,意味着 H 成立的可能性(可能性为(1-α )) 很1大推出有利于 H 成立的小概率事件不发生,接受原假设1反证法要证明结论 A在 A 不成立的前提下进行推理推出矛盾,意味着结论 A 成立没有找到矛盾,不能对 A 下任何结论,即反证法不成功不患肺癌患肺癌总计不吸烟 7775 42 7817 吸烟 2099 49 2148 总计 9874 91 9965第二步:选择检验的指标 K 2= n(ad bc)2(它越小,原假设“H :(a + b)(c + d )(a + c)(b + d ) 0吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H :吸烟与患肺癌有1关系”成立的可能性越大.第三步:查表得出结论第二课时 1.2 独立性检验的基本思想及其初步应用(二)教学要求:通过探索“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本 数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的实施步骤与必要性.教学重点:理解独立性检验的基本思想及实施步骤.教学难点:了解独立性检验的基本思想、了解随机变量 K 2 的含义. 教学过程: 一、复习准备:独立性检验的基本步骤、思想 二、 讲授新课: 1. 教学例 1:例 1 在某医院,因为患心脏病而住院的 665 名男性病人中, 有 214 人秃顶;而此外 772 名不是因为患心脏病而住院的男性病人中有 175 名秃顶. 分别利用图形和独立性检验 方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?① 第一步:教师引导学生作出列联表,并分析列联表,引导学生得出“秃顶与患心脏 病有关”的结论;第二步:教师演示三维柱形图和二维条形图, 进一步向学生解释所得到的统计结果; 第三步: 由学生计算出 K 2 的值;P (k 2>k 0.50 0.40 0.25 0.15 0.10 0.0 0.02 0.01 0.00 0.00) 55 0 5 1k 0.45 0.70 1.32 2.07 2.70 3.8 5.02 6.63 7.87 10.85 8 3 26 4 4 5 9 3第四步:解释结果的含义.② 通过第 2 个问题, 向学生强调 “样本只能代表相应总体”,这里的数据来自于医院的 住院病人, 因此题目中的结论能够很好地合用于住院的病人群体, 而把这个结论推广到 其他群体则可能会浮现错误,除非有其它的证据表明可以进行这种推广. 2. 教学例 2:例 2 为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中 随机抽取 300 名学生,得到如下列联表:由表中数据计算得到 K 2 的观察值 k ϖ 4.513 . 在多大程度上可以认为高中生的性别与 是否数学课程之间有关系?为什么? (学生自练,教师总结)强调: ①使得 P(K 2 3.841) ϖ 0.05 成立的前提是假设 “性别与是否喜欢数学课程之间没有关系”.如果这个前提不成立,上面的概率估计式就不一定正确; ②结论有 95%的把握认为“性别与喜欢数学课程之间有关系”的含义;③在熟练掌握了两个分类变量的独立性检验方法之后,可直接计算 K 2 的值解决实际问 题,而没有必要画相应的图形,但是图形的直观性也不可忽视. 3. 小结: 独立性检验的方法、原理、 步骤 三、巩固练习:某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表: 请问有 多大把握认为“高中生学习状况与生理健康有关”?健 康 626 296 922不健康41 37 78不优秀 优 秀 总 计总计 667 333 1000不喜欢数学课程85 143 228喜欢数学课程 37 35 72总 计 122 178 300总 计男女。
高中数学 第一章统计案例学案 新人教A版选修1-2
回归分析的基本思想及其初步应用(一)1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;2. 了解线性回归模型与函数模型的差异,了解衡量两个变量之间线性相关关系得方法---相关系数.一、课前准备(预习教材P2~ P4,找出疑惑之处)问题1:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?复习1:函数关系是一种关系,而相关关系是一种关系.复习2:回归分析是对具有关系的两个变量进行统计分析的一种常用方法,其步骤:→→→ .二、新课导学※学习探究实例从某大学中随机选取8名女大学生,其身高/cm和体重/kg数据如下表所示:为172cm的女大学生的体重.解:由于问题中要求根据身高预报体重,因此选自变量x,为因变量.(1)做散点图:从散点图可以看出和有比较好的相关关系.(2) x= y=81i iix y ==∑821iix==∑所以81822188i iiiix y x y bx x==-==-∑∑a y bx=-≈于是得到回归直线的方程为(3)身高为172cm的女大学生,由回归方程可以预报其体重为y=问题:身高为172cm的女大学生,体重一定是上述预报值吗?思考:线性回归模型与一次函数有何不同?新知:用相关系数r可衡量两个变量之间关系.计算公式为r =r>0, 相关, r<0 相关;相关系数的绝对值越接近于1,两个变量的线性相关关系,它们的散点图越接近;r>,两个变量有关系.※典型例题例1某班5名学生的数学和物理成绩如下表:(2) 求物理成绩y 对数学成绩x 的回归直线方程;(3) 该班某学生数学成绩为96,试预测其物理成绩;变式:该班某学生数学成绩为55,试预测其物理成绩;小结:求线性回归方程的步骤:※ 动手试试练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x 的线性回归方程y bx a =+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?⨯+⨯+⨯+⨯=)(参考数值3 2.543546 4.566.5三、总结提升※学习小结1. 求线性回归方程的步骤:2. 线性回归模型与一次函数有何不同※知识拓展在实际问题中,是通过散点图来判断两变量之间的性关系的,※自我评价你完成本节导学案的情况为().A. 很好B. 较好C. 一般D. 较差※当堂检测(时量:5分钟满分:10分)计分:1. 下列两个变量具有相关关系的是()A. 正方体的体积与边长B. 人的身高与视力C.人的身高与体重D.匀速直线运动中的位移与时间2. 在画两个变量的散点图时,下面哪个叙述是正确的()A. 预报变量在x 轴上,解释变量在y 轴上B. 解释变量在x 轴上,预报变量在y 轴上C. 可以选择两个变量中任意一个变量在x 轴上D. 可选择两个变量中任意一个变量在y 轴上3. 回归直线y bx a=+必过()A. (0,0)B. (,0)x yx C. (0,)y D. (,)4.r越接近于1,两个变量的线性相关关系 .5. 已知回归直线方程0.50.81=-,则25y xx=时,y的估计值为 .一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:(2)求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制在什么范围内?§1.1.1回归分析的基本思想及其初步应用(二)1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;2. 了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.3. 会用相关指数,残差图评价回归效果.一、课前准备(预习教材P4~ P7,找出疑惑之处)复习1:用相关系数r可衡量两个变量之间关系.r>0, 相关, r<0 相关;r越接近于1,两个变量的线性相关关系,它们的散点图越接近;r ,两个变量有关系.复习2:评价回归效果的三个统计量:总偏差平方和;残差平方和;回归平方和.二、新课导学※学习探究探究任务:如何评价回归效果?新知:1、评价回归效果的三个统计量(1)总偏差平方和:(2)残差平方和:(3)回归平方和:2、相关指数:2R 表示 对 的贡献,公式为:2R =2R 的值越大,说明残差平方和 ,说明模型拟合效果 .3、残差分析:通过来判断拟合效果.通常借助 图实现.残差图:横坐标表示 ,纵坐标表示 .残差点比较均匀地落在 的区的区域中,说明选用的模型 ,带状区域的宽度越 ,说明拟合精度越 ,回归方程的预报精度越 .※ 典型例题例1关于x 与y 有如下数据:为了对x 、y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好?小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.例2 假定小麦基本苗数x 与成熟期有效苗穗y 之间存在相关关系,今测得5组数据如下:(2)求回归方程并对于基本苗数56.7预报期有效穗数;(3)求2R ,并说明残差变量对有效穗数的影响占百分之几.(参考数据:2115101.51,6746.76,n ni i i i i x x y ====∑∑ 521()50.18i i yy =-=∑, 521()9.117i i i y y =-=∑)※ 动手试试练1. 某班5名学生的数学和物理成绩如下表:(4)求学生A,B,C,D,E 的物理成绩的实际成绩和回归直线方程预报成绩的差2i i e y y =-.并作出残差图评价拟合效果.小结:1. 评价回归效果的三个统计量:2. 相关指数评价拟合效果:3. 残差分析评价拟合效果:三、总结提升※学习小结一般地,建立回归模型的基本步骤:1、确定研究对象,明确解释、预报变量;2、画散点图;3、确定回归方程类型(用r判定是否为线性);4、求回归方程;5、评价拟合效果.※知识拓展在现行回归模型中,相关指数2R表示解释变量对预报变量的贡献率,2R越接近于1,表示回归效果越好.如果某组数据可以采取几种不同的回归方程进行回归分析,则可以通过比较2R作出选择,即选择2R大的模型.※自我评价你完成本节导学案的情况为().A. 很好B. 较好C. 一般D. 较差※当堂检测(时量:5分钟满分:10分)计分:1. 两个变量 y 与x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 2R 如下 ,其中拟合效果最好的模型是( ).A. 模型 1 的相关指数2R 为 0.98B. 模型 2 的相关指数2R 为 0.80C. 模型 3 的相关指数2R 为 0.50D. 模型 4 的相关指数2R 为 0.252. 在回归分析中,残差图中纵坐标为( ).A. 残差B. 样本编号C. xD. n e3. 通过12,,,n e e e 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分工称为( ).A.回归分析B.独立性检验分析C.残差分析D. 散点图分析4.2R 越接近1,回归的效果 .5. 在研究身高与体重的关系时,求得相关指数 2R = ,可以叙述为“身高解释了69%的体重变化,而随机误差贡献了剩余 ”所以身高对体重的效应比随机误差的 .练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据(1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y bx a =+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值3 2.543546 4.566.5⨯+⨯+⨯+⨯=)(4)求相关指数评价模型.§1.1.1回归分析的基本思想及其初步应用(三)1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;2. 通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法.3. 了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较.一、课前准备(预习教材P4~ P7,找出疑惑之处)复习1:求线性回归方程的步骤复习2:作函数2x=+的图像y xy=和20.25二、新课导学※学习探究探究任务:如何建立非线性回归模型?实例一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,试建立y与x之间的回归方程.温度/x C21 23 25 27 29 32 35产卵数y个7 11 21 24 66 115 325(1)根据收集的数据,做散点图上图中,样本点的分布没有在某个区域,因此两变量之间不呈关系,所以不能直接用线性模型.由图,可以认为样本点分布在某一条指数函数曲线bx a=的周围(,a by e+为待定系数).对上式两边去对数,得ln y=令ln,=,则变换后样本点应该分布在直线z y的周围.这样,就利用模型来建立y和x的非线性回归方程.x 21 23 25 27 29 32 35y 7 11 21 24 66 115 325=lnz yi i由上表中的数据得到回归直线方程z =因此红铃虫的产卵数y 和温度x 的非线性回归方程为※ 典型例题例1一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中, 温度/x C 21 23 25 27 29 3235产卵数y 个7 112124 66 115 325(散点图如由图,可以认为样本点集中于某二次曲线234y c x c =+的附近,其中12,c c 为待定参数)试建立y 与x 之间的回归方程.思考:评价这两个模型的拟合效果.小结:利用线性回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行. 其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.三、总结提升 ※ 学习小结利用线性回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行.※ 知识拓展非线性回归问题的处理方法: 1、 指数函数型bx a y e +=① 函数bx a y e +=的图像:② 处理方法:两边取对数得ln ln()bx ay e+=,即ln y bx a =+.令ln ,z y =把原始数据(x,y )转化为(x,z ),再根据线性回归模型的方法求出,b a . 2、对数曲线型ln y b x a =+ ① 函数ln y b x a =+的图像② 处理方法:设ln x x '=,原方程可化为y bx a '=+ 再根据线性回归模型的方法求出,a b .3、2y bx a =+型处理方法:设2x x '=,原方程可化为y bx a '=+,再根据线性回归模型的方法求出,a b .※ 自我评价 你完成本节导学案的情况为( ). A. 很好 B. 较好 C. 一般 D. 较差 ※ 当堂检测(时量:5分钟 满分:10分)计分:1. 两个变量 y 与x 的回归模型中,求得回归方程为0.232x y e -=,当预报变量10x =时( ). A. 解释变量30y e -= B. 解释变量y 大于30e - C. 解释变量y 小于30e - D. 解释变量y 在30e -左右2. 在回归分析中,求得相关指数20.89R =,则( ). A. 解释变量解对总效应的贡献是11% B. 解释变量解对总效应的贡献是89% C. 随机误差的贡献是89% D. 随机误差的贡献是0.89%3. 通过12,,,n e e e 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( ).A .回归分析B .独立性检验分析C .残差分析 D. 散点图分析 4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线bx a y e +=的周围,令ln z y =,求得回归直线方程为0.25 2.58z x =-,则该模型的回归方程为 . 5. 已知回归方程0.5ln ln 2y x =-,则100x =时,y 的估计值为 .为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;(2)试求出预报变量对解释变量的回归方程.§1.2.1 独立性检验的基本思想及其初步应用1.通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的必要性;2.会根据22 列联表求统计量2K .一、课前准备(预习教材P 12~ P 14,找出疑惑之处)复习1:回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.二、新课导学※学习探究新知1:1.分类变量: .列联表:2. 22.试试:你能列举出几个分类变量吗?探究任务:吸烟与患肺癌的关系1.由列联表可粗略的看出:(1)不吸烟者有患肺癌;(2)不吸烟者有患肺癌.因此,直观上课的结论: .2.用三维柱柱图和二维条形图直观反映:(1)根据列联表的数据,作出三维柱形图:由上图可以直观地看出,吸烟与患肺癌 .(2) 根据列联表的数据,作出二维条形图:由上图可以直观地看出,吸烟与患肺癌 .根据列联表的数据,作出等高条形图:由上图可以直观地看出,吸烟与患肺癌 .反思:(独立性检验的必要性)通过数据和图形,我们得到的直观印象是患肺癌有关.那是否有一定的把握认为“吸烟与患肺癌有关”呢?K新知2:统计量2吸烟与患肺癌列联表假设H:吸烟与患肺癌没关系,则在吸烟者和不吸烟者中患肺癌不患肺癌者的相应比例 .即因此, 越小,说明吸烟与患肺癌之间关系 ;反之, .2K =※ 典型例题例1 吸烟与患肺癌列联表 求2K .※ 动手试试练1. 性别与喜欢数学课程列联表:求K .三、总结提升 ※ 学习小结1. 分类变量: .2. 22 列联表:.K: .3. 统计量2※知识拓展1. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.2. 独立性检验的步骤(略)及原理(与反证法类似):某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:K.求2§1.2.2 独立性检验的基本思想及其初步应用通过探究“秃顶是否与患心脏病有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示患心脏病的秃顶比例比患其它病的秃顶比例高,让学生亲身体验独立性检验的实施步骤与必要性一、课前准备(预习教材P14~ P16,找出疑惑之处)K:复习1:统计量2复习2:独立性检验的必要性:二、新课导学※学习探究新知1:独立性检验的基本思想:1、独立性检验的必要性:2、独立性检验的原理及步骤:味着H 1成立的可能性(可能性为(1- ))很大没有找到矛盾,不能对A 下任何结论,即反证法不成功推出有利于H 1成立的小概率事件不发生,接受原假设探究任务:吸烟与患肺癌的关系第一步:提出假设检验问题 H 0:第二步:根据公式求2K 观测值k =(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越 ;它越大,备择假设“H 1: ” 成立的可能性越大.)第三步:查表得出结论※ 典型例题例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?P (k 2>k ) 0.50 0.40 0.250.15 0.10 0.05 0.025k0.455 0.708 1..323 2.072 2.706 3.84 5.024小结:用独立性检验的思想解决问题:第一步:第二步:第三步:例2为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:k . 在多大程度上可以认为高中生的性别与是否由表中数据计算得到K的观察值 4.513数学课程之间有关系?为什么?※动手试试练1. 某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:请问有多大把握认为“高中生学习状况Array与生理健康有关”?三、总结提升※学习小结1. 独立性检验的原理:2. 独立性检验的步骤:※知识拓展利用独立性检验来考察两个分类变量是否有关,能精确的给出这种判断的可靠程度.※自我评价你完成本节导学案的情况为().A. 很好B. 较好C. 一般D. 较差※当堂检测(时量:5分钟满分:10分)计分:1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A. 若k=6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使推断出现错误.D. 以上三种说法都不对.2. 下面是一个22⨯列联表则表中a,b 的之分别是( )D. 54,523.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:则认为喜欢玩游戏与认为作业量多少有关系的把握大约为( )A. 99%B. 95%C. 90%D.无充分依据4. 在独立性检验中,当统计量2K 满足时,我们有99%的把握认为这两个分类变量有关系. 5. 在22⨯列联表中,统计量2K = . 为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表 能以97.5%的把握认为药物有效吗?为什么?统计案例检测题测试时间:90分钟 测试总分:100分一、选择题(本大题共12小题,每题4分) 1、散点图在回归分析中的作用是 ( ) A .查找个体数目 B .比较个体数据关系 C .探究个体分类D .粗略判断变量是否呈线性关系2、对于相关系数下列描述正确的是 ( ) A .r >0表明两个变量相关 B .r <0表明两个变量无关C .r 越接近1,表明两个变量线性相关性越强D .r 越小,表明两个变量线性相关性越弱3、预报变量的值与下列哪些因素有关 ( ) A .受解释变量影响与随机误差无关 B .受随机误差影响与解释变量无关 C .与总偏差平方和有关与残差无关 D .与解释变量和随机误差的总效应有关4、下列说法正确的是 ( ) A .任何两个变量都具有相关系 B .球的体积与球的半径具有相关关系 C .农作物的产量与施肥量是一种确定性关系 D .某商品的产量与销售价格之间是非确定性关系5、在画两个变量的散点图时,下面哪个叙述是正确的 ( )A. 预报变量在x 轴上,解释变量在 y 轴上B. 解释变量在x 轴上,预报变量在 y 轴上C. 可以选择两个变量中任意一个变量在x 轴上D. 可以选择两个变量中任意一个变量在 y 轴上 6、回归直线y bx a =+必过 ( ) A .(0,0) B .(,0)x C .(0,)y D .(,)x y7、三维柱形图中,主、副对角线上两个柱形高度的 相差越大,要推断的论述成立的可能性就越大 ( ) A .和 B .差 C .积 D .商8、两个变量 y 与x 的回归模型中,求得回归方程为0.232x y e -=,当预报变量10x = ( )A. 解释变量30y e -=B. 解释变量y 大于30e -C. 解释变量y 小于30e -D. 解释变量y 在30e -左右 9、在回归分析中,求得相关指数20.89R =,则( ) A. 解释变量解对总效应的贡献是11% B. 解释变量解对总效应的贡献是89% C. 随机误差的贡献是89% C. 随机误差的贡献是0.89%10、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( )A .若k =6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能 性患肺病.C .若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使得推断出现错误.D .以上三种说法都不对. 11、3. 通过12,,,n e e e 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( )A .回归分析B .独立性检验分析C .残差分析 D. 散点图分析12、在独立性检验时计算的2K 的观测值k =3.99,那么我们有 的把握认为这两个分类变量有关系 ( ) A .90% B .95% C .99% D .以上都不对 二、填空题(本大题共4小题,每题4分)13、已知回归直线方程0.50.81y x =-,则25x =时,y 的估计值为 . 14、如下表所示:计算215、下列关系中:(2)等边三角形的边长和周长;(3)电脑的销售量和利润的关系;(4)日光灯的产量和单位生产成本的关系.不是函数关系的是 .K=27.63,根据这一数16、在一项打鼾与患心脏病的调查中,共调查1768人,经计算的2据分析,我们有理由认为打鼾与患心脏病是的.(填“有关”“无关”)三、解答题(本大题共2小题,每题18分)18、为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表Array能以97.5%的把握认为药物有效吗?为什么?18、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y bx a =+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值3 2.543546 4.566.5⨯+⨯+⨯+⨯=)。
高考数学(人教A版选修1-2)第一轮复习教学案第一章统计案例 学案
第一章统计案例[课标研读][课标要求]了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.(1)独立检验:了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.(2)假设检验:了解假设检验的基本思想、方法及其简单应用.(3)聚类分析:了解聚类分析的基本思想、方法及其简单应用.(4)回归分析:了解回归的基本思想、方法及其简单应用.[命题展望]本章所涉及到的知识点均要进行大量的数据计算,而这些计算如果仅仅靠笔算往往是比较困难的,需要借助于计算机或计算器。
其实在新课标中提到“……应鼓励学生使用计算器、计算机等现代技术手段来处理数据……”,而我们目前的高考还不允许使用计算器,所以本章的更看重统计思想。
考虑到本章内容是新增内容,在高考中应该有所体现,但在高考试题中不会出现过于繁琐的计算题,相信会出现一道填空试题或填空题,出现解答题的可能性较小,即使出现,所涉及的计算应该不会很繁琐。
本章的疑点是用这种方法检验可靠吗?实际上这种方法仍然是用样本估计总体,由于抽样的随机性,结果并不唯一,所以用部分推断全体,推断可能正确,也有可能错误。
但我们只要科学合理地去抽样,那么犯错误的可能性就很小了。
如卡方检验中,若2 6.635χ>,则说明我们犯错误的概率仅为1%,这也是统计方法的魅力所在。
第一讲回归分析的基本思想及其初步应用[知识梳理][知识盘点]1.相关关系是一种非确定的关系,是对具有相关关系的两个变量进行统计分析的一种方法。
2.线性回是模型y bx a e=++(e为),因变量y的值是自变量x和随机误差e共同确定的,即自变量x只能解释部分y的变化,在统计中,我们把自变量x称为,因变量y称为。
3.模型中的参数a和b用估计,其计算公式如下:121()()ˆ()ni iiniix x y ybx x==--=-∑∑,ˆˆa y bx=-,其中11niix xn==∑,1niiy y==∑(,)x y称为,回归直线一定经过样本中心点。
人教A版高中数学选修1-2《一章 统计案例 小结》优质课教案_5
第一章统计案例章末复习辉县市第二高级中学孙利明第一章统计案例章末复习教学设计【学情分析】:通过对本章的复习,学生能在必修课程学习统计的基础上,再次对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。
【教学目标】:1、知识与技能:(1)通过本节的学习,进一步了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模型的基本步骤,并对具体问题进行回归分析,解决实际应用问题。
(2)通过本节知识的学习,进一步了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断。
明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。
2、过程与方法:(1)本节的学习,应该让学生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想,从中引导学生去发现解决问题的新思路—进行回归分析;(2)通过本节复习,学生能从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小。
最后介绍了独立性检验思想的综合运用。
3、情感态度与价值观:通过本节课的学习,首先让学生了解回归分析的必要性和回归分析的基本思想,明确回归分析的基本方法和基本步骤,培养我们利用整体的观点和互相联系的观点,来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心。
还能让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。
【教学重点】:回归分析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法;理解独立性检验的基本思想;独立性检验的步骤。
高中数学 第一章 统计案例学案2 新人教版选修1 2 学案
培养学生探究意识,合作意识,应用用所学知识解决生活中的实际问题。
教材分析
重难点
章节知识点进行归纳整理,典型例题的解决思路及变式训练。
学习设想
教法
引导归纳 , 三主互位导学法
学法
归纳训练
教具
多媒体, 刻度尺
课堂设计
二、填空题(本大题共4小题,每小题5分,共20分.把答案填在题中横线上)
11.关于随机变量K2的判断中,有以下几种说法:
10
15
25
总计
50
50
100
(2)由列联表中的数据,得K2的观测值为
k= ≈1.333<3.841.
所以不能在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系.
16.(本小题满分12分)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了4次试验,得到数据如下:
零件的个数x(个)
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
由计算得: =0.69x+1.115,则有 =e0.69x+1.115.
(3)
6.08
12.12
24.17
48.18
96.06
191.52
y
6
12
25
49
95
190
= (yi- i)2=4.816 1, (yi- )2=24 642.8,
R2=1- ≈0.999 8,
①K2在任何问题中都可以用来检验两个变量有关还是无关;
②K2的值越大,两个分类变量的相关性就越大;
③K2是用来判断两个分类变量是否有关系的随机变量,当K2的值很小时可以判定两个分类变量不相关.
高中数学 第1章 统计案例阶段复习课学案 新人教A版选修1-2
亲爱的同学:这份试卷将再次记录你的自信、沉着、智慧和收获,我们一直投给你信任的目光……学 习 资 料 专 题第一课 统计案例[核心速填]1.线性回归方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线y =bx+a 的斜率和截距的最小二乘估计公式分别为b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中(x ,y )称为样本点的中心.2.线性回归模型为y =bx +a +e ,其中e 为随机误差. 3.残差e ^i =y i -y ^i . 4.刻画回归效果的方法 (1)残差平方和法残差平方和∑i =1n(y i -y ^)2越小,模型拟合效果越好.(2)残差图法残差图形成的带状区域的宽度越窄,模型拟合效果越好. (3)相关指数R 2法R 2越接近1,模型拟合效果越好.5.K 2公式K 2=n ad -bc 2a +cb +d a +bc +d,其中n =a +b +c +d .[题型探究](2)请根据上表提供的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)据此估计2022年该市人口总数.【导学号:48662025】[解] (1)散点图如图:(2)因为x =0+1+2+3+45=2,y =5+7+8+11+195=10,0×5+1×7+2×8+3×11+4×19=132, 02+12+22+32+42=30, 所以b ^=132-5×2×1030-5×22=3.2,a ^=y -b ^x =3.6.所以线性回归方程为y ^=3.2x +3.6. (3)令x =8,则y ^=3.2×8+3.6=29.2, 故估计2020年该城市人口总数为29.2(十万).1.在一段时间内,某种商品的价格x 元和需求量y 件之间的一组数据为:[解] x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15y 2i =122+102+72+52+32=327, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5 x y∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15,所以a ^=7.4+1.15×18=28.1,所以y 对x 的线性回归方程为y ^=-1.15x +28.1, 列出残差表为所以∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R 2=1-∑i =15y i -y ^i2∑i =15y i -y2≈0.994.所以R2≈0.994,拟合效果较好.别有关,决定从本单位全体650人中采用分层抽样的办法抽取50人进行问卷调查,得到了如下列联表:已知在这50人中随机抽取1人抽到喜欢户外运动的员工的概率是5.(1)请将上面的列联表补充完整;(2)求该公司男、女员工各多少人;(3)在犯错误的概率不超过0.005的前提下能否认为喜欢户外运动与性别有关?并说明你的理由.下面的临界值表仅供参考:(参考公式:K2=a +b c+d a+c b+d,其中n=a+b+c+d)【导学号:48662026】[解](1)因为在全部50人中随机抽取1人抽到喜欢户外运动的员工的概率是35,所以喜欢户外运动的男女员工共30人,其中男员工20人,列联表补充如下:(3)K2的观测值k=-230×20×25×25≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为喜欢户外运动与性别有关.先计算观测值k ,再与临界值表作比较,最后得出结论2.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断.[解] 建立性别与态度的2×2列联表如下:根据列联表中所给的数据,可求出男生中作肯定态度的频率为110=0.2,女生中作肯定态度的频率为2260≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.根据列联表中的数据得到K 2的观测值k =-2110×60×44×126≈5.622>5.024.因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.检验每册书的成本费y 与印刷册数的倒数x之间是否具有线性相关关系.如有,求出y对x 的回归方程.思路探究:令z =1x,使问题转化为z 与y 的关系,然后用回归分析的方法,求z 与y的回归方程,进而得出x 与y 的回归方程.[解] 把1x 置换为z ,则有z =1x,从而z 与y 的数据为用线性回归方程来拟合.z =110×(1+0.5+0.333+0.2+0.1+0.05+0.033+0.02+0.01+0.005)=0.225 1, y =110×(10.15+5.52+4.08+…+1.15)=3.14,∑i =110z 2i =12+0.52+0.3332+…+0.012+0.0052≈1.415, ∑i =110z i y i =1×10.15+0.5×5.52+…+0.005×1.15=15.221 02,所以b ^=∑i =110z i y i -10z y∑i =110z 2i -10z 2≈8.976,a ^=y -b ^z =3.14-8.976×0.225 1≈1.120,所以所求的z 与y 的回归方程为y ^=8.976z +1.120. 又因为z =1x ,所以y ^=8.976x+1.120.确定变量,作出散点图根据散点图,选择恰当的拟合函数变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.分析拟合效果:通过计算相关指数或画残差图来判断拟合效果根据相应的变换,写出非线性回归方程[跟踪训练3.在某化学试验中,测得如下表所示的6对数据,其中x(单位:min)表示化学反应进行的时间,y(单位:mg)表示未转化物质的质量.(2)估计化学反应进行到10 min时未转化物质的质量(精确到0.1).【导学号:48662027】[解](1)在y=cd x两边取自然对数,令ln y=z,ln c=a,lnd=b,则z=a+bx.由已知数据,得由公式得a≈3.905 5,b≈-0.221 9,则线性回归方程为z=3.905 5-0.221 9x.而ln c=3.905 5,lnD=-0.221 9,故c≈49.675,d≈0.801,所以c,d的估计值分别为49.675和0.801.(2)当x=10时,由(1)所得公式可得y≈5.4(mg).所以,化学反应进行到10 min时未转化物质的质量约为5.4 mg.。
高中数学 第一章 统计案例学案 新人教A版选修1-2
高中数学第一章统计案例学案_1.1回归分析的基本思想及其初步应用线性回归方程[导入新知] 1.回归分析(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系,即自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系.(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报.2.线性回归模型(1)线性回归模型y =bx +a +e ,其中a 和 b 是模型的未知参数,e 称为随机误差.自变量x 称为解释变量,因变量y 称为预报变量.(2)在回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x .其中x =1n ∑i =1nx i ,y =1n ∑i =1ny i, (x ,y )称为样本点的中心.[化解疑难]线性回归方程中系数b ^的含义(1)b ^是回归直线的斜率的估计值,表示x 每增加一个单位,y 的平均增加单位数,而不是增加单位数.(2)当b ^>0时,变量y 与x 具有正的线性相关关系;当b ^<0时,变量y 与x 具有负的线性相关关系.[导入新知] 1.残差分析 (1)残差:样本点(x n ,y n )的随机误差e i =y i -bx i -a ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,e ^i 称为相应于点(x i ,y i )的残差(residual).(以上i =1,2,…,n )(2)残差图:作图时,纵坐标为残差,横坐标可以选为样本编号,或x i 数据,或y i 数据,这样作出的图形称为残差图.(3)残差分析:残差分析即通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果,其步骤为:计算残差——画残差图——在残差图中分析残差特性.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.2.相关指数我们可以用相关指数R 2来刻画回归的效果,其计算公式是:R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2.R 2越大,残差平方和∑i =1n(y i -y ^i )2越小,即模型的拟合效果越好;R 2越小,残差平方和∑i =1n(y i -y ^i )2越大,即模型的拟合效果越差.在线性回归模型中,R 2的取值范围为[0,1],R 2表示解释变量对于预报变量变化的贡献率,1-R 2表示随机误差对于预报变量变化的贡献率.R 2越接近于1,表示回归的效果越好.[化解疑难]残差分析的注意点在残差图中,可疑数据的特征表现为:(1)个别样本点的残差过大,即大多数的残差点比较均匀地落在水平的带状区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误,如果采集数据有错误,那么需要纠正,然后重新利用线性回归模型拟合数据;如果数据采集没有错误,那么需要寻找其他原因.(2)残差图有异常,即残差呈现不随机的规律性,此时需要考虑所采用的线性回归模型是否合适.[例1]短,因此必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时,钢水的含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一列数据,如下表所示:(1)作出散点图,你能从散点图中发现含碳量与冶炼时间的一般规律吗?(2)求回归方程;(3)预测当钢水含碳量为160时,应冶炼多少分钟?[解] (1)以x轴表示含碳量,y轴表示冶炼时间,作散点图如图所示:从图中可以看出,各点散布在一条直线附近,即它们线性相关.(2)列出下表,并用科学计算器进行计算:设所求的回归方程为y ^=b ^x +a ^,b ^=∑i =110x i y i -10x -y-∑i =110x 2i -10x -2≈1.267,a ^=y -b ^x -≈-30.47.所以所求的回归方程为y ^=1.267x -30.47.(3)当x =160时,y ^=1.267×160-30.47≈173(min),即冶炼时间大约为173 min. [类题通法]求线性回归方程的步骤(1)列表表示x i ,y i ,x i y i ; (2)计算x - y -,∑i =1nx 2i ,∑i =1nx i y i ;(3)代入公式计算a ^,b ^的值; (4)写出回归直线方程. [活学活用]某种产品的广告费支出x (单位:百万元)与销售额y (单位:百万元)之间有如下对应数据:(1)试根据数据预报广告费支出1 000万元的销售额;(2)若广告费支出1 000万元的实际销售额为8 500万元,求误差.解:(1)从画出的散点图(图略)可看出,这些点在一条直线附近,可以建立销售额y 对广告费支出x 的线性回归方程.由题中数据计算可得x -=5,y -=50,由公式计算得b ^=6.5,a ^=17.5,所以y 对x 的线性回归方程为y ^=6.5x +17.5.因此,对于广告费支出为1 000万元(即10百万元),由线性回归方程可以预报销售额为y ^=6.5×10+17.5=82.5(百万元).(2)8 500万元即85百万元,实际数据与预报值的误差为85-82.5=2.5(百万元).[例2] 10次试验,测得的数据如下:(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差; (2)你认为这个模型能较好地刻画零件数和加工时间的关系吗? [解] (1)根据表中数据画出散点图,如图所示.由图可看出,这些点在一条直线附近,可以用线性回归模型来拟合数据.计算得加工时间对零件数的线性回归方程为y ^=0.668x +54.93.残差数据如下表:(2)以零件数为横坐标,残差为纵坐标画出残差图如图所示.由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好.但需注意,由残差图可以看出,第4个样本点和第5个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.[类题通法]残差分析应注意的问题利用残差分析研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后通过图形来分析残差特性,用残差e ^1,e ^2,…,e ^n 来判断原始数据中是否存在可疑数据,用R 2来刻画模型拟合的效果.[活学活用]已知某种商品的价格x (元)与需求量y (件)之间的关系有如下一组数据:求y 关于x 的回归直线方程,并说明回归模型拟合效果的好坏. 解:x =15(14+16+18+20+22)=18,y =15(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15,a ^=7.4+1.15×18=28.1,所以所求回归直线方程是y ^=-1.15x +28.1.列出残差表:y i -y ^i 0 0.3 -0.4 -0.1 0.2 y i -y4.62.6-0.4-2.4-4.4所以∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y -)2=53.2,R 2=1-∑i =15y i -y ^i2∑i =15y i -y-2≈0.994,所以回归模型的拟合效果很好.非线性回归分析[例3]x 0.25 0.5 1 2 4 y1612521试建立y 与x 之间的回归方程.[解] 作出变量y 与x 之间的散点图如图所示.由图可知变量y 与x 近似地呈反比例函数关系.设y =k x,令t =1x,则y =kt .由y 与x 的数据表可得y 与t 的数据表:作出y 与t 的散点图如图所示.由图可知y 与t 呈近似的线性相关关系.又t =1.55,y =7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,b ^=∑i =15t i y i -5t y∑i =15t 2i -5t 2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,a ^=y -b ^t =7.2-4.134 4×1.55≈0.8,∴y ^=4.134 4t +0.8.所以y 与x 的回归方程是y ^=4.134 4x+0.8.[类题通法]非线性回归分析的步骤非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:[活学活用]某电容器充电后,电压达到100 V ,然后开始放电,由经验知道,此后电压U 随时间t 变化的规律用公式U =A e bt(b <0)表示,现测得时间t (s)时的电压U (V)如下表:试求:电压U 对时间t 的回归方程.(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)解:对U =A e bt两边取对数得ln U =ln A +bt ,令y =ln U ,a =ln A ,x =t ,则y =a +bx ,y 与x 的数据如下表:根据表中数据画出散点图,如图所示,从图中可以看出,y 与x 具有较好的线性相关关系,由表中数据求得x =5,y ≈3.045,由公式计算得b ^≈-0.313,a ^=y -b ^x -=4.61,所以y 对x 的线性回归方程为y ^=-0.313x +4.61.所以ln U ^=-0.313t +4.61,即U ^=e -0.313t +4.61=e -0.313t ·e 4.61,因此电压U 对时间t 的回归方程为U ^=e -0.313t ·e 4.61.1.错误理解相关系数的意义而致误[典例] 下列现象的线性相关程度最高的是( )A.某商店的职工人数与商品销售额之间的相关系数为0.87 B.流通费用率与商业利润率之间的相关系数为-0.94C.商品销售额与商业利润率之间的相关系数为0.51D.商品销售额与流通费用率之间的相关系数为0.81[解析] |r|越接近于1,相关程度越高.[答案] B[易错防范]1.本题易错误地认为r 越接近于1,相关程度越高,从而误选A. 2.变量之间线性相关系数r 具有如下性质:(1)r 2≤1,故变量之间线性相关系数r 的取值范围为[-1,1].(2)|r |越大,变量之间的线性相关程度越高;|r |越接近0,变量之间的线性相关程度越低.(3)当r >0时,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关;当r <0时,一个变量增加,另一个变量有减少的趋势,称两个变量负相关;当r =0时,称两个变量线性不相关.[成功破障]变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:选C 对于变量X 与Y 而言,Y 随X 的增大而增大,故变量Y 与X 正相关,即r 1>0;对于变量U 与V 而言,V 随U 的增大而减小,故变量V 与U 负相关,即r 2<0.故r 2<0<r 1.[随堂即时演练]1.(湖北高考)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④解析:选D ①中y 与x 负相关而斜率为正,不正确;④中y 与x 正相关而斜率为负,不正确.2.关于回归分析,下列说法错误的是( )A .在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B .线性相关系数可以是正的也可以是负的C .在回归分析中,如果r 2=1或r =±1,说明x 与y 之间完全线性相关 D .样本相关系数r ∈(-1,1)解析:选D 样本的相关系数应满足-1≤r ≤1.3.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.解析:由相关指数R 2的意义可知,R 2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.答案:85% 15%4.若施肥量x (kg)与小麦产量y (kg)之间的回归直线方程为y ^=250+4x ,当施肥量为50 kg 时,预计小麦产量为________.解析:把x =50代入y ^=250+4x ,可求得y ^=450. 答案:450 kg5.某工厂为了对新研究的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y ^=b ^x +a ^,其中b ^=-20,a ^=y --b ^x -;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)x -=16(8+8.2+8.4+8.6+8.8+9)=8.5,y -=16(90+84+83+80+75+68)=80,从而a ^=y -+20x -=80+20×8.5=250,故y ^=-20x +250.(2)由题意知,工厂获得利润z =(x -4)y =-20x 2+330x -1 000=-20⎝⎛⎭⎪⎫x -3342+361.25,所以当x =334=8.25时,z max =361.25(元).即当该产品的单价定为8.25元时,工厂获得最大利润.[课时达标检测]一、选择题1.为了研究变量x 和y 的线性相关性,甲、乙两人分别利用线性回归方法得到回归直线l 1和l 2,已知两人计算过程中x -,y -分别相同,则下列说法正确的是( )A .l 1与l 2一定平行B .l 1与l 2重合C .l 1与l 2相交于点(x -,y -) D .无法判断l 1和l 2是否相交解析:选C 回归直线一定过样本点的中心(x -,y -),故C 正确.2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:建立的回归模型拟合效果最好的同学是( ) A .甲 B .乙 C .丙 D .丁 解析:选A 相关指数R 2越大,表示回归模型的效果越好.3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,A正确;由回归方程系数的意义可知回归直线过样本点的中心(x -,y -),B 正确;依据回归方程中b ^的含义可知,x 每变化1个单位,y ^相应变化约0.85个单位,C 正确; 用回归方程对总体进行估计不能得到肯定结论,故D 不正确. 4.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元 解析:选B 样本点的中心是(3.5,42),则a ^=y --b ^x -=42-9.4×3.5=9.1,所以回归直线方程是y ^=9.4x +9.1,把x =6代入得y ^=65.5.5.(福建高考)已知x 与y 之间的几组数据如下表:x 1 2 3 4 5 6 y21334假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:选C 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=6i =1x i y i -6x -·y -6i =1x 2i -6x -2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y --b ^x -=136-57×72=-13,所以b ^<b ′,a ^>a ′.二、填空题6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1. 答案:17.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x (cm) 174 176 176 176 178 儿子身高y (cm)175175176177177则y 对x 的线性回归方程为________.解析:设y 对x 的线性回归方程为y ^=b ^x +a ^,由表中数据得x -=176,y -=176,b ^=12,a ^=176-12×176=88,所以y 对x 的线性回归方程为y ^=12x +88.答案:y ^=12x +888.关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070为了对x ,y 两个变量进行统计分析,现有以下两种线性模型:甲:y ^=6.5x +17.5,乙:y ^=7x +17,则________(填“甲”或“乙”)模型拟合的效果更好.解析:设甲模型的相关指数为R 21,则R 21=1-∑i =15y i -y ^i2∑i =15y i -y-2=1-1551 000=0.845;设乙模型的相关指数为R 22,则R 22=1-1801 000=0.82.因为0.845>0.82,即R 21>R 22,所以甲模型拟合效果更好.答案:甲 三、解答题9.假设某设备的使用年限x (年)和所支出的维修费用y (万元)有如下的统计资料:x 2 3 4 5 6 y2.23.85.56.57.0试求:(1)y 与x 之间的回归方程;(2)当使用年限为10年时,估计维修费用是多少? 解:(1)根据表中数据作散点图,如图所示:从散点图可以看出,样本点都集中分布在一条直线附近,因此y 与x 之间具有线性相关关系.利用题中数据得:x =15(2+3+4+5+6)=4,y =15(2.2+3.8+5.5+6.5+7.0)=5,∑5i =1x i y i =2×2.2+3×3.8+4×5.5+5×6.5+6×7.0=112.3, ∑5i =1x 2i =22+32+42+52+62=90,所以b ^=∑5i =1x i y i-5x y ∑5i =1x 2i -5x 2=112.3-5×4×590-5×42=1.23, a ^=y -b ^x =5-1.23×4=0.08,∴线性回归方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元),即当使用10年时,估计维修费用是12.38万元.10.在一段时间内,某种商品的价格x (元)和需求量y (件)之间的一组数据为:需求量y /件 56 50 43 41 37求出y 关于x 的线性回归方程,并说明拟合效果的好坏.(参考数据:∑5i =1x 2i =1 660,∑5i =1x i y i =3 992)解:从作出的散点图(图略)可看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得x =18,y =45.4.由计算公式得b ^=-2.35,a ^=y -b ^x =87.7. 故y 关于x 的线性回归方程为y ^=-2.35x +87.7. 列表:y i -y ^i 1.2 -0.1 -2.4 0.3 1 y i -y -10.64.6-2.4-4.4-8.4所以∑5i =1 (y i -y ^i )2=8.3,∑5i =1(y i -y )2=229.2. 相关指数R 2=1-∑5i =1y i -y ^i 2∑5i =1y i -y2≈0.964.因为0.964很接近于1,所以该模型的拟合效果好.1.2独立性检验的基本思想及其初步应用独立性检验的有关概念[导入新知]1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.2×2列联表假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d3.等高条形图将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.4.K2统计量为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量K2=n ad-bc2,其中n=a+b+c+d为样本容量.a+b c+d a+c b+d5.独立性检验利用随机变量K2来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量独立性检验.[化解疑难]反证法原理与独立性检验原理的比较反证法原理——在假设H0下,如果推出一个矛盾,就证明了H0不成立.独立性检验原理——在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过小概率.独立性检验的步骤[导入新知]独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查下表确定临界值k0.P(K2≥k0)0.500.400.250.150.10k00.4550.708 1.323 2.072 2.706P(K2≥k0)0.050.0250.0100.0050.001k0 3.841 5.024 6.6357.87910.828(2)利用公式K2=n ad-bc2a+b c+d a+c b+d,计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.[化解疑难]详析独立性检验(1)通过列联表或观察等高条形图判断两个分类变量之间有关系,属于直观判断,不足之处是不能给出推断“两个分类变量有关系”犯错误的概率,而独立性检验可以弥补这个不足.(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,需要用独立性检验的方法确认所得结论在多大程度上适用于总体.[例1] 某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.[解] 作列联表如下:相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.[类题通法]细解等高条形图(1)绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;两列的数据对应不同的颜色.(2)等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显⎝ ⎛⎭⎪⎫即a a +b 和c c +d 相差很大,就判断两个分类变量之间有关系.[活学活用]为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:解:等高条形图如下:由图形观察可以看出子女吸烟者中父母吸烟的比例要比子女不吸烟者中父母吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.独立性检验的原理[例2] 数据:患心脏病 未患心脏病总计 每晚都打鼾 30 224 254 不打鼾 24 1 355 1 379 总计541 5791 633根据列联表的独立性检验,能否在犯错误的概率不超过0.001的前提下认为每晚都打鼾与患心脏病有关系?[解] 由列联表中的数据,得K 2的观测值为 k =1 633×30×1 355-224×242254×1 379×54×1 579≈68.033>10.828.因此,在犯错误的概率不超过0.001的前提下,认为每晚都打鼾与患心脏病有关系. [类题通法]解决独立性检验问题的思路解决一般的独立性检验问题,首先由题目所给的2×2列联表确定a ,b ,c ,d ,n 的值,然后代入随机变量K 2的计算公式求出观测值k ,将k 与临界值k 0进行对比,确定有多大的把握认为“两个分类变量有关系”.[活学活用]某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.能否在犯错误的概率不超过0.001的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系?解:根据题目所给数据得如下2×2列联表:合格品 次品 总计 甲在生产现场 982 8 990 甲不在生产现场493 17 510 总计1 475251 500由列联表中的数据,得K 2的观测值为 k =1 500×982×17-8×4932990×510×1 475×25≈13.097>10.828.因此,在犯错误的概率不超过0.001的前提下,认为质量监督员甲在不在生产现场与产品质量好坏有关系.1.独立性检验与统计的综合应用[典例] (12分)某工厂有工人1 000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人).现用分层抽样的方法(按A类、B类分两层)从该工厂的工人中抽取100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表.表1:A类工人生产能力的频数分布表表2:B类工人生产能力的频数分布表(1)确定x,y的值;(2)完成下面2×2列联表,并回答能否在犯错误的概率不超过0.001的前提下认为工人的生产能力与工人的类别有关系?B 类工人总计附:K2=n ad-bc2a+b c+d a+c b+d,P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828[解题流程](2)根据所给的数据可以完成列联表,如下表所示:生产能力分组工人类别[110,130)[130,150)总计A类工人20525B类工人304575总计50501006分由列联表中的数据,得K2的观测值为[活学活用]电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷总计男女总计附:P(K2≥k0)0.050.01k0 3.841 6.635解:由频率分布直方图可知,在抽取的100名观众中,“体育迷”有25名,“非体育迷”有75名,又已知100名观众中女性有55名,女“体育迷”有10名,所以男性有45名,男“体育迷”有15名,从而可完成2×2列联表,如下表:非体育迷 体育迷 总计 男 30 15 45 女 45 10 55 总计7525100由2×2列联表中的数据,得K 2的观测值为 k =100×30×10-15×45245×55×75×25≈3.030.因为3.030<3.841,所以没有充分的证据表明“体育迷”与性别有关.[随堂即时演练]1.观察下列各图,其中两个分类变量x ,y 之间关系最强的是( )解析:选D 在四幅图中,D 图中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选D.2.下面是一个2×2列联表:则表中a ,b 处的值分别为( ) A .94,96 B .52,50 C .52,54D .54,52解析:选C 由⎩⎪⎨⎪⎧a +21=73,a +2=b ,得⎩⎪⎨⎪⎧a =52,b =54.3.独立性检验所采用的思路是:要研究A ,B 两类型变量彼此相关,首先假设这两类变量彼此________.在此假设下构造随机变量K 2,如果K 2的观测值较大,那么在一定程度上说明假设________.答案:无关 不成立4.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K 2的观测值k >6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知,在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知,在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.答案:③5.在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.能否在犯错误的概率不超过0.10的前提下推断:在天气恶劣的飞机航程中,男乘客比女乘客更容易晕机?解:由已知条件得出下列2×2列联表:晕机不晕机总计男乘客243155女乘客82634总计325789由公式可得K2的观测值k=n ad-bc2a+b c+d a+c b+d=8924×26-31×8255×34×32×57≈3.689>2.706.故在犯错误的概率不超过0.10的前提下,认为“在天气恶劣的飞机航程中,男乘客比女乘客更容易晕机”.[课时达标检测]一、选择题1.判断两个分类变量是彼此相关还是相互独立的常用的方法中,最为精确的是( ) A.2×2列联表B.独立性检验C.等高条形图D.其他解析:选B A、C只能直观地看出两个分类变量x与y是否相关,但看不出相关的程度.独立性检验通过计算得出相关的可能性,较为准确.2.假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其2×2列联表为:YXy1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d对同一样本,以下数据能说明X与Y有关的可能性最大的一组为( )A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=3,b=2,c=4,d=5解析:选D 对于同一样本,|ad-bc|越小,说明x与y相关性越弱,而|ad-bc|越大,说明x与y相关性越强,通过计算知,对于A,B,C都有|ad-bc|=|10-12|=2.对于选项D,有|ad-bc|=|15-8|=7,显然7>2.3.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是( )A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即k越小,“X与Y有关系”的可信程度越小.故选B.4.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A和B有关系,则具体计算出的数据应该是( )A.k≥6.635 B.k<6.635C.k≥7.879 D.k<7.879解析:选C 犯错误的概率为0.5%,对应的k0的值为7.879,由独立性检验的思想可知应为k≥7.879.5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2=n ad-bc2a+b c+d a+c b+d算得,观测值k=110×40×30-20×20260×50×60×50≈7.8.。
2021年高中数学第1章统计案例 学案新人教A版选修1-2
第一章统计案例哲学知识告诉我们事物之间是有联系的、联系是普遍的,任何事物都是运动的、任何两个事物之间都存在着普遍联系.具体到现实问题中,我们会发现有些问题是从变化的角度来分析是存在两个都在变化的量,关系非常密切,一个现象发生一定量的变化,另一个现象一般也会发生相应的变化,但又不能用函数概念去定义,也无法用函数的模型来代换.如商场销售收入每增加一万元时,因所卖商品不同,销售利润一般会增加不同的数值;施肥量增加一斤,一般地产量也会增加,但数值有时不固定.5月31日是世界无烟日.有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.这些疾病与吸烟有关的结论是怎样得出的呢?若从数学角度分析,这里的疾病和吸烟就是彼此相关的两个变量.如何用数学的方法来刻画这种变量之间的关系呢?本章要学习的统计案例就是通过对一对变量使用线性回归的方法来研究变量之间的对应关系.通过本章的学习,我们将知道如何研究变量之间的相关关系,如何模拟变量之间的函数关系,如何检验两个变量之间的独立性.1.1回归分析的基本思想及其初步应用自主预习·探新知情景引入人们常说“名师出高徒”.的确,我们看到很多优秀的老师,他们的学生也非常优秀.但是,名师一定出高徒吗?我们也看到,有些名师的弟子并不高明,甚至比较平庸.由此可见,名师和高徒之间不是确定性的关系,也不可否认它们之间有着密切的关系,或者说它们之间是密切相关的,但相关性怎样呢?新知导学1.回归分析(1)概念:回归分析是对具有相关关系的两个变量进行统计分析一种常用方法. (2)步骤:画__散点图__→求__回归方程__→用回归方程进行__预报__. 2.线性回归模型(1)在线性回归方程y ^=a ^+b ^x 中,b ^=__∑i =1n(x i -x )(y i -y )∑i =1n(x i -x)2__= ∑i =1nx i y i -n x - y-∑i =1nx 2i -n x2__,a ^=__y -b ^x ,其中x =__1n ∑i =1n x i __,y =__1n ∑i =1ny i __,(x ,y )称为变量__样本中心点__,回归直线过样本点的中心.(2)线性回归模型y =bx +a +e ,其中e 称为__随机误差__,自变量x 称为__解释__变量,因变量y 称为__预报__变量.3.刻画回归效果的方式 残差 把随机误差的估计值e ^i 称为相应于点(x i ,y i )的残差残差图作图时纵坐标为__残差__,横坐标可以选为__样本编号__,或__身高数据__,或__体重估计值__等,这样作出的图形称为残差图残差图法残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度__越窄__,说明模型拟合精度越高残差平方和残差平方和为__∑ni=1(y i-y^i)2__,残差平方和__越小__,模型拟合效果越好相关指数R2R2=1-__∑i=1n(y i-y^i)2∑i=1n(y i-y)2__,R2表示__解释__变量对__预报__变量变化的贡献率,R2越接近于1,表示回归的效果越好预习自测1.下列结论正确的是(C)①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①②B.①②③C.①②④D.①②③④[解析]函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故③错误,④正确.故选C.2.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归直线方程可能是(A)A.y=0.4x+2.3B.y=2x-2.4C.y=-2x+9.5 D.y=-0.3x+4.4[解析]∵变量x与y正相关,∴C、D排除;又∵线性回归直线方程过点(x,y),排除B;故选A.3.下图是根据变量x、y的观测数据(x i,y i)(i=1,2,…,10)得到的散点图,由这些散点图可以判断变量x、y具有相关关系的图是(D)A .①②B .①④C .②③D .③④[解析] 根据散点图中点的分布情况,可判断③④中的变量x ,y 具有相关的关系. 4.已知x ,Y 的取值如下表:x 2 3 4 5 Y2.23.85.56.5从散点图分析,Y 与x 线性相关,且回归直线方程为y ^=1.42x +a ,则a 的取值为__-0.47__.[解析] x =2+3+4+54=3.5, y =2.2+3.8+5.5+6.54=4.5又∵回归直线过点(x ,y ), ∴4.5=1.42×3.5+a ,∴a =-0.47.5.某个服装店经营某种服装,在某周内获纯利y (元)与该周每天销售这种服装件数x 之间的一组数据关系如表:x 3 4 5 6 7 8 9 y66697381899091(1)求x ,y ;(2)已知纯利y 与每天销售件数x 线性相关,试求出其回归方程. [解析] (1)x =3+4+5+6+7+8+97=6,y =66+69+73+81+89+90+917=5597.(2)因为y 与x 有线性相关关系,所以b ^=∑i =17x i y i -7x y∑i =17x 2i -7x2=3 487-7×6×5597280-7×36=4.75,a ^=5597-6×4.75=71914≈51.36.故回归方程为y ^=4.75x +51.36.互动探究·攻重难互动探究解疑 命题方向❶概念的理解和判断典例1 有下列说法:①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归方程y ^=b ^x +a ^可以估计观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确命题的个数是( C ) A .1 B .2 C .3D .4[思路分析] 由题目可获取以下信息:①线性回归分析;②散点图;③相关性检验等的相关概念及意义.解答本题可先逐一核对相关概念及其性质,然后再逐一作出判断,最后得出结论. [解析] ①反映的正是最小二乘法思想,故正确. ②反映的是画散点图的作用,也正确.③解释的是回归方程y ^=b ^x +a ^的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系. 『规律方法』 解答概念辨析题,应紧扣线性回归分析中每个概念的定义进行,要准确把握概念的内涵.┃┃跟踪练习1__■下面变量关系是相关关系的是( A ) ①学生的学习态度与学习成绩之间的关系; ②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. A .①②B .①③C.②③D.②④[解析]①②是相关关系,③④是非相关关系.命题方向❷线性回归模型典例2一台还可以用的机器由于使用的时间较长,它按不同的转速生产出来的某机械零件有一些会有缺陷,每小时生产有缺陷的零件的多少随机器运转的速率而变化,下表为抽样试验结果:转速x(转/秒)1614128每小时生产有缺陷的零件数Y(件)1198 5(1)画出散点图;(2)如果Y与x有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时生产的产品中有缺陷的零件最多为10个,则机器的运转速度应控制在什么范围内?[解析](1)画出散点图,如图所示:(2)由题意得x=12.5,y=8.25,∑i=14x i y i=438,∑i=14x2i=660,∴b^=∑i=14x i y i-4x y∑i=14x2i-4x2=438-4×12.5×8.25660-4×12.52≈0.728 6,a^=y-b^x=8.25-0.728 6×12.5=-0.857 5.故回归直线方程为y^=0.728 6x-0.857 5.(3)令0.728 6x-0.857 5≤10,得x≤108 5757 286≈14.9,故机器的转速应控制在14.9转/秒以下.┃┃跟踪练习2__■下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产量x(t)与相应的生产能耗y(t)的几组对应数据:x 345 6y2.5 t4 4.5根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,那么表中t 的值为( A )A .3B .3.15C .3.5D .4.5[解析] 样本中心点是(x -,y -),即(4.5,11+t 4).因为回归直线过该点,所以11+t 4=0.7×4.5+0.35,解得t =3.命题方向❸线性回归分析典例3 某运动员训练次数与训练成绩之间的数据关系如下: 次数(x ) 30 33 35 37 39 44 46 50 成绩(y )3034373942464851(1)(2)求出回归方程; (3)作出残差图;(4)计算R 2,并说明运动员的训练次数对成绩的影响占百分之几.[解析] (1)作出该运动员训练次数(x )与成绩(y )的散点图,如图所示.由散点图可知,它们之间具有相关关系.(2)x =39.25,y=40.875,∑i =18x 2i =12 656,∑i =18x i y i =13 180,所以b ^=∑i =18(x i -x )(y i -y )∑i =18(x i -x )2=∑i =18x i y i -8x y∑i =18x 2i -8x2≈1.041 5,a ^=y -b ^x =-0.003 875,∴回归直线方程为y ^=1.041 5x -0.003 875.(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.x y b ^=y -y ^ 30 30 -1.241 1 33 34 -0.365 6 35 37 0.551 4 37 39 0.468 4 39 42 1.385 4 44 46 0.177 9 46 48 0.094 9 5051-1.071 1由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适. (4)计算相关指数R 2≈0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.『规律方法』 1.解答本类题目应先通过散点图来分析两个变量间的关系是否线性相关,再利用求回归方程的公式求解回归方程,并利用残差图或R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.2.“R 2、残差图”在回归分析中的作用:(1)R 2是用来刻画回归效果的,由R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2可知R 2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.┃┃跟踪练习3__■一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得数据如下:零件数x(个)102030405060708090100 加工时间y(min)626875818995102108115122(1)计算总偏差平方和、残差平方和及相关指数;(2)作出残差图;(3)进行残差分析.[解析](1)由x、y的数据得散点图如图.由散点图可以认为样本点大致分布在某条直线的附近,因此可以用线性回归模型来拟合.设线性回归方程为y^=a^+b^x,列出下表:i 1234 5x i(个)1020304050y i(min)6268758189x i y i620 1 360 2 250 3 240 4 450i 678910x i(个)60708090100y i(min)95102108115122x i y i 5 7007 1408 64010 35012 200 所以x=55,y≈91.7,b^=∑i=110x i y i-10x y∑i=110x2i-10x2=55 950-10×55×91.738 500-10×552≈0.668,a^=y-b^x≈91.7-0.668×55≈54.96.因此,线性回归方程为y^=0.668x+54.96.将数据代入相应公式可得如下数据表:零件数x(个)1020304050加工时间 y (min) 62 68 75 81 89 (y i -y )2 882.09 561.69 278.89 114.49 7.29 y ^=0.668x +54.96 61.64 68.32 75.0 81.68 88.36 残差 0.36 -0.32 0 -0.68 0.64 零件数 x (个) 60708090100加工时间 y (min) 95 102 108 115 122 (y i -y )2 10.89 106.09 265.69 542.89 918.09 y ^=0.668x +54.96 95.04 101.72 108.4 115.08 121.76 残差-0.040.28-0.4-0.080.24所以总偏差平方和为3 688.1,残差平方和为1.408,相关指数R 2=1-1.4083 688.1≈0.999 6.(2)作出残差图如图,横坐标为零件数的数据,纵坐标为残差.(3)由题中数据可得样本相关系数r 的值为0.999 8,再结合散点图可以说明x 与y 有很强的线性相关关系.由R 2的值可以看出回归效果很好,也说明用线性回归模型拟合数据效果很好.由残差图也可以观察到,第4个样本点和第5个样本点的残差比较大,需要确认在采集在这两个样本点的过程中是否有人为的错误.易混易错警示准确理解概念和参数的含义典例4 关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070为了对x 、y 两个变量进行统计分析,现有以下两种线性模型:甲模型y ^=6.5x +17.5,乙模型y ^=7x +17,试比较哪一个模型拟合的效果更好.[错解] ∵R 2甲=1-∑i =15(y i -y ^i )25i =1(y i -y -)2=1-1551 000=0.845, R 2乙=1-∑i =15(y i -y -i )2∑i =15(y i -y -)2=1-1801 000=0.82,∴R 2甲>R 2乙.∴乙模型拟合的效果更好.[辨析] 明确R 2的大小与拟合效果的关系用相关指数R 2来比较模型的拟合效果,R 2越大,模型的拟合效果越好,并不是R 2越小模型的拟合效果越好.[正解] ∵R 2甲=1-∑i =15(y i -y ^i )25i =1(y i -y -)2=1-1551 000=0.845,R 2乙=1-∑i =15(y i -y -i )2∑i =15(y i -y -)2=1-1801 000=0.82,∴R 2甲>R 2乙.∴甲模型拟合的效果更好. ┃┃跟踪练习4__■甲、乙、丙、丁4位同学各自对A ,B 两个变量进行回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ^i )2如表:甲 乙 丙 丁散点图残差平方和115106124103A .甲B .乙C .丙D .丁[解析] 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持殊差平方和越小,由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些,故选D .学科核心素养 可线性化的回归分析当回归方程不是形如y =bx +a (a 、b ∈R )时,称之为非线性回归方程 ,非线性回归方程也可以线性化,依据样本点的分布态式选择合适的曲线方程来拟合数据,其具体步骤如下:(1)作散点图确定曲线模型因为曲线所对应的函数种类繁多,这就要求我们充分想象,大胆猜测拟合函数类型,估计使用哪个函数拟合.(2)非线性转化为线性先通过适当变换化非线性关系为线性关系:①指数型:y =ca x (a >0且a ≠1,c >0,a ,c 为常数). 两边取自然对数ln y =ln(ca x ), 即ln y =ln c +x ln a ,令⎩⎪⎨⎪⎧y ′=ln yx ′=x ,原方程变为y ′=ln c +x ′ ln a , 然后按线性回归模型求出ln a ,ln c . ②对数型:y =a +b ln x (a ,b 为常数,x >0).令⎩⎪⎨⎪⎧ y ′=y ,x ′=ln x ,原方程变为y ′=a +bx ′, 然后按线性回归模型求出a ,b .③幂函数:y =ax n (a ,n 为常数,a ,x 均取正值). 两边取常用对数lg y =lg(ax n ),令⎩⎪⎨⎪⎧y ′=lg y ,x ′=lg x ,原方程变为y ′=nx ′+lg a , 然后按线性回归模型求出n ,lg a . ④y =bx 2+a 型(a ,b 为常数).令⎩⎪⎨⎪⎧y ′=y ,x ′=x 2,原方程变为y ′=bx ′+a , 然后按线性回归模型求出a ,b .⑤y =a +bx 型(a ,b 为常数,x ≠0).令⎩⎪⎨⎪⎧y ′=y x ′=1x ,原方程变为y ′=a +bx ′, 然后按线性回归模型求出a ,b . (3)分析模型的拟合效果对于同一问题可以有几种不同的拟合模型,对于给定的样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以通过以下几种方式确定选用哪种模型更合适.①可以根据转换后的对应数据作散点图来确定线性回归的拟合情况,判断使用哪一种曲线模型较为合适.②可以通过原始数据及y 和x 之间的非线性回归方程列出残差对比分析表,一般通过残差平方和比较两种模型的拟合效果,其中残差平方和较小的拟合效果较好.③还可以用R 2来比较模型的拟合效果,R 2越大(越接近1),拟合效果越好.典例5 对某种书籍的成本费Y (元)与印刷册数x (千册)的数据做了初步处理,得到下面的散点图及一些统计量的值.x y w∑i =16(x i -x )2i =16w 2i -6w 2∑i =16x i y i -6xy∑i =16w i y i -6wy 4.834.22 0.377 5 60.17 0.60 -39.384.8表中w i =1x i ,w =16∑i =16w i .为了预测印刷20千册时每册的成本费,建立了两个回归模型:y =a +bx ,y =c +dx .(1)根据散点图,你认为选择哪个模型预测更可靠?(只选出模型即可)(2)根据所给数据和(1)中选择的模型,求Y 关于x 的回归方程,并预测印刷20千册时每册的成本费.附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计公式分别为β^=∑i =1nu i v i -n uv∑i =1nu2i -n u2,α^=v -β^u .[思路分析] (1)根据散点图可得到选择模型y =c +dx 更可靠的结论.(2)建立Y 关于w 的线性回归方程y ^=d ^w +c ^,求得Y 关于w 的线性回归方程为y ^=1.2+8w ,再求出Y 关于x 的回归方程,令x =20,求出y ^的值,得到印刷20千册时每册的成本费.[解析] (1)由散点图可以判断,模型y =c +dx更可靠.(2)建立Y 关于w 的线性回归方程y ^=d ^w +c ^,则d ^=∑i =16w i y i -6w y∑i =16w 2i -6w 2=4.80.60=8, ∴c ^=y -d ^w =4.22-0.377 5×8=1.2,∴Y 关于w 的线性回归方程为y ^=1.2+8w ,因此,Y 关于x 的回归方程为y ^=1.2+8x.当x =20时,预测该书每册的成本费为y ^=1.2+820=1.6(元).1.2 独立性检验的基本思想及其初步应用自主预习·探新知情景引入饮用水的质量是人类普遍关心的问题.据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人,人的身体健康状况与饮用水的质量之间有关系吗?新知导学1.分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的__不同类别__,像这样的变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的__频数表__称为列联表.②2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d2.等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否__相互影响__,常用等高条形图表示列联表数据的__频率特征__.(2)观察等高条形图发现__aa+b__和__cc+d__相差很大,就判断两个分类变量之间有关系.3.独立性检验定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=__a+b+c+d__具体步骤①确定α,根据实际问题的需要,确定允许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定__临界值K0__.②计算K2,利用公式计算随机变量K2的__观测值k__.③下结论,如果__k≥K0__,就推断“X与Y有关系”,这种推断__犯错误的概率__不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中__没有发现足够证据__支持结论“X与Y有关系”预习自测1.如下是一个2×2列联表,则表中m,n的值分别为(B)A.10,38B.17,45C.10,45D.17,38[解析]由题意,根据2×2列联表可知:a+35=45,解得a=10,则m=a+7=10+7=17,又由35+b=73,解得b=38,则n=7+38=45,故选B.2.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定断言“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过(C)A.0.25B.0.75C.0.025 D.0.975[解析]通过查表确定临界值k.当k>k0=5.024时,推断“X与Y”有关系这种推断犯错误的概率不超过0.025.3.春节期间,“厉行节约,反对浪费”之风悄然吹开.某市通过随机询问100名性别不同的居民是否能做到“光盘”,得到如下表格:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d).参照附表,得到的正确结论是__③__.(只填正确的序号)①在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”;②在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”;③有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”;④有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”.[解析] 由2×2列联表得到a =43,b =9,c =32,d =16,则a +b =52,c +d =48,a +c =75,b +d =25,ad =688,bc =288,n =100.代入K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2=100×(688-288)252×48×75×25≈3.419.因为2.706<3.419<3.841.所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.4.(2019·全国卷Ⅰ文,17)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828[解析] (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K 2的观测值k =100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.互动探究·攻重难互动探究解疑 命题方向❶等高条形图的应用典例1 从发生交通事故的司机中抽取2 000名司机作随机样本,根据他们血液中是否含有酒精以及他们是否对事故负有责任将数据整理如下:有责任 无责任 总计 有酒精 650 150 800 无酒精 700 500 1 200 总计 1 3506502 000试分析血液中含有酒精与对事故负有责任是否有关系.[解析] 作等高条形图如下,图中阴影部分表示有酒精负责任与无酒精负责任的比例,从图中可以看出,两者差距较大,由此我们可以在某种程度上认为“血液中含有酒精与对事故负有责任”有关系.『规律方法』 通过等高条形图可以粗略地直观判断两个分类变量是否有关系,一般地,在等高条形图中,a a +b 与cc +d相差越大,两个分类变量有关系的可能性就越大.┃┃跟踪练习1__■某学校对高三学生做了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.[解析] 作列联表如下:性格内向 性格外向 总计 考前心情紧张 332 213 545 考前心情不紧张94 381 475 总计4265941 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.命题方向❷独立性检验的应用典例2某中学对高二甲、乙两个同类班级,进行“加强‘语文阅读理解’训练,对提高‘数学应用题’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:60分以下61-70分71-80分81-90分91-100分甲班(人数)31161218乙班(人数)78101015现规定平均成绩在80分以上(不含80分)的为优秀.(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面2×2列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?优秀人数非优秀人数合计甲班乙班合计参考公式及数据:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828 [思路分析](1)由表格统计出甲、乙两个班的总人数和优秀人数,求出优秀率;(2)依统计数据填写列联表,代入公式计算K 2的估计值,查表下结论. [解析] (1)由题意知,甲、乙两班均有学生50人, 甲班优秀人数为30人,优秀率为3050=60%,乙班优秀人数为25人,优秀率为2550=50%,所以甲、乙两班的优秀率分别为60%和50%. (2)因为K 2=100×(25×30-25×20)255×45×50×50≈1.010<3.841,所以由参考数据知,没有95%的把握认为有帮助. 『规律方法』 1.独立性检验的步骤:第一步,确定分类变量,获取样本频数,得到列联表.第二步,根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k 0.第三步,利用公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算随机变量K 2的观测值K 0.第四步,作出判断.如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”.2.由于独立性检验计算量大,要细致,避免计算失误. ┃┃跟踪练习2__■目前,学案导学模式已经成为教学中不可或缺的一部分,为了了解学案的合理使用是否对学生的期末复习有着重要的影响,我校随机抽取100名学生,对学习成绩和学案使用程度进行了调查,统计数据如下表所示:合计100已知随机抽查这100名学生中的一名学生,抽到的是善于使用学案的学生的概率是0.6. (1)请将上表补充完整(不用写计算过程);(2)试运用独立性检验的思想方法分析:有多大的把握认为学生的学习成绩与对学案的使用程度有关.[解析] (1)补全的列联表如下:善于使用学案不善于使用学案合计 学习成绩优秀 40 10 50 学习成绩一般20 30 50 合计 6040100(2)K 2=100×(40×30-10×20)250×50×60×40≈16.667>6.635,故有99%的把握认为学生的学习成绩与对学案的使用程度有关.易混易错警示准确掌握公式中的参数含义典例3 有甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表班级与成绩列联表优秀 不优秀 总计 甲班 10 35 45 乙班 7 38 45 总计177390试问能有多大把握认为“成绩与班级有关系”? [错解]由公式得:K 2=90×(10×7-35×38)217×73×45×45=56.86,56.86>6.635所以有99%的把握认为“成绩与班级有关系”.[辨析] 由于对2×2列联表中a ,b ,c ,d 的位置不清楚,在代入公式时代错了数值导致计算结果的错误.[正解]K2=90×(10×38-7×35)217×73×45×45=0.653,0.653<2.706,所以没有充分证据认为成绩与班级有关.学科核心素养独立性检验的基本思想1.独立性检验的基本思想独立性检验的基本思想是要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下我们构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过P(k≥6.635)≈0.01来评价假设不合理的程度,计算出k>6.635,说明假设不合理的程度约为99%,即两个分类变量有关这一结论成立的可信度为99%,不合理的程度可查下表得出:P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.82 8反证法假设检验要证明结论A 备选假设H1在A不成立的前提下进行推理在H1不成立,即H0成立的条件下进行推理推出矛盾,意味着结论A成立推出有利于H1成立的小概率事件发生,意味着H1成立的可能性没有找到矛盾,不能对A下任何结论,即反证法不成功推出有利于H1成立的小概率事件不发生,接受原假设独立性检验的思想来自统计中的假设检验思想,它与反证法类似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推出“矛盾”来断定结论是否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指一种不符合逻辑事情的发生,而假设检验中的“矛盾”是指一种不符合逻辑的小概率事件的发生,即在结论不成立的假设下,推出有利于结论成立的小概率事件发生.我们知道小概率事件在一次试验中通常是不会发生的,若在实际中这个事件发生了,说明保证这个事件为小概率事件的条件有问题,即结论在很大的程度。
人教A版高中数学选修1-2《一章 统计案例 1.2 独立性检验的基本思想及其初步应用》优质课教案_7
《独立性检验》教学设计新课标教材人教A版《数学1-2》(选修) 第一章统计案例一、教学目标1.使学生理解分类变量(也称属性变量或定性变量)的含义,体会两个分类变量之间可能具有相关性;2.通过对典型案例(吸烟和患肺癌有关吗?)的探究,使学生了解独立性检验(只要×2列联表)的基本思想、方法、步骤及应用; 求23.鼓励学生体验用多种方法(等高条形图和独立性检验)解决同一问题,并对各种方法的优缺点进行比较;4.让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性(如统计可能犯错误,原因可能是收集的数据样本容量小或样本采集不合理,也可能是理论上的漏洞,如在一次实验中,我们假设小概率事件不发生,这一点本身就值得质疑). 二、重点本节的重点内容是通过实例让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤.三、难点在授课过程中,学生学习过程中遇到的困难主要有以下几个方面:1.的结构的比较奇特,也来的有点突然,学生可能会提出疑问。
2.如何理解独立性检验的基本思想,3.独立性检验的一般步骤及背后的理论依据是什么,4.为什么在最后表达结论的时候要说明“在犯错误的概率不超过XX的前提下”。
四、教学模式“问题串”模式为主,理清教学思路,鼓励学生思考;“讲授式”为辅,解释学生难以自主探究的知识内容.教学师生活动设计意图环节通过游戏激发学生[有奖竞猜] 的学习兴趣,为本引师:播放一段视频(《铁齿铜牙纪晓岚》),让学生猜出电视节课的主要问题—子剧的名称—吸烟与健康是否生:观看视频,抢答有关做好铺垫.通过这个问题,希问望学生能回忆起统师:问题1:吸烟会影响到烟民的寿命吗,“吸烟有害健康”,计的基本原则,即题这是我们很熟悉的常识,因此我们很自然地认为,吸烟会减样本容量不能太损人的寿命,然而也有很多例外。
一个吸烟而且长寿的人的小,样本的抽取方导例子能说明吸烟对人的健康没有影响吗,为什么, 式应尽量保证随机生:思考,回答性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章 统计案例 1.1 独立性检验【要点梳理】1、统计学提出假设0H ,采用统计量=2χ作出判断.2、一般地,对两个研究对象I 和II ,要推断“I 与II 有关系”,其基本步骤: (1) ; (2) ; (3) .3、(1)如果观测值2χ ,那么有99.9%的把握认为“I 与II 有关系”; (2)如果观测值2χ ,那么有99%的把握认为“I 与II 有关系”; (3)如果观测值2χ ,那么有90%的把握认为“I 与II 有关系”;(4)如果观测值2χ ,那么就认为没有充分的证据显示“I 与II 有关系”,但也不能认为“Ⅰ与Ⅱ没有关系”。
【典型例题】例1、为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机问在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?为什么? 解:提出假设H0:性别与是否喜欢数学课程之间没有关系 根据列联表中的数据,可以求得514.41781222287235851433730022≈⨯⨯⨯⨯-⨯⨯=)(χ因为当H0成立时,841.32≥χ的概率约为0.05,所以有95%的把握认为:性别与是否喜欢数学课程之间有关系.点评:由列联表的数据可知,有%3012237≈的男生喜欢数学课程,有 %2017835≈的女生喜欢数学课程,从直观上看,性别与是否喜欢数学课程之间有关系.用2χ进行独立检验,给出这个判断的可信程度.例2、调查339名50岁以上吸烟习惯与患慢性气管炎的情况,获数据如下试问:(1)吸烟习惯与患慢性气管炎病是否有关? (2)用假设检验的思想给予证明. 解:(1)根据列联表的数据,得到()()()()()c d b d c a b a bc ad n ++++-=22χ=()1342835620513162121433392⨯⨯⨯⨯-⨯⨯=7.469>6.635.所以有99%的把握认为“吸烟与患慢性气管炎病有关”. (2)假设“吸烟与患慢性气管炎之间没有关系”,由于事件A={}635.62≥χ的概率为P 01.0)635.6(2≈≥χ,即A 为小概率事件而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.点评:用独立性检验解决问题要抓住步骤,用好公式细心计算 .例3、对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别. 解:提出假设:0H :两种手术对病人又发作心脏病的影响没有差别. 根据列联表中的数据,可以求得78.119619632468157291673939222≈⨯⨯⨯⨯-⨯⨯=)(χ. 当0H 成立时78.12≈χ,而072.22<χ的概率为0.85.所以,不能否定假设0H .也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论.点评:本题是利用))()()(()(22d b c a d c b a bc ad n ++++-=χ,求出2χ的值,再利用临界值的大小关系来判断假设是否成立,解题时应注意准确代数与计算,不可错用公式;准确进行比较与判断.【阶梯练习】★基础练习★1、下列关于卡方2χ的说法正确的是( ) A.2χ在任何相互独立问题中都可用与检验是否相关 B. 2χ的值越大,两个事件的相关性越大C.2χ是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这类问题D. ))()()(()(2d b c a d c b a bc ad n ++++-=χ.2、在吸烟与患肺病这两个分类变量的计算中,下列说法中正确的是( )A. 若统计量635.62>χ,我们有99%的把握说吸烟与患肺病有关,则某人吸烟,那么他有99%的可能患有肺病B. 若从统计中求出,有99%的把握说吸烟与患肺病有关,则在100个吸烟者中必有99人患有肺病C. 若从统计量中求出有95%把握说吸烟与患肺病有关,是指有5%的可能性使得推断错误D. 以上说法均错误3根据以上数据,则下列说法正确的是( ) A. 种子经过处理跟是否生病有关 B. 种子经过处理跟是否生病无关 C. 种子是否经过处理决定是否生病 D. 以上都是错误的4、若由一个22⨯列联表中的数据计算得013.42=χ,那么有 的把握认为两个变量有关系.5、独立性检验所采用的思路是:要研究A 、B 两类型因子彼此相关,首先假设这两类因子彼此 ,在此假设下构造2χ统计量.如果2χ的观测值较大,那么在一定程度上说明假设 . ★能力训练★6、某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该搜集那些数据?.7、打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得数据,试问:每一晚都打与患心脏病有关吗?有多大把握认为你的结论成立?8、为了研究某种新药的副作用(如恶心等),给50位患者服用此新药,另外50名患者服用请问服用新药是否可产生副作用?9、某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革的关系,随机抽取了189名员工进行调查,其中支持企业改革的调查者中,工作积极的54人,工作一般的32人,而不太赞成企业改革的调查者中,工作积极的40人,工作一般的63人.2 的列联表;(1)根据以上数据建立一个2(2)对于人力资源部的研究项目,根据以上数据可以认为企业的全体员工对待企业改革的态度与其工作积极性是否有关系?1.2 回归分析【要点梳理】1、称为是确定性函数,中,的关系与εεbx a bx a y x y +++= ;称为ε++=bx a y .2、直线x b a y ∧∧∧+=对数据的称为n ,此直线方程即为线性回归方程;=∧a b a 的估计值其中, x b y ∧-,=∧b ∑∑∑∑====--=---ni ini iini ini i ix n xyx n yx x xy y x x1221121)()())((,=x ,=y ,称为∧a ,称为∧b ,称为∧y .3、),(,),,(),,(2211n n y x y x y x n y x 对数据随机抽取到与对于变量,检验统计量是样本相关系数 =r ⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡--=----∑∑∑∑∑∑======212212111221)()()()())((ni i ni i ni ii n i ni ii ni i iy n y x n x yx n yx y y x x y y x x并且具有以下性质:,1≤r r r 越接近于1,线形相关程度越 ;r 越接近于0,线形相关程度越 .4、检验的步骤如下:(1)作统计假设: .(2)根据小概0.05与2-n 在附表中查出r 的一个临界值05.0r .(3) 根据样本相关系数计算公式算出的r 值(4) 作统计推断,如果05.0r r >,表明有 的把握认为x 与y 之间具有线形相关关系.如果 ,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的.【典型例题】例1、 关于某设备的使用年限x 和所支出的维修费用y (万元),有如 下的统计资料:如由资料可知y 对x 呈线形相关关系. 试求: (1) 线形回归方程;(2) 估计使用年限为10年时,维修费用是多少? 解:(1)55.75.65.58.32.2,4565432=++++==++++=y x∑∑====515123.112,90i i i i iy x x()23.145905453.112552251251=⨯-⨯⨯-=--=∑∑==∧xx yx yx b i i i ii 于是08.0423.15=⨯-=-=∧∧x b y a .所以线形回归方程为:.08.023.1+=+=∧x a bx y (2)当10=x 时,)(38.1208.01023.1万元=+⨯=∧y 即估计使用10年是维修费用是12.38万元.点评:已知y x 与呈线性相关关系,就无须进行相关性检验.否则,应先进行相关性检验,若两个变量不具备相关关系,或者说,它们之间相关关系不显著,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.例2、一个车间为了规定工时定额,须要确定加工零件所花费的时间,为此进行了10次实验,测得的数据如下:(1)?是否具有线性相关关系与x y(2)如果.回归直线方程具有线形相关关系,求与x y (3) 并据此估计加工200个零件所用的时间为多少? 解:(1)5510100908070605040302010=+++++++++=x7.9110122115108102958981756862=+++++++++=y∑∑∑======1011011012255950,87777,38500i i i i i i iy x y x.于是:()()()()9998.07.9110877775510385007.91551055950101010221012210122101≈⨯-⨯-⨯⨯-=⎪⎭⎫ ⎝⎛-⎪⎭⎫ ⎝⎛--=∑∑∑===i i i i i ii y y x x yx yx r又查得相应于显著性水平0.05和2-n 的相关系数临界值632.005.0=r ,由.05.0具有相形相关关系与知,x y r r >(2)设所求的回归直线方程为a bx y +=∧,同时,利用上表可得()668.0551*******.915510559501010222≈⨯-⨯⨯-=--=∑∑∧x x y x y x b ii i ,96.5455668.07.91=⨯-=-=∧∧x b y a .即所求的回归直线方程为96.54668.0+=∧x y .(3)当200=x 时,y 的估计值56.18896.54200668.0=+⨯=∧y189≈.故加工200个零件时所用的工时约为189个.点评:作相关性检验有时也用画散点图,观察所给的数据列成的点是否在一条直线的附近,这样做既直观又方便,因而对解相关性检验问题常用,但在许多实际问题中,有时很难说这些点是不是分布在一条直线的附近,这时就很难判断两个变量之间是否有相关关系,这时就应该利用样本的相关系数对其进行相关性检验;这种方法虽然较为繁琐,但却非常准确.在计算中应该特别注意要细心,不可出现计算的错误,也可借助于计算器等进行有关计算. 例3、 为了解某地母亲身高x 与女儿身高y 的相关关系,随机测得10对母女的身高如下表所示:解:(),8.158157160159101=+++= x (),1.159156159158101=+++= y()()∑=⨯-+++=-6.478.1581015716015910222222 x x i(),2.371.1598.1581015615715916015815910=⨯⨯-⨯++⨯+⨯=-∑ y x yx ii()()∑=⨯-+++=-,9.561.1591015615915810222222 yyi所以.71.09.566.472.37≈⨯=r而由附表查得632.005.0=r ,因为05.0r r >,从而有95%的把握认为x 与y 之间具有线性相关关系.回归系数.92.348.158782.01.159,78.06.472.37≈⨯-=≈=∧∧a b所以y 对x 的回归直线方程是.78.092.34x y +=∧回归系数0.78反映出当母亲身高每增加1cm 时,女儿身高平均增加0.78cm ,92.34=∧a 可以解释为女儿身高不受母亲身高变化影响的部分.当161=x 时,5.16016178.092.34=⨯+=∧y ,这就是说当母亲身高为161cm 时,女儿的身高大致也接近161cm. 【阶梯训练】 ★基础练习★1、长方形的面积一定时,长和宽具有 ( ) A.不确定性关系 B.相关关系 C.函数关系 D.无任何关系2、线性回归方程bx a y +=必定过 ( )A.()点,00 B.()点0,x C.()点,y 0 D.()点y x , 3、三点(3,10)、(7,20)、(11,24)的线性回归方程是 A.x y 175-=∧B.x y 75.175.5+-=∧C.x y 517-=∧D.x y 75.175.5+=∧4、为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地作了100次和150次试验,并且利用线性回归的方法,求得回归直线分别为1l 和2l ,已知两个人在试验中发现对变量x 的观测数据的平均值都是m ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是A.),(21t m l l 有交点和B.),21t m l l (相交,但交点不一定是和C.必定平行和21l lD. 必定垂直和21l l★能力训练★5、下列说法正确的是 ( ) A. 任何两种变量都具有相关关系B. 球的体积与该球的半径具有相关关系C. 农作物的产量与施肥之间是一种确定性关系D. 某商品的生产量与该商品的销售价格之间是一种非确定性关系6、对于回归分析,下列说法错误的是 ( )A. 在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量惟一确定B. 线性相关系数可以是正的或负的C. 回归分析中,如果12=r 或1±=r ,说明x 与y 之间完全线性相关D. 样本相关系数)1,1(-∈r7、已知x 、y 之间的数据如下表所示,则x 与y 之间的线性回归方程过点A.(0,0)B.(0,x )C.(y ,0)D.(y x ,) ★链接高考★8、(06山东济宁)设有一个回归方程为x y 53-=∧,变量x 增加一个单位时 ( )A.y 平均增加3个单位B.y 平均增加5个单位C.y 平均减少5个单位D.y 平均减少3个单位9、(06山东泰安)若回归直线方程中的回归系数0=b 时,则相关系数为( )A.1=rB.1-=rC.0=rD. 无法确定10、(06广东中山)在一个22⨯列联表中,由其数据计算得097.132=k ,则其两个变量间有关系的可能性为 ( ) A.99% B.95% C.90% D.无关系11、(06山东烟台)线性回归方程∧∧+=a bx y 必过 ( ) A.(0,0) B.(0,x ) C.(y ,0) D.(y x ,)本章总览【知识架构】1、本章主要讨论了如何样本数据对总体进行分析、估计和预测.独立性检验通过2χ统计量,运用假设检验的方法,研究了两个“变量”之间是否具有相互独立这一在医学、社会经济、生活、科学技术等方面具有重要意义的问题2、对独立性检验的结果,通常以为这是一个统计量,不要误以为它们之间存在因果关系,可以利用统计量去估计它们的值,但不要绝对化.3、独立性检验的应用十分广泛,它在生物统计、医学统计等学科中的应用十分广泛,在处理社会问题时得到得数据中,也常常用到独立性检验.4、样本相关系数r 的计算公式:))(())(()()())((222222y n y x n x yx n yx y y y xy y x x r iiiii ii i-∙--=-∙---=∑∑∑∑∑∑及r 的性质:(1)1≤r ;(2)r 越接近于1,y x ,的线性相关程度越强; (3)r 越接近于0,y x ,的线性相关程度越弱. 5、相关性检验的一般步骤:(1) 作统计假设:假设x 与y 不具有线性相关关系.(2) 根据小概率0.05与2-n 在相关性检验的临界值表中查出05.0r 的一个临界值.(3)根据样本相关系数的计算公式计算出r 的值.(4)作统计推断,如果05.0r r >表明有95%的把握认为x 与y 之间具有线性相关关系;如果05.0r r ≤,则没有理由拒绝原来的假设,即x 与y 不具有线性相关关系,从而求回归直线方程是毫无意义的. 【本章评价】 一、选择题:1、 在画两个变量的散点图时,下面哪个叙述是正确的( ) (A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上 (C)可以选择两个变量中任意一个变量在x 轴上 (D)可以选择两个变量中任意一个变量在y 轴上2、设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵截距是a ,那么必有( ) (A) b 与r 的符号相同 (B) a 与r 的符号相同 (C) b 与r 的相反 (D) a 与r 的符号相反3、一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93 用这个模型预测这个孩子10岁时的身高,则正确的叙述是( ) (A)身高一定是145.83cm (B)身高在145.83cm 以上 (C)身高在145.83cm 以下 (D)身高在145.83cm 左右4、两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数r 如下 ,其中拟合效果最好的模型是( )(A)模型1的相关指数r 为-0.98 (B) 模型2的相关指数r 为0.80 (C)模型3的相关指数r 为0.50 (D) 模型4的相关指数r 为0.255、工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ6090yx =+,下列判断正确的是( ) (A)劳动生产率为1000元时,工资为50元 (B)劳动生产率提高1000元时,工资提高150元 (C)劳动生产率提高1000元时,工资提高90元 (D)劳动生产率为1000元时,工资为90元6、为研究变量x 和y 的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线方程1l 和2l ,两人计算知x 相同,y 也相同,下列正确的是( )(A) 1l 与2l 重合 (B) 1l 与2l 一定平行 (C) 1l 与2l 相交于点),(y x (D) 无法判断1l 和2l 是否相交 7、考察棉花种子经过处理跟生病之间的关系得到如下表数据:(A)种子经过处理跟是否生病有关 (B)种子经过处理跟是否生病无关(C)种子是否经过处理决定是否生病 (D)以上都是错误的8、变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值分别为11,9,8,5,若在实际问题中,y 的预报最大取值是10,则x 的最大取值不能超过( ) (A)16 (B)17 (C)15 (D)12 二、填空题:9、在研究身高和体重的关系时,求得相关指数≈r ______________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”所以身高对体重的效应比随机误差的效应大得多。