(新)高中数学复习课(一)统计案例教学案新人教A版选修1-2

合集下载

【数学】新课标人教A版选修1-2第一章统计案例教案

【数学】新课标人教A版选修1-2第一章统计案例教案

4
选修 1—2 第一章统计案例
若H0成立 , 则K2应该很小 . 把表中数据代入公式
2
K2 = 9965 7775 49-42 2099
56.632
7817 2148 9874 91
在H0成立的情况下 . 统计学家估算出如下概率
P K2 6.635 0.01
即在H0成立的情况下 ,K 2的值大于 6.635 的概率非常小. 如果K2 6.635, 就断定H 0不成立 , 出错的可能性有多大? 出现K2=56.632 6.635 的概率不超过 1% .
周围 .
令 z=lny , a=lnc1 , b=c2 则 z=bx+a
此时可用线性回归来拟合 z=0.272x-3.843
因此红铃虫的产卵数对温度的非线性回归方程为 Y=e0.272x-3.843
1、1 回归分析的基本思想及其初步应用(习题课) (第五课时 )
目标 :通过习题巩固所学知识
过程 :1、复习有关知识
教学重点: 独立性检验的步骤。 例 2。 教学难点: 对临界值的理解。 教学过程 :1、复习独立性检验的步骤。
2、可信程度。 3、举例。 例 2。略。 补充例题: 对 196 个接受心脏搭桥手术的病人和 196 个接受血管清 障手术的病人进行 3 年跟踪研究, 调查他们是否又发作过心脏病, 调查结果如下 表所示:
尿汞含量 x
2
消光系数 y
64
4
6
8
10
138
205
285
360
连山高级中学高二数学备课组
3
选修 1—2 第一章统计案例
(1)求回归方程。( 2)求相关指数 R2。
解:略 。
3. 练习:选择、填空用小黑板给出。 (题来源于数学天地报) 。 4. 小结。 5. 作业。

高中数学人教A版选修1-2复习课(一) 统计案例课件

高中数学人教A版选修1-2复习课(一) 统计案例课件
复习课(一) 统计案例
回归分析
(1)变量间的相关关系是高考解答题命题的一个,主 要考查变量间相关关系的判断,求解回归方程并进行预报 估计,题型多为解答题,有时也有小题出现.
(2)掌握回归分析的步骤的是解答此类问题的关键, 另外要掌握将两种非线性回归模型转化为线性回归分析 求解问题.
[考点精要]
1.一个重要方程 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…, (xn,yn),其线性回归直线方程为^y =^b x+^a .
2.2016 年第三十一届奥运会在巴西首都里约热内卢举行,为 调查某高校学生是否愿意提供志愿者服务,用简单随机抽样 方法从该校调查了 60 人,结果如下:
(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取 6 人,其中男生抽取多少人? (2)在(1)中抽取的 6 人中任选 2 人,求恰有一名女生的概率.
(3)在犯错误的概率不超过 0.01 的前提下,是否能认为“其 亲属的饮食习惯与年龄有关”?
[解] (1)30 位亲属中 50 岁以上的人多以食蔬菜为主,50 岁以下的人多以食肉类为主.
(2)2×2 列联表如表所示:
(3) 随 机 变 量
K2
的观测值
k

30×8-1282 12×18×20×10
i=1
≈2.646.
参考公式:相关系数 r=
n
ti- t yi- y
i=1

n
n
ti- t 2 yi- y 2
i=1
i=1
回归方程^y=^a+^bt 中斜率和截距的最小二乘估计公式分别为:^b=
n
ti- t yi- y
i=1
,^a= y -^b t .

高中数学人教版选修1-2全套教案

高中数学人教版选修1-2全套教案

高中数学人教版选修1-2全套教案第一章统计案例第一课时 1.1回归分析的基本思想及其初步应用(一)教学目标1、知识与技能目标 认识随机误差;2、过程与方法目标(1)会使用函数计算器求回归方程; (2)能正确理解回归方程的预报结果. 3、情感、态度、价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,理解处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识,解决实际问题的能力.教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性.教学重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析. 教学难点:解释残差变量的含义,了解偏差平方和分解的思想. 教学过程: 一、复习准备:1. 提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?2. 复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报. 二、讲授新课: 1. 教学例题:① 例1 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示: 编 号 1 2 3 4 5 6 7 8 身高/cm165165 157 170 175 165 155 170 体重/kg 4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm 的女大学生的体重. (分析思路→教师演示→学生整理)第一步:作散点图第二步:求回归方程 第三步:代值计算010203040506070150155160165170175180身高/cm体重/k g② 提问:身高为172cm 的女大学生的体重一定是60.316kg 吗? 不一定,但一般可以认为她的体重在60.316kg 左右. ③ 解释线性回归模型与一次函数的不同事实上,观察上述散点图,我们可以发现女大学生的体重y 和身高x 之间的关系并不能用一次函数y bx a =+来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm 的3名女大学生的体重分别为48kg 、57kg 和61kg ,如果能用一次函数来描述体重与身高的关系,那么身高为165cm 的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果e (即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型y bx a e =++,其中残差变量e 中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.2. 相关系数:相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义.3. 小结:求线性回归方程的步骤、线性回归模型与一次函数的不同.第二课时 1.1回归分析的基本思想及其初步应用(二)教学目标:1知识与技能:会建立回归模型,进而学习相关指数(相关系数r 、总偏差平方和、随机误差的效应即残差、残差平方和、回归平方和、相关指数R2、残差分析) 2过程与方法:通过学习会求上述的相关指数3情感态度价值观:从实际问题发现已有知识不足,激发好奇心、求知欲。

高中数学人教A版选修1-2 第一章 统计案例章末复习学案

高中数学人教A版选修1-2 第一章 统计案例章末复习学案

第一章统计案例复习教案一、本章知识脉络:二、本章要点追踪: 1.样本点的中心(x -,y -) 其中x -=1nn ∑i =1x i ,y -= n ∑i =1 y i .2.线性回归模型的完美表达式 ⎩⎨⎧y =bx +a +e E (e )=0,D (e )=σ23.类比样本方差估计总体方差的思想,可以用 σ2∧=1n -2 n∑i =1e 2∧i =1n -2Q (a ∧,b ∧)(n >2)作为σ2的估计量 其中a ∧=y --b ∧x -b ∧= n∑i =1(x i -x -)(y i -y -) n∑i =1(x i -x -)24.我们可以用相关指数R 2来刻画回归的效果,其计算公式是: R 2=1- n∑i =1(y i -y i ∧)2 n∑i =1(y i -y i -)2R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.5.建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y =bx +x );(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。

6.作K 2来确定结论“X 与 Y 有关系”的可信程度. 三、几个典型例题:例1 某地区10名健康儿童头发和全血中的硒含量(1000ppm )如下,(1)画出散点图; (2)求回归方程;(3)如果某名健康儿童的血硒含量为94(1000ppm )预测他的发硒含量.例2 某地大气中氰化物测定结果如下:(1)试建立氰化物浓度与距离之间的回归方程.(2)求相关指数.(3)作出残差图,并求残差平方和例3某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机制取了189名员工进行调查,所得数据如下表所示:对于人力资源部的研究项目,根据上述数据能得出什么结论?例4有人统计了同一个省的6个城市某一年的人均国内生产总值(即人均GDP)和这一年各城市患白血病的儿童数量,如下表:(1)画出散点图;(2)求y对x的回归直线方程;(3)如果这个省的某一城市同时期年人均GDP为12万元,估计这个城市一年患白血病的儿童数目;例5寒假中,某同学为组织一次爱心捐款,于2008年2月1日在网上给网友发了张帖子,并号召网友转发,下表是发帖后一段时间的收到帖子的人数统计:(1)作出散点图,并猜测x 与y 之间的关系; (2)建立x 与y 的关系,预报回归模型并计算残差;(3)如果此人打算在2008年2月12日(即帖子传播时间共10天)进行募捐活动,根据上述回归模型,估计可去多少人.例6 有人发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少.为了研究国籍和邮箱名称里是否含有数字的关系,他收集了124个邮箱名称,其中中国人的70个,外国人的54个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.(1)根据以上数据建立一个2×2的列联表;(2)他发现在这组数据中,外国人邮箱名称里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?例7 针对时下的“韩剧热”,某校团委对“学生性别和是否喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的21,男生喜欢韩剧的人数占男生人数的61,女生喜欢韩剧人数占女生人数的32. (1)若有0095的把握认为是否喜欢韩剧和性别有关,则男生至少有多少人; (2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人.。

人教A版高中数学选修1-2《一章 统计案例 1.2 独立性检验的基本思想及其初步应用》精品课件_33

人教A版高中数学选修1-2《一章 统计案例  1.2 独立性检验的基本思想及其初步应用》精品课件_33

解:根据题目所给数据得到如下列联表:
患心脏病 不患心脏病 总计
秃顶
214
ቤተ መጻሕፍቲ ባይዱ不秃顶
451
总计
665
175
389
597
1048
772
1437
根据列联表中的数据,得到
K 2 1437 (214597 175 451)2 16.373 6.635. 3891048 665 772
案 例:某医疗机构为了了解呼吸道疾病与吸 烟是否有关,进行了一次抽样调查,共调查了 515个成年人,其中吸烟者220人,不吸烟者 295人。
调查结果:吸烟的220人中有37人患呼吸道疾 病,183人未患呼吸道疾病;不吸烟的295人中 有21人患病,274人未患病。
根据这些数据,能否断定:患呼吸道疾 病与吸烟有关?
(2)求k值 (3)下结论
5
8
3
2
6
1
4
5
9
8
(1)如果k 10.828,就有99.9%的把握认为" X 与Y有关系" (2)如果k 7.879,就有99.5%的把握认为" X 与Y有关系"
(3)如果k 6.635,就有99%的把握认为" X 与Y有关系"
(4)如果k 5.024,就有97.5%的把握认为" X 与Y有关系"
练习3:为了调查胃病是否与生活规律有关,在某地对540名40岁以上 的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者 生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生 活规律的共200人. (1)根据以上数据列出2×2列联表; (2)能够以99%的把握认为40岁以上的人患胃病与否和生活规律有关 系吗?为什么?

高中数学选修1-2复习教案

高中数学选修1-2复习教案

第4周教学反思:在上一周的教学中,主要学习框图的部分内容,知识点不难,学会绘制简单实际问题的流程图和结构,学生学习也轻松简单,高考对这部分的内容要求不高,主要让学生多动手自己算就能够掌握,重点是一定要做好本周的复习工作。

选修1-2复习-第5周第一章统计案例 小结与复习一、教学目标设计了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题。

(1)独立性检验:了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;(2) 回归分析:了解回归分析的基本思想、方法及其简单应用。

二、教学重点及难点重点: 理解回归分析的基本思想及实施步骤;理解独立性检验的基本思想及实施步骤. 难点:了解回归分析的基本思想、方法及其初步应用,以及了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用 三、教学方法 讲授法 四、教学过程 一.知识归纳1.正相关:如果点散布在从左下角到右上角的区域,则称这两个变量的关系为正相关。

2.负相关:如果点散布在从左上角到右下角的区域,则称这两个变量的关系为负相关。

3.回归直线方程的斜率和截距公式:⎪⎪⎩⎪⎪⎨⎧-=--=---=∑∑∑∑====xb y a xn x yx n yx x x y y x xb ni i ni ii ni i i ni i1221121)()()((此公式不要求记忆)。

4.最小二乘法:求回归直线,使得样本数据的点到它的距离的平方最小的方法。

5.随机误差e :我们把线性回归模型e a bx y ++=,其中b a ,为模型的未知参数,e 称为随机误差。

随机误差a bx y e i i i --=6.残差eˆ:我们用回归方程a x b y ˆˆˆ+=中的y ˆ估计a bx +,随机误差)(a bx y e +-=,所以y y e ˆˆ-=是e 的估计量,故a x b y y y e ii i i i ˆˆˆˆ--=-=,e ˆ称为相应于点),(i i y x 的残差。

2019高中数学 第1章 统计案例阶段复习课学案 新人教A版选修1-2

2019高中数学 第1章 统计案例阶段复习课学案 新人教A版选修1-2

第一课 统计案例[核心速填]1.线性回归方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线y =bx +a 的斜率和截距的最小二乘估计公式分别为b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中(x ,y )称为样本点的中心.2.线性回归模型为y =bx +a +e ,其中e 为随机误差. 3.残差e ^i =y i -y ^i . 4.刻画回归效果的方法 (1)残差平方和法残差平方和∑i =1n(y i -y ^)2越小,模型拟合效果越好.(2)残差图法残差图形成的带状区域的宽度越窄,模型拟合效果越好. (3)相关指数R 2法R 2越接近1,模型拟合效果越好.5.K 2公式K 2=n ad -bc 2a +cb +d a +bc +d,其中n =a +b+c+d .[题型探究](2)请根据上表提供的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)据此估计2022年该市人口总数.【导学号:48662025】[解] (1)散点图如图:(2)因为x =0+1+2+3+45=2,y =5+7+8+11+195=10,0×5+1×7+2×8+3×11+4×19=132, 02+12+22+32+42=30,所以b ^=132-5×2×1030-5×22=3.2, a ^=y -b ^x =3.6.所以线性回归方程为y ^=3.2x +3.6. (3)令x =8,则y ^=3.2×8+3.6=29.2, 故估计2020年该城市人口总数为29.2(十万).1.在一段时间内,某种商品的价格x 元和需求量y 件之间的一组数据为:[解] x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,i =15x 2i =142+162+182+202+222=1 660,∑i =15y 2i =122+102+72+52+32=327, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5 x y∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15,所以a ^=7.4+1.15×18=28.1,所以y 对x 的线性回归方程为y ^=-1.15x +28.1, 列出残差表为所以∑i =15(yi -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R 2=1-∑i =15y i -y ^i2∑i =15y i -y2≈0.994.所以R 2≈0.994,拟合效果较好.单位全体650人中采用分层抽样的办法抽取50人进行问卷调查,得到了如下列联表:已知在这50人中随机抽取1人抽到喜欢户外运动的员工的概率是35.(1)请将上面的列联表补充完整; (2)求该公司男、女员工各多少人;(3)在犯错误的概率不超过0.005的前提下能否认为喜欢户外运动与性别有关?并说明你的理由. 下面的临界值表仅供参考:(参考公式:K 2=a +bc +d a +cb +d,其中n =a +b +c +d )【导学号:48662026】[解] (1)因为在全部50人中随机抽取1人抽到喜欢户外运动的员工的概率是35,所以喜欢户外运动的男女员工共30人,其中男员工20人,列联表补充如下:(3)K 2的观测值k =-230×20×25×25≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为喜欢户外运动与性别有关.先计算观测值k ,再与临界值表作比较,最后得出结论2.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断.[解] 建立性别与态度的2×2列联表如下:根据列联表中所给的数据,可求出男生中作肯定态度的频率为110=0.2,女生中作肯定态度的频率为60≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.根据列联表中的数据得到K 2的观测值k =-2110×60×44×126≈5.622>5.024.因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.检验每册书的成本费y 与印刷册数的倒数x之间是否具有线性相关关系.如有,求出y 对x 的回归方程.思路探究:令z =1x,使问题转化为z 与y 的关系,然后用回归分析的方法,求z 与y 的回归方程,进而得出x 与y 的回归方程.[解] 把1x 置换为z ,则有z =1x,从而z 与y 的数据为拟合.z =110×(1+0.5+0.333+0.2+0.1+0.05+0.033+0.02+0.01+0.005)=0.225 1, y =110×(10.15+5.52+4.08+…+1.15)=3.14,∑i =110z 2i =12+0.52+0.3332+…+0.012+0.0052≈1.415, ∑i =110z i y i =1×10.15+0.5×5.52+…+0.005×1.15=15.221 02,所以b ^=∑i =110z i y i -10z y∑i =110z 2i -10z 2≈8.976,a ^=y -b ^z =3.14-8.976×0.225 1≈1.120,所以所求的z 与y 的回归方程为y ^=8.976z +1.120. 又因为z =1x ,所以y ^=8.976x+1.120.确定变量,作出散点图根据散点图,选择恰当的拟合函数变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程分析拟合效果:通过计算相关指数或画残差图来判断拟合效果根据相应的变换,写出非线性回归方程[跟踪训练3.在某化学试验中,测得如下表所示的6对数据,其中x (单位:min)表示化学反应进行的时间,y (单位:mg)表示未转化物质的质量.(2)估计化学反应进行到10 min 时未转化物质的质量(精确到0.1).【导学号:48662027】[解] (1)在y =cd x两边取自然对数,令ln y =z ,ln c =a ,lnd =b ,则z =a +bx .由已知数据,得由公式得a ≈3.905 5,b ≈-0.221 9,则线性回归方程为z =3.905 5-0.221 9x .而ln c =3.905 5,lnD =-0.221 9,故c≈49.675,d≈0.801,所以c,d的估计值分别为49.675和0.801.(2)当x=10时,由(1)所得公式可得y≈5.4(mg).所以,化学反应进行到10 min时未转化物质的质量约为5.4 mg.。

高中数学人教版选修1-2_模块复习课 第一课 统计案例 (共54张PPT)精选ppt课件

高中数学人教版选修1-2_模块复习课 第一课 统计案例 (共54张PPT)精选ppt课件

【解析】依题意有
P=(-3x+161.5)(x-30)=-3x2+251.5x-4845
=-3(x- )2+ 2 5 1.5
2 5 -1 .45 2845.
所以当x=6 ≈42时1 2 ,P有最大值,约为426.
2 5 1.5 即预测销售单6 价为42元时,能获得最大日销售利润.
【方法技巧】求线性回归方程的基本步骤
每晚都打鼾
30
224
254
不打鼾
24
1 355
1 379
总计
54
1 579
1 633
【解析】由列联表中的信息 知打鼾人群中未患心脏病的 比例为0.88,即患有心脏病 的比例为0.12;同理不打鼾 人群中未患心脏病的比例为0.98,即患有心脏病的比 例为0.02.作出等高条形图(如图).
从该图中可以看出:打鼾样本中患心脏病的比例明显 多于不打鼾样本中患心脏病的比例.因此可以认为“打 鼾与患心脏病有关”.
所以y关于x的b线9 4 性7 3 7 4 回 9 4 归7 3 2 2 方 程5 2,为a 2 7 5 2 1 2 3 ,
y 5 x 3. 2
(3)当x=10时,y =22,|22-23|<2,当x=11时y , =24.5
|24.5-25|<2,当x=13时, =29.5,|29.5-30|<2.
M包含的基本事件有:(AC)、(AD)、(BC)、(BD)、
(CD),所以P(M)=5 . 6
【补偿训练】某研究性学习小组对春季昼夜温差大小 与某花卉种子发芽多少之间的关系进行研究,他们分 别记录了3月1日至3月5日的每天昼夜温差与实验室每 天每100颗种子浸泡后的发芽数,得到如下资料:

高考数学(人教A版选修1-2)第一轮复习教学案第一章统计案例 学案

高考数学(人教A版选修1-2)第一轮复习教学案第一章统计案例 学案

第一章统计案例[课标研读][课标要求]了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.(1)独立检验:了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.(2)假设检验:了解假设检验的基本思想、方法及其简单应用.(3)聚类分析:了解聚类分析的基本思想、方法及其简单应用.(4)回归分析:了解回归的基本思想、方法及其简单应用.[命题展望]本章所涉及到的知识点均要进行大量的数据计算,而这些计算如果仅仅靠笔算往往是比较困难的,需要借助于计算机或计算器。

其实在新课标中提到“……应鼓励学生使用计算器、计算机等现代技术手段来处理数据……”,而我们目前的高考还不允许使用计算器,所以本章的更看重统计思想。

考虑到本章内容是新增内容,在高考中应该有所体现,但在高考试题中不会出现过于繁琐的计算题,相信会出现一道填空试题或填空题,出现解答题的可能性较小,即使出现,所涉及的计算应该不会很繁琐。

本章的疑点是用这种方法检验可靠吗?实际上这种方法仍然是用样本估计总体,由于抽样的随机性,结果并不唯一,所以用部分推断全体,推断可能正确,也有可能错误。

但我们只要科学合理地去抽样,那么犯错误的可能性就很小了。

如卡方检验中,若2 6.635χ>,则说明我们犯错误的概率仅为1%,这也是统计方法的魅力所在。

第一讲回归分析的基本思想及其初步应用[知识梳理][知识盘点]1.相关关系是一种非确定的关系,是对具有相关关系的两个变量进行统计分析的一种方法。

2.线性回是模型y bx a e=++(e为),因变量y的值是自变量x和随机误差e共同确定的,即自变量x只能解释部分y的变化,在统计中,我们把自变量x称为,因变量y称为。

3.模型中的参数a和b用估计,其计算公式如下:121()()ˆ()ni iiniix x y ybx x==--=-∑∑,ˆˆa y bx=-,其中11niix xn==∑,1niiy y==∑(,)x y称为,回归直线一定经过样本中心点。

人教新课标版数学高二-人A选修1-2第一章《统计案例》复习课

人教新课标版数学高二-人A选修1-2第一章《统计案例》复习课

题型一回归分析思想的应用回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化.如果两个变量非线性相关,我们可以通过对变量进行变换,转化为线性相关问题.例1 一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下表:零件数x/个102030405060708090100加工时间y/min627275818595103108112127(2)若线性相关,求线性回归方程;(3)求出相关指数; (4)作出残差图; (5)进行残差分析;(6)试制订加工200个零件的用时规定. 解 (1)散点图,如图所示.由图可知,x ,y 线性相关.(2)x 与y 的关系可以用线性回归模型来拟合,不妨设回归模型为y ^=a ^+b ^将数据代入相应公式可得数据表:序号 零件个数x i /个加工时间y i /minx i y i x 2i 1 10 62 620 100 2 20 72 1 440 400 3 30 75 2 250 900 4 40 81 3 240 1 600 5 50 85 4 250 2 500 6 60 95 5 700 3 600 7 70 103 7 210 4 900 8 80 108 8 640 6 400 9 90 112 10 080 8 100 10 100 127 12 700 10 000 ∑55092056 13038 500∵x =55y ∴=∑10i =1x i y i -10x y ∑10i =1x 2i -10x 2=56 130-10×55×9238 500-10×552=553825≈0.670, =y - x =92-553825×55=82715≈55.133,故线性回归方程为 =0.670x +55.133. (3)利用所求回归方程求出下列数据:y ^i 61.833 68.533 75.233 81.933 88.633 y i -y ^ i 0.167 3.467 -0.233 -0.933 -3.633 y i -y-30-20-17-11-7y ^ i 95.333 102.033 108.733 115.433 122.133 y i -y ^ i -0.333 0.967 -0.733 -3.433 4.867 y i -y311162035∴R 2=1-∑10i =1 (y i -y ^ i )2∑10i =1(y i -y )2≈0.983.(4)∵e ^i =y i -y ^i ,利用上表中数据作出残差图,如图所示.(5)由散点图可以看出x 与y 有很强的线性相关性,由R 2的值可以看出回归效果很好. 由残差图也可观察到,第2,5,9,10个样本点的残差比较大,需要确认在采集这些样本点的过程中是否有人为的错误.(6)将x =200代入回归方程,得y ^≈189, 所以可以制订189 min 加工200个零件的规定.反思与感悟 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是先画出散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从而建立较好的回归方程,并用该方程对变量值进行分析;有时回归模型可能会有多种选择(如非线性回归模型),此时可通过残差分析或利用相关指数R 2来检验模型的拟合效果,从而得到最佳模型.跟踪训练1 在一段时间内,某种商品的价格x 元和需求量y 件之间的一组数据为:且知x 与y 解x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,∑5i =1x 2i =142+162+182+202+222=1 660, ∑5i =1x i y i =14×12+16×10+18×7+20×5+22×3=620,∴b ^=∑5i =1x i y i -5x y ∑5i =1x 2i -5x 2=620-5×18×7.41 660-5×182=-4640=-1.15.∴a ^=7.4+1.15×18=28.1, ∴线性回归方程为y ^=-1.15x +28.1. 列出残差表为:∴∑5i =1(y i -y ^i )2=0.3,∑i =1(y i -y )2=53.2,R 2=1-∑5i =1(y i -y ^i )2∑5i =1 (y i -y )2≈0.994.故R 2≈0.994说明拟合效果较好.题型二 独立性检验思想的应用独立性检验的基本思想是统计中的假设检验思想,类似于数学中的反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下我们构造的随机变量K 2应该很小,如果由观测数据计算得到的K 2的观测值很大,则在一定程度上说明假设不合理.例 为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .下表1和表2分别是注射药物A 和药物B 后的试验结果.(疱疹面积单位:mm 2) 表1:注射药物A 后皮肤疱疹面积的频数分布表疱疹面积 [60,65) [65,70) [70,75) [75,80) 频数30402010表2疱疹面积 [60,65) [65,70) [70,75) [75,80) [80,85) 频数1025203015疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:疱疹面积小于 70 mm 2 疱疹面积不小于70 mm 2 合计 注射药物A a = b = 注射药物B c = d = 合计n =解 列出2×2列联表疱疹面积小于 70 mm 2 疱疹面积不小于70 mm 2 合计 注射药物A a =70 b =30 100 注射药物B c =35 d =65 100 合计10595n =200K 2=200×(70×65-35×30)2100×100×105×95≈24.56,由于K 2>10.828,所以在犯错误概率不超过0.001的前提下,认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 反思与感悟 解决一般的独立性检验问题的步骤:(1)通过列联表确定a ,b ,c ,d ,n 的值;根据实际问题需要的可信程度确定临界值k 0; (2)利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )求出K 2的观测值k ;(3)如果k ≥k 0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.跟踪训练2 某电视台联合相关报社对“男女同龄退休”这一公众关注的问题进行了民意调查,数据如下表所示:根据表中数据,关系?[P (K 2≥10.828)≈0.001]解 假设“对这一问题的看法与性别无关”,由列联表中的数据,可以得到: K 2的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=1 000×(198×109-217×476)2415×585×674×326≈125.161>10.828, 又P (K 2≥10.828)≈0.001,故在犯错误的概率不超过0.001的前提下认为对“男女同龄退休”这一问题的看法与性别有关.[呈重点、现规律]1.建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出散点图,观察它们之间的关系.(3)由经验确定回归方程的类型.(4)按照一定的规则估计回归方程中的参数.(5)得出结果后分析残差图是否有异常.2.独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.常用的直观方法为等高条形图,等高条形图由于是等高的,因此它能直观地反映两个分类变量之间的差异的大小,而利用假设的思想方法,计算出某一个随机变量K 2的值来判断更精确些.。

高中数学 第1章 统计案例阶段复习课学案 新人教A版选修1-2

高中数学 第1章 统计案例阶段复习课学案 新人教A版选修1-2

第一课统计案例[核心速填]1.线性回归方程对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n),回归直线y=bx+a的斜率和截距的最小二乘估计公式分别为b^=∑i=1nx i-x y i-y∑i=1nx i-x2=∑i=1nx i y i-n x y∑i=1nx2i-n x2,a^=y-b^x,其中(x,y)称为样本点的中心.2.线性回归模型为y=bx+a+e,其中e为随机误差.3.残差e^i=y i-y^i.4.刻画回归效果的方法(1)残差平方和法残差平方和∑i=1n(y i-y^)2越小,模型拟合效果越好.(2)残差图法残差图形成的带状区域的宽度越窄,模型拟合效果越好.(3)相关指数R2法R2越接近1,模型拟合效果越好.5.K2公式K2=n ad-bc2a+c b+d a+b c+d,其中n=a+b+c+d.[题型探究]线性回归分析年份201x(年)0123 4人口数y (十万) 5 7 8 11 19(2)请根据上表提供的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)据此估计2022年该市人口总数.【导学号:48662025】[解] (1)散点图如图:(2)因为x =0+1+2+3+45=2,y =5+7+8+11+195=10,0×5+1×7+2×8+3×11+4×19=132, 02+12+22+32+42=30, 所以b ^=132-5×2×1030-5×22=3.2,a ^=y -b ^x =3.6.所以线性回归方程为y ^=3.2x +3.6. (3)令x =8,则y ^=3.2×8+3.6=29.2, 故估计2020年该城市人口总数为29.2(十万). [规律方法] 解决回归分析问题的一般步骤 (1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.(3)回归分析.画残差图或计算R 2,进行残差分析. (4)实际应用.依据求得的回归方程解决实际问题. 1.在一段时间内,某种商品的价格x 元和需求量y 件之间的一组数据为:x (元) 14 16 18 20 22 y (件)1210753[解] x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15y 2i =122+102+72+52+32=327, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5 x y∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15,所以a ^=7.4+1.15×18=28.1,所以y 对x 的线性回归方程为y ^=-1.15x +28.1, 列出残差表为y i -y ^i 0 0.3 -0.4 -0.1 0.2 y i -y4.62.6-0.4-2.4-4.4所以∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R 2=1-∑i =15y i -y ^i2∑i =15y i -y2≈0.994.所以R 2≈0.994,拟合效果较好.独立性检验户外运动已经成为一种时尚运动,某单位为了了解员工喜欢户外运动是否与性别有关,决定从本单位全体650人中采用分层抽样的办法抽取50人进行问卷调查,得到了如下列联表:喜欢户外运动 不喜欢户外运动总计 男性5 女性 10总计50已知在这50人中随机抽取1人抽到喜欢户外运动的员工的概率是35.(1)请将上面的列联表补充完整; (2)求该公司男、女员工各多少人;(3)在犯错误的概率不超过0.005的前提下能否认为喜欢户外运动与性别有关?并说明你的理由.下面的临界值表仅供参考:P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828(参考公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d )【导学号:48662026】[解] (1)因为在全部50人中随机抽取1人抽到喜欢户外运动的员工的概率是35,所以喜欢户外运动的男女员工共30人,其中男员工20人,列联表补充如下:喜欢户外运动不喜欢户外运动总计 男性 20 5 25 女性 10 15 25 总计302050(3)K 2的观测值k =50×20×15-10×5230×20×25×25≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为喜欢户外运动与性别有关.[规律方法] 独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K 2统计量法:通过公式先计算观测值k ,再与临界值表作比较,最后得出结论. [跟踪训练]2.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断.[解] 建立性别与态度的2×2列联表如下:肯定 否定 总计 男生 22 88 110 女生 22 38 60 总计44126170根据列联表中所给的数据,可求出男生中作肯定态度的频率为22110=0.2,女生中作肯定态度的频率为2260≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.根据列联表中的数据得到K 2的观测值 k =170×22×38-22×882110×60×44×126≈5.622>5.024.因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.转化与化归思想x 1 2 3 5 10 20 30 50 100 200 y10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费y 与印刷册数的倒数x之间是否具有线性相关关系.如有,求出y对x 的回归方程.思路探究:令z =1x,使问题转化为z 与y 的关系,然后用回归分析的方法,求z 与y的回归方程,进而得出x 与y 的回归方程.[解] 把1x 置换为z ,则有z =1x,从而z 与y 的数据为z 1 0.5 0.333 0.2 0.1 0.05 0.033 0.02 0.01 0.005 y10.155.524.082.852.111.621.411.301.211.15可作出散点图(图略),从图可看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.z =110×(1+0.5+0.333+0.2+0.1+0.05+0.033+0.02+0.01+0.005)=0.225 1, y =110×(10.15+5.52+4.08+…+1.15)=3.14,∑i =110z 2i =12+0.52+0.3332+…+0.012+0.0052≈1.415, ∑i =110z i y i =1×10.15+0.5×5.52+…+0.005×1.15=15.221 02,所以b ^=∑i =110z i y i -10z y∑i =110z 2i -10z 2≈8.976,a ^=y -b ^z =3.14-8.976×0.225 1≈1.120,所以所求的z 与y 的回归方程为y ^=8.976z +1.120. 又因为z =1x ,所以y ^=8.976x+1.120.[规律方法] 非线性回归方程转化为线性回归问题求解步骤. 1确定变量,作出散点图.2根据散点图,选择恰当的拟合函数. 3变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.5根据相应的变换,写出非线性回归方程.3.在某化学试验中,测得如下表所示的6对数据,其中x(单位:min)表示化学反应进行的时间,y(单位:mg)表示未转化物质的质量.x/min12345 6 y/mg39.832.225.420.316.213.3(2)估计化学反应进行到10 min时未转化物质的质量(精确到0.1).【导学号:48662027】[解](1)在y=cd x两边取自然对数,令ln y=z,ln c=a,lnd=b,则z=a+bx.由已知数据,得x 12345 6y 39.832.225.420.316.213.3z 3.684 3.472 3.235 3.011 2.785 2.588 由公式得a≈3.905 5,b≈-0.221 9,则线性回归方程为z=3.905 5-0.221 9x.而ln c=3.905 5,lnD=-0.221 9,故c≈49.675,d≈0.801,所以c,d的估计值分别为49.675和0.801.(2)当x=10时,由(1)所得公式可得y≈5.4(mg).所以,化学反应进行到10 min时未转化物质的质量约为5.4 mg.。

高中数学 第一章统计案例学案 新人教A版选修1-2

高中数学 第一章统计案例学案 新人教A版选修1-2

回归分析的基本思想及其初步应用(一)1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;2. 了解线性回归模型与函数模型的差异,了解衡量两个变量之间线性相关关系得方法---相关系数.一、课前准备(预习教材P2~ P4,找出疑惑之处)问题1:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?复习1:函数关系是一种关系,而相关关系是一种关系.复习2:回归分析是对具有关系的两个变量进行统计分析的一种常用方法,其步骤:→→→ .二、新课导学※学习探究实例从某大学中随机选取8名女大学生,其身高/cm和体重/kg数据如下表所示:为172cm的女大学生的体重.解:由于问题中要求根据身高预报体重,因此选自变量x,为因变量.(1)做散点图:从散点图可以看出和有比较好的相关关系.(2) x= y=81i iix y ==∑821iix==∑所以81822188i iiiix y x y bx x==-==-∑∑a y bx=-≈于是得到回归直线的方程为(3)身高为172cm的女大学生,由回归方程可以预报其体重为y=问题:身高为172cm的女大学生,体重一定是上述预报值吗?思考:线性回归模型与一次函数有何不同?新知:用相关系数r可衡量两个变量之间关系.计算公式为r =r>0, 相关, r<0 相关;相关系数的绝对值越接近于1,两个变量的线性相关关系,它们的散点图越接近;r>,两个变量有关系.※典型例题例1某班5名学生的数学和物理成绩如下表:(2) 求物理成绩y 对数学成绩x 的回归直线方程;(3) 该班某学生数学成绩为96,试预测其物理成绩;变式:该班某学生数学成绩为55,试预测其物理成绩;小结:求线性回归方程的步骤:※ 动手试试练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x 的线性回归方程y bx a =+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?⨯+⨯+⨯+⨯=)(参考数值3 2.543546 4.566.5三、总结提升※学习小结1. 求线性回归方程的步骤:2. 线性回归模型与一次函数有何不同※知识拓展在实际问题中,是通过散点图来判断两变量之间的性关系的,※自我评价你完成本节导学案的情况为().A. 很好B. 较好C. 一般D. 较差※当堂检测(时量:5分钟满分:10分)计分:1. 下列两个变量具有相关关系的是()A. 正方体的体积与边长B. 人的身高与视力C.人的身高与体重D.匀速直线运动中的位移与时间2. 在画两个变量的散点图时,下面哪个叙述是正确的()A. 预报变量在x 轴上,解释变量在y 轴上B. 解释变量在x 轴上,预报变量在y 轴上C. 可以选择两个变量中任意一个变量在x 轴上D. 可选择两个变量中任意一个变量在y 轴上3. 回归直线y bx a=+必过()A. (0,0)B. (,0)x yx C. (0,)y D. (,)4.r越接近于1,两个变量的线性相关关系 .5. 已知回归直线方程0.50.81=-,则25y xx=时,y的估计值为 .一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:(2)求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制在什么范围内?§1.1.1回归分析的基本思想及其初步应用(二)1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;2. 了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.3. 会用相关指数,残差图评价回归效果.一、课前准备(预习教材P4~ P7,找出疑惑之处)复习1:用相关系数r可衡量两个变量之间关系.r>0, 相关, r<0 相关;r越接近于1,两个变量的线性相关关系,它们的散点图越接近;r ,两个变量有关系.复习2:评价回归效果的三个统计量:总偏差平方和;残差平方和;回归平方和.二、新课导学※学习探究探究任务:如何评价回归效果?新知:1、评价回归效果的三个统计量(1)总偏差平方和:(2)残差平方和:(3)回归平方和:2、相关指数:2R 表示 对 的贡献,公式为:2R =2R 的值越大,说明残差平方和 ,说明模型拟合效果 .3、残差分析:通过来判断拟合效果.通常借助 图实现.残差图:横坐标表示 ,纵坐标表示 .残差点比较均匀地落在 的区的区域中,说明选用的模型 ,带状区域的宽度越 ,说明拟合精度越 ,回归方程的预报精度越 .※ 典型例题例1关于x 与y 有如下数据:为了对x 、y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好?小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.例2 假定小麦基本苗数x 与成熟期有效苗穗y 之间存在相关关系,今测得5组数据如下:(2)求回归方程并对于基本苗数56.7预报期有效穗数;(3)求2R ,并说明残差变量对有效穗数的影响占百分之几.(参考数据:2115101.51,6746.76,n ni i i i i x x y ====∑∑ 521()50.18i i yy =-=∑, 521()9.117i i i y y =-=∑)※ 动手试试练1. 某班5名学生的数学和物理成绩如下表:(4)求学生A,B,C,D,E 的物理成绩的实际成绩和回归直线方程预报成绩的差2i i e y y =-.并作出残差图评价拟合效果.小结:1. 评价回归效果的三个统计量:2. 相关指数评价拟合效果:3. 残差分析评价拟合效果:三、总结提升※学习小结一般地,建立回归模型的基本步骤:1、确定研究对象,明确解释、预报变量;2、画散点图;3、确定回归方程类型(用r判定是否为线性);4、求回归方程;5、评价拟合效果.※知识拓展在现行回归模型中,相关指数2R表示解释变量对预报变量的贡献率,2R越接近于1,表示回归效果越好.如果某组数据可以采取几种不同的回归方程进行回归分析,则可以通过比较2R作出选择,即选择2R大的模型.※自我评价你完成本节导学案的情况为().A. 很好B. 较好C. 一般D. 较差※当堂检测(时量:5分钟满分:10分)计分:1. 两个变量 y 与x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 2R 如下 ,其中拟合效果最好的模型是( ).A. 模型 1 的相关指数2R 为 0.98B. 模型 2 的相关指数2R 为 0.80C. 模型 3 的相关指数2R 为 0.50D. 模型 4 的相关指数2R 为 0.252. 在回归分析中,残差图中纵坐标为( ).A. 残差B. 样本编号C. xD. n e3. 通过12,,,n e e e 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分工称为( ).A.回归分析B.独立性检验分析C.残差分析D. 散点图分析4.2R 越接近1,回归的效果 .5. 在研究身高与体重的关系时,求得相关指数 2R = ,可以叙述为“身高解释了69%的体重变化,而随机误差贡献了剩余 ”所以身高对体重的效应比随机误差的 .练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据(1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y bx a =+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值3 2.543546 4.566.5⨯+⨯+⨯+⨯=)(4)求相关指数评价模型.§1.1.1回归分析的基本思想及其初步应用(三)1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;2. 通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法.3. 了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较.一、课前准备(预习教材P4~ P7,找出疑惑之处)复习1:求线性回归方程的步骤复习2:作函数2x=+的图像y xy=和20.25二、新课导学※学习探究探究任务:如何建立非线性回归模型?实例一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,试建立y与x之间的回归方程.温度/x C21 23 25 27 29 32 35产卵数y个7 11 21 24 66 115 325(1)根据收集的数据,做散点图上图中,样本点的分布没有在某个区域,因此两变量之间不呈关系,所以不能直接用线性模型.由图,可以认为样本点分布在某一条指数函数曲线bx a=的周围(,a by e+为待定系数).对上式两边去对数,得ln y=令ln,=,则变换后样本点应该分布在直线z y的周围.这样,就利用模型来建立y和x的非线性回归方程.x 21 23 25 27 29 32 35y 7 11 21 24 66 115 325=lnz yi i由上表中的数据得到回归直线方程z =因此红铃虫的产卵数y 和温度x 的非线性回归方程为※ 典型例题例1一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中, 温度/x C 21 23 25 27 29 3235产卵数y 个7 112124 66 115 325(散点图如由图,可以认为样本点集中于某二次曲线234y c x c =+的附近,其中12,c c 为待定参数)试建立y 与x 之间的回归方程.思考:评价这两个模型的拟合效果.小结:利用线性回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行. 其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.三、总结提升 ※ 学习小结利用线性回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行.※ 知识拓展非线性回归问题的处理方法: 1、 指数函数型bx a y e +=① 函数bx a y e +=的图像:② 处理方法:两边取对数得ln ln()bx ay e+=,即ln y bx a =+.令ln ,z y =把原始数据(x,y )转化为(x,z ),再根据线性回归模型的方法求出,b a . 2、对数曲线型ln y b x a =+ ① 函数ln y b x a =+的图像② 处理方法:设ln x x '=,原方程可化为y bx a '=+ 再根据线性回归模型的方法求出,a b .3、2y bx a =+型处理方法:设2x x '=,原方程可化为y bx a '=+,再根据线性回归模型的方法求出,a b .※ 自我评价 你完成本节导学案的情况为( ). A. 很好 B. 较好 C. 一般 D. 较差 ※ 当堂检测(时量:5分钟 满分:10分)计分:1. 两个变量 y 与x 的回归模型中,求得回归方程为0.232x y e -=,当预报变量10x =时( ). A. 解释变量30y e -= B. 解释变量y 大于30e - C. 解释变量y 小于30e - D. 解释变量y 在30e -左右2. 在回归分析中,求得相关指数20.89R =,则( ). A. 解释变量解对总效应的贡献是11% B. 解释变量解对总效应的贡献是89% C. 随机误差的贡献是89% D. 随机误差的贡献是0.89%3. 通过12,,,n e e e 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( ).A .回归分析B .独立性检验分析C .残差分析 D. 散点图分析 4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线bx a y e +=的周围,令ln z y =,求得回归直线方程为0.25 2.58z x =-,则该模型的回归方程为 . 5. 已知回归方程0.5ln ln 2y x =-,则100x =时,y 的估计值为 .为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;(2)试求出预报变量对解释变量的回归方程.§1.2.1 独立性检验的基本思想及其初步应用1.通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的必要性;2.会根据22 列联表求统计量2K .一、课前准备(预习教材P 12~ P 14,找出疑惑之处)复习1:回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.二、新课导学※学习探究新知1:1.分类变量: .列联表:2. 22.试试:你能列举出几个分类变量吗?探究任务:吸烟与患肺癌的关系1.由列联表可粗略的看出:(1)不吸烟者有患肺癌;(2)不吸烟者有患肺癌.因此,直观上课的结论: .2.用三维柱柱图和二维条形图直观反映:(1)根据列联表的数据,作出三维柱形图:由上图可以直观地看出,吸烟与患肺癌 .(2) 根据列联表的数据,作出二维条形图:由上图可以直观地看出,吸烟与患肺癌 .根据列联表的数据,作出等高条形图:由上图可以直观地看出,吸烟与患肺癌 .反思:(独立性检验的必要性)通过数据和图形,我们得到的直观印象是患肺癌有关.那是否有一定的把握认为“吸烟与患肺癌有关”呢?K新知2:统计量2吸烟与患肺癌列联表假设H:吸烟与患肺癌没关系,则在吸烟者和不吸烟者中患肺癌不患肺癌者的相应比例 .即因此, 越小,说明吸烟与患肺癌之间关系 ;反之, .2K =※ 典型例题例1 吸烟与患肺癌列联表 求2K .※ 动手试试练1. 性别与喜欢数学课程列联表:求K .三、总结提升 ※ 学习小结1. 分类变量: .2. 22 列联表:.K: .3. 统计量2※知识拓展1. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.2. 独立性检验的步骤(略)及原理(与反证法类似):某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:K.求2§1.2.2 独立性检验的基本思想及其初步应用通过探究“秃顶是否与患心脏病有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示患心脏病的秃顶比例比患其它病的秃顶比例高,让学生亲身体验独立性检验的实施步骤与必要性一、课前准备(预习教材P14~ P16,找出疑惑之处)K:复习1:统计量2复习2:独立性检验的必要性:二、新课导学※学习探究新知1:独立性检验的基本思想:1、独立性检验的必要性:2、独立性检验的原理及步骤:味着H 1成立的可能性(可能性为(1- ))很大没有找到矛盾,不能对A 下任何结论,即反证法不成功推出有利于H 1成立的小概率事件不发生,接受原假设探究任务:吸烟与患肺癌的关系第一步:提出假设检验问题 H 0:第二步:根据公式求2K 观测值k =(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越 ;它越大,备择假设“H 1: ” 成立的可能性越大.)第三步:查表得出结论※ 典型例题例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?P (k 2>k ) 0.50 0.40 0.250.15 0.10 0.05 0.025k0.455 0.708 1..323 2.072 2.706 3.84 5.024小结:用独立性检验的思想解决问题:第一步:第二步:第三步:例2为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:k . 在多大程度上可以认为高中生的性别与是否由表中数据计算得到K的观察值 4.513数学课程之间有关系?为什么?※动手试试练1. 某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:请问有多大把握认为“高中生学习状况Array与生理健康有关”?三、总结提升※学习小结1. 独立性检验的原理:2. 独立性检验的步骤:※知识拓展利用独立性检验来考察两个分类变量是否有关,能精确的给出这种判断的可靠程度.※自我评价你完成本节导学案的情况为().A. 很好B. 较好C. 一般D. 较差※当堂检测(时量:5分钟满分:10分)计分:1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A. 若k=6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使推断出现错误.D. 以上三种说法都不对.2. 下面是一个22⨯列联表则表中a,b 的之分别是( )D. 54,523.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:则认为喜欢玩游戏与认为作业量多少有关系的把握大约为( )A. 99%B. 95%C. 90%D.无充分依据4. 在独立性检验中,当统计量2K 满足时,我们有99%的把握认为这两个分类变量有关系. 5. 在22⨯列联表中,统计量2K = . 为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表 能以97.5%的把握认为药物有效吗?为什么?统计案例检测题测试时间:90分钟 测试总分:100分一、选择题(本大题共12小题,每题4分) 1、散点图在回归分析中的作用是 ( ) A .查找个体数目 B .比较个体数据关系 C .探究个体分类D .粗略判断变量是否呈线性关系2、对于相关系数下列描述正确的是 ( ) A .r >0表明两个变量相关 B .r <0表明两个变量无关C .r 越接近1,表明两个变量线性相关性越强D .r 越小,表明两个变量线性相关性越弱3、预报变量的值与下列哪些因素有关 ( ) A .受解释变量影响与随机误差无关 B .受随机误差影响与解释变量无关 C .与总偏差平方和有关与残差无关 D .与解释变量和随机误差的总效应有关4、下列说法正确的是 ( ) A .任何两个变量都具有相关系 B .球的体积与球的半径具有相关关系 C .农作物的产量与施肥量是一种确定性关系 D .某商品的产量与销售价格之间是非确定性关系5、在画两个变量的散点图时,下面哪个叙述是正确的 ( )A. 预报变量在x 轴上,解释变量在 y 轴上B. 解释变量在x 轴上,预报变量在 y 轴上C. 可以选择两个变量中任意一个变量在x 轴上D. 可以选择两个变量中任意一个变量在 y 轴上 6、回归直线y bx a =+必过 ( ) A .(0,0) B .(,0)x C .(0,)y D .(,)x y7、三维柱形图中,主、副对角线上两个柱形高度的 相差越大,要推断的论述成立的可能性就越大 ( ) A .和 B .差 C .积 D .商8、两个变量 y 与x 的回归模型中,求得回归方程为0.232x y e -=,当预报变量10x = ( )A. 解释变量30y e -=B. 解释变量y 大于30e -C. 解释变量y 小于30e -D. 解释变量y 在30e -左右 9、在回归分析中,求得相关指数20.89R =,则( ) A. 解释变量解对总效应的贡献是11% B. 解释变量解对总效应的贡献是89% C. 随机误差的贡献是89% C. 随机误差的贡献是0.89%10、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( )A .若k =6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能 性患肺病.C .若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使得推断出现错误.D .以上三种说法都不对. 11、3. 通过12,,,n e e e 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( )A .回归分析B .独立性检验分析C .残差分析 D. 散点图分析12、在独立性检验时计算的2K 的观测值k =3.99,那么我们有 的把握认为这两个分类变量有关系 ( ) A .90% B .95% C .99% D .以上都不对 二、填空题(本大题共4小题,每题4分)13、已知回归直线方程0.50.81y x =-,则25x =时,y 的估计值为 . 14、如下表所示:计算215、下列关系中:(2)等边三角形的边长和周长;(3)电脑的销售量和利润的关系;(4)日光灯的产量和单位生产成本的关系.不是函数关系的是 .K=27.63,根据这一数16、在一项打鼾与患心脏病的调查中,共调查1768人,经计算的2据分析,我们有理由认为打鼾与患心脏病是的.(填“有关”“无关”)三、解答题(本大题共2小题,每题18分)18、为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表Array能以97.5%的把握认为药物有效吗?为什么?18、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y bx a =+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值3 2.543546 4.566.5⨯+⨯+⨯+⨯=)。

高中数学 第一章《统计案例》教案 新人教A版选修1-2

高中数学 第一章《统计案例》教案 新人教A版选修1-2

第一章 统计案例复习教案一、本章知识脉络:二、本章要点追踪: 1.样本点的中心〔x -,y -〕 其中x -=1n n ∑i =1x i ,y -= n ∑i =1y i .⎩⎨⎧y =bx +a +eE 〔e 〕=0,D 〔e 〕=σ2 3.类比样本方差估计总体方差的思想,可以用 σ2∧=1n -2 n∑i =1e 2∧i =1n -2Q 〔a ∧,b ∧〕〔n >2〕 作为σ2的估计量 其中a ∧=y --b ∧x - b ∧= n∑i =1〔x i -x -〕〔y i -y -〕 n∑i =1〔x i -x -〕2R 2来刻画回归的效果,其计算公式是:R 2=1- n∑i =1〔y i -y i ∧〕2 n∑i =1〔y i -y i -〕2R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.5.建立回归模型的基本步骤:〔1〕确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;〔2〕画出确定好的解释变量和预报变量的散点图,观察它们之间的关系〔如是否存在线性关系等〕; 〔3〕由经验确定回归方程的类型〔如我们观察到数据呈线性关系,那么选用线性回归方程y =bx +x 〕; 〔4〕按一定规那么估计回归方程中的参数〔如最小二乘法〕;〔5〕得出结果后分析残差图是否有异常〔个别数据对应残差过大,或残差呈现不随机的规律性等等〕,假设存在异常,那么检查数据是否有误,或模型是否合适等。

K 2来确定结论“X 与 Y 有关系〞的可信程度.三、几个典型例题:例1 某地区10名健康儿童头发和全血中的硒含量〔1000ppm 〕如下,血硒 74 66 88 69 91 73 66 96 58 73 发硒 13101311169714510〔1〕画出散点图; 〔2〕求回归方程;〔3〕如果某名健康儿童的血硒含量为94〔1000ppm 〕预测他的发硒含量. 解〔1〕散点图如以下图所示:〔2〕利用计算器或计算机,求得回归方程:y∧x〔3〕当x=94时,y∧≈因此,当儿童的血硒含量为94〔1000ppm〕时,该儿童的发硒含量约为15.2〔1000ppm〕.例2 某地大气中氰化物测定结果如下:污染源距离50 100 150 200 250 300 400 500氰化物浓度〔1〕试建立氰化物浓度与距离之间的回归方程.〔2〕求相关指数.〔3〕作出残差图,并求残差平方和解析〔1〕选取污染源距离为变量x,氰化物浓度为自因变量y作散点图.从表中所给的数据可以看出,氰化物浓度与距离有负的相关关系,用非线性回归方程来拟合,建立y 关于x的指数回归方程.y∧e x〔2〕相关指数K2=1-n∑i=1〔y i-y i∧〕2n∑i=1〔y i-y∧〕2〔3〕编号 1 2 3 4 5 6 7 8污染源距离50 100 150 200 250 300 400 500氰化物浓度残 差残差平方和 n∑i =1〔y i -y i ∧〕2例3 某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机制取了189名员工进行调查,所得数据如下表所示:积极支持企业改革不太造成企业改革合 计 工作积极 54 40 94 工作一般 32 63 95 合 计86103189对于人力资源部的研究项目,根据上述数据能得出什么结论?解:根据列联表中的数据,得到K 2=189×〔54×63-40×32〕294×95×86×103=10.76.因为10.76>6.635,所以有99%的把握说:员工“工作积极〞与“积极支持企业改革〞是有关的,可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.例4有人统计了同一个省的6个城市某一年的人均国内生产总值〔即人均GDP 〕和这一年各城市患白血病的儿童数量,如下表: 人均GDP x 〔万元〕 10 8 6 4 3 1 患白血病的儿童数y 351 312207175132180〔1〕画出散点图;〔2〕求y 对x 的回归直线方程;〔3〕如果这个省的某一城市同时期年人均GDP 为12万元,估计这个城市一年患白血病的儿童数目;分析:利用公式分别求出∧∧a b ,的值,即可确定回归直线方程,然后再进行预测. 解:〔1〕作x 与y 对应的散点图,如右图所示;〔2〕计算得67.1286)()(,17.226,33.561=--==∑=y y x xy x i i i33.55)(612=-∑=i ix x,∴25.2333.5567.1286≈=∧b ,25.10233.525.2317.226≈⨯-=∧a ,∴y 对x 的回归直线方程是25.10225.23+=∧x y ;〔3〕将12=x 代入25.10225.23+=∧x y 得38125.1021225.23≈+⨯=∧y ,估计这个城市一年患白血病的儿童数目约为381.评注:此题涉及的是一个和我们生活息息相关,也是一个愈来愈严峻的问题——我们一个沉痛的事实:现如今,一个城市愈发达,这个城市患白血病的儿童愈多.原因在于,城市的经济发展大都以牺牲环境为代价的,经济发展造成了大面积的环境污染,空气、水源中含有的大量的有害物质是导致白血病患者增多的罪魁祸首,所以,我们一定要增强自我保护意识和环境保护意识.例5 寒假中,某同学为组织一次爱心捐款,于2008年2月1日在网上给网友发了X 帖子,并号召网友转发,下表是发帖后一段时间的收到帖子的人数统计:〔1〕作出散点图,并猜测x 与y 之间的关系; 〔2〕建立x 与y 的关系,预报回归模型并计算残差;〔3〕如果此人打算在2008年2月12日〔即帖子传播时间共10天〕进行募捐活动,根据上述回归模型,估计可去多少人.分析:先通过散点图,看二者是否具有线性相关关系,假设不具有,可通过相关函数变换,转化为线性相关关系.解:x 与y 不具有线性相关关系,同时可发现样本点分布在某一个指数函数曲线mx ke y =的周围,其中m k 、是参数;〔2〕对mx ke y =y z ln =,那么变换后的样本点分布在直线),ln (m b k a a bx z ==+=的周围,这样就万元人均/GDP 16题图可以利用线性回归模型来建立x 与y 之间的非线性回归方程了,数据可以转化为:求得回归直线方程为133.1620.0+=∧x z ,∴133.1620.0+∧=x e y .〔3〕截止到2008年2月12日,10=x ,此时1530133.110620.0≈=+⨯∧e y 〔人〕. ∴估计可去1530人.评注:现如今是网络时代,很多同学都会通过互联网发帖子,所以此类问题为同学们司空见惯.但如何预测发帖后的效果,这却是个新课题,通过此题你是否已明确.例6有人发现了一个有趣的现象,中国人的名称里含有数字的比较多,而外国人名称里含有数字的比较少.为了研究国籍和名称里是否含有数字的关系,他收集了124个名称,其中中国人的70个,外国人的54个,中国人的中有43个含数字,外国人的中有27个含数字. 〔1〕根据以上数据建立一个2×2的列联表;〔2〕他发现在这组数据中,外国人名称里含数字的也不少,他不能断定国籍和名称里含有数字是否有关,你能帮他判断一下吗?分析:按题中数据建列联表,然后根据列联表数据求出k 值,即可判定.解:〔1〕2×2的列联表〔.由表中数据得201.660645470)21273343(1242≈⨯⨯⨯⨯-⨯⨯=k ,因为024.5>k ,所以有理由认为假设“国籍和名称里是否含有数字无关〞是不合理的,即有005.97的把握认为“国籍和名称里是否含有数字有关〞.评注:独立性检验类似于反证法,其一般步骤为:第一步:首先假设两个分类变量几乎没有关系〔几乎独立〕;第二步:求随机变量k 的值;第三步.判断两个分类变量有关的把握〔即概率〕有多大.例7 针对时下的“韩剧热〞,某校团委对“学生性别和是否喜欢韩剧是否有关〞作了一次调查,其中女生人数是男生人数的21,男生喜欢韩剧的人数占男生人数的61,女生喜欢韩剧人数占女生人数的32.〔1〕假设有0095的把握认为是否喜欢韩剧和性别有关,那么男生至少有多少人; 〔2〕假设没有充分的证据显示是否喜欢韩剧和性别有关,那么男生至多有多少人.分析:有0095的把握认为回答结果对错和性别有关,说明841.3>k ,没有充分的证据显示回答结果对错和性别有关,说明706.2≤k .设出男生人数,并用它分别表示各类别人数,代入2K 的计算公式,建立不等式求解即可.解:设男生人数为x ,依题意可得列联表如下:〔1〕假设有0095的把握认为回答结果的对错和性别有关,那么841.3>k ,由841.38322)66365(2322>=⋅⋅⋅⨯-⨯=x x x x x x x x x x K ,解得24.10>x ,∵6,2xx 为整数,∴假设有0095的把握认为回答结果的对错和性别有关,那么男生至少有12人; 〔2〕没有充分的证据显示回答结果的对错和性别有关,那么706.2≤k ,由706.28322)66365(2322≤=⋅⋅⋅⨯-⨯=x x x x x x x x x x K ,解得216.7≤x , ∵6,2xx 为整数,∴假设没有充分的证据显示回答结果的对错和性别有关,那么男生至多有6人. 评注:这是一个独立性检验的创新问题,解答时要注意理解“至少〞、“至多〞的含义.通过上面几例,大家是否已体会到了回归分析和独立性检验思想方法的应用的广泛性和重要性.其实,这两种思想方法并不神秘,你身边有很多问题可信手拈来,用它们处理,这一点还请同学们多思考、勤尝试.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

复习课(一) 统计案例回归分析(1)变量间的相关关系是高考解答题命题的一个,主要考查变量间相关关系的判断,求解回归方程并进行预报估计,题型多为解答题,有时也有小题出现.(2)掌握回归分析的步骤的是解答此类问题的关键,另外要掌握将两种非线性回归模型转化为线性回归分析求解问题.[考点精要]1.一个重要方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其线性回归直线方程为y ^=b ^x +a ^.其中b ^=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b ^x .2.重要参数相关指数R 2是用来刻画回归模型的回归效果的,其值越大,残差平方和越小,模型的拟合效果越好.3.两种重要图形 (1)散点图:散点图是进行线性回归分析的主要手段,其作用如下:一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;二是判断样本中是否存在异常. (2)残差图:残差图可以用来判断模型的拟合效果,其作用如下:一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高.二是确认样本点在采集中是否有人为的错误.[典例] (全国卷Ⅲ)如图是我国2008年到2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .[解] (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.892×2.646×0.55≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. [类题通法]回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是先画出散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从而建立较好的回归方程,并且用该方程对变量值进行分析;有时回归模型可能会有多种选择(如非线性回归模型),此时可通过残差分析或利用相关指数R 2来检查模型的拟合效果,从而得到最佳模型.[题组训练]1.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:选C 画散点图,由散点图可知X 与Y 是正相关,则相关系数r 1>0,U 与V 是负相关,相关系数r 2<0,故选C .2.寒假中, 某同学为组织一次爱心捐款, 在网上给网友发了张帖子, 并号召网友转发,下表是发帖后一段时间收到帖子的人数统计:天数x 1 2 3 4 5 6 7 人数y711212466115325(1)作出散点图,并猜测x 与y 之间的关系. (2)建立x 与y 的关系, 预报回归模型.(3)如果此人打算在帖子传播10天时进行募捐活动, 根据上述回归模型, 估计可去多少人.解:(1)画出散点图如图所示.从散点图可以看出x 与y 不具有线性相关关系, 同时可发现样本点分布在某一个函数曲线y =k e mx的周围, 其中k, m 是参数.(2)对y =k e mx两边取对数,把指数关系变成线性关系. 令z =ln y ,则变换后的样本点分布在直线z =bx +a (a =ln k, b =m )的周围, 这样就可以利用线性回归模型来建立x 与y 之间的非线性回归方程了, 数据可以转化为:天数x 1 2 3 4 5 6 7人数的 对数z 1.946 2.398 3.045 3.178 4.190 4.745 5.784求得回归直线方程为z ^=0.620x +1.133, 所以y ^=e 0.620x +1.133.(3)当x =10, 此时y ^=e 0.620×10+1.133≈1 530(人). 所以估计可去1 530人.独立性检验(1)近几年高考中对独立性检验的考查频率有所降低,题目多以解答题形式出现,一般为容易题,多与概率、统计等内容综合命题.(2)独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系” 这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系” 成立,在该假设下构造的随机变量K 2应该很小,如果由观测数据计算得到的K 2的观测值k 很大,则在一定程度上说明假设不合理,根据随机变量K 2的含义,可以通过概率P (K 2≥6.635)≈0.01来评价该假设不合理的程度,由实际计算出的k >6.635,说明该假设不合理的程度约为99%,即“两个分类变量有关系” 这一结论成立的可信程度约为99%.[考点精要]在实际问题中常用的几个数值(1)K 2≥6.635表示认为“X 与Y 有关系”犯错误的概率不超过0.01. (2)K 2≥3.841表示认为“X 与Y 有关系”犯错误的概率不超过0.05.(3)K2≥2.706表示认为“X与Y有关系”犯错误的概率不超过0.1.[典例] 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食为肉类为主.)(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯.(2)根据以上数据完成如表所示的2×2列联表.主食蔬菜主食肉类总计50岁以下50岁以上总计(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?[解] (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.(2)2×2列联表如表所示:主食蔬菜主食肉类总计50岁以下481250岁以上16218总计201030(3)随机变量K2的观测值k=30×8-128212×18×20×10=30×120×12012×18×20×10=10>6.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.[类题通法]独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K2统计量法:通过公式K 2=n ad -bc 2a +bc +d a +cb +d先计算观测值k ,再与临界值表作比较,最后得出结论.[题组训练]1.下表是某地区的一种传染病与饮用水的调查表:得病 不得病 总计 干净水 52 466 518 不干净水 94 218 312 总计146684830(1)能否在犯错误概率不超过0.01的前提下认为这种传染病与饮用水的卫生程度有关,请说明理由.(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析能否在犯错误概率不超过0.025的前提下认为这种疾病与饮用水有关.解:(1)把表中的数据代入公式得 K 2的观测值k =830×52×218-466×942146×684×518×312≈54.21.∵54.21>6.635,所以在犯错误的概率不超过0.01的前提下,认为该地区这种传染病与饮用水不干净有关.(2)依题意得2×2列联表:得病 不得病 总计 干净水 5 50 55 不干净水 9 22 31 总计147286此时,K 2的观测值k =86×5×22-50×9214×72×55×31≈5.785.因为5.785>5.024,所以能在犯错误概率不超过0.025的前提下认为该种疾病与饮用水不干净有关. 2.2016年第三十一届奥运会在巴西首都里约热内卢举行,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:是否愿意提供志愿者服务性别愿意不愿意男生 20 10 女生1020(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人, 其中男生抽取多少人?(2)在(1)中抽取的6人中任选2人, 求恰有一名女生的概率.(3)你能否在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关?下面的临界值表供参考:P (K 2≥k 0)0.150.100.05 0.025 0.010 0.005 0.001k 02.072 2.706 3.841 5.024 6.635 7.879 10.828独立性检验统计量K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)由题意,男生抽取6×2020+10=4(人),女生抽取6×1020+10=2(人).(2)在(1)中抽取的6人中任选2人,恰有一名女生的概率P =C 14C 12C 26=815.(3)K 2=60×20×20-10×10230×30×30×30≈6.667,由于6.667>6.635,所以能在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关.1.在两个学习基础相当的班级实行某种教学措施的实验,测试结果见下表,则实验效果与教学措施( )优、良、中差 总计 实验班 48 2 50 对比班 38 12 50 总计86 14100A .有关 C .关系不明确D .以上都不正确解析:选A 随机变量K 2的观测值k =100×48×12-38×2250×50×86×14≈8.306>6.635,则有99%的把握认为“实验效果与教学措施有关”.2.下列说法中正确的有:( ) ①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.A .①②B .②③C .①③D .①②③解析:选C 若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确.r <0,表示两个变量负相关,x 增大时,y 相应减小,故②错误.|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.3.有下列数据( )x 1 2 3y35.99 12.01下列四个函数中,模拟效果最好的为( ) A .y =3×2x -1B .y =log 2xC .y =3xD .y =x 2解析:选A 分别把x =1,2,3,代入求值,求最接近y 的值.即为模拟效果最好,故选A .4.若两个变量的残差平方和是325, i =1n(y i -y )2=923,则随机误差对预报变量的贡献率约为( )A .64.8%B .60%C .35.2%D .40%解析:选C 由题意可知随机误差对预报变量的贡献率约为325923≈0.352.5.已知x 与y 之间的几组数据如下表:x 1 2 3 4 5 6 y21334假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y ′=b ′x +a ′,则以下结论正确的是( )A .b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C .b ^< b ′,a ^>a ′ D.b ^<b ′,a ^<a ′解析:选C 过(1,0)和(2,2)的直线方程为y =2x -2,画出六点的散点图,回归直线的大概位置如图所示,显然b ^<b ′,a ^>a ′. 故选C .6.收集一只棉铃虫的产卵数y 与温度x 的几组数据后发现两个变量有相关关系,并按不同的曲线来拟合y 与x 之间的回归方程,并算出了对应相关指数R 2如下表:拟合曲线直线指数曲线 抛物线二次曲线 y 与x 回归方程y ^=19.8x -463.7 y ^=e 0.27x -3.84y ^=0.367x 2-202 y ^=x -0.782-1相关指数R 20.7460.9960.9020.002则这组数据模型的回归方程的最好选择应是( ) A .y ^=19.8x -463.7 B .y ^=e 0.27x -3.84 C .y ^=0.367x 2-202 D .y ^=x -0.782-1解析:选B 用相关指数R 2来刻画回归效果,R 2的值越大,说明模型的拟合效果越好. 7.某学校对课程《人与自然》的选修情况进行了统计,得到如下数据:选 未选 总计 男 405 45 450 女 230 220 450 总计635265900那么,认为选修《人与自然》与性别有关的把握是________. 解析:K 2=n ad -bc 2a +bc +d a +cb +d=163.794>10.828,即有99.9%的把握认为选修《人与自然》与性别有关. 答案:99.9%8.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min) 62758189现发现表中有一个数据模糊看不清,请你推断出该数据的值为________.解析:由表知x =30,设模糊不清的数据为m ,则y =15(62+m +75+81+89)=307+m5,因为y =0.67x +54.9,即307+m5=0.67×30+54.9,解得m =68. 答案:689.变量U 与V 相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U 与V 的线性回归分析,R 2表示解释变量对于预报变量变化的贡献率,则R 2=______.解析:在线性回归中,相关指数R 2等于相关系数,由x 1=1,x 2=2,x 3=3,x 4=4得:x =2.5,y 1=1.4,y 2=2.2,y 3=3,y 4=3.8得:y =2.6,所以相关系数r =∑i =14x i -xy i -y∑i =14x i -x2∑i =14y i -y2= 1.5×1.2+0.5×0.4+0.5×0.4+1.5×1.2-1.52+-0.52+0.52+1.52·-1.22+-0.42+0.42+1.22=45× 3.2=44=1.故R 2=1. 答案:110.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据,试问:文科学生总成绩不好与数学成绩不好有关系吗?总成绩情况数学成绩情况总成绩好 总成绩不好总计 数学成绩好 478 12 490 数学成绩不好399 24 423 总计87736913解:根据题意,计算随机变量的观测值: K 2=913×478×24-399×122490×423×877×36≈6.233>5.024,因此有97.5%的把握认为“文科学生总成绩不好与数学成绩不好有关系”. 11.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如表所示:积极参加 班级工作 不太主动 参加班级工作总计 学习积极性高 18学习积极性一般19总计50(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是1225,请完成上面的2×2列联表.(2)在(1)的条件下,试运用独立性检验的思想方法分析:在犯错误概率不超过0.1%的情况下判断学生的学习积极性与对待班级工作的态度是否有关?并说明理由.P (K 2≥k 0)0.010 0.005 0.001 k 06.635 7.879 10.828解:(1)如果随机抽查这个班的一名学生,抽到积极参加班级工作的学生的概率是1225,所以积极参加班级工作的学生有24人,由此可以算出学习积极性一般且积极参加班级工作的人数为6,不太主动参加班级工作的人数为26,学习积极性高但不太主动参加班级工作的人数为7,学习积极性高的人数为25,学习积极性一般的人数为25,得到:积极参加 班级工作 不太主动 参加班级工作总计 学习积极性高 18 7 25 学习积极性一般6 19 25 总计 242650(2)K 2=50×18×19-6×7225×25×24×26≈11.538,因为11.538>10.828,所以在犯错误的概率不超过0.001的前提下可以认为学习积极性与对待班级工作的态度有关系.12.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷总计男女1055总计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:K2=n ad-bc2a+b c+d a+c b+d.P(K2≥k0)0.050.01k03.8416.635解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:非体育迷体育迷总计男301545女451055总计7525100将2×2列联表中的数据代入公式计算,得K2=n ad-bc2a+b c+d a+c b+d=100×30×10-45×15275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}.其中a i表示男性,i=1,2,3.b j表示女性,j=1,2.Ω由10个基本事件组成,而且这些基本事件的出现是等可能的.用A表示“任选2人中,至少有1人是女性”这一事件,则A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},事件A由7个基本事件组成,因而P(A)=710.。

相关文档
最新文档