高中数学 11回归分析的基本思想及其初步应用解析 新人教A版选修1-2

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.1回归分析的基本思想及其初步应用
本周题目:回归分析的基本思想及其初步应用
本周重点:
(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;
(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。

本周难点:
(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.
(2)掌握回归分析的实际价值与基本思想.
(3)能运用自己所学的知识对具体案例进行检验与说明.
(4)残差变量的解释;(5)偏差平方和分解的思想;
本周内容:
一、基础知识梳理
1.回归直线:
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。

求回归直线方程的一般步骤:作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.
2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。

建立回归模型的基本步骤是:
①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).
③由经验确定回归方程的类型.
④按一定规则估计回归方程中的参数(最小二乘法);
⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.
3.利用统计方法解决实际问题的基本步骤:
(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。

4.残差变量的主要来源:
(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。

可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。

这种由于模型近似所引起的误差包含在中。

(2)忽略了某些因素的影响。

影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。

(3)观测误差。

由于测量工具等原因,得到的的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在中。

上面三项误差越小,说明我们的回归模型的拟合效果越好。

二、例题选讲
例1:研究某灌溉渠道水的流速与水深之间的关系,测得一组数据如下:
(1)求对的回归直线方程;
(2)预测水深为1.95时水的流速是多少?
分析:本题考查如何求回归直线的方程,可先把有关数据用散点图表示出来,若这些点大致分布在通过散点图中心的一条直线附近,说明这两个变量线性相关,从而可利用我们学过的最小二乘估计思想及计算公式求得线性回归直线方程。

解:
(1)由于问题中要求根据水深预报水的流速,因此选取水深为解释变量,流速为预报变量,作散点图:
由图容易看出,与之间有近似的线性关系,或者说,可以用一个回归直线方程
来反映这种关系。

由计算器求得。

对的回归直线方程为。

(2)由(1)中求出的回归直线方程,把代入,易得。

计算结果表示,当水深为时可以预测渠水的流速为。

评注:建立回归模型的一般步骤:
(1)确定研究对象,明确两个变量即解释变量和预报变量;
(2)画出散点图,观察它们之间的关系;
(3)由经验确定回归方程类型(若呈线性关系,选用线性回归方程);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差出现不随机的规律性,等等),若存在异常,则检查数据是否有误,或模型是否合适等。

例2:
(1)作GDP和年份的散点图,根据该图猜想它们之间的关系应是什么。

(2)建立年份为解释变量,GDP为预报变量的回归模型,并计算残差。

(3)根据你得到的模型,预报2003年的GDP,并查阅资料,看看你的预报与实际GDP的误差是多少。

(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由。

解:(1)由表中数据制作的散点图如下:
从散点图中可以看出GDP值与年份近线呈线性关系;
(2)用y t表示GDP值,t表示年份,根据截距和斜率的最小二乘计算公式,
得:从而得线性回归方程:
残差计算结果见下表:
GDP
(3)2003,所以预报与实际相-4275.540;
(4)上面建立的回归方程的R2=0.974,说明年份能够解释约97%的GDP值变化,因此所建立的模型能够很好地刻画GDP和年份的关系。

说明:关于2003年的GDP的值来源,不同的渠道可能会有所不同。

例3:如下表所示,某地区一段时间内观察到的大于或等于某震级x的地震个数为N,试建立回归方程表
解:由表中数据得散点图如下:
从散点图中可以看出,震级x与大于该震级的地震次数N之间不呈线性相关关系,随着x的减少,所考察的地震数N近似地以指数形式增长.
做变换y=lgN,
得到的数据如下表所示:
x和y的散点图如下:
从这个散点图中可以看出x和y之间有很强的线性相差性,因此可以用线性回归模型拟合它们之间的关系。

根据截距和斜率的最小二乘计算公式,得:
故线性回归方程为:
相关指数R2≈0.997,说明x可以解释y的99.7%的变化。

因此,可以用回归方程
描述x和y之间的关系。

例4:电容器充电后,电压达到 ,然后开始放电,由经验知道,此后电压随时间变化的规律公
式表示,观测得时间时的电压如下表所示:
试求电压对时间的回归方程。

分析:由于两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系,我们可通过对数变换把指数关系变为线性关系,通过线性回归模型来建立与之间的非线性回归方程。

解:对两边取自然对数得
,令 ,即。

其散点图为:
由散点图可知与具有线性相关关系,可用来表示。

经计算得:
(最小二乘法),,即。

所以,。

评注:一般地,有些非线性回归模型通过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性回归关系的两个变量之间的关系:
(1)如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模;
(2)如果散点图中的点的分布在一个曲线状带形区域,要先对变量作适当的变换,再利用线性回归模型来建模。

本周练习:
1.对具有相关关系的两个变量统计分析的一种常用的方法是()
A.回归分析 B.相关系数分析 C.残差分析 D.相关指数分析
2.在画两个变量的散点图时,下面叙述正确的是()
A.预报变量在轴上,解释变量在轴上 B.解释变量在轴上,预报变量在轴上
C.可以选择两个变量中任意一个变量在轴上
D.可以选择两个变量中任意一个变量在轴上
3.两个变量相关性越强,相关系数()
A.越接近于0 B.越接近于1 C.越接近于-1 D.绝对值越接近1
4.若散点图中所有样本点都在一条直线上,解释变量与预报变量的相关系数为()
A.0 B.1 C.-1 D.-1或1
5.
年龄(岁) 3 4 5 6 7 8 9
身高(94.8 104.2 108.7 117.8 124.3 130.8 139.0
由此她建立了身高与年龄的回归模型,她用这个模型预测儿子10岁时的身高,则下面的叙述正确的是()
A.她儿子10岁时的身高一定是145.83
B.她儿子10岁时的身高在145.83以上
C.她儿子10岁时的身高在145.83左右
D.她儿子10岁时的身高在145.83以下
6.两个变量有线性相关关系且正相关,则回归直线方程中,的系数()
A. B. C. D.
7.两个变量有线性相关关系且残差的平方和等于0,则()
A.样本点都在回归直线上
B.样本点都集中在回归直线附近
C.样本点比较分散
D.不存在规律
8.在建立两个变量与的回归模型中,分别选择了4个不同的模型,它们的相关指数如下,其中拟合最好的模型是()
A.模型1的相关指数为0.98
B.模型2的相关指数为0.80
C.模型3的相关指数为0.50
D.模型4的相关指数为0.25
9.相关指数=。

10.某农场对单位面积化肥用量和水稻相应产量的关系作了统计,得到数据如下:
如果与之间具有线性相关关系,求出回归直线方程,并预测当单位面积化肥用量为时水稻的产量大约是多少?(精确到)
11.
(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;
(2) 建立销售总额为解释变量,利润为预报变量的回归模型,并计算残差;
(3) 你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由。

参考答案:
A B D B C A A A
9.
10.由于问题中要求根据单位面积化肥用量预报水稻相应的产量,因此选取单位面积的化肥用量为解释变量,相应水稻的产量为预报变量,作散点图:
由图容易看出,与之间有近似的线性关系,或者说,可以用一个回归直线方程
来反映这种关系。

由计算器求得。

对的回归直线方程为( *)。

由(*)中求出的回归直线方程,把代入
易得。

计算结果表示,当单位面积化肥用量为时水稻的产量大约是 .
11.
(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:
由于散点图中的样本点基本上在一个带形区域分布,猜想销售总额与利润之间呈现线性相关关系;
(2)由最小二乘法的计算公式,得:
则线性回归方程为:
(3)对于(2)中所建立的线性回归方程,相关指数为R≈0.457,说明在线性回归模型中销售总额只能解释利润变化的46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系。

说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理,就算正确。

1.2独立性检验的基本思想及其初步应用
本周题目:独立性检验的基本思想及其初步应用
本周重点:
(1)通过对实际问题的分析探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.;了解独立性检验的常用方法:三维柱形图和二维条形图,及其K²(或R²)的大小关系.
(2)通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用。

(3)理解独立性检验的基本思想及实施步骤,能运用自己所学的知识对具体案例进行检验.
本周难点:
(1)了解独立性检验的基本思想;
(2)了解随机变量的含义,太大认为两个分类变量是有关系的;
(3)能运用自己所学的知识对具体案例进行检验与说明.
本周内容:
一、基础知识梳理
1.独立性检验
利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。

2.判断结论成立的可能性的步骤:
(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。

(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。

二、例题选讲
例1.
患病不患病合计
吸烟43 162 205
不吸烟13 121 134
合计56 283 339
试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?
分析:最理想的解决办法是向所有50岁以上的人作调查,然后对所得到的数据进行统计处理,但这花费的代价太大,实际上是行不通的,339人相对于全体50岁以上的人,只是一个小部分,已学过总体和样本的关系,当用样本平均数,样本方差去估计总体相应的数字特征时,由于抽样的随机性,结果并不唯一。

现在情况类似,我们用部分对全体作推断,推断可能正确,也可能错误。

如果抽取的339个调查对象中很多人是吸烟但没患慢性气管炎,而虽不吸烟因身体体质差而患慢性气管炎,能够得出什么结论呢?我们有
95%(或99%)的把握说事件与事件有关,是指推断犯错误的可能性为5%(或1%),这也常常说成
是“以95%(或99%)的概率”是一样的。

解:根据列联表中的数据,得。

因为,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关。

评注:对两个分类变量进行独立性检验,要对样本的选取背景、时间等因素进行分析。

例2.甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:
优秀不优秀总计
甲班10 35 45
乙班7 38 45
总计17 73 90
画出列联表的条形图,并通过图形判断成绩与班级是否有关;利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少
解:列联表的条形图如图所示:
由图及表直观判断,好像“成绩优秀与班级有关系”;由表中数据计算得K2的观察值为k≈0.653>0.455。

得:P(K2≥0.455)≈0.50,
从而有50%的把握认为“成绩与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为0.5。

评注:
(1)画出条形图后,从图形上判断两个分类变量之间是否有关系。

这里通过图形的直观感觉的结果可能会出错。

(2)计算得到K2的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”。

这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立。

在独立性检验中,在假设“成绩优秀与班级没有关系”的情况下,计算得到的K2
的值比较小,且P(K2≥0.653)≈0.42,说明事件(K2≥0.653)不是一个小概率事件,这个事件的发生不足以说明“成绩优秀与班级没有关系”,即没有理由说明“成绩优秀与班级有关系”。

这里没有推出小概率事件发生类似于反证法中没有推出矛盾。

例3.为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联列表:
请问能有多大把握认为药物有效?
解:假设“服药情况与是否患病之间没有关系”,则K2的值应比较小;如果K2的值很大,则说明很可能“服药情况与是否患病之间有关系”。

由题目中所给数据计算,得K2的观测值为k≈6.110,而
P(K2≥5.024)≈0.025,所以有97.5%的把握认为“服药情况与是否患病之间有关系”,即大约有97.5%的把握认为药物有效。

例4.在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的情况如下表所示,根据此资料你是否认为
分析:这是一个列联表的独立性检验问题,根据列联表的数据求解。

解:由条件中数据,计算得:

因为,所以我们没有理由说晕机是否跟男女性别有关,尽管这次航班中男人晕机的比例
比女人晕机的比例高,但我们不能认为在恶劣的气候飞行中男人比女人更容易晕机。

评注:在使用统计量作列联表的独立性检验时,要求表中的4个数据大于等于5,为此,在选
取样本的容量时一定要注意这一点,本例中的4个数据都大于5,且满足这一要求的。

本周练习:
1.在一次独立性检验中,其把握性超过了99%,则随机变量的可能值为()
A.6.635 B.5.024 C.7.897 D.3.841
2.把两个分类变量的频数列出,称为()
A.三维柱形图 B.二维条形图 C.列联表 D.独立性检验
3
则随机变量的值为。

4.某大学希望研究性别与职称之间是否有关系,你认为应该收集哪些数据?
答:。

5
为了检验主修专业是否与性别有关系,根据表中的数据,得到。

因为,所以断定主修统计专业与性别有关系。

这种判断出错的可能性为。

6.在对人们休闲的一次调查中,共调查了124人,其中女性70人,男性54人。

女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33
人主要的休闲方式是运动。

(1)根据以上数据建立一个的列联表;(2)检验性别与休闲方式是否有关系。

7.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表。

试问能以多大把握认为婴
参考答案:1.C 2.C 3.7.469 4.女教授人数,男教授人数,女副教授人数,男副教授人数(或高级职称中女性的人数,高级职称中男性的人数,中级职称中女性的人数,中级职称中男性的人
数。

)5.5%(或0.05)6.答案:(1)的列联表:
(2)假设休闲方式与性别无关,计算;
因为,所以有理由认为假设休闲方式与性别无关是不合理的,即我们有97.5%的把握认为休
闲方式与性别无关。

72
知P(K≥2.706)=0.10
所以有90%的把握认为“婴儿的性别与出生的时间有关系”。

2.1合情推理与演绎推理
编稿:周尚达审稿:张扬责编:严春梅
学习目标:
1.了解合情推理的含义,能利用归纳和类比进行简单的推理;
2.了解演绎推理的含义,掌握演绎推理的基本模式,能利用“三段论”进行简单的推理.
重点:用归纳和类比进行推理,做出猜想;用“三段论”证明问题.
难点:用归纳和类比进行合情推理,做出猜想。

学习策略:
①合情推理、演绎推理几乎涉及数学的方方面面的知识,代表研究性命题的发展趋势
②合情推理中的归纳、类比都是具有创造性的或然推理.不论是由大量的实例,经过分析、概括、发现规律的归纳,还是由两系统的已知属性,通过比较、联想而发现未知属性的类比,它们的共同点是,结论往
往超出前提所控制的范围,所以它们是“开拓型”或“发散型”的思维方法.也正因为结论超出了前提的管辖范围,前提也就无力保证结论必真,所以归纳类比都是或然性推理.
③演绎推理所得的结论完全蕴含于前提之中,所以它是“封闭型”或“收敛型”的思维方法.只要前提真实,逻辑形式正确,结论必然是真实的.
知识要点梳理
知识点一:推理的概念根据一个或几个已知事实(或假设)得出一个判断,这种思维方式叫做推理.从结构上说,推理一般由两部分组成,一部分是已知的事实(或假设)叫做前提,一部分是由已知推出的判断,叫做结论.
知识点二:合情推理根据已有的事实和正确的结论(包括定义、公理、定理等)、实验和实践的结果、个人的经验和直觉等,经过观察、分析、比较、联想、归纳、类比等推测出某些结果的推理过程。

其中归纳推理和类比推理是最常见的合情推理。

1.归纳推理
(1)定义:由某类事物的部分对象具有某些特征,推出该类事物的全部对象都具有这些特征的推理,或者由个别事实概括出一般结论的推理,称为归纳推理(简称归纳)。

(2)一般模式:部分整体,个体一般
(3)一般步骤:
①通过观察个别情况发现某些相同性质;
②从已知的相同的性质中猜想出一个明确表述的一般性命题;
③检验猜想.
(4)归纳推理的结论可真可假
归纳推理一般都是从观察、实验、分析特殊情况开始,提出有规律性的猜想;一般地,归纳的个别情况越多,就越具有代表性,推广的一般性命题就越可靠.由于归纳推理的前提是部分的、个别的事实,因此归纳推理的结论超出了前提所界定的范围,其前提和结论之间的联系不是必然的,而是或然的,所以归纳推理所得的结论不一定是正确的.
2.类比推理
(1)定义:由两类对象具有某些类似特征和其中一类对象的某些已知特征,推出另一类对象也具有这些特征的推理称为类比推理(简称类比).
(2)一般模式:特殊特殊
(3)类比的原则:可以从不同的角度选择类比对象,但类比的原则是根据当前问题的需要,选择恰当的类比对象.
(4)一般步骤:
①找出两类对象之间的相似性或一致性;
②用一类对象的已知特征去推测另一类对象的特征,得出一个明确的命题(猜想);
③检验猜想.
(5)类比推理的结论可真可假
类比推理中的两类对象是具有某些相似性的对象,同时又应是两类不同的对象;一般情况下,如果类比的相似性越多,相似的性质与推测的性质越相关,那么类比得出的命题就越可靠.类比结论具有或然性,所以类比推理所得的结论不一定是正确的。

知识点三:演绎推理
(1)定义:从一般性的原理出发,按照严格的逻辑法则,推出某个特殊情况下的结论的推理,叫做演绎推理. 简言之,演绎推理是由一般到特殊的推理.
(2)一般模式:“三段论”是演绎推理的一般模式,常用的一种格式
①大前提——已知的一般原理;
②小前提——所研究的特殊情况;
③结论——根据一般原理,对特殊情况作出的结论.
(3)用集合的观点理解“三段论”
若集合的所有元素都具有性质,是的子集,那么中所有元素都具有性质
(4)演绎推理的结论一定正确
演绎推理是一个必然性的推理,因而只要大前提、小前提及推理形式正确,那么结论一定是正确的,它是完全可靠的推理。

规律方法指导
合情推理与演绎推理的区别与联系
(1)从推理模式看:
①归纳推理是由特殊到一般的推理.
②类比推理是由特殊到特殊的推理.
③演绎推理是由一般到特殊的推理.
(2)从推理的结论看:
①合情推理所得的结论不一定正确,有待证明。

②演绎推理所得的结论一定正确。

(3)总体来说,从推理的形式和推理的正确性上讲,二者有差异;从二者在认识事物的过程中所发挥的作用的角度考虑,它们又是紧密联系,相辅相成的。

合情推理的结论需要演绎推理的验证,而演绎推理的内容一般是通过合情推理获得的;演绎推理可以验证合情推理的正确性,合情推理可以为演绎推理提供方向和思路.
经典例题透析
类型一:归纳推理
1.用推理的形式表示数列的前项和的归纳过程.
思路点拨:依题意,表示数列的前项和,即.为此,我们先根据该公式,算出数列的前几项,通过观察进一步归纳得出与的对应关系式. 解析:对数列
的前项和分别进行计算:,
,,

.观察可得,数列{S n}的前五项都等于1到相应序号的自然数之和的平方,由此猜想数列的前项和.
总结升华:
①本题是由部分到整体的推理,先把部分的情况都写出来,然后寻找规律,概括出整体的情况,是典型的归纳推理.
②归纳常常从观察开始,观察、实验、对有限的资料作归纳整理,提出带有规律性的猜想,是数学研究的基本方法之一
③归纳猜想是一种重要的思维方法,但结果的正确性还需进一步证明.在归纳猜想数列的前项和公式时,要认真观察数列中各项数字间的规律,分析每一项与对应的项数之间的关系. ④虽然由归纳推理所得到的结论未必是正确的,但它所具有的由特殊到一般,由具体到抽象的认知功能,对于数学的发现却是十分有用的.
举一反三:
【变式1】用推理的形式表示等差数列1,3,5,…,(2-1),…的前项和的归纳过程.
【答案】对等差数列1,3,5,…,(2-1),…的前1,2,3,4,5,6项的和分别进行计算:




;。

相关文档
最新文档