3.2 回归分析-王后雄学案

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

张喜林制
3.2 回归分析
教材知识检索
考点知识清单
1.对于一组具有线性相关关系的数据
,),,(),,(2211 y x y x
),,(n n y x
我们知道其回归方程的截距和斜率的最小二乘估计
公式分别为:
(1)
(2)
其中
,1,11
1i n
i i n i y n y x n x ∑∑==== 称为样本点的中心,回
归直线必然过样本点的中心,
,2e a bx y ++=⋅
这里a 和b 为模型的未知参数,e 是y 与
+=bx y
ˆ a
之间的误差,通常e 为随机变量,称为随机误差,它的均值
,0)(=e E
方差
.0)(2>=σe D
这样线性回归模型的完整表达
式为:
=i e
ˆ.3 i e
ˆ 称为相应于点
),(i i y x
的残差.类比样本方差估计总体方差
的思想,可以用 作为

的估计量,其中
b h a
ˆ*ˆ 由相应
公式给出,
)ˆ,ˆ(b a
Q 称为残差平方和( residual sum of squares).
可以用
2ˆσ
衡量回归方程的预报精度,通常
2ˆ,σ
越小,预报精
度越高.
4.在研究两个变量间的关系时,首先要根据 来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后,可以通过残差 来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析,
要点核心解读
1.变量间的相关关系及线性回归方程(1)变量间的相关关系:
①变量与变量间的两种关系:a .函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确
定.例如圆的面积S 与半径r 之间的关系
2r s π=
为函数关系.
b .相关关系:这是一种非确定性关系.即当自变量取值一定时,因变量的取值有一定的随机性,它还受一些其他因素的影响,例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系.
相关关系又包括两种:a .在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量.b .两个变量均为随机变量,如某学生的语文成绩与化学成绩.本
书主要涉及上述相关关系的前一种情况.
②散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据,
③正相关与负相关:根据变量相关性的不同,线性相关关系可分为正相关与负相关.正相关是指两个变量之间的变化趋势方向一致,即一个变量随另一个变量的增长而呈增长趋势;负相关是指两个变量变化趋势方向相反,如产品单位成本降低,利润随之增加就是负相关.
(2)线性回归方程:
①线性回归模型:一组数据对应点在一条直线附近,但并不在同一条直线上,也就是说,两者之间不能用线性关系准确地表
示出来,为此我们将两者之间的关系表示为
,⊕++=εbx a y

中a+ bx 称为确定性函数,£称为随机误差,它产生的原因主要有:a .所用的确定性函数不恰当引起的误差.b .忽略了某些因素的影响;c .观测误差.我们将方程④称为线性回归模型( linearregression model).
②回归直线:一般地,设x 与y 是具有相关关系的两个变
量,且对应于几组观测值的几个点
),,2,1)(,(n i y x i i =
大致
分布在一条直线附近,我们就称这两个变量之间具有线性相关关系.显然,这样的直线可以画出许多条,其中“最贴近”这些数据点的一条叫做回归直线,
③线性回归方程:根据线性回归模型,对于每一个
,i x
对应
的随机误差
),(i i i bx a y +-=ε
利用最小二乘法可求出线性回
归方程( equation of linear regression)为
.ˆˆˆx
b a y += 其中的
a
ˆ 称为
回归截距,
b
ˆ 称为回归系数,
y
ˆ
称为回归值.求
b a
ˆˆ- 的具体计算公
式为
⎪⎪⎪⎩⎪⎪⎪⎨⎧-=-=--=∑∑∑∑∑=====.ˆˆ,)()()(ˆ22112111x b y a
S y x xy x x n y x y x n b x n i i n i i n i i n i i n i i i 其中
x

x S

别表示数据
),,2,1(n i x i =
的均值和标准差,
γ⋅
表示数据
=⋅i y i (
),,2,1n
的均值,
xy
表示数据
),,2,1(n i y x i i =
的均值.
b a
ˆˆ 的意义是:以
a
ˆ 为基数,x 每增加一个单位,y 相应地平均
变化
⋅b
ˆ
卜单位.
从单调性 的角度看,回归系数
0ˆ0ˆ<>b b h
时,回归方程表示
的函数分别是增函数、减函数.
2.相关性检验
x 与y 之间可以用一个直线方程
x b a y
ˆˆˆ+= 来反映其关系,
而对x 与y 的具体变化规律应对x 与y 作线性相关性检验,简
称相关性检验.对于变量x 与y 随机抽取到的n 对数据
,(1x
),,(,),,(),221n n y x y x y
检验统计量是样本相关系数
=r
,)()()
)((21
211y y x x
y y x x
i n i i n i i i n i ----∑∑∑--= 即
))((2122
21
y n y x n x y x n y x r n i i n
t i i i i
n i ---=∑∑∑--= 这种方法是用参数r 检验线性相关的程度,这个r 称为y 与x 的样本相关系数,简称相关系统( correlation coefficient).其中
.11≤≤-r
若r >0,则称x 与y 正相关,即x 增加,y 随之相应地
增加;若x 减少,y 随之相应地减少.若r <0,则称x 与y 负相关,即x 增加,y 随之相应地减少;若x 减少,y 随之相应地增加,若r =0,则称x 与y 不相关,即x 与y 无线性相关关系,|x |越接近于1,y 与x 的线性相关程度越高,若r=l 或-1,则x 与y 为完全线性相关.|r |越接近于0,则x 与y 线性相关程度越弱.
上面公式计算相关系数r ,通常计算量较大,通过变形可将
上面公式化为
⋅-=y
x s s y x xy r 其中
y x s s ,
分别表示数据
=i y x i i (,
),,2,1n
的标准差,
检验的步骤如下:
(1)提出统计假设x 与y 不具有线性相关关系;
(2)根据小概率0.05与n-2在附表中查出 r 的一个临界

,05.0r
(3)根据样本相关系数计算公式算出r 的值;
(4)作出统计推断:如果
05||αr r >
表明有95%的把握认为x
与y 之间具有线性相关关系,如果
,||05αr r ≤
我们没有理由拒绝
原来的假设,这时寻求回归直线方程是毫无意义的.3.回归分析
对于回归分析问题,在解题时应首先利用散点图或相关性检验判断x 与y 是否具有线性相关关系,如果线性相关,才能求解后面的问题.否则求线性回归方程没有实际意义,它不能反映变量x 与y 之间的变化规律.只有在x 与y 之间具有相关关系时,求线性回归方程才有实际意义.
相关性检验的依据:主要利用检验统计量
y
x i n i i n i i i
n i s s y x xy y y x x
y
x n y x r -=---=∑∑∑--=21211)(.)( (其中化简式容易记也好用)求出检验统计量的样本相关系数,再利用r 的性质确定x 和y 是否具有线性相关关系,r 具
有的性质为:
1||≤r
且|r |越接近于1,线性相关程度越强;|r |越
接近于0,线性相关程度越弱.4.非线性回归分析问题
(1)对于非线性回归分析问题,如果给出了经验公式可直接利用换元,使新元与y 具有线性相关关系,进一步求出y 对新元的线性回归方程,换回x 即可得y 对x 的回归曲线方程.
(2)非线性回归问题有时并不给出经验公式,这时按以下步骤求回归方程:①画出已知数据的散点图,看是否是线性回归分析问题,如果不是,把它与必修数学中学过的函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,采用适当的变量置换,把非线性回归分析问题化为线性回归分析问题.②作相关性检验,即判断寻找线性回归方
程是否有意义,③当寻找线性回归方程有意义时,计算系数
,ˆ,ˆb a
得到线性回归方程.④代回x 得y 对x 的回归曲线方程.
5.求线性回归方程的三种方法
在求具有线性相关关系的两个变量之间的回归方程时,由于所给两个变量的数据较多并且量大,致使运算量大且繁杂,常常使我们望而生“畏”,望而生“烦”,下面给出求线性回归方程的几种方法,以供参考.
(1)用最小二乘法求线性回归方程:
对于两个变量,在确定具有线性相关关系后,可以利用“最小二乘法”来求回归方程.用“最小二乘法”求线性回归方程的
关键在于正确地利用回归方程中系数公式
=--=∑∑==a x
n x y x n y x b i n
i i i
n i ˆ,ˆ2211 .ˆx b
y - 求出系数
,ˆ,ˆb a
这样回归方程也就建立起来了.
为了使计算更加有条理,我们通过制作表格来先计算出
212111i n i th
n i ih n i i n i y x y x ∑∑∑∑====、

,1i
i n
i y x ∑= 再计算出
,1,11
1i n
i i n i x n x y n y ∑∑==== 然后利用公式
yy n i i xx L x n x L ,2
12-=∑=
-=-=∑∑==n
i i i xy n i i
y x L y n y 1212
, ,y x n
计算
,ˆˆ,ˆx b y a r x xx
L L -== 最后写出线性回归方程.
.ˆˆˆa x b y
+= (2)用函数型计算器求线性回归方程:在求线性回归方程时,所给的数据一般较多,运算量大,我们可以借助函数型计算器来代替人工完成这种复杂的数字计算,以提高运算速度.(3)用Excel 软件作散点图并求线性回归方程.
在直角坐标系中描出数据的散点图,直观判断散点图是否在一条直线附近;用线性回归方程拟合二者的关系,这一过程还可以用Excel 软件来帮助我们完成,实现上机操作, 典例分 类剖析
考点1 相关关系
命题规律
当一个变量变化时,另一个变量的取值有一定的相关性,这种关系是相关关系.相关关系可以利用散点图和相关
系数进行判定.
[例1] 在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y 与腐蚀时间x 的一组数据如下表所示.
(1)画出散点图.
(2)根据散点图,你能得出什么结论?
[解析] 利用散点图,直观地归结出相关关系的两个变量所具备的特点,
【解] (1)如图3-2 -1所示散点图.
(2)结论:设戈与y 是具有相关关系的两个变量,且相应于n 组观测值的n 个点大致分布在一条直线附近,其中整体上与这n 个点最接近的一条直线最能代表x 与y 之间的关系.
[点拨]散点图能帮助我们发现变量之间的线性关系,直
观地反映了数据的变化规律.
母题迁移 1.如图3 -2-2所示的5组数据中,去掉占剩下的4组数据的线____点, 性相关系数最大.
考点2求线性回归方程
命题规律
利用公式
y
x S S y x xy r -= 计算相关系数,与对应r 的一个临
界值进行比较,确定x 、y 之间是否相关;运用相应公式求出
线性回归方程中的函数
.ˆ,ˆb a
[例2]近几年来,随着我国经济的发展,汽车已进入普通百姓家中.根据某汽车协会资料统计,国产某种型号家庭轿车的使用年限x (年)和所支出的维修费用y (千元),如下表:
(1)求出相关系数r ,并根据所求的r 判断两个变量之间的线性相关关系的强弱;
(2)试求出回归直线方程,若某家庭购得此型号的汽车,请你为他们估计一下使用年限为10年时,维修费用是多少?
、 [解析] 通过求出相关系数r ,从而判断出是否具有相关关系;再求回归方程,从而进行回归预测.
[解] (1)根据公式,求得r≈0.9792 >0.878,故两个变量之间有较强的线性相关关系. ?
(2)设所求的回归方程为
,ˆˆˆa x b y
+= 则
,08.0ˆˆ,23.155ˆ225
151
=-==--=∑∑==x b y a x
x y x y x b i i i i
i 即所求的回归直线方程为
.08.023.1ˆ+=x y
当x=10时,代入回归直线方程得
,38.12ˆ=y
所以估计使用
年限为10年时,维修费用是1.238万元.
[点拨] 求x 与y 的回归直线方程,应首先判断x 与y 是否具有线性相关关系,如果直接求x 与y 的回归直线方程,它就没有任何实际价值,也就不能准确反映变量x 与y 之间的变化规律.母题迁移2.测得某种物质在温度x (单位:℃)下吸附另一种物质的重量y(单位:mg)的对应数据如下:
(1)对变量y 与x 进行相关性检验;
(2)若x 与y 具有线性相关关系,求y 对x 的回归直线方程
[例3] 已知某地每单位面积菜地年平均使用氮肥量x( kg)与每单位面积蔬菜年平均产量y(t)之间的关系有如下数据:
(1)求x 与y 之间的相关系数,并检验是否线性相关;
(2)若线性相关,求蔬菜产量y 与使用氮肥量x 之间的回归直线方程,并估计每单位面积施肥150 kg 时,每单位面积蔬菜的年平均产量.
[解析] (1)使用样本相关系数计算公式来完成.(2)先作统计假设,由小概率0.05与n-2在附表中查得相关系数临界

,05L r

05.0r r
则线性相关,否则不线性相关.
[解] 列出下表,并用科学计算器进行相关计算:
)15)(15(15)1(2151
21215
121151
---=--⋅-=∑∑∑y y x x y x y x r i i i i
i )11.101555.1628)(10115161125(11.10101158.16076⨯-⨯-⨯⨯-= 45
.87915.760~ .864.0~
由小概率0.05与n-2 =13在附表中查得
,514.0.0=ωr
x r r ∴>,||05α
与y 线性相关.
22151151
1515ˆ)2(x x
y
x y x b i
i i i
i -⋅-=∑∑== 2
1011516112511.10101158.16076⨯-⨯⨯-= ,37.0~ω
.6463.010137.011.10ˆˆ=⨯-=-=ωx b y a
.‘.回归直线方程为
.6463.00937.0ˆ+=x y
...当每单位面积施肥150 kg 时,每单位面积蔬菜的年平均
产量为
⋅=+⨯)(7.14~~7013.146463.015037.0t ω
[点拨] 求解两个变量的相关系数及它们的回归直线方
程的计算量较大时,需要细心、谨慎地计算.
母题迁移 3:-个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:
(l)y 与x 是否具有线性相关关系?
(2)如果y 与x 具有线性相关关系,求回归直线方程.
(3)根据求出的回归直线方程,预测加工150个零件所用的时间为多少?
考点3 线性回归方程的三种解法
[例4】测得某地10对父子身高(单位:英寸)如下:
父亲身高(x )
6062646566676870
67 68 70
7274
儿子身高(y)
63.665.26665.566.967.1
65. 5 66. 9 67. 1
67.468: 370.170
70
如果x 与y 之间具有线性相关关系,求线性回归方程,如果父亲的身高为78英寸,试估计儿子的身高.
[解] 解法一:先将两个变量的有关数据在表中计算出
来,如下表所示:由表中数据可计算,
====101.6,8.6610
668
r y x
=∑=1101
,01.67y x i i
,44794,4.448422111
=∑=x i
,101293
.44941∑==⋅i y i
代入
公式
=⨯-⨯⨯-28
.66104479401.678.66104.44842 ≈6
.17172.79 .646.04
所以
4646.001.67ˆˆ-=-=x b y a
.975.358.66≈⨯
因而
所求得线性回归方程为:
.975.354646.0ˆ+=x y

78=x
时,
=y
ˆ 975.35784646.0+⨯
.2.722138.72≈=
所以当父亲的身高为
78英寸时,估计儿子的身高约为72.2英寸.
解法二:用计算器求这个线性回归方程:
(计算参数
)a
得35.977,
(计算参数
)ˆb
得0.4646.
所以所求线性回归方程为:
.977.354646.0ˆ+=x y

78=x
时,
⨯=4646.0ˆy
.2.722158.72977.3578≈=+
所以当父亲的
身高为78英寸时,估计儿子的身高约为72.2英寸,
解法三:运用计算机中的Excel 软件:(1)输入数据x ,y:x
60626465
6667
2.665.6368707274y
9.566.6665
4.167.67
)2.(170.370.68
选择数
据,生成散点图:在菜单中选定“插入”中的“图表”,选择“xy 散点图”,连续点击“下一步”,可得到如图3 -2 -3所示的散点图.(3)建立回归直线:选中“图表”中的“添加趋势线”,点击“类型”标签,选定“趋势预测/回归分析类型”中的“线性”选项,单击“确定”,得到回归直线.(4)求得回归直线方程:双击回归直线,弹出“趋势线格式”,单击“选项”,选定“显示公式”,最后单击“确定”就得到回归直线方程,如图3 -2 -4所示.
所求回归直线方程为:
;977.354646.0ˆ+=x y
当x=78时,
977.35784646.0ˆ+⨯=y
,2.722158.72≈=
所以当父亲的身高
为78英寸时,估计儿子的身高约为72.2英寸.
[点拨] (1)“最小二乘法”是求线性回归方程常用的方
法,在线性回归方程
b a lr a x b y
ˆ,ˆ,ˆˆˆ+= 是线性回归方程中的系数,
其中
b
ˆ 是线性回归的斜率,表示自变量变化1个单位时因变量的
平均变化值,在数值计算的过程中可以用计算器来帮助完成复杂的计算.
(2)用函数型计算器求线性回归方程,避免了繁琐的计算,节省了时闽,因而大大地提高了解题的速度.
(3)在运用计算机中的Excel 软件求线性回归方程时,只要严格按照运算程序一步步进行下去,最终总能求出回归直线方程并且得到如上图的图像,总之,求线性回归方程的方法是较多的,既有最常用的“最小二乘法”,又有简便易行的计算器法,还有用计算机软件来完成的方法,这些方法在以后的学习中同学
们要逐步体会,
考点4非线性回归的转化
命题规律
借助指数、幂、对数函数,将变量间的变换转化为回归
问题.
[例5] 在一化学反应过程中某化学物质的反应速度yg /min 与一种催化剂的量xg 有关,现收集了8组数据列于表中,试建立y 与x 之间的回归方程.
[解析] 两个变量不一定是线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法将非线性
关系转化为线性回归模型.
[解】根据收集的数据作散点图:
图3 -2 -5
根据样本点分布情况,可选用两种曲线模型来拟合.
(1)可认为样本点集中在某二次曲线
221c x c y +=
的附近,

,2x t =
则变换后样本,点 应该分布在直线
==+=a c b a bt y ,(1
)2c
的周围,
由题意得变换后的t 与y 的样本数据表如下:
作y 与 t 的散点图,
由y 与t 的散点图可观察到样本数据点并不分布在一条直
线的周围,因此不宜用线性回归方程
a t
b y
ˆˆˆ+=
来拟合,即不宜
用二次曲线
221c x c y +=
来拟合y 与x 之间的关系.
(2)根据x 与 y 的散点图也可以认为样本点集中在某一条
指数型函数曲线
.1c e c y =
的周围,

,ln y z =

,ln 12c x c z +=
即变换后样本点应该分布在直线
),ln (21c b c a a bx z ==+=
的周围,
由y 与x 数据表可得z 与x 的数据表
作出z 与x 的散点图.
由散点图可观察到大致在一条直线上,所以可用线性回归方程来拟合它,
由z 与x 的数据表,得到线性回归方程,
,8485.01812.0ˆ-=x z
所以非线性回归方程为
,ˆ8485.01812.0-=x e y
因此,该化学物质反应速度关于催化剂的量的非线性回归
方程为
8485.01812.0ˆ-=x e y
[点拨] 非线性回归问题有时并不给出经验公式,这时我
们可以画出已知数据的散点图,把它与学过的各种函数图像作比较,挑选一种跟这些散点拟
舍得最好的函数,然后像本例这样,采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决,
母题迁移4.某种图书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
检测每册书的成本费y与印刷册数的倒数
1
x
之间是否具
有线性相关关系?如有,求出y对x的回归方程.
优化分层测训
学业水平测试
1.下列变量之间的关系是函数关系的是( ).
A .已知二次函数
,2c bx ax y ++=
其中a ,c 是已知常数,取b
为自变量,因变量是这个函数的判别式
ac b 42-=∆
B .光照时间和果树亩产量
C .降雪量和交通事故发生的数量
D .每亩施用肥料量和粮食产量2.对于线性相关系数r ,下列叙述正确的是( ).
||),,0(||.r r A +∞∈
越大,相关程度越大,反之,相关程度越小
r r B ),,(||.+∞-∞∈
越大,相关程度越大,反之,相关程度
越小
,1||.≤r C
且lrl 越接近于1,相关程度越大;|r |越接近于0,相
关程度越小
D .以上说法都不对
3.工人月工资y (元)按劳动生产率x (千元)变化的回归方程为
,8050ˆx y
+= 下列判断正确的是( ).
①劳动生产率为1000元时,则月工资为130元;②劳动生产率提高1000元时,则月工资提高80元;③劳动生产率提高1000元时,则月工资提高130元;④当月工资为210元时,劳动生产率为2000元.
A .① B.② C.③. D .④
4.为了考查两个变量x 和y 之间的线性关系,甲、乙两位同学各自独立做了10次和15次试验,并利用线性回归方法,求得回

归直线分别为
,21l l N
已知两人获得的试验数据中,变量x 和y
的数据的平均值都相等,且分别都是s 、t ,那么下列说法正确
的是( ).
A .直线
21*nl l
一定有公共点(s ,t)
B .直线
21*l l ∏
相交,但交点不一定是(s ,t)
C .直线
21*nl l
可能没有交点
21.kJl l D
必定重合
5.在一次实验中,测得(x ,y)的四组值分别是A(l ,2),B(2,3),
),5,4(),4,3(D C
则y 与x 之间的回归直线方程为( ).
1ˆ.+=x y
A 2ˆ+=⋅x y
B 12ˆ+=⋅x y
C 1ˆ.-=x y
D 6.弹簧长度),( cm)随所挂物体质量x(g)不同而变化的情况如下:
(1)画出散点图;
(2)求y 对x 的回归直线方程;
(3)预测所挂物体的质量为27 g 时的弹簧长度(精确到
0.01 cm).
7.随着人们经济收入的不断增长,购买家庭轿车已不再是一种时尚.车的使用费用,尤其是随着使用年限的增加,所支出的费用到底会增长多少,一直是购车一族非常关心的问题.某汽车销售公司为此进行了一次抽样调查,并统计得出某款车的使用年限x 与所支出的总费用y (万元)有如下的数据资料:
若由资料知,y 对x 呈线性相关关系,试求:
(1)线性回归方程
a x
b y
ˆˆˆ+= 的回归系数
,ˆˆb a
、 (2)估计使用年限为10年时,车的使用总费用是多少?
嵩考能力测试
(测试时间:90分钟测试满分:120分)一、选择题(本大题共7小题,每小题5分.共35分)1.下面两个变量间的关系不是函数关系的是( ).
A .正方形的棱长与体积
B .角的度数与它的正弦值
C .单产为常数时,土地面积与粮食总产量
D .日照 时间与水稻亩产量
2.(2011年江西高考题)变量x 与y 相对应的一组数据为
,10(
);5,13(),4,5.12(),3,8.11(),2,3.11(),1
变量u 与v 相对
应的一组数据为
),2,5.12(),3,8.11(),4,3.11(),5,10(
1),1,13(r
表示变量y 与x 之间的线性相关系数,
2r
表示变量
v 与u 之间的线性相关系数,则().
0.12<<r r A
120.r r B <<
120.r r C <<
12.r r D =
3.为了表示n 个点与相应直线在整体上的接近程度,我们常用
( ).
)ˆ(.1
i i n
i y y A -∑=
表示
)ˆ(.1
i i n
i y y B -∑=
表示
21
)ˆ(.i i n
i y y C -∑=
表示
21
)(.y y D i n
i -∑=
表示
4.设一个回归方程为
,53ˆx y -=
变量x 增加一个单位时( ).
A .y 平均增加3个单位 B.y 平均减少5个单位C.y 平均增加5个单位 D.y 平均减少
3个单位
5.线性回归方程
a x
b y
ˆˆˆ+= 必过( ).
)0,0.(A
)0,.(x B
),0(y C ⋅
),.(y x D
6.已知两个变量x 和y 之间具有线性相关关系,5次试验的观测
数据如下:
经计算得回归方程
a bx y
+=ˆ 的系数
,575.0=b
则a=
9.14.-A
9.13.-B
9.12.-C
9.14.D
7.判断图3 -2 -8中的两个变量,具有相关关系的是( ).
二、填空题(本大题共3小题,每小题5分,共15分)
8.(2011年广东高考题)某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm ,170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为____ cm.
9.-唱片公司欲知出歌费用x (十万元)与唱片销售量y (千张)之间的关系,从其所发行的唱片中随机抽选了10张,得到如
下的资料:
,4.303,282101101
==∑∑≡=i i t
i x x γ ,5.598,75211011101
==∑∑≈y y
x i i ,237101=∑≈i t
i y x
则y 与x 的相关系数r 的绝对值为
10.某五星级大饭店的入住率x(%)与每天每间客房的成本
,,(元)如下:
则y 关于x 的回归直线方程是____三、解答题(70分)
11.(10分)设有资料如下表所示:
两位评酒员对10种品牌白酒的主观排序及白酒种类
试问两位评酒员的评审顺序是否具有一定的线性相关关系?(按5%的显著水平检验)
12.(12分)用镁合金X 光探伤时,要考虑透视电压U 与透视厚度l 的关系,做了5次独立试验结果如下:
(1)画出散点图;
(2)进行相关性检验;
(3)求U 关于l 的线性回归方程,并预测当透视厚度l 为40 mm 时,透视电压U 是多少千伏.
13.(12分)下表提供了某厂节能降耗技术改造后生产甲产品过’程中记录的产量x(t)与相应的生产能耗y (吨标准煤)的几组数据:
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出Y 关于x 的
线性回归方程
;ˆˆˆa x b y
+= (3)已知该厂技改前100t 甲产品的生产能耗为90t 标准煤.试根据(2)求出的线性回归方程,预测生产100t 甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4 x3 +5 x4+6 x4.5 =66.5)
14.(12分)每立方米混凝土的水泥用量x (单位:kg )与28天后
混凝土的抗压强度(单位:
)/2cm kg
之间的关系有如下数据:
(1)对变量y 与x 进行相关性检验;
(2)如果y 与x 之间具有线性相关关系,求回归直线方程.
15.(12分)下表为收集到的一组数据:
(1)作出x 与y 的散点图,并猜测x 与y 之间的关系;(2)建立x 与y 的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y 的值.
16.(12分)已知10只狗的血球体积及红血球数的测量值如下表:
(1)画出上表的散点图;(2)求出回归直线方程.
单元知识整合
2.本章注意问题
在本章的学习中我们必须注意以下几个问题:
(1)函数关系是一种确定关系,而相关关系是一种非确定关系,函数关系有具体的函数关系式,而相关关系没有一个确定的关系式,用回归直线来估计相应的量的关系,但这种关系也不是确切的,存在着一定的误差.
(2)利用散点图来确定两个变量之间是否具有线性相关关系时,作图要规范,如果样本点呈条形分布,我们就认为具有线性相关关系,如果有个别的样本点出现异常,而绝大多数的样本点在这个条形区域内,我们可以不考虑这个别的点,或认为这几个出现异常的点对我们的结论影响不大.但如果出现异常的点过多就认为不具有线性相关关系.
(3)样本相关系数的计算公式为
,)()()
)((21
211y y x x
y y x x r i n i i n i i i n i ----=∑∑∑=-= 可以用来衡量两个变量之间的线性相关关系,当r >0时,表示两个变量正相关;当r<0时,表示两个变量负相关.在实际判断中用…进行衡量,如果|r |越接近于1,表明两个变量之间的线性相关性越强,|r |越接近于0,表明两个变量之间几乎不存在线性相关关系;通常当|r |大于0.75时,就认为两个变量之间有很强的线性相关关系,就可以求回归直线方程,并且在r >0时,回
归系数
b
ˆ 为正,在r<0时,
b
ˆ 为负.
(4)回归直线方程
a x
b y
ˆˆˆ+= 过样本点中心
).,(y x
(5)在线性回归模型中,随机误差用
y ∧
预报真实值_y 的误
差.它是一个不可预测的变量,但可以通过这个随机变量的数字特征来刻画它的一些总体特征,均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为O ,因此可以用方差来衡量随机误差的大小.
(6)在研究两个变量之间的关系时,可以先根据散点图来粗略地判断它们是否存在线性相关关系,是否可以用线性回归模型来拟合两个变量的关系,如果可以用线性回归模型来拟合时,再求出面归直线方程,.最后再作残差分析来判断拟合的效果,并判断原始数据中是否存在可疑数据.
(7)在判断两个分类变量的可信程度时要特别注意计算的
准确度,准确代数,准确计算,准确比较,准确下结论.
(8)在实际问题中,经常会面临需要推断的问题,在对问题进行推断时,我们不能仅凭主观意愿作出结论,还需要通过收集数据,并根据独立性检验的基本原理作出合理的推断.
(9)统计方法是可能犯错误的,不管是回归分析还是独立性检验,得到的结论都可能犯错误,好的统计方法就是要尽量降低犯错误的概率,比如在推断吸烟与患肺癌是否有关时,通过收集数据、整理分析数据得到“吸烟与患肺癌有关”的结论,而且这个结论出错的概率在0.01以下,实际上这是统计思维与确定性思维差异的反应.结合本章的学习,谈谈你对统计思维和确定性思维差异的理解.
3.热点透视
(1)独立性检验思想在日常生活中的应用.
(2)了解线性回归思想,会求线性回归方程及进行相关性检验,掌握回归分析在生活中的应用.
4.思想方法总结
类型1 独立性检验思想在生活中的应用 ‘由题意列出事件A 与B 的2×2列联表,据公式计算出
,2x

,706.22>x
则有90%的把握认为事件A 与B 有关,若
>2x
,635.6
则有99%的把握认为事件A 与B 有关;若
,828.102>x
则有99.9%的把握认为事件A 与B 有关,若
,706.22≤x。

相关文档
最新文档