2020版高中数学高二选修2-3教案及练习归纳整理讲义22知识讲解-《统计案例》单元复习巩固
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《统计案例》单元复习巩固
【学习目标】
1.了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.
2.通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用.
3.通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤.
4.能作出散点图,能求其回归直线方程。
5.会用所学的知识对简单的实际问题进行回归分析。
【知识网络】
【要点梳理】
要点一、分类变量
有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。
要点诠释:
(1)对分类变量的理解。
这里的“变量”和“值”都应作为广义的“变量”和“值”进行理解。
例如:“性别变量”有“男”和“女”两种类别,这里的变量指的是性别,同样这里的“值”指的是“男”和“女”。
因此,这里所说的“变量”和“值”取的不一定是具体的数值。
(2)分类变量可以有多种类别。
例如:吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有多种类别。
要点二、2×2列联表
1. 列联表
用表格列出的分类变量的频数表,叫做列联表。
2. 2×2列联表
对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:
这样的表格称为2×2列联表。
要点三:卡方统计量公式
为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示
统计中有一个有用的(读做“卡方”)统计量,它的表达式是:
2
2
()()()()()
n ad bc K a b c d a c b d -=++++(n a b c d =+++为样本容量)。
要点四、独立性检验
1. 独立性检验
通过2×2列联表,再通过卡方统计量公式计算2K 的值,利用随机变量2K 来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2. 变量独立性的判断
通过对2K 统计量分布的研究,已经得到两个临界值:3.841和6.635。
当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:
①如果2
K ≤3.841时,认为事件A 与B 是无关的。
②如果2K >3.841时,有95%的把握说事件A 与事件B 有关; ③如果2K >6.635时,有99%的把握说事件A 与事件B 有关; 要点诠释:
(1)独立性检验一般是指通过计算2
K 统计量的大小对两个事件是否有关进行判断;
(2)独立性检验的基本思想类似于反证法。
即在H 0:事件A 与B 无关的统计假设下,利用2
K 统计量的大小来决定在多大程度上拒绝原来的统计假设H 0,即拒绝“事件A 与B 无关”,从而认为事件A 与B 有关。
独立性检验为假设检验的特例。
(3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把握程度。
3.独立性检验的基本步骤及简单应用
独立性检验的步骤:
要推断“A 与B 是否有关”,可按下面步骤进行: (1)提出统计假设H 0:事件A 与B 无关(相互独立); (2)抽取样本(样本容量不要太小,每个数据都要大于5); (3)列出2×2列联表;
(4)根据2×2列联表,利用公式:22
()()()()()
n ad bc K a c b d a b c d -=++++,计算出2
K 的值;
(5)统计推断:当2K >3.841时,有95%的把握说事件A 与B 有关;
当2K >6.635时,有99%的把握说事件A 与B 有关; 当2K >10.828时,有99.9%的把握说事件A 与B 有关; 当2K ≤3.841时,认为事件A 与B 是无关的.
要点诠释:
① 使用2K 统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5.
② 一定要弄清2
K 的表达式2
2
()()()()()
n ad bc a c b d a b c d χ-=++++中各个量的含义.
③ 独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,
首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量2
K
应该很小,如果由观测数据计算得到的2
K 的观测值很大,则在一定程度上说明假设不合理.根据随机变量2K 的含义,由实际计算的2
K >6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当2
K ≤3.841时,认为两个分类变量是无关的.
要点五、变量间的相关关系
1.变量与变量间的两种关系:
(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S 与半径r 之间的关系S=πr 2
为函数关系.
(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。
例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2.相关关系的分类:
(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; (2)两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3.散点图:
将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据.
4.回归分析:
与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
要点六、线性回归方程:
1.回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程ˆˆˆy
bx a =+ 对于一组具有线性相关关系的数据11(,)x y ,22(,)x y ,……,(,)n n x y ,其回归直线ˆˆˆy
bx a =+的截距和斜率的最小二乘法估计公式分别为:
1
2
1
()()
ˆ()
n
i
i
i n
i
i x x y y b
x x ==--=-∑∑,ˆˆa
y bx =- 其中x 表示数据x i (i=1,2,…,n)的均值,y 表示数据y i (i=1,2,…,n)的均值,xy 表示数据x i y i (i=1,2,…,n)的均值.
a 、
b 的意义是:以a 为基数,x 每增加一个单位,y 相应地平均变化b 个单位.
要点诠释:
①回归系数1
2
1
()()
ˆ()
n
i
i
i n
i
i x x y y b
x x ==--=-∑∑,也可以表示为1
2
21
ˆn
i i
i n
i
i x y nx y
b
x
nx
==-=-∑∑,这样更便于实际计算。
②12111
()n i n i x x x x x n n ===++
+∑;12111
()n i n i y y y y y n n
===++
+∑。
③(,)x y 称为样本中心点,回归直线ˆˆˆy
a bx =+必经过样本中心点(,)x y 。
④回归直线方程ˆˆˆy
a bx =+中的ˆ
b 表示x 增加1个单位时ˆy 的变化量,而ˆa 表示ˆy 不随x 的变化而变化的量。
3.求回归直线方程的一般步骤: ①作出散点图
由样本点是否呈条状分布来判断两个量是否具有线性相关关系,若存在线性相关关系,进行第二步。
②求回归系数ˆb
、ˆa 计算121
()n x x x x n
=
+++,121
()n y y y y n
=
+++,
11221
n
i i
n n i x y
x y x y x y ==++
∑,222
2121
n
i n i x x x x ==++
+∑,
利用公式1
2
21
ˆn
i i
i n
i i x y nx y
b
x nx
==-=-∑∑求出ˆb
, 再由ˆˆa
y bx =-求出ˆa 的值; ③写出回归直线方程;
④利用回归直线方程ˆˆˆy
a bx =+预报在x 取某一个值时y 的估计值。
要点诠释:
一般地,我们可以利用回归直线方程进行预测,但这里所得到的值是预报值,而不是精确值,它带有很大的随机性,可能对于某一次的实际值而言会有很大的出入,这是因为:
(1)回归直线的截距ˆa
和斜率ˆb 都是通过样本估计出来的,存在随机误差,这种误差可以导致预测结果的偏差。
(2)即使截距和斜率的估计没有误差,也不可能保证对应于x 的预报值ˆy 能够与实际值y 很接近。
我们不能保证点(x,y)落在回归直线上,甚至不能保证它落在回归直线的附近,事实上,ˆy x y βαεε=++=+,这里ε是随机变量,预报值ˆy
与实际值y 的接近程度由随机变量ε决定。
尽管我们利用回归直线方程所得到的值仅是一个预报值,它具有随机性,但它是我们根据统计规律所得到的结论,因而结论正确的概率很大。
故我们可以放心地利用回归直线方程进行预测。
要点七、相关性检验
(1)相关系数r 的定义
对于变量x 与y 随机抽取到的n 对数据11(,)x y ,22(,)x y ,……,(,)n n x y ,
称
()()
n
n
i
i
i i
x x y y x y nx y
r ---=
=
∑∑x 与y 的样本相关系数。
(2)相关系数r 的作用
样本相关系数r 用于衡量两个变量之间是否具有线性相关关系,描述线性相关关系的强弱: ①||1r ≤
||r 越接近1,表明两个变量之间的线性相关程度越强;||r 越接近0,表明两个变量之间的线性相关程
度越弱。
②当r >0时,表明两个变量正相关, 即x 增加,y 随之相应地增加,若x 减少,y 随之相应地减少. 当r <0时,表明两个变量负相关, 即x 增加,y 随之相应地减少;若x 减少,y 随之相应地增加. 若r=0,则称x 与y 不相关。
③当||0.75r >,认为x 与y 之间具有很强的线性相关关系。
④当||r 大于0.05r 时,表明有95%的把握认为x 与y 之间具有线性相关关系,这时求回归直线方程有必要也有意义,当0.05||r r ≤时,寻找回归直线方程就没有意义。
(3)利用相关系数r 检验的一般步骤: 法一:
①作统计假设:x 与y 不具有线性相关关系。
②根据样本相关系数计算公式算出r 的值。
③比较||r 与0.75的大小关系,得出统计结论。
如果||0.75r >,认为x 与y 之间具有很强的线性相关关系。
法二:
①作统计假设:x 与y 不具有线性相关关系。
②根据样本相关系数计算公式算出r 的值。
③根据小概率0.05与n-2在相关性检验的临界值表中查出r 的一个临界值0.05r (n 未数据的对数)。
④比较||r 与0.05r ,作统计推断,如果0.05||r r >,表明有95%的把握认为x 与y 之间具有线性相关关系。
如果0.05||r r ≤,我们没有理由拒绝原来的假设,即不认为x 与y 之间具有线性相关关系。
这时寻找回归直线方程是毫无意义的。
要点八、线性回归分析与非线性回归分析 1.线性回归分析
对于回归分析问题,在解题时应首先利用散点图或相关性检验判断x 与y 是否具有线性相关关系,如果线性相关,才能求解后面的问题.否则求线性回归方程没有实际意义,它不能反映变量x 与y,之间的变化规律.只有在x 与y 之间具有相关关系时,求线性回归方程才有实际意义. 相关性检验的依据:主要利用检验统计量
n
i i
x y
x y nx y
xy x y
r S S --=
=
∑
(其中化简式容易记也好用)求出检验统计量的样本相关系数,再利用r 的性质确定x 和y 是否具有线性相关关系,r 具有的性质为:|r|≤1且|r|越接近于1,线性相关程度越强;|r|越接近于0,线性相关程度越弱.
2.线性回归分析的一般步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; (2)判断两变量是否具有线性相关关系 ①作散点图
由样本点是否呈条状分布来判断两个量是否具有线性相关关系。
②求相关系数r
当||0.75r >,认为x 与y 之间具有很强的线性相关关系。
(3)若两变量存在线性相关关系,设所求的线性回归方程为ˆˆˆy
bx a =+,求回归系数ˆb 、ˆa 。
(4)写出回归直线方程;
(5)利用回归直线方程ˆˆˆy
a bx =+预报在x 取某一个值时y 的估计值。
3.非线性回归分析
(1)对于非线性回归分析问题,如果给出了经验公式可直接利用换元,使新元与y 具有线性相关关系,进一步求出,,对新元的线性回归方程,换回x 即可得y 对x 的回归曲线方程.
(2)非线性回归问题有时并不给出经验公式,这时按以下步骤求回归方程:
①画出已知数据的散点图,看是否是线性回归分析问题,如果不是,把它与必修数学中学过的函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,采用适当的变量置换,把非线性回归分析问题化为线性回归分析问题.
②作相关性检验,即判断寻找线性回归方程是否有意义.
③当寻找线性回归方程有意义时,计算系数a ,b ,得到线性回归方程. ④代回x 得y 对x 的回归曲线方程. 【典型例题】
类型一、独立性检验及应用
例1.(2016 张掖校级模拟)某校通过随机询问100名性别不同的学生是否能做到“光盘”行动,得到所示联
表
:
附:2
2
112212211212
()n n n n n K n n n n ++-=++
A.在犯错误的概率不超过1%的前提下,认为“该校学生能否做到‘光盘’与性别无关”
B.有99%以上的把握认为“该校学生能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过10%的前提下,认为“该校学生能否做到‘光盘’与性别有关”
D.有90%以上的把握认为“该校学生能否做到‘光盘’与性别无关” 【参考答案】C
【思路点拨】通过图表读取数据,代入观测值公式计算,然后参照临界值表即可得到正确结论。
【试题解析】由2×2列联表得到a=45,b=10,c=30,d=15。
则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100。
代入2
2
()()()()()
n ad bc K a b c d a c b d -=++++,
得k 2
的观测值2
100(675300)55457525
k -=⨯⨯⨯。
因为2.706<3.030<3.841。
所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”。
即在犯错误的概率不超过10%的前提下,认为“该校学生能否做到‘光盘’与性别有关” 故选C 。
【总结升华】本题是一个独立性检验,我们可以利用临界值的大小来决定是否拒绝原来的统计假设,若值较大就拒绝假设,即拒绝两个事件无关。
举一反三:
【变式】(2014春 香坊区校级期中)在一次独立性检验中,有300人按性别和是否色弱分类如下表:
由此表计算得统计量K 2
=( )(参考公式:2
2
()()()()()
n ad bc K a b c d a c b d -=++++)
A.2
B.3
C.2.4
D.3.6 【参考答案】C
2
2
300(1303012020) 2.415015025050
K ⨯⨯-⨯==⨯⨯⨯。
故选C 。
例2.(2015春 遵义校级期末)在对人们的休闲方式的一次调查中,共调查了120人,其中女性65人,男性55人。
女性中有40人主要的休闲方式是看电视,另外25人主要的休闲方式是运动;男性中有20人主要的休
闲方式是看电视,另外35人主要的休闲方式是运动。
2
2
()()()()()
n ad bc K a b c d a c b d -=++++
其中n=a+b+c+d
(1)根据以上数据建立一个2×2的列联表;
(2)能够以多大的把握认为性别与休闲方式有关系,为什么? 【参考答案】(1)略(2)99%
【思路点拨】(1)根据题目所给的数据填写2×2列联表即可;
(2)计算K的观测值K2,对照题目中的表格,得出统计结论。
【试题解析】(1)根据题目所给数据得到如下2×2的列联表:
(2)假设H:“性别与休闲方式没有关系”,
则K的观测值:
2
2
120(20253540)
7.552
60605565
K
⨯⨯-⨯
=≈
⨯⨯⨯
;
由于7.552>6.635,
∴有99%的把握认为休闲方式与性别是有关的。
举一反三:
【变式】(2015春福建期末)随着移动互联网的深入普及,用手机上的网的人数日益增多,某教育部门成立了调查小组,调查“常上网与高度近视的关系”,对某校高中二年级800名学生进行检验,得到如下2×2列联表:
根据列联表的数据,计算得到K2≈7.524,则( )
A.有99.5%的把握认为常上网与高度近视有关
B.有99.5%的把握认为常上网与高度近视无关
C.有99%的把握认为常上网与高度近视有关
D.有99%的把握认为常上网与高度近视无关
【参考答案】∵根据表中数据,得到X2的观测值K2≈7.524>6.635,
由于P(K2≥36.636)≈0.01,
∴有99%的把握认为常上网与高度近视有关。
故选:C。
类型二、线性回归方程
例3.(2016 石嘴山校级二模)已知x、y取值如表:
画散点图分析可知:y 与x 线性相关,且求得回归方程为1y x =+,则m 的值(精确到0.1)为( )
A.1.5
B.1.6
C.1.7
D.1.8 【参考答案】C
【思路点拨】将 3.2x =代入回归方程为1y x =+可得 4.2y =,则4m=6.7,即可得出结论。
【试题解析】将 3.2x =代入回归方程为1y x =+可得 4.2y =,则4m=6.7,解得m=1.675,
即精确到0.1后m 的值为1.7。
故选C 。
【总结升华】线性回归直线一定过样本中心点,即()
,x y 。
举一反三:
【变式】(2016·福建模拟)已知x 与y 之间的一组数据,则y 与x 的线性回归方程y bx a =+必过点( )
A.(2,2)
B.(1,2)
C.(1.5,4)
D.(1.5,0) 【参考答案】C
【试题解析】回归方程必过点(,)x y ,
∵0123342x +++=
=,1357
44
y +++==,
∴回归方程过点(1.5,4)。
故选:C
类型三、线性相关及回归方程的应用
例4.(2016 河南二模 )下列说法错误的是( )
A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;
B.在线性回归分析中,相关系数r 的值越大,变量间的相关性越强;
C.在残差图中,残差点分布的带状区域的宽度约狭窄,其模型拟合的精度越高;
D.在回归分析中,2
R 为0.98的模型比为2
R 为0.80的模型拟合的效果好。
【参考答案】B
【思路点拨】A 根据相关关系的定义,判断命题A 正确;
B 线性回归分析的相关关系r 的绝对值越接近1,线性相关性越强,判断命题B 错误;
C一组数据拟合程度的好坏,是残差点分布的带状区域宽度越狭窄,其模型拟合的精度越高,判断命题C正确;
R刻画回归效果时,2R的值越大说明模型拟合效果越好,由此判断命题D正确。
D用相关指数2
【试题解析】对于A,根据相关关系的定义,即可判断自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系是相关关系,所以命题A正确;
对于B,线性回归分析中,相关系数r的绝对值接近1,两个变量的线性相关性越强,反之,线性相关性越弱,所以命题B错误;
对于C,残差图中,对于一组数据拟合程度的好坏评价,是残差点分布的带状区域宽度越狭窄,其模型拟合的精度越高,所以命题C正确;
R刻画回归效果时,2R的值越大说明模型拟合效果越好,所以2R为对于D,回归分析中,用相关指数2
R为0.80的模型拟合效果好,命题D正确。
0.98的模型比2
故选:B
【总结升华】本题考查了“残差”的意义、相关指数的意义,也考查了理解能力和推理能力的应用问题。
举一反三:
【变式1】(2014秋金台区校级期末)对于线性相关系数r,下列说法正确的是( )
A.|r|∈(-∞,+∞),|r|越大,相关程度越大;反之,相关程度越小
B.|r|≤1,r越大,相关程度越大;反之,相关程度越小
C.|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小
D.以上说法都不正确
【参考答案】选项A:线性相关系数r在[-1,1]之间,故不正确;
选项B:|r|越大,相关程度越大;反之,相关程度越小;故不正确;
故选C正确;
故选C。
【总结升华】本题考查了线性相关系数,-1≤r≤1,趋近1时线性相关越强,且是正相关,趋近-1时线性相关越强,且是负相关,趋近0时相关程度越小。
【变式2】(2015春重庆期末)在两个变量y与x的回归模型中,分别选择了四个不同的模型,且它们的R2的值的大小关系为:R2模型3<R2模型4<R2模型1<R2模型2,则拟合效果最好的是( )
A.模型1
B.模型2
C.模型3
D.模型4
【思路点拨】两个变量y与x的回归模型中,它们的相关指数R2,越接近于1,这个模型的似合效果越好,即R2越大,这个模型的拟合效果越好,进而得到答案。
【试题解析】两个变量y与x的回归模型中,
它们的相关指数R2,越接近于1,这个模型的拟合效果越好,
即R2越大,这个模型的拟合效果越好,
∵R2模型3<R2模型4<R2模型1<R2模型2
故拟合效果最好的是模型2,
故选B
例5.(2015 新课标Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响。
对近8年的年宣传费x i和年销售量y i(i=1,2, (8)
数据作了初步处理,得到下面的散点图及一些统计量的值。
表中8
1
18i i i w w w ===∑
(Ⅰ)根据散点图判断,y=ax+bx
与y c =+y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程:
(Ⅲ)已知这种产品的年利润z 与x,y 的关系为z=0.2y -x,根据(Ⅱ)的结果回答下列问题: (ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利润的预报值最大?
附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v=α+βu 的斜率和截距的最小二估计分别为
1
2
1
()()
ˆˆˆ,()n
i
i i n
i
i μ
μννβ
α
νβμμ
μ==--==--∑∑ 【参考答案】(Ⅰ
)y c =+ (Ⅱ)
68 100.6y =+(Ⅲ)(i)576.6千元和66.32千元
(ii)
6.8=即x=46.24时,年利润的预报值最大.
【思路点拨】(1)根据散点图得到变量之间的相关关系。
(2)根据公式得到线性回归方程的系数,再转化得到y 与x 之间的回归方程. (3)代入回归方程运算即可
【试题解析】(Ⅰ
)y c =+适宜作为y 关于x 的回归方程类型.
(Ⅱ)1
2
1
()()
108.8
681.6
()
n
i
i
i n
i
i w w y y d w w ==--=
=
=-∑∑ 56368 6.8100.6
c y
d w =-=-⨯-
回归方程为 100.6y =+
(Ⅲ)(i)x=49时
,100.668576.6y =+= 0.20.2576.6496
z y x =-=⨯-= 当宣传费为49千元时,年销售量及年利润预报值分别为576.6千元和66.32千元.
(ii)
0.2 0.2(100.6 20.12
z y x
x x =-=+-=-+
6.8=即x=46.24时,年利润的预报值最大.
【总结升华】求解两个变量的相关系数及它们的回归直线方程的计算量较大,需要细心、谨慎地计算. 举一反三:
:
(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:∑∑==∧
---=
n
i i
n
i i i
t t
y y t t
b 1
2
1
)()
)((,
∧a =y -t b ∧
.
【参考答案】(Ⅰ)由题意,t =71(1+2+3+4+5+6+7)=4,7
1
=y (2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3, ∴=∧
b 94101496.139.025.011.007.01121.4)3(+++++++++)+(-))+(-(-))+(-(-⨯⨯⨯⨯⨯⨯⨯-=
28
14
=0.5,
t b y a ∧
∧
∧-==4.3-0.5×4=2.3.
∴y 关于t 的线性回归方程为∧
y =0.5t +2.3;
(Ⅱ)由(Ⅰ)知,b =0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千
元.
将2015年的年份代号t =9代入∧
y =0.5t +2.3,得:∧
y =0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
【变式2】已知某地每单位面积菜地年平均使用氮肥量xkg 与每单位面积蔬菜年平均产量yt 之间的关系有
(1)求x 与y 之间的相关系数,并检验是否线性相关;
(2)若线性相关,求蔬菜产量y 与使用氮肥量之间的回归直线方程,并估计每单位面积施肥150kg 时,每单位面积蔬菜的年平均产量.
【思路点拨】
(1)使用样本相关系数计算公式来完成;
(2)查表得出显著性水平0.05与自由度15-2相应的相关系数临界05.0r 比较,若05.0r r >则线性相关,否则不线性相关.
【参考答案】
(1)列出下表,并用科学计算器进行有关计算:
10115==
x ,11.1015
==y ,
1611215
1
2=∑=i i
x
,55.1628151
2
=∑=i i y ,8.1607615
1
=∑=i i i y x .
故蔬菜产量与放用氮肥量的相关系数 864
3.0)
11.101555.1628)(10115161125(11
.10101158.160762
2
≈⨯-⨯-⨯⨯-=
r . 由于n=15,故自由度15-2=13.
由相关系数检验的临界值表查出与显著水平0.05及自由度13相关系数临界值514.005.0=r , 则05.0r r >,
从而说明蔬菜产量与氮肥量之间存在着线性相关关系.
(2)设所求的回归直线方程为a bx y
+=^
则0937.0101
1516112511
.10101158.1607615152
2
151
215
1
≈⨯-⨯⨯-=
--=
∑∑==x
x y
x y
x b i i i i
i ,
6463.01010937.011.10≈⨯-=-=x b y a , ∴回归直线方程为)(701.146463.00937.0^
t x y =+=.。