2019_2020学年高中数学第1章统计案例11.1回归分析1.2相关系数1.3可线性化的回归分析学案北师大版选修1_2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1 回归分析1.2 相关系数1.3 可线性化的回归分析
1.回归分析
设变量y 对x 的线性回归方程为y =a +bx ,由最小二乘法知系数的计算公式为:
b =l xy
l xx
=∑i =1
n
(x i -x )(y i -y
)∑i =1
n
(x i -x
)
2
=
∑i =1
n
x i y i -n x y
∑i =1
n
x 2i -n x 2
,a =y -b x .
2.相关系数 (1)相关系数r 的计算
假设两个随机变量的数据分别为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则变量间线性相关系数
r =
l xy
l xx l yy
=∑i =1n
(x i -x )(y i -y
)
∑i =1
n
x i y i -n x y
(2)相关系数r 与线性相关程度的关系 ①r 的取值范围为[-1,1];
②|r|值越大,误差Q越小,变量之间的线性相关程度越高;
③|r|值越接近0,误差Q越大,变量之间的线性相关程度越低.
3.相关性的分类
(1)当r>0时,两个变量正相关;
(2)当r<0时,两个变量负相关;
(3)当r=0时,两个变量线性不相关.
思考:所有的两个相关变量都可以来求回归方程吗?
[提示] 不一定.如果两个相关变量的相关性很强,可以求出回归方程,当几乎没有相关性时就不可以求出回归方程.
4.可线性化的回归分析
(1)非线性回归分析
对不具有线性相关关系的两个变量做统计分析,通过变量代换,转化为线性回归模型.
(2)非线性回归方程
1.变量y与x之间的回归方程( )
A.表示y与x之间的函数关系
B.表示y与x之间的不确定性关系
C.反映y与x之间真实关系的形式
D.反映y与x之间的最大限度的真实关系的形式
[答案] D
2.某产品的广告费用x 与销售额y 的统计数据如下表:
售额为( )
A .63.6万元
B .65.5万元
C .67.7万元
D .72.0万元
B [x =4+2+3+54=3.5,y =49+26+39+54
4
=42,∴a =y -b x =42-9.4×3.5=9.1,
∴回归方程为y =9.4x +9.1,
∴当x =6时,y =9.4×6+9.1=65.5,故选B.] 3.下列数据x ,y 符合哪一种函数模型( )
A.y =2+3x
B .y =2e x
C .y =2e 1
x
D .y =2+ln x
D [分别将x 的值代入解析式判断知满足y =2+ln x .]
变量间的相关关系及判定
【例1】 (1)对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图①,对变量
u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图②.由这两个散点图可以判断( )
A .变量x 与y 正相关,u 与v 正相关
B .变量x 与y 正相关,u 与v 负相关
C .变量x 与y 负相关,u 与v 正相关
D .变量x 与y 负相关,u 与v 负相关
(2)两个变量x ,y 与其线性相关系数r 有下列说法:
①若r >0,则x 增大时,y 也随之相应增大;②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上,其中正确的有( )
A .①②
B .②③
C .①③
D .①②③
(3)有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和其身体健康情况;④正方形的边长和面积;⑤汽车的重量和百公里耗油量.其中两个变量成正相关的是( )
A .①③
B .②④
C .②⑤
D .④⑤
思路点拨:可借助于线性相关概念及性质作出判断.
(1)C (2)C (3)C [(1)由这两个散点图可以判断,变量x 与y 负相关,u 与v 正相关,故选C.
(2)根据两个变量的相关性与其相关系数r 之间的关系知,①③正确,②错误,故选C. (3)其中①③成负相关关系,②⑤成正相关关系,④成函数关系,故选C.]
线性相关系数的理解
1.线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r 的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.
2.利用相关系数r 来检验线性相关显著性水平时,通常与0.75作比较,若r >0.75,则线性相关较为显著,否则为不显著.
1.下列两变量中具有相关关系的是( ) A .正方体的体积与边长 B .人的身高与体重
C .匀速行驶车辆的行驶距离与时间
D .球的半径与体积
B [选项A 中正方体的体积为边长的立方,有固定的函数关系;选项
C 中匀速行驶车辆的行驶距离与时间成正比,也是函数关系;选项
D 中球的体积是4
3
π与半径的立方相乘,有固
定函数关系.只有选项B中人的身高与体重具有相关关系.]
求线性回归方程
【例2】(1)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),
(12.5,4)(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1D.r2=r1
(2)某服装商场为了了解毛衣的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:
②气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣的销售量.
思路点拨:(1)可利用公式求解;
(2)把月平均气温代入回归方程求解.
(1)C[对变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r1>0;对变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r2<0.故r2<0<r1.]
(2)解:
①由散点图易判断y与x具有线性相关关系.
x=(17+13+8+2)÷4=10,
y=(24+33+40+55)÷4=38,
4
x i y i=17×24+13×33+8×40+2×55=1 267,
∑
i=1
4
x2i=526,
∑
i=1
b =
∑i =1
x i y i -4x y
∑4
i =1
x 2
i -4x
2
=
1 267-4×10×38
526-4×10
2
≈-2.0,
a =y -
b x ≈38-(-2.0)×10=58.0,
所以线性回归方程为y =-2.0x +58.0.
②气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月毛衣的销售量为
y =-2.0x +58.0=-2.0×6+58.0=46(件).
回归分析的理解
1.回归分析是定义在具有相关关系的两个变量基础上的,因此,在做回归分析时,要先判断这两个变量是否相关,利用散点图可直观地判断两个变量是否相关.
2.利用回归直线,我们可以进行预测.若回归直线方程y =a +bx ,则x =x 0处的估计值为y 0=a +bx 0.
3.线性回归方程中的截距a 和斜率b 都是通过样本估计而得到的,存在着误差,这种误差可能导致预报结果的偏差,所以由线性回归方程给出的是一个预报值而非精确值.
4.回归直线必过样本点的中心点.
2.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得到下表数据:
(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y =bx +a ; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力. [解] (1)如图:
(2)∑i =1
x i y i =6×2+8×3+10×5+12×6=158,
x =6+8+10+12
4=9,
y =
2+3+5+6
4
=4, ∑n
i =1
x 2
i =62
+82
+102
+122
=344,
b =
158-4×9×4344-4×92=
14
20
=0.7, a =y -b x =4-0.7×9=-2.3,
故线性回归方程为y =0.7x -2.3.
(3)由(2)中线性回归方程知当x =9时,y =0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.
可线性化的回归分析
[探究问题]
1.如何解答非线性回归问题?
[提示] 非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:
2.已知x 和y 之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?
①y 2
③y=4x; ④y=x2.
[提示] 观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.所以模拟效果最好的为①.
【例3】某地区不同身高的未成年男性的体重平均值如下表:
(2)如果一名在校男生身高为168 cm,预测他的体重约为多少?
思路点拨:先由散点图确定相应的拟合模型,再通过对数变换将非线性相关转化为线性相关的两个变量来求解.
[解] (1)根据表中的数据画出散点图,如下:
由图看出,这些点分布在某条指数型函数曲线y=c1e c2x的周围,于是令z=ln y,列表如下:
由表中数据可求得z与x之间的回归直线方程为z=0.693+0.020x,则有y=e0.693+0.020x.
(2)由(1)知,当x=168时,y=e0.693+0.020×168≈57.57,所以在校男生身高为168 cm,预测他的体重约为57.57 kg.
两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y =c 1e c 2x
,我们可以通过对数变换把指数关系变为线性关系,令z =ln y ,则变换后样本点应该分布在直线z =bx +a (a =ln c 1,b =c 2)的周围
.
3.在一次抽样调查中测得样本的5个样本点,数据如下表:
[解] 作出变量y 与x 之间的散点图如图所示.
由图可知变量y 与x 近似地呈反比例函数关系.
设y =k x
,令t =1
x
,则y =kt .由y 与x 的数据表可得y 与t 的数据表:
由图可知y 与t 呈近似的线性相关关系.
又t =1.55,y =7.2,∑i =1
5
t i y i =94.25,∑i =1
5
t 2
i =21.312 5,
b =
∑i =1
5
t i y i -5t y
∑i =1
5
t 2i -5t 2
=
94.25-5×1.55×7.2
21.312 5-5×1.55
2≈4.134 4,
a =y -
b t =7.2-4.134 4×1.55≈0.8,
∴y =4.134 4t +0.8.
所以y 与x 的回归方程是y =4.134 4
x
+0.8.
1.回归分析的注意事项
(1)回归方程只适用于我们所研究的样本的总体.如:不能用女大学生的身高和体重之间的回归方程,描述女运动员的身高和体重之间的关系.同样,不能用生长在南方多雨地区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高与直径之间的关系.
(2)我们所建立的回归方程一般都有时间性.例如,不能用20世纪80年代的身高体重数据所建立的回归方程,描述现在的身高和体重之间的关系.
(3)样本取值的范围限制了回归方程的适用范围.例如,我们的回归方程是由女大学生身高和体重的数据建立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系是不恰当的(即在回归方程中,变量x 的样本的取值范围为[155,170](单位:cm),而用这个方程计算x =70 cm 时的y 值,显然不合适).
(4)不能期望回归方程得到的值就是变量的精确值.它是变量的可能取值的平均值. 2.求非线性回归方程的步骤 (1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)关系变换,通过关系变换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果. (5)根据相应的交换,写出非线性回归方程.
1.判断正误
(1)两个变量的相关系数r >0,则两个变量正相关.( ) (2)两个变量的相关系数越大,它们的相关程度越强.( ) (3)若两个变量负相关,那么其回归直线的斜率为负.( ) [答案] (1)√ (2)× (3)√
2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( )
A .y 与x 具有正的线性相关关系
B .回归直线过样本点的中心(x ,y )
C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg
D .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg
D [回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,A 正确; 易知回归直线过样本点的中心(x ,y ),B 正确;依据回归方程中b 的含义可知,x 每变化1个单位,y 相应变化约0.85个单位,C 正确;用回归方程对总体进行估计不能得到肯定结论,故D 不正确.]
3.对具有线性相关关系的变量x 和y ,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.
y =6.5x -10 [由题意知x =2,y =3,b =6.5,所以a =y -b x =3-6.5×2=-10,
即回归直线的方程为y =6.5x -10.]
4.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
(2)用所求回归方程预测该地区2019年(t =6)的人民币储蓄存款. 附:回归方程y =bt +a 中,
b =
∑i =1
n
t i y i -n t y
∑i =1
n
t 2
i -n t 2
,a =y -b t .
[解] (1)列表计算如下:
这里n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =36
5
=7.2.
又l tt =∑i =1
n
t 2
i -n t 2
=55-5×32
=10,
l ty =∑i =1
n
t i y i -n t -y -
=120-5×3×7.2=12,
从而b =
l ty l tt =12
10
=1.2, a =y -b t =7.2-1.2×3=3.6,
故所求回归方程为y =1.2t +3.6.
(2)将t =6代入回归方程可预测该地区2019年的人民币储蓄存款为y =1.2×6+3.6=10.8(千亿元).。