两个变量的相关关系知识点和典例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两个变量的相关关系知识点和典例
1.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(回归直线y ^=b ^x +a ^
必过样本点的中心(x ,y ),其它点不一定过直线只是在直线附近,这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.
)
(2)回归方程为y ^=b ^x +a ^,其中b ^=
∑i =1
n
x i y i -n x
y
∑
i =1
n
x 2i -n x
2
=∑i =1
n
)(x i -x )(y i -y )
∑i =1
n
)(x i -x )2
,a ^=y -b ^x .
(3)相关系数:
相关系数r =
∑i =1
n
)(t i -t )(y i -y )
∑i =1
n
)(t i -t )2∑i =1
n )(y i -y )2
当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.
r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(r 的符号表明两个变量是正相关还是负相关;|r |的大小表示线性相关性的强弱.)
例一.某公司借助手机微信平台推广自己的产品,对今年前5个月的微信推广费用x 与月利润y (单位:百万元)进行了初步统计,得到下列表格中的数据:
经计算,微信推广费用x 与月利润y 满足线性回归方程 6.517.5y x ∧
=+.求p 的值.
[解] ()()112456
85,3040607040555
p x y p =
++++==++++=+, 因为样本中心()
,x y 在回归直线 6.517.5y x ∧
=+上, 所以40 6.5517.55
p
+
=⨯+,解得50p = [变式练习]
已知变量x ,y 之间的线性回归方程y ^
=-0.7x +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误的是( )
x 6 8 10 12 y
6
m
3
2
A.变量x ,y 之间呈负相关关系))))
B.可以预测,当x =20时,b ^
=-3.7 C.m =4))))))))))))))))))))))))D.该回归直线必过点(9,4)
[解]由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y ^
=-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x -=14×(6+8+10+12)=9,y -=1
4(6+m +3+2)
=11+m 4,则11+m 4=-0.7×9+10.3,解得m =5,故C 错;由m =5,得y -=
6+5+3+2
4=4,所以该回归直线必过点(9,4),故D 正确.故选C.
例二.下图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量.
参考数据:∑i =1
7
y i =9.32,∑i =1
7
t i y i =40.17,)
∑i =1
7
)(y i -y )2=0.55,7≈2.646.
参考公式:相关系数r =
∑i =1
n
)(t i -t )(y i -y )
∑i =1n )(t i -t )2∑i =1
n )(y i -y )2
,回归方程y ^=a ^+b ^
t 中斜率和截距
的最小二乘估计公式分别为b ^=
∑i =1
n
)(t i -t )(y i -y )
∑i =1
n
)(t i -t )2
,a ^=y -b ^
)t .
[解] (1)由折线图中的数据和附注中的参考数据得 t =4,∑i =1
7
)(t i -t
)2=28,)
∑i =17
)(y i -y )2=0.55,
∑i =1
7
)(t i -t )(y i -y )=∑i =1
7
t i y i -t ∑i =1
7
y i =40.17-4×9.32=2.89,
∴r ≈ 2.89
0.55×2×2.646
≈0.99.
因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.
(2)由y =9.32
7
≈1.331及(1)得
b ^=
∑i =17
)(t i -t )(y i -y )
∑i =1
7
)(t i -t )2
=
2.89
28
≈0.103. a ^=y -b ^
)t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^
=0.92+0.10t .
将2019年对应的t =9代入回归方程得y ^
=0.92+0.10×9=1.82. 所以,预测2019年我国生活垃圾无害化处理量约为1.82亿吨.
[变式练习]
1.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X (单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红
柿增加量y (千克)与使用某种液体肥料的质量x (千克)之间的对应数据为如图所示的折线图.
(1)依据折线图计算相关系数r (精确到0.01),并据此判断是否可用线性回归模型拟合y 与x 的关系.(若|r |>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X 限制,并有如下关系:
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3)000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1)000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.
参考数据:0.3≈0.55,0.9≈0.95. 解:(1)由已知数据可得x =2+4+5+6+8
5
=5,
y =
3+4+4+4+5
5
=4.
因为∑i =1
5
)(x i -x )(y i -y )=(-3)×(-1)+0+0+0+3×1=6,
∑i =15
)(x i -x )2=(-3)2+(-1)2+02+12+32=25,
∑i =1
5
)(y i -y )2=(-1)2+02+02+02+12=2,
所以相关系数r =
∑i =1
5
)(x i -x )(y i -y )
∑i =1
5
)(x i -x
)2)∑i =1
5
)(y i -y )2
=625×2
=)9
10
≈0.95. 因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系. (2)由条件可得在过去50周里,
当X >70时,共有10周,此时只有1台光照控制仪运行, 每周的周总利润为1×3)000-2×1)000=1)000(元).
当50≤X ≤70时,共有35周,此时有2台光照控制仪运行, 每周的周总利润为2×3)000-1×1)000=5)000(元).
当30<X <50时,共有5周,此时3台光照控制仪都运行, 每周的周总利润为3×3)000=9)000(元).
所以过去50周的周总利润的平均值为
1)000×10+5)000×35+9)000×5
50=4)600(元),
所以商家在过去50周的周总利润的平均值为4)600元.
例三.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.
x y u∑
i=1
8
)(x i-x)2∑
i=1
8
)(x i-x)(y i-y)∑
i=1
8
)(u i-u)2∑
i=1
8
)(u i-u)(y i-y) 15.25 3.630.2692)085.5-230.30.7877.049
表中u i=
1
x i,u=
1
8∑
i=1
8
u i.
(1)根据散点图判断:y=a+bx与y=c+
d
x哪一个模型更适合作为该图书每册的成本费
y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01).
(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78)840元?(假设能够全部售出.结果精确到1)
附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其回归直线υ
^
=α
^
+β
^
ω的斜率和
截距的最小二乘估计分别为β
^
=
∑
i=1
n
)(ωi-ω)(υi-υ)
∑
i=1
n
)(ωi-ω)2
,α
^
=υ-β
^
ω.
解:(1)由散点图判断,y=c+
d
x更适合作为该图书每册的成本费y(单位:元)与印刷数量
x(单位:千册)的回归方程.
(2)令u=
1
x,先建立y关于u的线性回归方程,
由于d ^=
∑i =1
8
)(u i -u )(y i -y )
∑i =1
8
)(u i -u )2
=7.0490.787
≈8.957≈8.96, ∴c ^=y -d ^
·u =3.63-8.957×0.269≈1.22, ∴y 关于u 的线性回归方程为y ^
=1.22+8.96u , ∴y 关于x 的回归方程为y ^
=1.22+8.96x .
(3)假设印刷x 千册,
依题意得10x -⎝⎛⎭⎫1.22+8.96
x x ≥78.840, 解得x ≥10,
∴至少印刷10)000册才能使销售利润不低于78)840元.
[变式练习]
(2015课标Ⅰ,19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响.对近8年的年宣传费x i )和年销售量y i ))(i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
x
y
w
∑i=18
(x i -x )2
∑i=1
8
(w i -w )2 ∑i=1
8
(x i -x )(y i -y ) ∑i=1
8
(w i -w )(y i -y )
46.6 563 6.8 289.8
1.6
1 469
108.8
表中w i =√x ,w =
18∑i=18
w i
.
(1)根据散点图判断,y =a +bx 与y =c +d √x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;
(3)已知这种产品的年利润z 与x,y 的关系为z =0.2y −x .根据(2)的结果回答下列问题: (i)年宣传费x =49时,年销售量及年利润的预报值是多少? (ii)年宣传费x 为何值时,年利润的预报值最大?
附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ))),其回归直线
v =α+βu 的斜率和截距的最小
二乘估计分别为
β^
=
∑i=1
n (u i -u )(v i -v )∑i=1n
(u i -u )2
,α^=v -β^
)u .
解析 (1)由散点图可以判断,y =c +d √x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2分)
(2)令w =√x ,先建立y 关于w 的线性回归方程.由于 d ^
=∑i=18
(w i -w )(y i -y )
∑i=18
(w i -w )2
=
108.81.6
=68,
c ^
=y -d ^)w =563-68×6.8=100.6,
所以y 关于w 的线性回归方程为y ^
=100.6+68w,因此y 关于x 的回归方程为y ^
=100.6+68√x .(6分) (3)(i)由(2)知,当x =49时,年销售量y 的预报值 y ^
=100.6+68√49=576.6,
年利润z 的预报值z ^
=576.6×0.2-49=66.32.(9分) (ii)根据(2)的结果知,年利润z 的预报值 z ^
=0.2(100.6+68√x )-x =-x +13.6√x +20.12. 所以当√x =
13.62
=6.8,
即x =46.24时,z ^
取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.。