相关性和最小二乘法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随着年龄 的增加, 脂肪含量 也在增加
还有更直观 的表示方法
吗?
脂肪含量 40 35 30 25 20 15 10 5 0 05
10 15 20 25 30 35 40 45 50 55 60 65 年龄
曲线拟合
线性相关: 数据在一条直线附近波动,则 变量间 是线性相关
非线性相关: 数据在一条曲线附近波动,则 变量间 是非线性相关
8 7.8
令回归方程为 y=a+bx,则要使得 距离和最小,相当 于求当a,b取什么 值时Q最小
7.6
0
1
2
3
4
5
6
月份
a,b取下值时Q最小
n
n
(xi x)( yi y)
xi yi nx y
b i1 n
(xi x)2
i 1 n
xi 2
2ห้องสมุดไป่ตู้
nx
i 1
i 1
变式训练 1
在某地区的12~30岁居民中随机抽取了10个人的 身高和体重的统计资料如下表:
身高(cm) 143 156 159 172 165 171 177 161 164 160 体重(kg) 41 49 61 79 68 69 74 69 68 54
根据上述数据,画出散点图并判断居民的身高和 体重之间是否有相关关系.
变式训练 3
解: (1) 散点图如图
变式训n 练 3
(((222)))∵∵∵
nn i 1
xxxiiiyyyiii
===333222...555+++444333+++555444+++666444...555===666666...555,,,
ii11
xxx
===333444444555666
(2)计算得: x =255=5, y =2550=50,
5
5
∑5 xi 21 i=x145i2,∑5 x1iy4i=51 i3810. xi
y i
1380
i=1
i=1
5
于是可得 于是可得
bbˆ ==∑i∑ii∑===55111∑xx5xiiyyxi2i-i2-i--55x55xxxy2
最小二乘法
在线性相关中,保证各点与此直线的接近程度最高,即距离和最 小。
n
2
Q (yi yˆi) (y1 bx1 a)2 (y2 bx2 a)2 (y3 bx3 a)2 (yn bxn a)2
i1
销售额/万元
销售表
8.6 8.4 8.2
函数关系与相关关系
函数关系 确定性 确定性
相关关系 非确定性
身高160cm的同学体重 不一定在46kg,但全 体学生会呈身高越高,
体重越大的趋势
但总体而言有联系
因果性 因果关系 可以是因果关系 也可以是伴随关系
儿童脚的大小与阅读能 力呈现强的相关性,但 学会新词并不能使脚变
大,是伴随关系
相关关系表示方法
aaaˆaˆˆ= yyyy-bbbbxxxx=3333.5...5-5500.007.×..7774.4544=...5550.30500....333555,,,
故故∴故所线线线性求性性回的回回归归归线方方方性程程程回为为为归yˆyyˆˆ方程000...7为77xxxy=000.0..333.5755x... +0.35.
题 型 三 利用线性回归方程对总体进行估计
【例3】某种产品的宣传费支出x与销售额y (单位:万元)之 间有如下对应数据:
x2 4 5 6 8
y 30 40 60 50 70 (1)画出散点图; (2)求线性回归方程; (3)试预测宣传费支出为10万元时,销售额多大?
解:(1)根据表中所列数据可得 散点图如图所示:
aˆ = y - bˆ x =1.83-0.172×6=0.798.
从而得到线性回归方程为 y =0.172x+0.798.
从探而究得提到高线性回归方程为 yˆ =0.172x+0.798.
从本题可以看出,求线性回归方程,关键在于正确
求出系数a,b,由于计算量较大,所以计算时要仔细谨慎,
分层进行,避免因计算产生失误,特别注意,只有在散点图 大体呈线性时,求出的线性回归方程才有意义.
脂肪含量 40
35
30
25
20
15
10
5
0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 年龄
在这些点附近可画直线不止一条,哪条 直线最能代表x与y之间的关系呢?
脂肪含量 40 35 30 25
20 15 10 5 0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 年龄
点图(2), 由这两个散点图可以判断( C )
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关
题 型 一 利用散点图判断两个变量的相关关系
【例1】山东鲁洁棉业公司的科研人员在7块并排、 形状大小相同的试验田上对某棉花新品种进行施化肥 量x对产量y影响的试验,得到如下表所示的一组数据 (单位:kg).
变式训练 2
在2011年春节期间,某市物价部门对本市五个商场 销售的某商品一天的销售量及其价格进行调查,五个商场 的售价x元和销售量y件之间的一组数据如下表所示:
价格x
9 9.5 10 10.5 11
销售量y 11 10 8
6
5
通过分析,发现销售量y与商品的价格x具有线性相 关关系,则销售量y关于商品的价格x的线性回归方程为
施化肥量 x
15
20
25
30
35
40
45
棉花产量
y
330 345 365 405 445 450 455
(1)画出散点图; (2)判断是否具有相关关系.
解:(1)散点图如图所示
(2)由散点图知,各组数据对应点大致都在一条直线附近, 所以施化肥量x与产量y具有线性相关关系.
探究提高
散点图是由大量数据点分布构成的,是定义在具有 相关关系的两个变量基础之上的,对于性质不明确的两 组数据可先作散点图,直观地分析它们有无关系及关系 的密切程度.
=2y 1=31184035-18-4055-5-××55×5×5×255×5205=0=6.56,.5,
i=1
a= y -b x =50-6.5×5=17.5,
因aˆ 此=,y所-求bˆ线性x 回=归50方-程6.5是×y5==61.75.x5+,17.5.
(因3)由此上,所面求求线得性的回线归性方回程归是方yˆ程=可6知.5x,+17.5.
相关性 最小二乘法
函数关系
Y=2x+1 Y=x2+4
Y=In3
确定关系
生活中,不是一一对应关系的现象有哪些?
相关关系
年龄与身高
网速与下载 气候与收成 文件时间
非确定 关系
学生成绩与教师水平之间存在着某种联 系,但又不是必然联系,对于学生成绩 与教师水平之间的这种不确定关系,我 们称之为相关关系。
解:以x轴表示身高,y轴表示 体重,可得到相应的散点图 如图所示:
由散点图可知,两者之 间具有相关关系.
对具有相关关系的两个变量进行统计分析的 方法叫回归分析
从数学的角度来解释:上图中点的分布从整 体上看大致在一条直线附近。我们称图1、2中的 两个变量具有线性相关关系。这条直线叫做回归 直线。
对两个变量进行的线性分析叫做线性回归分析
不相关: 数据在图中没有显示任何关系, 则是 不相关
非线性相关
非线性相关
线性相关
不相关
正相关
负相关
就像函数中的增函数和减函数。即一
个变量从小到大,另一个变量也从小到 大,或从大到小。对于图1中的两个变量 的相关关系,我们称它为正相关。图2中 的两个变量的相关关系,称为负相关。
走进高考
【1】(2009·海南)对变量x, y有观测数据(xi , yi) (i=1, 2,…,10), 得散点图(1); 对变量u, v,有观测数据(ui , vi)(i=1, 2,…, 10), 得散
_y_=__-__3_._2_x_+__4_0_.
5
5
i∑=1xiyi=392, x =10, y =8,i∑=1x2i =502.5,
代入公代式入,公得式b=,-得3.bˆ2,=所-以3,.2,a= y -b x =40,
故线性回归方程为y=-3.2x+40.
所以, aˆ = y bˆ x =40,
函数表示方法
列表
画图像
求解析式
散点图
最小二乘法
在一次对人体脂肪含量和年龄关系的研究中,研 究人员获得了一组样本数据: 根据上述数据,人 体的脂肪含量与年龄之间有怎样的关系?
年 23 27 39 41 45 49 50 53 54 56 57 58 60 61 龄
脂 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6 肪
脂肪含量 40 35 30 25
20 15 10 5 0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 年龄
脂肪含量 40 35 30 25
20 15 10 5 0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 年龄
一个好的线性关系要保证这条直线与所有点都近 即:从整体上看,各点与此直线的距离和最小
===444...555,,,
yyy
===
222...555333444444...555 444
===333...555,,,
n
nn
i1
xxxi2ii22
333222
444222
555222
666222
888666...
ii11 4
∴bbbˆbˆˆ=i∑=666i1∑6=664x1.i.8.xy58855i2i66-6-4444444x4x·2444y4.44.=.555...55562226333.5.8..555-6-4×4666×86886466.6.64..5555.×528883661611.5333=00.007...,777,,,,,,
10
10
(2)∵ x (2)∵
= x
6, y =6,
10
= y
1=.813.,83∑ i=,1xi∑1=2i01=x2i 4=064,06∑ i,= 1xi∑1=i0y1xi=iyi=1171.177,.7,
aˆ ∴=∴a=b∴ˆb=yyb=ˆ--∑ i1=01∑ i∑ ib=1=x=b0ˆx1i1yxx=∑ iii∑i1=2-1=i-00y11x1∑iixx1-1=.1i0802i=1y0-3xxi1-x-2i01-12.0y108x.1≈013x07-x022x.×y107.≈2612y=7,02≈0.×.170796.281=,.720,.798.
(1)根据表中数据,确定家庭的年收入和年饮食支出 是否具有相关关系;
(2)若(1)具有线性相关关系,求出y关于x的线性回归 方程.
解:(1)由题意知, 年收入 x 为解释变量,年饮食支出 y 为 预报 变量, 作散点图如图所示.
从图中可以看出,样本点呈条状分布, 年收入和年饮食支出具有线性相关关系, 因此可以用线性回归方程刻画它们之间的关系.
a y bx
,
其中
x
1 n
n i 1
xi
)
y
1 n
n i 1
yi
推导过程 见参考书
题 型 二 求线性回归方程
【例2】某地10户家庭的年收入和年饮食支出的统计资料 如下:
年收入 x(万元) 2 4 4 6 6 6 7 7 8 10 年饮食支 出y(万元) 0.9 1.4 1.6 2.0 2.1 1.9 1.8 2.1 2.2 2.3
x3 4 5 6
y 2.5 3 4 4.5
(1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y关 于x的线性回归方程y=bx+a (3)已知该厂技改前100吨甲产品的生产能耗为90吨 标准煤.试根据(2)求出的线性回归方程,预测生产100吨 甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
当宣传费支出为10万元时, (3)由上面求得的线性回归方程可知, y=6.5×10+17.5=82.5(万元),
即当这宣种传产费品支的出销为售10额万大元约时为, yˆ82=.56万.5元×1.0+17.5=82.5(万元),
即这种产品的销售额大约为 82.5 万元.
变式训练 3
下表提供了某厂节能降耗技术改造后生产甲产品 过程中记录的产量记录的产量x (吨)与相应的生产能耗 y(吨标准煤)的几组对照数据