7 相关分析与回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ b0 b1x y
b1 n xy x y n x ( x )
2 2
,
b0
y x y x b
1
n
1
n
试用最小二乘法来得到一个表示厂家投入与产 出关系的线性方程。当厂家的投入为20时,它 的预测产出是多少?
b1 n xy x y n x 2 ( x ) 2
相关关系的识别
散点图 相关系数
相关系数
相关系数是对变量之间关系密切程度的度量。 对两个变量之间线性相关程度的度量称为简 单相关系数。 若相关系数是根据总体的全部数据计算的, 称为总体相关系数,记为ρ
若是根据样本数据计算的,则称为样本相关
系数,记为 r
相关系数的计算
r
的取值范围是 [-1,1]
n
例题
为研究美国软饮料公司的广告费用与销售数量的关系, 分析七种主要品牌的软饮料公司的相关数据,见下表:
品牌
Coca-Cola Pepsi-Cola Diet-Coke 广告费用(百万美 销售数量(百万箱) 元) 131.3 92.4 60.4 1929.2 1384.6 811.4
Sprite
Dr.Pepper Moutain Dew
最小二乘回归法(least squares regression),寻
找一条直线,使得所有点到该直线的垂直距离的 平方和最小。用数据寻找一条直线的过程也叫做
拟合一条直线。
最小二乘估计
设简单线性回归模型 b0 和 b1是 0和 1的估计值 。则y的估计值为:
y 0 1 x 中,
相关关系的图示
180
线性正相关
170
160
身高
150 30 40 50 60 70 80 90
体重
100
线性负相关
80
60
40
非线性相关
20
成绩
0 200 300 400 500 600 700
支出
100
无(不)相关
80
60
40
20
成绩
0 30 40 50 60 70 80 90
体重
相关关系的分类
2). 一元线性回归方程为:y=-12.7785+14.4035x
3). 当广告费用为100万时,销售量为1427箱。
例题
品牌 Coca-Cola Pepsi-Cola Diet-Coke Sprite Dr.Pepper Moutain Dew 广告费用 (百万美元) 131.3 92.4 60.4 55.7 40.2 29 销售数量 (百万箱) 1929.2 1384.6 811.4 541.5 546.9 535.6 x2 xy 253303.96 127937.04 49008.56 30161.55 21985.38 15532.4
相关分析的概念
函数关系:变量之间存在着确定性依存关系。即 当一个或一组变量每取一个值时,相应的另一个 变量必然有一个确定值与之对应 。
圆面积S r 2
相关关系:指变量之间存在着非确定性依存关系。 即当一个或一组变量每取一个值时,相应的另一
个变量可能有多个不同值与之对应 。
y f ( x1 , x2 ,, xn )
1 20 30
2 40 60
3 20 40
4 30 60
5 10 30
6 10 40
7 20 40
8 20 50
9 20 30
10 30 70
散点图
80 70 60 50 40 30 20 10 0 0 10 20 投入 30 40 50 系列1
产出
例题
根据样本相关系数的计算公式,得 r=0.759 中度线性相关。 显著性检验略。
确定现象之间有无相关关系,以及相关关系 的表现形态; 确定相关关系的密切程度(相关系数); 确定相关关系的数字模型,并进行参数估计 和假设检验;
回归预测,并分析估计标准误差。
相关与回归
相关与回归紧密联系。 相关分析: 发现变量之间是否存在相关性, 以及相关的强度和相关的方向。 回归分析:应用相关关系进行预测。
完全相关:因变量完全随自变量变动而变动,存 在着严格的依存关系。变量间的关系为函数关系。 不完全相关:变量之间存在着不严格的依存关系,
即因变量的变动除了受自变量变动的影响外,还
受其他因素的影响。它是相关关系的主要表现形 式。
完全不相关:自变量与因变量彼此独立,互不影
响,其数量变化毫无联系。
相关分析的主要内容
17239.69 8537.76 3648.16 3102.49 1616.04 841
7-Up
11.6
219.5
134.56
35119.7wk.baidu.com
2546.2
求和
420.6
5968.7
500475.1
相关分析与回归分析的总结
相关分析: 分析某现象中的两个变量是否存在相关关系
抽取样本,首先选择好自变量x和因变量y;
回归分析
回归分析法。由著名的英国生物学家、统计学家 高尔顿(F.Gallton)——达尔文的表弟所创。 早年,高尔顿致力于化学和遗传学领域的研究。
他研究父亲们的身高与儿子们的身高之间的关系
时,建立了回归分析法。
1889年F.Gallton和他的朋友K.Pearson收集了 上千个家庭的身高、臂长和腿长的记录,企图寻 找出儿子们身高与父亲们身高之间关系的具体表 现形式。
做散点图,观察; 计算相关系数 r,并对其进行显著性检验;
回归分析:
根据样本数据的相关性,计算b0和b1; 求得x和y的数学关系式; 进行回归预测和估计。
回归分析
个子高的父亲确有生出个子高的儿子的倾向,同 样地,个子低的父亲确有生出个子低的儿子的倾 向。得到的具体规律如下:
y a bx u ˆ 84.33 0.516 x y
后人将此种方法普遍用于寻找变量之间的规律。
回归分析
回归分析与相关分析的区别
回归模型
ε
回归模型的类型
相关系数
r>0 为正相关,r < 0 为负相关; |r|=0 表示不存在线性关系; |r|=1 表示完全线性相关;
相关系数
0<|r|<1表示存在不同程度线性相关:
① |r| < 0.3 为基本不相关; ② 0.3≤ |r| <0.5 为低度线性相关; ③ 0.5≤ |r| <0.8 为中度线性相关; ④ 0.8≤|r| <1.0 为高度显著性线性相关。
55.7
40.2 29.0
541.5
546.9 535.6
7-Up
11.6
219.5
例题
请问广告费用和销售数量之间是否存在显著的相关关系? 试计算总体的一元线性回归模型;并估计广告费用为 100万美元时的销售量。 1). 计算相关系数,r=0.978148, 两者的线性相关程度较高。显著性检验略。
相关系数的显著性检验
例题
一位心理学家获得了10个工人的智商值和 劳动生产率,试计算智商值和劳动生产率之 间的相关系数,并对其进行显著性检验。
例题
相关系数计算
r 的显著性检验
例题
设有10个厂家的投入和产出数据如下,根据这些 数据,我们可以认为投入和产出之间存在相关性 吗?
厂家 投入 产出
1
10 10800 220 450 1.1842 2 10 5600 (220)
b0
y x y b x b 45-1.1842 22=18.9476 n
1
故回归方程为 y 18.9476+1.1842x 预测值是将x值代入直线回归方程解得的值。若 投入为20,他的预测产出应该为: y 18.9476+1.1842 20=42.6316
7 相关分析与回归分析
相关分析
回归分析
一元线性回归分析
相关分析的概念
社会经济现象中,一些现象与另一些现象之间往 往存在着依存关系,当我们用变量来反映这些现 象的的特征时,便表现为变量之间的依存关系。
现象之间的相互关系,可以概括为两种不同的类
型:函数关系和相关关系。 相关分析:借助于图形和若干分析指标(如相关 系数、相关指数等)对变量之间的依存关系的密 切程度进行测定的过程。
一元线性回归分析
一元线性回归只研究一个自变量与一个因变量之 间的统计关系。对于只涉及一个自变量的简单线 性回归模型可表示为:
ˆ X Y 0 1
ˆ 总体一元线性回归方程: Y
0 1 X
最小二乘估计
对例题中的两个变量的数据进行线性回归,就是 要找到一条直线来适当地代表图中的那些点的趋 势。首先需要确定选择这条直线的标准。