统计学 第8章 相关与回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ 和 b ˆ 代替回归方程中的未知参 2. 用样本统计量 b 0 1 数 b 0和 b1 ,就得到了样本回归模型 3. 样本回归模型为
ˆ +b ˆ x +e ˆi b y 0 1 i i
ˆ 是直线 ˆ 是估计的回归直线在 y 轴上的截距, b b 其中: 1 0 的斜率,表示 x 每变动一个单位时, y 的平均变动值。 ei为样本残差。
相关系数
(计算公式)
总体相关系数的计算公式
协方差
Cov( X , Y ) E ( XY ) E ( X ) E (Y ) XY Var ( X )Var (Y )
标准差
相关系数
(计算公式)
样本相关系数的计算公式
r
( x x )( y y ) (x x) ( y y)
共计
325
462 77
445 89
707 101
685 137
1043 149
E(Y|X) 65
Y
X=X1时Y 的分布
X=X2时Y 的分布 X=X3时Y 的分布
b0
X=X1时的E(Y)
b0+ b 1X
X=X2时的E(Y) X=X3时的E(Y)
X1=80
X2=100
X3=120
X
总体回归函数
(population regression function)
65
70 75
74
80 85 88
90
94 98
95
103 108 113 115
110
116 118 125 678 113
120
130 135 140 750 125
140
144 145
140
152 157 160 162
155
165 175 189 966 161
175
178 180 185 191 1211 173
0
0
5.5
22
-10
r
n x x n y y
2 2 2
n xy x y
2
0.9091
相关系数的性质
性质1:r 的取值范围是 [-1,1]
|r|= 1,为完全相关
r = 1,为完全正相关 r = -1,为完全负正相关
r = 0,不存在线性相关关系 -1r<0,为负相关 0<r1,为正相关 |r|越趋于 1表示关系越强; |r|越趋于 0 表示关 系越弱
8.1 相关与回归分析的基本概念
函数关系与相关关系的概念
相关关系的种类 相关分析与回归分析的区别与联系
函数关系
1. 是一一对应的确定关系 2. 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完 全依赖于 x ,则称 y 是 x 的 函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 3. 若为线性函数关系,则各观 测点落在一条线上 ,例如, 某种商品的销售额 y 与销售 量x之间的关系可表示为 y = px (p 为单价)
正线性相关
相关系数
(correlation coefficient)
1. 相关系数是度量变量之间相关关系强度的一个指 标 2. 对两个变量之间线性相关强度的度量称为简单相 关系数,简称相关系数(狭义)、Pearson 相关 系数 3. 若相关系数是根据总体全部数据计算的,称为总 体相关系数,记为 4. 若是根据样本数据计算的,则称为样本相关系数 ,记为r
等级相关系数
商品编号 评分 甲组 1 84 乙组 92 等级 甲组x 3 乙组y 1 等级差 d=x-y 2 d^2 4
2
3 4 5 6 7 8 9 10 合计
66
72 54 75 82 90 86 78 68
75
65 62 80 82 85 90 84 60
9
7 10 6 4 1 2 5 8
7
8 9 6 5 3 2 4 10
样本回归函数 (sample regression function)
ˆ +b ˆx ˆi b y 0 1 i
Y 70 65 90 95 110 115 120 X 80 100 120 140 160 180 200 Y 55 88 90 80 118 120 145
回归模型
(regression model)
1. 回答“变量之间是什么样的关系?” 2. 方程中运用
1 个数值型因变量(响应变量)
被预测的变量
用于预测的变量
1 个或多个数值型或分类型自变量 (解释变量)
3. 主要用于预测和估计
回归模型的类型
回归模型
一元回归 线性回归 非线性回归 多元回归 线性回归 非线性回归
相关表
例 工人日工资与工龄的简单相关表
工人 号数 1 2 4 45 3 5 50 4 6 60 5 7 64 6 8 68 7 8 74 8 9 72 9 9 80 10 10 84
工龄 4 (年) 工资 42 (元)
相关图----散点图
(scatter diagram)
什么是回归分析?
(Regression)
1. 从一组样本数据出发,确定变量之间的数学 关系式 2. 对这些关系式的可信程度进行各种统计检验 ,并从影响某一特定变量的诸多变量中找出 哪些变量的影响显著,哪些不显著 3. 利用所求的关系式,根据一个或几个变量的 取值来估计或预测另一个特定变量的取值, 并给出这种估计或预测的可靠程度
2
2
或化简为 r
n x x n y y
2 2 2
n xy x y
2
例 产品产量与单位成本相关系数
产 月 量 份 x 1 2 2 3 3 4 4 3 5 4 6 5 合 21 计 单位 成本 y 73 72 71 73 69 68
x^2 y^2
4 9 16 9 16 25
y
x
相关关系
(类型)
相关关系
线性相关
正相关 负相关
单相关
复相关
非线性相关
完全相关
正相关 负相关
不相关
函数关系
散点图
(scatter diagram)
非线性相关
完全正线性相关
完全负线性相关
426
5329 5184 5041 5329 4761 4624 3026 79 1481 8
(x- (yx- y(x-E(x)) xy E(X)) E(y)) E(x) E(y) (y-E(y)) ^2 ^2 146 -1.5 2 2.25 4 -3 216 -0.5 1 0.25 1 -0.5 284 0.5 0 0.25 0 0 219 -0.5 2 0.25 4 -1 276 0.5 -2 0.25 4 -1 340 1.5 -3 2.25 9 -4.5
b0 和 b1 称为模型的参数
例:一个总体 60个家庭收入 X
80 55 60 100 65 70 120 79 84 140 80 93 160 102 107 180 110 115 200 120 136 220 135 137 240 137 145 260 150 152
家庭 消费 支出 Y
E( Y ) = b 0 + b 1 X 描述 X取给定值时Y的期望值的轨迹。
方程的图示是一条直线,也称总体回归线
b0是回归直线在 Y 轴上的截距,是当 X=0
时 Y 的期望值
b1是直线的斜率,称为回归系数,表示当 X
每变动一个单位时,Y 的平均变动值 固定但是未知
样本回归模型
1. 总体回归参数 b 0 和 b1 是未知的,必须利用样本数 据去估计
y
x
相关关系
(correlation)
1. 变量间关系不能用函数关 系精确表达 2. 一个变量的取值不能由另 一个变量唯一确定 3. 当变量 x 取某个值时,变 量 y 的取值可能有几个 4. 若为线性相关关系,则各 观测点分布在直线周围, 例如收入水平 y 与受教育 程度x之间的关系。
负线性相关
不相关
正线性相关
相关与回归分析比较表
1 理论与方法具有一致性
联系
2 无相关就无回归,相关程度越高,回归越好 3 相关系数和回归系数方向一致,可以互相推算 1 相关分析中,两个变量地位对等;回归分析中,要区分谁 是因变量谁是自变量
相关系数的经验解释
1. 2. 3. 4. |r|>0.8时,可视为两个变量之间高度相关 0.5<|r|≤0.8时,可视为显著相关 0.3<|r|≤0.5时,视为低度相关 |r|≤0.3时,说明两个变量之间的相关程度 极弱,可视为不相关 5. 上述解释必须建立在对相关系数的显著性 进行检验的基础之上
62 t 0.9091 4.3654 2 1 0.9091
3. 根据显著性水平=0.05,查t分布表得t(n-2)=2.776 由于t=4.3654>t(6-2)=2.776,拒绝H0,产量与单 位产品成本存在着显著的线性相关关系
等级相关系数
对于某些变量,如商品的质量,不能用精确的 数值去描述,只能用一定的等级来表现,研究 这类现象之间的依存关系,一般是采用等级相 关法。 步骤:先将评判的事物编号,再由每两组人员 对每一序号的事物进行打分评级,分别用x、y 表示,再计算d,d=x-y。 例:设有甲乙两组专业人员对某种商品的10个 品牌进行质量比较,问甲乙两组人员的评分是 否具有相关性?
2
-1 1 0 -1 -2 0 1 -2
4Baidu Nhomakorabea
1 1 0 1 4 0 1 4 20
6 * 20 r 1 2 1 0.8788 2 n(n 1) 10 * (10 1)
6 d 2
8.3
8.3.1 8.3.2 8.3.3 8.3.4 8.3.5
一元线性回归
一元线性回归模型 参数的最小二乘估计 回归直线的拟合优度 显著性检验 利用回归方程进行预测
一元线性回归模型
1. 描述因变量 Y 如何依赖于一个自变量 X 和 误差项的线性方程称为一元线性回归模型 2. 总体回归模型可表示为 Yi = b + b Xi + e i
Y是X的线性函数加上误差项 线性部分反映了由于 X 的变化而引起的 Y 的 变化 误差项 e 是随机变量
反映了除 X 和 Y 之间的线性关系之外的随机因素 对 Y 的影响 是不能由 X 和 Y 之间的线性关系所解释的变异性
• 若t>t,拒绝H0 • 若t<t,不拒绝H0
相关系数的显著性检验
(例题分析)
1月至6月产量与单位成本的样本高度负相关,但两个 变量总体是否存在线性相关关系呢?需要进行显著 性检验。(0.05) 1. 提出假设:H0: ;H1: 0 2. 计算检验的统计量
相关系数的性质
性质2:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy= ryx 性质3:r数值大小与x和y原点及尺度无关,即改变x和y的 数据原点及计量尺度,并不改变r数值大小 性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着, r=0只表示两个变 量之间不存在线性相关关系,并不说明变量之间没 有任何关系 性质5:r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系
区别
2 相关分析中,x、y均为随机变量,回归分析中,只有y为随 机变量
3 相关分析测定相关程度和方向,回归分析用回归模型进行 预测
8.2 相关分析
相关表与相关图
简单相关系数
等级相关系数
相关分析要解决的问题
• 变量之间是否存在关系? • 如果存在关系,它们之间是什么样 的关系? • 变量之间的关系强度如何? • 样本所反映的变量之间的关系能否 代表总体变量之间的关系?
相关系数的显著性检验
(检验的步骤)
1. 检验两个变量之间是否存在线性相关关系 2. 利用样本的相关系数对总体相关系数进行 检验 3. 采用R.A.Fisher提出的 t 检验 4. 检验的步骤为
提出假设:H0: ;H1: 0
n2 计算检验的统计量: tr ~ t (n 2) 2 1 r 确定显著性水平,并作出决策
第8章 相关与回归分析
第8章 相关与回归分析
8.1 相关与回归分析的基本概念 8.2 相关分析
8.3 一元线性回归
学习目标
1. 相关关系的分析方法
2. 一元线性回归的基本原理和参数的最小 二乘估计 3. 回归直线的拟合优度 4. 回归方程的显著性检验 5. 利用回归方程进行估计和预测 6. 用 Excel 进行回归
ˆ +b ˆ x +e ˆi b y 0 1 i i
ˆ 是直线 ˆ 是估计的回归直线在 y 轴上的截距, b b 其中: 1 0 的斜率,表示 x 每变动一个单位时, y 的平均变动值。 ei为样本残差。
相关系数
(计算公式)
总体相关系数的计算公式
协方差
Cov( X , Y ) E ( XY ) E ( X ) E (Y ) XY Var ( X )Var (Y )
标准差
相关系数
(计算公式)
样本相关系数的计算公式
r
( x x )( y y ) (x x) ( y y)
共计
325
462 77
445 89
707 101
685 137
1043 149
E(Y|X) 65
Y
X=X1时Y 的分布
X=X2时Y 的分布 X=X3时Y 的分布
b0
X=X1时的E(Y)
b0+ b 1X
X=X2时的E(Y) X=X3时的E(Y)
X1=80
X2=100
X3=120
X
总体回归函数
(population regression function)
65
70 75
74
80 85 88
90
94 98
95
103 108 113 115
110
116 118 125 678 113
120
130 135 140 750 125
140
144 145
140
152 157 160 162
155
165 175 189 966 161
175
178 180 185 191 1211 173
0
0
5.5
22
-10
r
n x x n y y
2 2 2
n xy x y
2
0.9091
相关系数的性质
性质1:r 的取值范围是 [-1,1]
|r|= 1,为完全相关
r = 1,为完全正相关 r = -1,为完全负正相关
r = 0,不存在线性相关关系 -1r<0,为负相关 0<r1,为正相关 |r|越趋于 1表示关系越强; |r|越趋于 0 表示关 系越弱
8.1 相关与回归分析的基本概念
函数关系与相关关系的概念
相关关系的种类 相关分析与回归分析的区别与联系
函数关系
1. 是一一对应的确定关系 2. 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完 全依赖于 x ,则称 y 是 x 的 函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 3. 若为线性函数关系,则各观 测点落在一条线上 ,例如, 某种商品的销售额 y 与销售 量x之间的关系可表示为 y = px (p 为单价)
正线性相关
相关系数
(correlation coefficient)
1. 相关系数是度量变量之间相关关系强度的一个指 标 2. 对两个变量之间线性相关强度的度量称为简单相 关系数,简称相关系数(狭义)、Pearson 相关 系数 3. 若相关系数是根据总体全部数据计算的,称为总 体相关系数,记为 4. 若是根据样本数据计算的,则称为样本相关系数 ,记为r
等级相关系数
商品编号 评分 甲组 1 84 乙组 92 等级 甲组x 3 乙组y 1 等级差 d=x-y 2 d^2 4
2
3 4 5 6 7 8 9 10 合计
66
72 54 75 82 90 86 78 68
75
65 62 80 82 85 90 84 60
9
7 10 6 4 1 2 5 8
7
8 9 6 5 3 2 4 10
样本回归函数 (sample regression function)
ˆ +b ˆx ˆi b y 0 1 i
Y 70 65 90 95 110 115 120 X 80 100 120 140 160 180 200 Y 55 88 90 80 118 120 145
回归模型
(regression model)
1. 回答“变量之间是什么样的关系?” 2. 方程中运用
1 个数值型因变量(响应变量)
被预测的变量
用于预测的变量
1 个或多个数值型或分类型自变量 (解释变量)
3. 主要用于预测和估计
回归模型的类型
回归模型
一元回归 线性回归 非线性回归 多元回归 线性回归 非线性回归
相关表
例 工人日工资与工龄的简单相关表
工人 号数 1 2 4 45 3 5 50 4 6 60 5 7 64 6 8 68 7 8 74 8 9 72 9 9 80 10 10 84
工龄 4 (年) 工资 42 (元)
相关图----散点图
(scatter diagram)
什么是回归分析?
(Regression)
1. 从一组样本数据出发,确定变量之间的数学 关系式 2. 对这些关系式的可信程度进行各种统计检验 ,并从影响某一特定变量的诸多变量中找出 哪些变量的影响显著,哪些不显著 3. 利用所求的关系式,根据一个或几个变量的 取值来估计或预测另一个特定变量的取值, 并给出这种估计或预测的可靠程度
2
2
或化简为 r
n x x n y y
2 2 2
n xy x y
2
例 产品产量与单位成本相关系数
产 月 量 份 x 1 2 2 3 3 4 4 3 5 4 6 5 合 21 计 单位 成本 y 73 72 71 73 69 68
x^2 y^2
4 9 16 9 16 25
y
x
相关关系
(类型)
相关关系
线性相关
正相关 负相关
单相关
复相关
非线性相关
完全相关
正相关 负相关
不相关
函数关系
散点图
(scatter diagram)
非线性相关
完全正线性相关
完全负线性相关
426
5329 5184 5041 5329 4761 4624 3026 79 1481 8
(x- (yx- y(x-E(x)) xy E(X)) E(y)) E(x) E(y) (y-E(y)) ^2 ^2 146 -1.5 2 2.25 4 -3 216 -0.5 1 0.25 1 -0.5 284 0.5 0 0.25 0 0 219 -0.5 2 0.25 4 -1 276 0.5 -2 0.25 4 -1 340 1.5 -3 2.25 9 -4.5
b0 和 b1 称为模型的参数
例:一个总体 60个家庭收入 X
80 55 60 100 65 70 120 79 84 140 80 93 160 102 107 180 110 115 200 120 136 220 135 137 240 137 145 260 150 152
家庭 消费 支出 Y
E( Y ) = b 0 + b 1 X 描述 X取给定值时Y的期望值的轨迹。
方程的图示是一条直线,也称总体回归线
b0是回归直线在 Y 轴上的截距,是当 X=0
时 Y 的期望值
b1是直线的斜率,称为回归系数,表示当 X
每变动一个单位时,Y 的平均变动值 固定但是未知
样本回归模型
1. 总体回归参数 b 0 和 b1 是未知的,必须利用样本数 据去估计
y
x
相关关系
(correlation)
1. 变量间关系不能用函数关 系精确表达 2. 一个变量的取值不能由另 一个变量唯一确定 3. 当变量 x 取某个值时,变 量 y 的取值可能有几个 4. 若为线性相关关系,则各 观测点分布在直线周围, 例如收入水平 y 与受教育 程度x之间的关系。
负线性相关
不相关
正线性相关
相关与回归分析比较表
1 理论与方法具有一致性
联系
2 无相关就无回归,相关程度越高,回归越好 3 相关系数和回归系数方向一致,可以互相推算 1 相关分析中,两个变量地位对等;回归分析中,要区分谁 是因变量谁是自变量
相关系数的经验解释
1. 2. 3. 4. |r|>0.8时,可视为两个变量之间高度相关 0.5<|r|≤0.8时,可视为显著相关 0.3<|r|≤0.5时,视为低度相关 |r|≤0.3时,说明两个变量之间的相关程度 极弱,可视为不相关 5. 上述解释必须建立在对相关系数的显著性 进行检验的基础之上
62 t 0.9091 4.3654 2 1 0.9091
3. 根据显著性水平=0.05,查t分布表得t(n-2)=2.776 由于t=4.3654>t(6-2)=2.776,拒绝H0,产量与单 位产品成本存在着显著的线性相关关系
等级相关系数
对于某些变量,如商品的质量,不能用精确的 数值去描述,只能用一定的等级来表现,研究 这类现象之间的依存关系,一般是采用等级相 关法。 步骤:先将评判的事物编号,再由每两组人员 对每一序号的事物进行打分评级,分别用x、y 表示,再计算d,d=x-y。 例:设有甲乙两组专业人员对某种商品的10个 品牌进行质量比较,问甲乙两组人员的评分是 否具有相关性?
2
-1 1 0 -1 -2 0 1 -2
4Baidu Nhomakorabea
1 1 0 1 4 0 1 4 20
6 * 20 r 1 2 1 0.8788 2 n(n 1) 10 * (10 1)
6 d 2
8.3
8.3.1 8.3.2 8.3.3 8.3.4 8.3.5
一元线性回归
一元线性回归模型 参数的最小二乘估计 回归直线的拟合优度 显著性检验 利用回归方程进行预测
一元线性回归模型
1. 描述因变量 Y 如何依赖于一个自变量 X 和 误差项的线性方程称为一元线性回归模型 2. 总体回归模型可表示为 Yi = b + b Xi + e i
Y是X的线性函数加上误差项 线性部分反映了由于 X 的变化而引起的 Y 的 变化 误差项 e 是随机变量
反映了除 X 和 Y 之间的线性关系之外的随机因素 对 Y 的影响 是不能由 X 和 Y 之间的线性关系所解释的变异性
• 若t>t,拒绝H0 • 若t<t,不拒绝H0
相关系数的显著性检验
(例题分析)
1月至6月产量与单位成本的样本高度负相关,但两个 变量总体是否存在线性相关关系呢?需要进行显著 性检验。(0.05) 1. 提出假设:H0: ;H1: 0 2. 计算检验的统计量
相关系数的性质
性质2:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy= ryx 性质3:r数值大小与x和y原点及尺度无关,即改变x和y的 数据原点及计量尺度,并不改变r数值大小 性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着, r=0只表示两个变 量之间不存在线性相关关系,并不说明变量之间没 有任何关系 性质5:r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系
区别
2 相关分析中,x、y均为随机变量,回归分析中,只有y为随 机变量
3 相关分析测定相关程度和方向,回归分析用回归模型进行 预测
8.2 相关分析
相关表与相关图
简单相关系数
等级相关系数
相关分析要解决的问题
• 变量之间是否存在关系? • 如果存在关系,它们之间是什么样 的关系? • 变量之间的关系强度如何? • 样本所反映的变量之间的关系能否 代表总体变量之间的关系?
相关系数的显著性检验
(检验的步骤)
1. 检验两个变量之间是否存在线性相关关系 2. 利用样本的相关系数对总体相关系数进行 检验 3. 采用R.A.Fisher提出的 t 检验 4. 检验的步骤为
提出假设:H0: ;H1: 0
n2 计算检验的统计量: tr ~ t (n 2) 2 1 r 确定显著性水平,并作出决策
第8章 相关与回归分析
第8章 相关与回归分析
8.1 相关与回归分析的基本概念 8.2 相关分析
8.3 一元线性回归
学习目标
1. 相关关系的分析方法
2. 一元线性回归的基本原理和参数的最小 二乘估计 3. 回归直线的拟合优度 4. 回归方程的显著性检验 5. 利用回归方程进行估计和预测 6. 用 Excel 进行回归