回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
南开大学数学科学学院
2012年 应用统计专题
张巧真
学习目标 掌握两个或多个变量之间相关关系的分析方法 能够根据数据估计一元和多元回归方程, 能够根据数据估计一元和多元回归方程,并对结 果进行解释 掌握回归分析模型的各类检验方法
变量选择和预测
南开大学数学科学学院
2012年 应用统计专题
张巧真
注意:相关关系 因果关系 因果关系! 注意:相关关系≠因果关系!
南开大学数学科学学院
2012年 应用统计专题
张巧真
例1:人均消费 : 以人均年消费性支出(变量Y 为因变量, 以人均年消费性支出(变量Y)为因变量,以人 均年可支配收入(变量X 均年可支配收入(变量X)和家庭恩格尔系数 (变量Z)为自变量,建立二元线性回归模型 变量Z 为自变量,
ˆ Yt = 5.755 + 0.602 X t − 0.097 Z t
1: High level -1: Low level
• Supersaturated Designs: number of factors m ≥ number of runs n • Columns are not Orthogonal
南开大学数学科学学院 2012年 应用统计专题 张巧真
销售---相关矩阵 销售 相关矩阵
南开大学数学科学学院
2012年 应用统计专题
张巧真
相关分析与回归分析
相关分析( Analysis): ):研究变量 相关分析(Correlation Analysis):研究变量 之间相关的方向和相关的程度, 之间相关的方向和相关的程度,但无法给出变量 间相互关系的具体形式, 间相互关系的具体形式,因而无法从一个变量推 测另一个变量
南开大学数学科学学院
2012年 应用统计专题
张巧真
散点图
人 均 消 费 支 出
20.00
15.00
10.00
5.00
0.00
0.00
5.00
10.00
15.00
20.00
25.00
人均可支配收入
南开大学数学科学学院
2012年 应用统计专题
张巧真
已人均年消费性支出(变量Y 为因变量, 已人均年消费性支出(变量Y)为因变量,人 均年可支配收入(变量X 为自变量, 均年可支配收入(变量X)为自变量,建立一 元线性回归模型
南开大学数学科学学院 2012年 应用统计专题
OUTPUTS (Responses)
Process
Fiber Permeability Product Quality Tensile Strength
Noise
张巧真
Response y = Tensile strength
y = f ( x1 , x 2 , ..., x8 )
与回归分析有关的材料
张巧真
PowerPoint Template
数学科学学院
南开大学数学科学学院
2012年 应用统计专题
张巧真
某公司25个销售区域的销售情况 某公司 个销售区域的销售情况
南开大学数学科学学院
2012年 应用统计专题
张巧真
变量意义
预测自变量的变化能否解释每个区域的销售情况? 预测自变量的变化能否解释每个区域的销售情况?
H0:β1=β2=…=βp=0 H1:β1,β2,…,βp至少有一个不等于0 至少有一个不等于0
SR p S / F= ~F p n−p− ) ( , 1 S E/n−p− S 1
例1的结果 的结果
南开大学数学科学学院
2012年 应用统计专题
张巧真
多元回归中的变量筛选
在多元回归中,预先选定的自变量不一定都对Y 在多元回归中,预先选定的自变量不一定都对Y有 显著的影响。 显著的影响。有一些统计方法可以帮助我们从众 多可能的自变量中筛选出重要的自变量。 多可能的自变量中筛选出重要的自变量。
ˆ Yt = 0.5658 + 0.7246 X t
该模型是否合适? 该模型是否合适?
南开大学数学科学学院
2012年 应用统计专题
张巧真
多元线性回归 总体回归函数: 总体回归函数:
Y =β +β X + +βpXp +ε 0 1 1 ...
样本回归方程: 样本回归方程:
ˆ ˆ ˆ 1 ... ˆp y=β +βx + +β xp 0 1
张巧真
线性) (线性)相关系数 总体相关系数
Cv XY o( , ) ρ= V r(X V r( ) a )a Y
样本相关系数
r= ( ∑x−x)(y−y) ( ( ∑x−x) ⋅∑y−y)
2
2
南开大学数学科学学院
2012年 应用统计专题
张巧真
线性) (线性)相关系数的检验
1、提出假设: H0 :ρ = 0 ; H1 : ρ ≠ 0 提出假设:
r n−2 t= ~t(n−2 ) 2 1 r −
2、计算检验的统计量
确定显著性水平α 3、确定显著性水平α,并作出决策 若|t| >tα/2,拒绝H0
南开大学数学科学学院
2012年 应用统计专题
张巧真
回归分析 趋向中间高度的回归
回归这个术语是由英国著名统计学家Francis 回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及他们的父母的身高 Galton在19世纪末期研究孩子及他们的父母的身高 时提出来的。Galton发现身材高的父母 发现身材高的父母, 时提出来的。Galton发现身材高的父母,他们的孩 子也高。 子也高。但这些孩子平均起来并不像他们的父母那 样高。对于比较矮的父母情形也类似: 样高。对于比较矮的父母情形也类似:他们的孩子 比较矮, 比较矮,但这些孩子的平均身高要比他们的父母的 平均身高高。 Galton把这种孩子的身高向中间值 平均身高高。 Galton把这种孩子的身高向中间值 靠近的趋势称之为一种回归效应, 靠近的趋势称之为一种回归效应,而他发展的研究 两个数值变量的方法称为回归分析。 两个数值变量的方法称为回归分析。
南开大学数学科学学院
2012年 应用统计专题
张巧真
南开大学数学科学学院
2012年 应用统计专题
张巧真
回归模型的类型
回归模型的类型
回归模型
一元回归
多元回归
线性 回归
非线性 回归
线性 回归
非线性 回归
南开大学数学科学学院
2012年 应用统计专题
张巧真
一元线性回归模型
ˆ ˆ ˆ y =β +β x 0 1
ˆ ˆ ˆ y=β +βx 0 1
(x2 , y2)
}
(x1 , y1) (xi , yi)
ei = yi^i -y
x
通过使残差平方和 Q=
(y −y 2 =∑i2 ∑ i ˆ) e
i= 1 i= 1
n
n
ˆ ˆ 达到最小来求得 β β 1 0
南开大学数学科学学院
2012年 应用统计专题
张巧真
例1:人均消费 :
回归分析(Regression): 回归分析(Regression): 可以确定变量之间相 互关系的具体形式(回归方程), ),确定一个变量 互关系的具体形式(回归方程),确定一个变量 对另一个变量的影响程度, 对另一个变量的影响程度,并根据回归方程进行 预测
南开大学数学科学学院
2012年 应用统计专题
“向前引入法(Forward)” 向前引入法(Forward) 向后剔除法(Backward) “向后剔除法(Backward)” 逐步引入—剔除法 Stepwise) 剔除法( “逐步引入 剔除法(Stepwise)” 最优子集” “最优子集”
南开大学数学科学学院
2012年 应用统计专题
张巧真
例2:澳大利亚啤酒消费 : 为了研究澳大利亚啤酒需求的影响因素, 为了研究澳大利亚啤酒需求的影响因素,研究人 员收集了1955 1996如下资料 1955如下资料: 员收集了1955-1996如下资料: ConsBeer:人均啤酒消费量( ConsBeer:人均啤酒消费量(升) 啤酒的价格(澳元/ Pbeer: 啤酒的价格(澳元/升) 葡萄酒的价格(澳元/ Pwine: 葡萄酒的价格(澳元/升) Psprits:白酒的价格(澳元/ Psprits:白酒的价格(澳元/升) 人均收入, Income: 人均收入,澳元 根据数据拟合多元线性回归模型
ˆ ˆ0 ˆ1 y=β +β x
y
{
x
离差分解图
南开大学数学科学学院
2012年 应用统计专题
张巧真
离差平方和分解
南开大学数学科学学院
2012年 应用统计专题
张巧真
多重相关系数
修正的多重相关系数 检验回归系数是否等于零? 检验回归系数是否等于零?
南开大学数学科学学院
2012年 应用统计专题
张巧真
对模型的检验
该模型是否合适? 该模型是否合适?
南开大学数学科学学院
2012年 应用统计专题
张巧真
模型的评价和检验
拟合优度 1、多重相关系数 2、估计标准误差 显著性检验 3、t-检验 4、F-检验
南开大学数学科学学院
2012年 应用统计专题
张巧真
离差分解图
y
(x , y ) i i
ˆ y−y
y−y
}
ˆ } y−y
南开大学数学科学学院
2012年 应用统计专题
张巧真
参考文献
南开大学数学科学学院
2012年 应用统计专题
张巧真
典型的错误推断: 典型的错误推断:
调查表明, 调查表明,世界各国人均电视机拥有量与预期 寿命存在很强的正相关性。因此, 寿命存在很强的正相关性。因此,电视机拥有 量越高,预期寿命越长。 量越高,预期寿命越长。
对小学各年级学生的抽样调查表明,学生的识 对小学各年级学生的抽样调查表明, 字水平与他们鞋子的尺寸高度正相关。因此, 字水平与他们鞋子的尺寸高度正相关。因此, 学生穿的鞋越大,他的识字水平就越高。 学生穿的鞋越大,他的识字水平就越高。
Each experiment costs $500, requires 8 hours, budget $3,000 (6 experiments)
1 1 2 3 4 5 6 1 -1 -1 -1 1 1 2 1 -1 -1 1 -1 1 3 1 -1 -1 1 1 -1 4 1 -1 1 -1 -1 1 5 1 -1 1 -1 1 -1 6 1 -1 1 1 -1 -1 7 1 1 -1 -1 -1 1 8 1 1 -1 -1 1 -1 Y
e i
β 0
ˆ β 0
εi
EY| X =β +β X ( ) 0 1
ˆ β 1
β1
南开大学数学科学学院
2012年 应用统计专题
张巧真
残差
ˆ 点到直线的纵向距离 y − y
6.5
6.0
5.5
5.0 11
南开大学数学科学学院
12
13
14
15
16
张巧真
2012年 应用统计专题
最小二乘估计 y
(xn , yn)
南开大学数学科学学院
2012年 应用统计专题
张巧真
澳大利亚啤酒消费
南开大学数学科学学院
2012年 应用统计专题
张巧真
回归结果
Intercept Pbeer Pwine Pspirits Income
Coefficient s 标准误差 t Stat P-value 89.2811 3.4201 26.1050 0.00000 -68.2395 41.9225 2.6519 -0.0100 13.0868 0.9761 0.0039 -5.2144 0.00001 2.7167 0.00997 -2.6053 0.01315 2.6852 15.6126 0.00000
张巧真
相关分析的类型 根据相关关系的类型和程度可以有以下分类
相关关系
完全相关
不完全相关
不相关
线性相关
非线性相关
南开大学数学科学学院
2012年 应用统计专题
张巧真
用散点图观察变量之间的相关关系
完全正线性相关
完全负线性相关
非线性相关
正线性相关
负线性相关
不相关
南开大学数学科学学院
2012年 应用统计专题
南开大学数学科学学院
2012年 应用统计专题
张巧真
逐步回归结果
南开大学数学科学学院
2012年 应用统计专题
张巧真
Composites Production
Raw Materials INPUTS (Factors) Resin Flow Rate (x1) Type of Resin (x2) Gate Location (x3) Fiber Weave (x4) Mold Complexity (x5) Fiber Weight (x6) Curing Type (x7) Pressure (x8)