3 回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

a. Predictorsຫໍສະໝຸດ Baidu (Constant), X2, X1 b. Dependent Variable: Y
ANOVAb Sum of Squares 18.950 3.050 22.000 Mean Square 9.475 .610
模型拟合 优度的检验
Model 1
df 2 5 7
Regression Residual Total
回归分析
• • • • •
掌握相关系数的含义、计算方法和应用 掌握一元线性回归的基本原理和参数的最小二乘估计方法 掌握回归方程的显著性检验 利用回归方程进行预测
了解多元线性回归分析
(1) 什么是相关分析
是对两个变量间的关联(联系)程度的度量 相关系数
由于变量的测量等级不同,相关系数的计算方法也不同。
总偏差(SST) = 可以由回归解释的偏差(SSR) + 不能解释的偏差(SSE)
SSR F 拒绝 H 0 SSE
F
b
2
(X X )
S
2
2
b 2 2 ( ) t SE
决定系数 R-Square
可以由回归解释的偏差 R 总的偏差
2
决定系数=1
所有观测值都落在一条直线上,
回归拟合解释了全部的偏差
不存在等值
数据换算成秩 计算皮尔逊相关系数=斯皮尔曼秩相关系数
(2) 回归分析
为确定变量之间的联系,用一些变量的变化说
明另一个变量的变化,并进一步对另一个变量的取
值进行预测,这就是回归分析。
因变量(dependent variable):要说明其变化的、对其进行预测的变量。 自变量 (independent variable):用以说明或预测因变量的变量
X
相关系数 r 的直观意义
Y
● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
r=0




●●
X
相关系数 r 的直观意义
Y
● ● ●● ● ● ● ● ●● ● ● ● ● ●
● ●● ●●
r= 0 不相关
● ●
∧Y=b
∧X=1
0
斜率b: X有一个单位变化时,伴随着发生的 Y的变化量
X
Y:拟合值
回归分析的基本要点
1. 2. 回归目的: 预测或解释 观察散点图是回归分析的第一步
3.
4.
对回归分析的解释
尤其是提及因果关系时, 必须非常谨慎
真实的回归直线 ——总体中X和Y的回归关系
Yi X i ei
模型拟合 优度的检验
Model 1
df 2 5 7
Regression Residual Total
F 15.534
Sig. .007a
回归方程的 显著性检验
a. Predictors: (Constant), X2, X1 b. Dependent Variable: Y
Coefficientsa Standardi zed Coefficien ts Beta .564 .450
b t SE S
b
x
2
查自由度为n-2的 t 分布表可得
P值(Sig.)的意义
•就是在原假设成立的情况下,检验统计量的取值等于或超过 所观测到的值的概率。
,拒绝H0; •P值 P值> ,接受H0.
用方差分析的观点看待回归
Y
可以解释的偏差和不可以解释的偏差
● 不能用回归解释的偏差
相关关系
线性相关 正 相 关 负 相 关 非线性相关 完全相关 不相关
正 相 关
负 相 关
Person相关系数
度量两个定距测量尺度变量之间的线性关系
样本相关系数 r
检验
总体相关系数 ρ
样本相关系数 r
r
( X X )(Y Y ) ( X X ) (Y Y )
2
2
-1≤r≤1
F 15.534
Sig. .007a
回归方程的 显著性检验
a. Predictors: (Constant), X2, X1 b. Dependent Variable: Y
Coefficientsa Standardi zed Coefficien ts Beta .564 .450
统计上称为相关关系。
例:收入与食品的消费支出的关系
y
语文成绩与数学成绩的关系



x
线性相关
变量间的直线关系是变量间联系中最简单的一种,相关系数就是 描述变量间线性联系程度的度量。
两个变量之间存在线性关系
线性相关
适当的变量变换
曲线相关
两个变量之间若存在非线性关系
相关关系的类型
r=0 不相关 r>0 正相关 r<0 负相关
强/弱正相关 强/弱负相关
相关关系的测度 (相关系数取值及其意义)
完全负相关 无线性相关 完全正相关
-1.0
-0.5
0
+0.5
+1.0
r
负相关程度增加 正相关程度增加
样本相关系数 r 的直观意义
Ⅱ xy<0

y
● ● ●



xy>0 x xy<0
∑xy= ∑(x-X)(y-Y) ∑xy的正和负表现了
总体斜率β的假设检验
原假设: X和Y之间没有什么联系, H0:β=0 H1: β=0
0 是否落在β的置信度
为1-α的置信区间之内
No 在α的显著性水平下,斜率β与0的差异 在统计上是显著(可分辨)的
总体斜率β的假设检验 - 统计量
原假设: X和Y之间没有什么联系
H0:β=0
H1: β=0
统计量 t =(估计值-原假设值)/标准误差
例如: 两个定距变量间的相关系数:person相关系数
两个定序变量间的相关系数:Spearman等级(秩)相关系数
基本概念
• 散点图 • 相关系数计算公式
• 正相关、负相关、不相关
• 相关分析与回归分析 • 决定系数 • 假设检验-总体相关系数
散点图 - 正相关
Y
● ● ● ● ● ● ● ● ● ● ●

d

● ● ●

Y
X

d (Y Y )
2

2
拟合直线的准则
使所有偏差和最小
d
2
(Y Y )

Y:观测值
2
Y

:拟合值
最小二乘法则
最小二乘法则
斜率:
( X X )(Y Y ) b (X X )
2
截 距:
a Y bX
斜率 b 的意义
Y Y=a+bX
t ( n 2)
r 1 r n2
2
总体相关系数的t 值检验的步骤
1. 陈述原假设H0:ρ=0(X和Y没有线性相关关系) 2. 计算 t 统计量 3. 比较 t 值和临界值 4. 或者比较p值<0.05 (95%置信度) 5. 对原假设做出判断——拒绝或接受
假相关/共变关系
教师的工资收入——饮料的消费量
Y
● ● ●
r=1.0 线性相关—函数关系
● ●
● ● ● ● ● ●
X
相关系数 r 的直观意义
Y
● ● ● ● ●
r= -1.0
● ●
● ● ●

X
相关系数 r 的直观意义
Y
● ● ●
● ●
● ●
●● ●
● ●● ● ● ● ● ●●● ● ● ● ● ●
r = -0.8 强负相关

●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●
Model 1
R .928a
R Square .861
Adjusted R Square .806
a. Predictors: (Constant), X2, X1 b. Dependent Variable: Y
ANOVAb Sum of Squares 18.950 3.050 22.000 Mean Square 9.475 .610



xy>0
X和Y相关的正和负

● ●

X和Y没有线性联系时,观测点均匀地散布在四个象限,∑xy=0
相关系数 r 的直观意义
Y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●

r=0.6

● ● ● ●● ●● ●
● ●



X
相关系数 r 的直观意义
决定系数=0
回归直线什么也不能解释,
X和Y之间没有线性联系
决定系数越大表明回归方程拟合数据越好, 解释力或预测力越强。
Model Summaryb Std. Error of the Estimate .7810
Model 1
R .928a
R Square .861
Adjusted R Square .806
确定变量间的关系
确定哪些自变量x1、x2、x3、xk对因变量y 是有影响的。 确定自变量是以什么形式影响因变量的, 即y是 x1 x2 x3 … xk 什么形式的函数。
确定描述y和xi联系的关系式中的未知参数。
回归模型的类型
回归模型 一个自变量 两个及两个以上自变量
一元回归
多元回归
婴儿的身高


小树的高度
解释相关系数的意义时一定要慎重,要有实际意义。
其它相关系数
不同级别的变量要用不同类型的相关系数 各种相关系数的使用范围及计算公式
spearman 秩相关系数R
适用预定序变量X和定序变量Y的相关测量 把变量X和Y的测量值转为等级值(秩)
R 1
n(n 2 1)
6 D 2
确定的
统计关系
随机的
函数关系
函数:变量之间按照一定的函数形式形成的一一对应关系。 变量X和Y之间存在函数关系时: X值一旦被指定,Y值就是唯一确定的
例:Y=10+1.6X Y=SinX Y=X2 Y=ex Y=LnX Y=1/X
y x

统计关系
两个变量之间存在某种依存关系,但变量Y并不是由 变量X唯一确定的, 它们之间没有严格的一一对应关系,
散点图
Y
x
理想的线性回归
Y
● ●

● ● ●

X
(X,Y) 散点图
Y
● ● ● ● ● ● ● ●
X
(X,Y)线性回归直线
Y
● ● ● ● ● ● ● ●
X
X和Y线性回归——直线方程
Y
● ●
ˆ a bX Y
d
● ●

● ● ●
Y

X
X和Y线性回归
Y
Yi

● ● ● ●
Y a bX
Model 1
(Constant) X1 X2
Unstandardized Coefficients B Std. Error .482 1.461 .632 .252 .216 .108
回归系数的 显著性检验
t .330 2.506 1.998 Sig. .755 .054 .102
a. Dependent Variable: Y
线性
非线性
线性
非线性
回归
回归
回归
回归
回归模型
回归模型中所包括的变量越多
模型反映现实的可能性越大
解释回归分析的结果变得更为困难
各个变量之间存在着许多相互关系
简单回归模型
数学上下列方程在图形上是一条直线
因变量
Y=a+bX
截距 斜率
自变量 (预测变量)
抽取一个样本,样本量为 n
(X1,Y1) (X2,Y2) (X3,Y3) …… (Xi,Yi) …… (Xn,Yn)
误差项
误差项 e 的来源
Yi X i ei
测量误差
自然现象和社会现象中 不可避免的固有变化性
总体中截距、斜率和误差项往往是未知的
用拟合回归直线估计真实的回归直线

样本:
Y a bX
估计
总体:
Y X
Model Summaryb Std. Error of the Estimate .7810
Y Y
Y Y =可以用回归解释的偏差
Y a bX
Y Y
=总偏差
X
利用回归减小了偏差
决定系数R2
(y
i 1
n
i
y)
2

ˆ (y
i 1
n
i
y)
2

ˆ (y
i 1
n
i
yi ) 2
SST
SSR
SSE
总体平方和
回归平方和
残差平方和
R2=SSR/SST
应用于回归的方差分析
负线性相关

不相关
正线性相关
总体相关系数ρ的检验
样本相关系数 r 总体相关系数 ρ (置信区间)
假设检验 原假设H0:ρ=0 (X和Y之间没有线性关系)
利用t 值检验
如果总体相关系数ρ=0,样本相关系数 r 的抽样 分布随着 n 的增大越来越接近于服从于自由度为 n-2 的 t 分布
X
散点图 - 负相关
Y
● ● ● ● ● ● ● ● ● ● ●
X
散点图 - 不相关
Y
● ● ● ● ●

● ●

● ●
X
散点图 - 不相关
Y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

●●
●●


X
如何度量这种变量之间的关系
在社会现象中,变量之间的关系大致可分为两种
函数关系
● ● ● ● ● ●
●● ●● ● ● ● ●
相关系数 r 仅是线性关系的一种度量, 不相关并不意味着没有关系。
X
相关关系的图示

非线性相关










完全正线性相关
完全负线性相关



相关文档
最新文档