第九章 回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
How well does a model explain the variation in the dependent variable?
Effectiveness vs Efficiency
Effectiveness: maximises R2
180 160 140 120 100 80 60 40 20 0 0 50 100 Height (cms) 150 200
Weight (kgs)
If 120cm tall, then how heavy?
Simple Regression
How best to summarise the data? Establish equation for the best-fit line:
ˆ ( y y) ( y y)
2 2
即,相关系数的平方等于回归平方和在总平方和中所占的比率。 是两个变量共同变异部分的比率,叫做决定系数 (Coefficient of determination)( R square)。 表示使
用X去预测Y时的预测释力,即Y变量被自变量所解 释的比率。反映了由自变量与因变量所形成的线性 回归模式的契合度(goodness of fit) 此一数值是否具有统计上的意义,反映了此一回归 分析或预测力是否具有统计上的意义,必须通过F检 验来判断
回归方程式Y=bX+a B系数:
为一未标准化的回归系数,其意义为每单位X值的变动时,Y所变动 的原始量 B系数适用于实务工作的预测数值的计算 如果将b值乘以X变项的标准差再除以Y变项的标准差,即可去除单位 的影响,并控制两个变项的分散情形,得到新的数值(Beta),为 不具备特定单位的标准化回归系数 系数也是将X与Y变项所有数值转换成Z分数后,所计算得到的回归 方程式的斜率,该方程式通过ZX,ZY的零点,因此截距为0。 系数具有与相关系数相似的性质,也就是介于-1至+1之间,其绝对 值越大者,表示预测能力越强,正负向则代表X与Y变项的关系方向。 系数适用于变项解释力的比较,偏向学术用途
假设
H0: 1 = 0 H1: 1 0 F = MSR/MSE 拒绝规则 如果F > F ,拒绝 H0 其中 F 是分子自由度为1,分母自由度为n - 2 的 F分布. MSR=SSR/自变量个数, MSE=SSE/n-2
检验统计量
回归方程的方差分析表
变异来源 SS df MS
F MSR / MSe
Multiple Regression
Establish equation for the best-fit line: y = b1x1 + b2x2 + b3x3 + a
Where: b1 = regression coefficient for variable x1 b2 = regression coefficient for variable x2 b3 = regression coefficient for variable x3 a = constant
Multiple Regression
R2adj - “adjusted R-square”
R2是一个受自变量个数与样本规模之比(k:n)影响的系数,一般是1:10 以上为好。当这个比值小于1:5时,R2倾向于高估实际的拟合的程度。 Takes into account the number of regressors in the model
Simple Regression
R2 - “Goodness of fit”
180 160 140
160 140 120
S ymptom Index
0 50 100 150 200 250
S ymptom Index
120 100 80 60 40 20 0
100 80 60 40 20 0 0 50 100 150 200 250
ˆ y a bx
Where: a = 截距(intercept) (constant) b = 斜率(slope of best-fit line)
200 180 160 140 120 100 80 60 40 20 0 0 50 100 150 200 250
回归系数(regression coefficient)
检验统计量
b t SEb
拒绝规则
如果 t < -tor t > t,拒绝 H0 其中t 是自由度为 n - 2 的 t 分布
决定系数
1 SSreg SSt
2
SSe 回归可解释变异比 误差变异量比 100% SSt
r
2
SSreg SS R 1 e SSt SSt
R2 = 0 (0% - randomly scattered points, no apparent relationship between X and Y) Implies that a best-fit line will be a very poor description of data
Calculated as:
R2adj = 1 - (1-R2)(n-1)/(n-k-1) where: n = number of data points k = number of regressors Note that R2adj will always be smaller than R2
回归
ˆ- SSR=∑( y y)2 dfR=1
MSR= SSR / dfR
误差
SSe=∑(y-y)2 dfe=N-2 MSe= SSe / dfe ˆ
Total(全体) SSt=∑(y-y)2 dft=N-1
Testing for Significance: t Test 显著性t检验
假设
H0: 1 = 0 H1: 1 0
Strong positive correlation between height and weight Can see how the relationship works, but cannot predict one from the other
Graph One: Relationship between Height and Weight
系数:
参ຫໍສະໝຸດ Baidua、b的最小二乘估计
A good
line is one that minimizes the sum of squared differences between the points and the line.
根据推导,
a y bx
( x x )( y y ) b (x x)
假设
H0 : 1 0, H1 : 1 0,
如果 H 成立,则不能认为 y 与 0
x 有线性相关关系。
三种检验方法:F检验法、t-检验法、r检验法。
一元线性回归方程的方差分析
ˆ ( y y)
( y y)
ˆ ( y y)
ˆ y a bx
ˆ ˆ ( y y ) ( y y) ( y y )
Simple Regression
High values of R2
300 250
200
150
100
50
0 0 50 100 150 200 250 300
250 200 150 100 50 0 0 50 100 150 200 250
R2 = 1 (100% - points lie directly on the line - perfect relationship between X and Y) Implies that a best-fit line will be a very good description of data
第九章 多元回归分析
浙江师范大学教育学院心理系
徐长江 xucj@zjnu.cn
纲要
回归分析的基本原理
一元回归分析 多元回归分析
多元回归分析的方法 多元回归分析的实现
回归分析的目的
设法找出变量间的依存(数量)关系, 用函数 关系式表达出来
Example: Height vs Weight
经过推导,得到:
ˆ y ) 2 ( y y) 2 ˆ ( y y ) (y
2
总平方和
(total sum of squares)
回归平方和
(regression sum of squares)
误差平方和
(residual sum of squares)
∑(y-y)2即所有y值的总平方和,记为SSt
2
式中,a是直线在y轴上的截距,代表y的基础水平; b是直线的斜率,它表示x变化一个单位时,y的平均 变化。
Simple Regression
How accurate is the description?
180 160 140
160 140 120
S ymptom Index
0 50 100 150 200 250
ˆ ∑(y - y)2表示总平方和(总变异)中已被x与y的线性关系 所说明的那部分,可记为SSR
ˆ ∑(y- y )2即偏离回归线的平方和,用最小二乘法求回归方程时曾 使它极小,一般称这个平方和为误差平方和或剩余平方和,记为SSe
Testing for Significance: F Test 显著性F检验
X的变异
r2
Y的变异
Simple Regression
R2 - “Goodness of fit”
For simple regression, R2 is the square of the correlation coefficient
Reflects variance accounted for in data by the best-fit line
S ymptom Index
120 100 80 60 40 20 0
100 80 60 40 20 0 0 50 100 150 200 250
Drug A (dose in mg)
Drug B (dose in mg)
Very good fit
Moderate fit
回归方程有效性的检验
对于任何一组数据 ( xi , yi ) (i 1,2,, n),都可按最 小二乘法确定一个线性函数,但变量 y 与 x 之间是否真 有近似于线性函数的相关关系呢?尚需进行假设检验。
Drug A (dose in mg)
Drug B (dose in mg)
Good fit R2 high High variance explained
Moderate fit R2 lower Less variance explained
例子
数据t2_1.sav的数据是我国分地区家庭年 人均食品支出与人均年收入的数据。以 食品支出为因变量,人均年收入为自变 量,建立回归方程。
Takes values between 0 (0%) and 1 (100%) Frequently expressed as percentage, rather than decimal
Simple Regression
Low values of R2
300 250 200 150 100 50 0 0 100 200 300
Multiple Regression
R2 - “Goodness of fit”
For multiple regression, R2 will get larger every time another independent variable (regressor or predictor) is added to the model New regressor may only provide a tiny improvement in amount of variance in the data explained by the model Need to establish the value of each additional regressor in predicting the DV