第七讲 相关与回归分析_877308490
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
决定系数 (coefficient of determination)R 2 :代表两个变量 之间共同变异,可在不同的相关变量之间进行比较。 例:当r =.40时,可认为变量之间具有中度相关,但事实上, 它只能解释两个变量之间16%( R 2 =0.16)的共同变异, 还有84%的变异不能解释。即对受测变量之间的关系存在 主要影响的,不是这两个变量本身,而是其它未知或已知 的变量。 因此,在解读相关系数时,不能将变量间的相关关系误读为 因果关系。
4 3
y
2 1 0 0 1 2 3 4 5
x
2014/5/6
清华大学新闻与传播学院 戴佳
17
解读斜率b
• 斜率b >0 ,意味着两个变量的分数在同一方向移动。 • 斜率b <0,意味着两个变量的分数在相反的方向移动。 • 斜率b =0, 意味着两个变量之间没有关系, 回归直线 平行于横轴。 即无论自变量如何变化,因变量保持不变。
^
2014/5/6
清华大学新闻与传播学院 戴佳
22
相关分析与回归分析比较
相关分析是用一个指标来表明现象间依存关系的密切程度。 回归分析是用数学模型近似表达变量间的平均变化关系。 相关分析可以不必确定变量中哪个是自变量,哪个是因变量, 其所涉及的变量都是随机变量。 回归分析必须事先确定具有相关关系的变量中哪个为自变量, 哪个为因变量。
相关分析研究范围比回归分析研究的范围更广泛。从研究的范围 来看,凡是能够进行回归分析的,都能够也必须进行相关分析, 而能够进行相关分析的,却不一定能够或不都需要进行回归分析。 回归分析总需要相关分析的帮助,而相关分析却不一定需要回归 分析的帮助,相关分析具有独立性。
2014/5/6
清华大学新闻与传播学院 戴佳
媒介使 用
家庭教 育
政治态 度
媒介信 任度
2014/5/6 清华大学新闻与传播学院 戴佳 13
回归分析数学意义
回归分析,是指在相关分析的基础上,把变量之间的具体变 动关系模型化,求出关系方程式,即找出一个能够反映变 量间变化关系的函数关系式,并据此进行估计和推算。 通过回归分析,可以将相关变量之间不确定、不规则的数量 关系一般化、规范化。从而可以根据自变量的某一个给定 值推断出因变量的可能值(或估计值)。
2014/5/6
清华大学新闻与传播学院 戴佳
12
回归分析(regression)
• 回归分析(regression):考察连续型变量之间存在的因 果或预测关系,即考察自变量的变动对因变量的影响程度, 并通过自变量的取值来估计或预测因变量的取值。 • 例:个人因素(媒介使用、家庭教育及政治态度)是否决 定媒介信任度?
2014/5/6
清华大学新闻与传播学院 戴佳
4
当r=0时,变量x与y之间的关系:
2014/5/6
清华大学新闻与传播学院 戴佳
5
当r=0时,变量x与y之间的关系:
1. 不相关(图c, d, e)
a
b
c
d
e
2. 不存在线性相关关系,可能存在非线性相关关系 (图 a , b ) 因此 当r=0或很小时,不能轻易得出两个变 量之间不存在相关关系 的结论,而应结合散点图作出合理的解释。
媒介信 任度
2014/5/6 清华大学新闻与传播学院 戴佳 21
多元线性回归方程模型
y i b0 b 1x 1i b 2 x2 i bn xn i
其中 (1) b0是常数项,是各自变量都等于0时,应变量的估计值 。又称本底值。
(1) b1,b2,…,bn是偏回归系数( partial regression coefficient ),指在其它所有自变量不变的情况下,某一 自变量每变化一个单位,应变量平均变化的单位数。
2014/5/6
清华大学新闻与传播学院 戴佳
23
相关分析与回归分析比较
两者互为补充:
仅仅进行相关分析,便不能由自变量来推断因变量 仅仅进行回归分析,回归方程的有效性便遭到怀疑
2014/5/6
清华大学新闻与传播学院 戴佳
24
相关分析与回源自文库分析比较
两者的使用范围不同:
回归分析只限于研究数量标志之间或指标之间的数量关系,对于 品质标志之间和等级之间的关系在没有数量化之前是无法研究的。
2014/5/6
清华大学新闻与传播学院 戴佳
14
线性回归分析(Linear Regression)
回归方程式: Y = a + bX Y为因变量,X为自变量 b是回归直线的斜率(slope),又称回归系数(regression coefficient),表示x每改变一个单位,y平均改变b个单位。 a为截距(intercept),是回归线穿过垂直的纵轴Y轴上的点
5.0 4.5 4.0 3.5 3.0
y = 1.0 + 0.5 x
y 2.5
2.0 1.5 1.0 0.5 0.0
x
斜率是x每改变一个单位, 在y量上引起的变化。 蓝色箭头所示,如果X改变 一个单位从2.0到3.0,y将 改变0.5个单位,从2.0到 2.5,由红色箭头描绘。
0 5.
0 0.
5 0.
2014/5/6
清华大学新闻与传播学院 戴佳
19
数据的标准化处理:由于各变量可能因为题项不同而不同,因此不能 直接比较。但是可进行标准化处理(变量的数值减去其平均数后, 除以其标准差)
标准回归系数β:数据标准化处理后进行回归分析,所得的回归系数。 是自变量对因变量影响程度大小的指标。 ( -1≤ β ≤+1 ) β =1,自变量改变一个单位,因变量也沿同一方向改变一个单位。 β =-1,自变量改变一个单位,因变量沿相反方向改变一个单位。
2014/5/6
清华大学新闻与传播学院 戴佳
9
变量之间共同的变异量
图中圆圈之间的重叠部分,表示变量之间可解释的共同变异量。
2014/5/6
清华大学新闻与传播学院 戴佳
10
r
相关系数的计算: x x y y 2 2 x x y y
x x y y xy x y n
25
作业
预习:《SPSS统计分析教程》 http://zhibao.swu.edu.cn/epcl/spss
2014/5/6
清华大学新闻与传播学院 戴佳
26
5 4 3
y
2 1 0 0 1 2 3 4 5
x
2014/5/6
清华大学新闻与传播学院 戴佳
16
线性回归分析(Linear Regression):
回归方程:将预测因变量中出现的 误差最小化。“最佳回归线,即 那条离所有数据点都最近的线”
5
y = 0.8 + 0.6 x
推导公式的方法被称为“最小二乘 法”( “method of least squares,” ),这意味着回归线将 残差平方和( sum of the squared residuals, ),或实际和预测值之 间的误差总和最小化了。
0 1.
5 1.
0 2.
5 2.
2014/5/6
清华大学新闻与传播学院 戴佳
0 3.
5 3.
0 4.
5 4.
15
线性回归分析(Linear Regression)
在此图中,没有点落在回归直线上。
y = 0.8 + 0.6 x
因变量的实际值和预测值每个点 之间的差异是由红色线条显示。 这些差异称为残差( residuals ), 代表实际值和预测值之间的误差。
搜索引擎 使用
学习成绩
2014/5/6
清华大学新闻与传播学院 戴佳
2
相关分析 (correlation)
相关系数 r :检验两个变量之间相关程度的系数 ( -1≤ r ≤1 ); 衡量两个随机变量之间线性相关程度的指标 r>0,正相关 (图a) 。 r<0,负相关 (图b) 。 正相关或负相关并不一定表示一个变量的改变是另一个变量变化的原 因,有可能同受另一个因素的影响。
2014/5/6
清华大学新闻与传播学院 戴佳
3
相关分析 (correlation)
r=1, 完全正相关 (图c) r=-1,完全负相关 (图d) 因此,当|r|=1时,y的取值完全依赖于x,二者之间即为函数关系 (完 全线性相关) 。即一个变量的值每增加(减少)一个单元,另一个 变量的值也增加一个单元。
5.0 4.5 4.0 3.5 3.0
y = 1.0 + 0.5 x
y 2.5
2.0 1.5 1.0 0.5 0.0
0 0.
5 0.
0 1.
2014/5/6
清华大学新闻与传播学院 戴佳
5 1.
0 2.
x
5 2.
0 3.
5 3.
0 4.
5 4.
0 5.
18
决定系数R 2 :由自变量导致的因变量的变异程度 ( -1≤ r ≤+1 ) 理解为: 自变量可预测(accounted for)的因变量发生改变的比例; 或 自变量可解释 (explain) 的因变量发生改变的比例; 如: R 2 =0.48, 则表明因变量的变异程度中,有48%由自变 量的作用决定。
X和Y的离均差积和
x x
2
x x
2
2
n
X的离均差平方和
2014/5/6
清华大学新闻与传播学院 戴佳
11
变量测量尺度与相关系数的选择
变量的测量尺度 相关系数 Pearson’s r Spearmans Rho (rS) Phi (r) Point Biserial (rPB) Biserial X 定距/定比 定序 二分法 定距/定比 定距/定比 Y 定距/定比 定序 二分法 二分法 人为二分法
今日要点
复习 检验变量之间的关系 相关分析 回归分析
2014/5/6
清华大学新闻与传播学院 戴佳
1
相关分析 (correlation)
相关分析(correlation):考察两个连续变量之间存在的关系。 比如: 两个变量的值之间没有关系? 正相关? 负相关? 例:搜索引擎使用与学习成绩之间的关系?
2014/5/6
清华大学新闻与传播学院 戴佳
7
相关分析 (correlation)注意事项
相关分析不能确定变量间的因果关系,即:
可能是x导致y 也可能是y导致x 还可能是z导致x 和y 相关系数r 是一个指标,不是对相关度的测量,不能进行 比较。
2014/5/6
清华大学新闻与传播学院 戴佳
8
相关分析 (correlation)注意事项
2014/5/6
清华大学新闻与传播学院 戴佳
20
多元回归分析(Multiple Regression)
• • • • 检验多个自变量对因变量的影响,包括: 自变量独自对因变量的影响 自变量共同对因变量的影响 例:个人因素(媒介使用、家庭教育及政治态度)是否决定媒介信任 度?
媒介使 用
家庭教 育
政治态 度
清华大学新闻与传播学院 戴佳
2014/5/6
6
解读相关系数r
• • • • • • 判断两变量线性相关密切程度的具体标准为: < .20 微弱相关 .20 -.40低度相关 .40 -.70中度相关,有实质性(substantial)关系 .70 -.90高度相关, 有显著(marked)关系 >.90极高度相关, 属于数据依赖(dependable)关系
4 3
y
2 1 0 0 1 2 3 4 5
x
2014/5/6
清华大学新闻与传播学院 戴佳
17
解读斜率b
• 斜率b >0 ,意味着两个变量的分数在同一方向移动。 • 斜率b <0,意味着两个变量的分数在相反的方向移动。 • 斜率b =0, 意味着两个变量之间没有关系, 回归直线 平行于横轴。 即无论自变量如何变化,因变量保持不变。
^
2014/5/6
清华大学新闻与传播学院 戴佳
22
相关分析与回归分析比较
相关分析是用一个指标来表明现象间依存关系的密切程度。 回归分析是用数学模型近似表达变量间的平均变化关系。 相关分析可以不必确定变量中哪个是自变量,哪个是因变量, 其所涉及的变量都是随机变量。 回归分析必须事先确定具有相关关系的变量中哪个为自变量, 哪个为因变量。
相关分析研究范围比回归分析研究的范围更广泛。从研究的范围 来看,凡是能够进行回归分析的,都能够也必须进行相关分析, 而能够进行相关分析的,却不一定能够或不都需要进行回归分析。 回归分析总需要相关分析的帮助,而相关分析却不一定需要回归 分析的帮助,相关分析具有独立性。
2014/5/6
清华大学新闻与传播学院 戴佳
媒介使 用
家庭教 育
政治态 度
媒介信 任度
2014/5/6 清华大学新闻与传播学院 戴佳 13
回归分析数学意义
回归分析,是指在相关分析的基础上,把变量之间的具体变 动关系模型化,求出关系方程式,即找出一个能够反映变 量间变化关系的函数关系式,并据此进行估计和推算。 通过回归分析,可以将相关变量之间不确定、不规则的数量 关系一般化、规范化。从而可以根据自变量的某一个给定 值推断出因变量的可能值(或估计值)。
2014/5/6
清华大学新闻与传播学院 戴佳
12
回归分析(regression)
• 回归分析(regression):考察连续型变量之间存在的因 果或预测关系,即考察自变量的变动对因变量的影响程度, 并通过自变量的取值来估计或预测因变量的取值。 • 例:个人因素(媒介使用、家庭教育及政治态度)是否决 定媒介信任度?
2014/5/6
清华大学新闻与传播学院 戴佳
4
当r=0时,变量x与y之间的关系:
2014/5/6
清华大学新闻与传播学院 戴佳
5
当r=0时,变量x与y之间的关系:
1. 不相关(图c, d, e)
a
b
c
d
e
2. 不存在线性相关关系,可能存在非线性相关关系 (图 a , b ) 因此 当r=0或很小时,不能轻易得出两个变 量之间不存在相关关系 的结论,而应结合散点图作出合理的解释。
媒介信 任度
2014/5/6 清华大学新闻与传播学院 戴佳 21
多元线性回归方程模型
y i b0 b 1x 1i b 2 x2 i bn xn i
其中 (1) b0是常数项,是各自变量都等于0时,应变量的估计值 。又称本底值。
(1) b1,b2,…,bn是偏回归系数( partial regression coefficient ),指在其它所有自变量不变的情况下,某一 自变量每变化一个单位,应变量平均变化的单位数。
2014/5/6
清华大学新闻与传播学院 戴佳
23
相关分析与回归分析比较
两者互为补充:
仅仅进行相关分析,便不能由自变量来推断因变量 仅仅进行回归分析,回归方程的有效性便遭到怀疑
2014/5/6
清华大学新闻与传播学院 戴佳
24
相关分析与回源自文库分析比较
两者的使用范围不同:
回归分析只限于研究数量标志之间或指标之间的数量关系,对于 品质标志之间和等级之间的关系在没有数量化之前是无法研究的。
2014/5/6
清华大学新闻与传播学院 戴佳
14
线性回归分析(Linear Regression)
回归方程式: Y = a + bX Y为因变量,X为自变量 b是回归直线的斜率(slope),又称回归系数(regression coefficient),表示x每改变一个单位,y平均改变b个单位。 a为截距(intercept),是回归线穿过垂直的纵轴Y轴上的点
5.0 4.5 4.0 3.5 3.0
y = 1.0 + 0.5 x
y 2.5
2.0 1.5 1.0 0.5 0.0
x
斜率是x每改变一个单位, 在y量上引起的变化。 蓝色箭头所示,如果X改变 一个单位从2.0到3.0,y将 改变0.5个单位,从2.0到 2.5,由红色箭头描绘。
0 5.
0 0.
5 0.
2014/5/6
清华大学新闻与传播学院 戴佳
19
数据的标准化处理:由于各变量可能因为题项不同而不同,因此不能 直接比较。但是可进行标准化处理(变量的数值减去其平均数后, 除以其标准差)
标准回归系数β:数据标准化处理后进行回归分析,所得的回归系数。 是自变量对因变量影响程度大小的指标。 ( -1≤ β ≤+1 ) β =1,自变量改变一个单位,因变量也沿同一方向改变一个单位。 β =-1,自变量改变一个单位,因变量沿相反方向改变一个单位。
2014/5/6
清华大学新闻与传播学院 戴佳
9
变量之间共同的变异量
图中圆圈之间的重叠部分,表示变量之间可解释的共同变异量。
2014/5/6
清华大学新闻与传播学院 戴佳
10
r
相关系数的计算: x x y y 2 2 x x y y
x x y y xy x y n
25
作业
预习:《SPSS统计分析教程》 http://zhibao.swu.edu.cn/epcl/spss
2014/5/6
清华大学新闻与传播学院 戴佳
26
5 4 3
y
2 1 0 0 1 2 3 4 5
x
2014/5/6
清华大学新闻与传播学院 戴佳
16
线性回归分析(Linear Regression):
回归方程:将预测因变量中出现的 误差最小化。“最佳回归线,即 那条离所有数据点都最近的线”
5
y = 0.8 + 0.6 x
推导公式的方法被称为“最小二乘 法”( “method of least squares,” ),这意味着回归线将 残差平方和( sum of the squared residuals, ),或实际和预测值之 间的误差总和最小化了。
0 1.
5 1.
0 2.
5 2.
2014/5/6
清华大学新闻与传播学院 戴佳
0 3.
5 3.
0 4.
5 4.
15
线性回归分析(Linear Regression)
在此图中,没有点落在回归直线上。
y = 0.8 + 0.6 x
因变量的实际值和预测值每个点 之间的差异是由红色线条显示。 这些差异称为残差( residuals ), 代表实际值和预测值之间的误差。
搜索引擎 使用
学习成绩
2014/5/6
清华大学新闻与传播学院 戴佳
2
相关分析 (correlation)
相关系数 r :检验两个变量之间相关程度的系数 ( -1≤ r ≤1 ); 衡量两个随机变量之间线性相关程度的指标 r>0,正相关 (图a) 。 r<0,负相关 (图b) 。 正相关或负相关并不一定表示一个变量的改变是另一个变量变化的原 因,有可能同受另一个因素的影响。
2014/5/6
清华大学新闻与传播学院 戴佳
3
相关分析 (correlation)
r=1, 完全正相关 (图c) r=-1,完全负相关 (图d) 因此,当|r|=1时,y的取值完全依赖于x,二者之间即为函数关系 (完 全线性相关) 。即一个变量的值每增加(减少)一个单元,另一个 变量的值也增加一个单元。
5.0 4.5 4.0 3.5 3.0
y = 1.0 + 0.5 x
y 2.5
2.0 1.5 1.0 0.5 0.0
0 0.
5 0.
0 1.
2014/5/6
清华大学新闻与传播学院 戴佳
5 1.
0 2.
x
5 2.
0 3.
5 3.
0 4.
5 4.
0 5.
18
决定系数R 2 :由自变量导致的因变量的变异程度 ( -1≤ r ≤+1 ) 理解为: 自变量可预测(accounted for)的因变量发生改变的比例; 或 自变量可解释 (explain) 的因变量发生改变的比例; 如: R 2 =0.48, 则表明因变量的变异程度中,有48%由自变 量的作用决定。
X和Y的离均差积和
x x
2
x x
2
2
n
X的离均差平方和
2014/5/6
清华大学新闻与传播学院 戴佳
11
变量测量尺度与相关系数的选择
变量的测量尺度 相关系数 Pearson’s r Spearmans Rho (rS) Phi (r) Point Biserial (rPB) Biserial X 定距/定比 定序 二分法 定距/定比 定距/定比 Y 定距/定比 定序 二分法 二分法 人为二分法
今日要点
复习 检验变量之间的关系 相关分析 回归分析
2014/5/6
清华大学新闻与传播学院 戴佳
1
相关分析 (correlation)
相关分析(correlation):考察两个连续变量之间存在的关系。 比如: 两个变量的值之间没有关系? 正相关? 负相关? 例:搜索引擎使用与学习成绩之间的关系?
2014/5/6
清华大学新闻与传播学院 戴佳
7
相关分析 (correlation)注意事项
相关分析不能确定变量间的因果关系,即:
可能是x导致y 也可能是y导致x 还可能是z导致x 和y 相关系数r 是一个指标,不是对相关度的测量,不能进行 比较。
2014/5/6
清华大学新闻与传播学院 戴佳
8
相关分析 (correlation)注意事项
2014/5/6
清华大学新闻与传播学院 戴佳
20
多元回归分析(Multiple Regression)
• • • • 检验多个自变量对因变量的影响,包括: 自变量独自对因变量的影响 自变量共同对因变量的影响 例:个人因素(媒介使用、家庭教育及政治态度)是否决定媒介信任 度?
媒介使 用
家庭教 育
政治态 度
清华大学新闻与传播学院 戴佳
2014/5/6
6
解读相关系数r
• • • • • • 判断两变量线性相关密切程度的具体标准为: < .20 微弱相关 .20 -.40低度相关 .40 -.70中度相关,有实质性(substantial)关系 .70 -.90高度相关, 有显著(marked)关系 >.90极高度相关, 属于数据依赖(dependable)关系