线性相关

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实例讲解
SPSS软件操作过程:
1、建立数据库 2、分析操作: 2.1 绘散点图
Graphs—— Scatter—— Simple—— Define:
Y Axis: 前臂长 X Axis: 身高

OK
散点图:
52
50
48
46
44
前臂长
42
40 150 身高 160 170 180 190
l xx l yy

l / l xx l yy
2 xy
Fra Baidu bibliotek

SS 回归 SS总
r 2 习惯上写成 R 2 ,称为确定系数(或决定系 数),数值上等于自变量对因变量的贡献率,即用自 变量能解释因变量变化的百分之多少。
R 2 越接近于1,回归拟合分析的效果越好,即
价值越大。 注意:如果X与Y有回归关系,则一定存在相关关
归直线的可信程度。
估计正常值范围。
简单线性回归方程:
y = a + bx
^
表 1 直线回归方程 a、b 两系数对比
a
含义 回归直线在 Y 轴上的截距( intercept) 。 表示 X 为零时, Y 的平均水平的估计值。
b
系数 >0 系数 <0 系数 =0 计算公式
回归系数( regression coefficient) , 即直线的斜率。表示 X 每变化一个 单位时,Y 的平均变化量的估计值。 a>0 表示直线与纵轴的交点在原点的 上 b>0 ,表示直线从左下方走向右上 方。 方,即 Y 随 X 增大而增大。 a<0 表示直线与纵轴的交点在原点的 下 b<0 ,表示直线从左上方走向右下 方。 方,即 Y 随 X 增大而减小。 a=0 表示回归直线通过原点 b=0,表示直线与 X 轴平行,即 Y 不随 X 的变化而变化。 ( X X )(Y Y ) l XY b a Y bX l XX ( X X )2
最小二乘法原理,此时估计误差平方和
Y Y 最小。
^
2
b
l xy l xx
X X Y Y X X
2
a y bx
直线回归方程的假设检验
样本回归系数b的假设检验 (1)方差分析;
(2)t检验。
决定系数:
r
2
l
2 xy
两变量直线相关的性质和密切程度,用 直线相关系数r来描述。
相关系数的计算及意义:
相关系数:又称为积差相关系数或积 矩相关系数,它表示两个变量之间直线关 系的密切程度和相关方向的统计指标。
总体相关系数用符号ρ表示,随机样 本相关系数用符号r表示。 r取值范围:-1≤r≤1,没有单位。
相关性质与r值的关系:
单因素线性相关
与回归分析
临床流行病学应用研究室 周罗晶
现实世界中许多事物与事物之间存在着 联系,统计方法的一个重要目的是探讨事物 的数量规律,通过对不同性质的事物进行大 量观察,发现某些表面关系不大的事物之间 存在的依存关系,并度量这种关系的紧密程 度。 然而,多数情况是两事物间虽存在着联 系,但其方式不是“决定”,统计学中把这 种现象之间在数量上非确定性的对应关系叫 做“相关关系” 。
实例1. 10名20岁男青年身高与前臂长的数据见表1。
计算相关系数并对ρ=0进行假设检验;
表1
身 高 (cm) 前臂长 (cm) 170 45 173 42
10名20岁男青年身高与前臂长
160 44 155 41 173 47 188 50 178 47 183 46 180 49 165 43
实例讲解
实例2
某省卫生防疫站对八个城市进行肺癌死亡回 顾调查,并对大气中苯并(a)芘进行监测,结果 如下:
试检验两者有无相关?
表3 城市编号 八个城市的肺癌标化死亡率和大气中苯并(a)芘浓度 1 2 3 4 5 6 8.13 0.50 7 8 18.50 16.23 1.17 1.05 11.40 13.80 0.10 0.75 18.00 12.10 0.65 1.20
系,但是若存在相关关系,则不一定存在回归关系。
作直线回归分析时的注意事项:
1)两变量间的关系必须有实际意义。 2 )计算直线回归的两变量,若 X 为选定的,则对应 于每个X值的Y值必须服从正态分布,其即Y的均数;
若 X 、 Y 都是随机变量,则要求 X 、 Y 服从双变量正态
分布。否则先经变量变换,使资料符合要求后再进 行回归分析。
作直线相关分析时注意事项:
1. 在进行相关分析之前,一定要根据专业知识 来判断两个变量之间是否存在联系。 2. 相关可以是因果关系,也可以是伴随关系。 3. 不能只根据相关系数绝对值的大小来判断相 关的密切程度。
例如有两个样本相关系数: r1=0.601, υ1=6; r2=0.401, υ2=40. 不能根据 r1> r2 ,就判断 r1 比 r2 相关更密切。因为查表,若按同一检验水准0.05,则 前者认为无相关而后者有相关,可见正确推断有无相 关必须经过假设检验。
实例讲解
rs = 1-
n(n 1)
2
6 d 2
n:总例数 d:每一对值的等级差
rs= 1-6×28/[8×(82-1)]=0.6667
H0:ρs=0,即肺癌标化死亡率和大气中苯并(a)芘无相关关系 H1:ρs≠0,即肺癌标化死亡率和大气中苯并(a)芘有相关关系 α=0.05
查rs界值表,得0.10>P>0.05,按α =0.05水准,不拒绝H0, 尚不能认为肺癌标化死亡率和大气中的苯并(a)芘有相关 关系。
实例讲解
3、与ρ=0进行假设检验
H0:ρ=0,即身高与前臂长间无直线相关关系 H1:ρ≠0,即身高与前臂长间有直线相关关系
t r 0 sr
1 r n 2
2
r

0.8227 10 2 1 0.8227
2
4.09
α=0.05 n 2 10 2 8 ,查t界值表,得0.002<P<0.005, 按α=0.05水准拒绝H0,接受H1,故可认为20岁男青年身 高与前臂长呈正直线相关。
相关关系的种类:
按相关的方向不同可以分为正相关和负相关 按相关的形式不同可以分为线性相关和非线
性相关
按影响因素的数量不同分为单相关、复相关
和偏相关
按照变量关联的密切程度可分为完全相关、
不完全相关和完全不相关(无关)
简单线性相关
当一个变量X由小到大,另一个变量Y亦 相应地由小到大(或由大到小),两变量的 散点图呈直线趋势,那么这两个变量之间有 线性关系。分析这种线性关系的理论和方法, 统称为直线相关或线性相关。
l XX X X n 298525 17252 10 962.5
2 2
2 Y 454 , Y ,Y 45.4, 20690 XY 78541
lYY Y Y n 20690 4542 10 78.4
2 2
l XY XY X Y n 78541 1725 454 10 226 l XY 226 r 0.8227 l XX lYY 962.5 78.4
肺癌标化死亡率(1/10 5.60 万) 苯并 (a) 芘 (μ g/100m3) 0.05
实例讲解
本题资料不服从双变量正态分布,宜计算等级相关 系数。计算过程见下表。
城市 肺癌标化死亡率( 1/10 万) 编号 等级 X ⑴ ⑵ ⑶ 1 5.60 1 2 18.50 8 3 16.23 6 4 11.40 3 5 13.80 5 6 8.13 2 7 18.00 7 8 12.10 4 苯并(a)芘 d 等级 Y ⑷ ⑸ ⑹=⑶-⑸ 0.05 1 0 1.17 7 1 1.05 6 0 0.10 2 1 0.75 5 0 0.50 3 -1 0.65 4 3 1.20 8 4 d2 ⑺ 0 1 0 1 0 1 9 16 ∑ d2=28
习惯上,相关系数的绝对值|r|在: 0.3以下,称为微弱线性相关; 0.3-0.5,称为低度线性相关; 0.5-0.8,称为显著线性相关; 0.8以上,称为高度线性相关。
r计算公式:
r l xy l xxl yy
l xx x x

x xy y x x y y
3 )用同一资料计算 X推算 Y,和由Y 推算 X的两个 回归方程,结果不同。因此,要正确选定自变量。 若两变量之间有因果关系,应以“因”为 X;无 法确定时,则以较易测定者或变异较小者为X。 4 )观察值必须是同质的。如果有两个不同的子 群,可能产生实际上不存在的回归,也可能忽视 了确实存在的回归关系。 5)回归方程一般只适用于自变量X的原观察数据 范围,而且实验条件也应与取得原观察数据的实 验条件一致,不能任意外推。
BEN
直线回归
线性回归分析是基于最小二乘法原理产生古 典统计假设下的最优线性无偏估计。 直线回归是回归分析中最基本、最简单的一 种,是处理两变量(其中至少一个是随机变量) 间线性依存关系的一种统计方法,即自变量只有 一 个 的 情 况 , 故 又 称 简 单 回 归 ( simple regression),所得方程叫直线回归方程。
若引入回归分析的自变量有两个以上,那么 就是多重线性回归分析或多元线性回归分析,所 得方程叫多重线性回归方程。
“回归”一词的来历。
用途:
两变量之间存在直线关系时,通过计算
回归方程来描述这两个变量相互依存的 数量关系。
根据直线回归方程由已知(或易测)变
量值,估计未知(或难测)变量值。
对总体回归直线作出估计,评价样本回
SPSS软件分析结果:
Correlations MORTAL Spearman's rho MORTAL Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N 1.000 . 8 .667 .071 8 BEN .667 .071 8 1.000 . 8
人们发现这种不太明确的规律以后,为 了验证、利用这些规律,人们会进一步试验, 筛选出最主要的变量,再进行理论论证,直 至形成一种比较稳定的、可控的操作模式。
统计学上,如果发现了某两个变量之间 的相关关系,会对这两个变量的一系列观测 值进行有效的统计技术处理(回归分析), 形成具有一定概率的统计规律。
相关系数假设检验:
从样本计算的r值,是总体相关系数ρ的估 计值,从ρ=0(无直线相关)的总体抽出的样本, 其r不一定为0,因此得到r后必须检验r是否来自 ρ=0的总体,以判断两变量间是否存在直线相关 关系。可用t检验或直接查r界值表实现。
t
1 r n 2
2
r
,υ =n-2
实例讲解
4. 积差相关分析只适用于双变量正态分布资料。
秩相关:又叫等级相关(rank
correlation), 即斯皮尔曼(Spearman)等级相关。是用双变量数 量等级顺序作直线相关分析。
适用于以下资料:
不服从双变量正态分布而不宜作积差相关分析。
总体分布类型未知。
用等级表示的原始数据。
实例讲解
2.2 分析模块操作:

Analyze——
Correlate—— Bivariate—— Variables: 身高 前臂长 Correlation Coefficients: Pearson

OK
实例讲解
身高与前臂长相关分析结果:
身高 Pearson Correlation 身高 Sig. (2-tailed) N Pearson Correlation 前臂长 Sig. (2-tailed) N 1 . 10 0.823 0.003 10 前臂长 0.823 0.003 10 1 . 10
1.由原始数据及散点图进行初步分析(图 1)
51 49 47 45 43 41 39 37 35 150
前臂长( c m )
160
身高(cm)
170
180
190
图1 10名20岁男青年身高与前臂长散点图
实例讲解
2、计算相关系数
2 X 1725 , X ,X 172.5 298525
i i 2 i i
2
x x
2 2
2
/ n (x的离均差平方和)
2
l yy y y l xy
y y / n (y的离均差平方和) x x y y xy x y / n
2 2
(x与y的离均差积和)
相关文档
最新文档