Pearson相关系数简介
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
|r|越接近于1,表明两变量相关程度越高, 它们之间的关系越密切。
|r|的取值与相关程度
|r|的取值范围 0.00-0.19 0.20-0.39 0.40-0.69 0.70-0.89 0.90-1.00
|r|的意义 极低相关 低度相关 中度相关 高度相关 极高相关
Pearson相关系数的计算
适用条件 1、两变量均应由测量得到的连续变量。 2、两变量所来自的总体都应是正态分布, 或接近正态的单峰对称分布。 3、变量必须是成对的数据。 4、两变量间为线性关系。
所以,要判断该样本的r是否有意义,需与总体相关系 数=0进行比较,看两者的差别有无统计学意义。这就要对 r进行假设检验,判断r不等于零是由于抽样误差所致,还是 两个变量之间确实存在相关关系。
相关系数的假设检验
步骤 1.提出假设
H0 : p=0 无关
H1 : p≠0 相关
2.确定显著性水平 =0.05
Pearson相关系数的计算
r X X Y Y
l XY
X X 2 Y Y 2
l XX lYY
X 的离均差平方和:
2
lXX X X
Y 的离均差平方和:
2
lYY Y Y
X与Y 间的离均差积和: lXY X X Y Y
离均差平方和、离均差积和的展开
lXX
3.计算检验统计量,查表得到P值。拒绝H0,则两变量相关。 否则,两变量无关。
ห้องสมุดไป่ตู้关系数的假设检验
t检验法 计算检验统计量tr,查t界值表,得到P 值
r0 tr 1 r2
n2
v n2
例题
1. H0 : =0 无关
H1 : ≠0 相关
=0.05
2.
r=0.9787, n=15, 代入公式
r0
tr
相关的含义
客观现象之间的数量联系存在着函数关系和 相关关系。
当一个或几个变量取定值时,另一个变量有 确定的值与之对应,称为函数关系,可用Y=f(X) 表示。
图5-0(a) 函数关系
当一个变量增大,另一个也随之增大(或 减少),我们称这种现象为共变,或相关 (correlation)。两个变量有共变现象,称 为有相关关系。
相关关系不一定是因果关系。
主要探讨线性相关——pearson相关系 数
主要内容
一、散点图 二、相关系数 三、相关系数的假设检验
一、散点图
为了确定相关变量之间的关系,首 先应该收集一些数据,这些数据应该是 成对的。
例如,每人的身高和体重。然后在 直角坐标系上描述这些点,这一组点集 称为散点图。
如果从相关系数ρ=0的总体中取得某r值的概率P>0.05,我们就接受假 设,认为此r值的很可能是从此总体中取得的。因此判断两变量间无显著 关系;
如果取得r值的概率P≤0.05或P≤0.01,我们就在α=0.05或α=0.01水准 上拒绝检验假设,认为该r值不是来自ρ=0的总体,而是来自ρ≠0的另一 个总体,因此就判断两变量间有显著关系。
小判断相关程度 4. 相关关系并不一定是因果关系,有可能是伴随关
系
*如何判断两个变量的相关性 (1)找出两个变量的正确相应数据。 (2)画出它们的散布图(散点图)。 (3)通过散布图判断它们的相关性。 (4)给出相关(r)的解答。 (5)对结果进行评价和检验。
Thank you
以上有不当之处,请大家给与批评指正, 谢谢大家!
2.相关类型:
3.作用:粗略地给出了两个变量的关联类型与程度
通过相关散布图的形状,我们大概可以判 断变量之间相关程度的强弱、方向和性质,但 并不能得知其相关的确切程度。
为精确了解变量间的相关程度,还需作进 一步统计分析,求出描述变量间相关程度与变 化方向的量数,即相关系数。总体相关系数用 p表示,样本相关系数用r表示。
17.189 1 r2
n2
3. v=15-2=13,查界值表,P<0.001,拒绝H0,认为血铅与尿 铅之间有正相关关系。
三、相关注意事项
1. 线性相关的前提条件是X、Y都服从正态分布(双 变量正态分布)
2. 当散点图有线性趋势时,才可进行线性相关分析 3. 必须在假设检验认为相关的前提下才能以r的大
2
XX
X2
X2
n
lYY
2
Y Y
Y2
Y2
n
l XY
X
X Y
Y
XY
X Y
n
例13-1
测得某地15名正常成年人的血铅X和24小 时的尿铅Y,试分析血铅与24小时尿铅之 间是否直线相关。
15名自愿者的血铅和24小时尿铅测量值(μmol/L)
编号 X
Y 编号 X
Y
1 0.11 0.14 9 0.23 0.24
27
二、相关系数
变量的取值区间越大,观测值个数越多,相关系数受 抽样误差的影响越小,结果就越可靠,如果数据较少, 本不相关的两列变量,计算的结果可能相关。
相关系数取值: -1<r<1
相关系数的性质
|r|表明两变量间相关的程度,r>0表示正相 关,r<0表示负相关,r=0表示零相关。
相关系数的性质
2 0.25 0.25 10 0.33 0.30
3 0.23 0.28 11 0.15 0.16
4 0.24 0.25 12 0.04 0.05
5 0.26 0.28 13 0.20 0.20
6 0.09 0.10 14 0.34 0.32
7 0.25 0.27 15 0.22 0.24
8 0.06 0.09
用水平轴x上的数代表父亲身高垂直轴y上的数代表儿子的身高1078个点所形成的图形是一个散点它的形状象一块橄榄状的云中间的点密集边沿的点稀少其主要部分是一个椭圆
两变量关联性分析
pearson相关系数介绍
世间万物是普遍联系的
医学上,许多现象之间也都有相互联系,例 如:身高与体重、体温与脉搏、年龄与血压、 产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程 度和性质也各不相同。
∑X=3.00 ∑Y=3.17 ∑ X2=0.7168 ∑Y2=0.7681 ∑XY=0.7388 n=15
=0.9787
相关系数的假设检验
意义: 上例中的相关系数r等于0.9787,说明了15例样本中血
铅与尿铅之间存在相关关系。
但是,这15例只是总体中的一个样本,由此得到的相关 系数会存在抽样误差。因为,总体相关系数()为零时, 由于抽样误差,从总体抽出的15例,其r可能不等于零。
1. 作法:为了研究父亲与成年儿子身高之间的关 系,卡尔.皮尔逊测量了1078对父子的身高。 把1078对数字表示在坐标上,如图。用水平轴 X上的数代表父亲身高,垂直轴Y上的数代表儿 子的身高,1078个点所形成的图形是一个散点 图。
它的形状象一块橄榄状 的云,中间的点密集,边沿 的点稀少,其主要部分是一 个椭圆。