交互作用
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如何研究变量之间的关系?
在统计方法中通常是用相关与回归的方法来研究
不同变量之间的这种相互依存和互为消长的关系。 相关与回归即有区别又有联系,表达事物或现象
说明一变量依另一变量的消长而变动的规律用回 归方程。
间的在数量方面相互关系的密切程度用相关系数;
数量关系的特点?
函数关系: 确定。例如园周长与半径:y=2πr 。 一一对应关系。 回归关系:不确定。例如血压和年龄的关系。 具有相同年龄的人,血压不一定相同。但在一定 年龄范围内的人,其血压会在一定范围内波动。 年龄与血压之间有一定的趋势。
无相关——见图5、6和7,X不论增加或减少,Y的 大小不受其影响;反之亦然。此时r=0。另外, 须注意有时虽然各点密集于一条直线,但该直线 与X轴或Y轴平行,即X与Y的消长互不影响,这 种情况仍为无相关。
非线性相关——见图8,图中各点的排列不呈直线 趋势,呈某种曲线形状,此时r≈0,称为非线性 相关。 |r|>=0.7, 高度相关; 0.4<=|r|<0.7,中度相关; |r) n
受 试 凝血酶浓度(单 者号 位/毫升) 凝血时间(秒) X Y 测定15名健康成人血液的 (1) (2) (3) 1 1.1 14 凝血酶浓度(单位/毫 2 1.2 13 升)及血液的凝固时间 3 1 15 0.9 15 (秒),测定结果记录 4 5 1.2 13 于表第(2)、(3)栏, 6 1.1 14 0.9 16 问血凝时间与凝血酶浓 7 8 0.9 15 度间有无相关? 9 1 14 10 0.9 16 11 1.1 15 12 0.9 16 13 1.1 14 14 1 15 15 0.8 17 合计 15.1 222
4. 相关可以是因果关系,也可以只是伴随关系。 相关显著只说明两现象间的数量间存在直线关系, 但不能证明事物间的内在联系。当事物间的内在 联系尚未被认识前,相关分析能从数量上给理论 研究提供线索。
直线回归 linear regression
计算出相关系数后,如果r显著,需要进一步了解 两变量中一个变量依另一个变量而变动的规律时, 可进行回归分析。
b:斜率(slope),回归系数(regression coefficient)。
意义:X每改变一个单位,Y平均改变b个单位。 b>0,Y随X的增大而增大(减少而减少)—— 斜上; b<0,Y随X的增大而减小(减少而增加)—— 斜下; b=0,Y与X无直线关系 —— 水平。 |b|越大,表示Y随X变化越快,直线越陡峭。
直线相关 linear correlation
相关 ---- 变量间的互依关系 直线相关(linear correlation)也叫简单相关 (simple correlation),用于双变量正态分布资 料。 为判断两事物数量间有无相关,可先将两组变量 中一对对数值在普通方格纸上作散点图
各种相关关系示意图
今∣tr∣>t0.01,13,P<0.01,在α=0.01水准上 拒绝H0,接受H1,故可认为凝血时间的长短与血 液中酶浓度有负相关。
(二)查表法: 为简化tr检验的计算过程,数理统计工作者根据t 分配表,已把不同自由度时r的临界值求出,并 列成相关系数界值表(见附表13-1)。故只需查 表就可知道该r值是否显著,不必再计算tr值。
相关系数 linear correlation coefficient 一、直线相关系数 r
相关分析是用相关系数(r)来表示两个变量间相 互的直线关系,并判断其密切程度的统计方法。
又称积差相关系数(coefficient of product– moment correlation),或 Pearson 相关系数 (软件中常用此名称)说明相关的密切程度和方 向的指标。 r --样本相关系数 ρ--总体相关系数
正相关——见图1,各点分布呈椭圆形,Y随X的增 加而增加,X亦随Y的增加而增加,此时1>r>0。 椭圆范围内各点的排列愈接近其长轴,相关愈密 切,当所有点都在长轴上时,r=1(见图2),称 为完全正相关。 负相关——见图3,各点分布亦呈椭圆形,Y随X的 增加而减少,X也随Y的增加而减少,此时0>r>1。各点排列愈接近其长轴,相关愈密切,当所 有点都在长轴上时,r=1(见图4),称为完全负 相关。 生物现象中,完全正相关或完全负相关甚为少见。
3.计算回归系数b和截距a。
( X X )(Y Y ) b (X X )
2
a Y bX
本例b=-1.7800/0.2093=-8.5045 a=14.80-(-8.5045)(1.01)=23.3895 4.列出回归方程,绘制回归直线
ˆ Y 23.3895-8.5045X
零假设:ρ=0,备择假设: ρ≠0 r与0的差别是否显著要按该样本来自ρ=0总体 的概率而定。 如果从ρ=0的总体中取得某r值的概率P>0.05,就 接受假设,认为此r很可能是从此总体中取得的。 因此判断两变量间无显著关系; 如果取得r值的概率P≤0.05或P≤0.01,就在 α=0.05或α=0.01水准上拒绝检验假设,认为该 r不是来自ρ=0的总体,而来自ρ≠0的另一个总 体,因此判断两变量间有显著关系。
直线相关与回归
Linear correlation and regression
直线相关与回归
前面介绍的统计方法都只涉及单一变量,即或 进行两组或多组比较,所比较的仍然是同一变量, 而且是以讨论各组间该变量的相差是否显著为中 心环节。 医学领域里常可在一个统一体中遇到两个或多个 变量之间存在着相互联系、相互制约的情况 . 如:同一批水样的浊度与透光率,同一批人的年龄 与血压以及身长、体重与胸围等。
直线回归方程的计算
最小二乘法原则(least squares method):使各散点到
直线的纵向距离的平方和最小。即:
Y Yˆ
2
最小。
( X X )(Y Y ) XY X Y / n l XY b 2 2 2 ( X X ) l XX X X / n
1.建立检验假设,H0:ρ=0,H1:ρ≠0, α=0.05 2.计算相关系数的r的t值:
tr
r 0 1 r n2
2
r n2 1 r
2
tr
0.9070 15 2 1 (0.9070)
2
7.765
3.查t值表作结论 ν=n-2=15-2=13 根据专业知识知道凝血酶浓度与凝血时间之 间不会呈正相关,故宜用单侧界限,查t值表得 t0.01,13=2.650
直线回归分析的任务
建立一个描述应变量依自变量而变化的直线方程, 并要求各点与该直线纵向距离的平方和为最小。 按这个要求计算回归方程的方法称为最小平方法 或最小二乘法。 建立的方程是一个二元一次方程式。
直线回归方程的标准形式
ˆ Y a bX
a:截距(intercept),直线与Y轴交点的纵坐标。
rα,ν, > |r| ----P> α ----相关不显著; rα,ν, ≤|r|---- α ≥P----在α水准上相关显著;
今: r=-0.9070 ,ν =15-2=13,查附表界值, 得:r0.05,13=0.441 r0.01,13=0.592
现∣r∣>r0.01,13,P<0.01,按α=0.01水准,拒绝HO, 接受H1。认为ρ≠0,说明凝血时间的长短与血 液中凝血酶浓度有负相关。结论与计算所得一致。
a Y bX
因为直线一定经过“均数”点
举例
根据前面的相关分析以及医学上有关凝血的机理, 可知凝血时间依凝血酶浓度而异,且有密切的关 系。因此可进一步作由凝血酶浓度(X)推算凝 血时间(Y)的回归方程。步骤如下: 1.列回归计算表,计算∑X、∑Y、∑X2、∑Y2、 ∑XY。 2.计算 X 、 Y 、∑(X-X)2、∑(X-X)(Y-Y) X =∑X/n=15.1/15=1.01 Y =∑Y/n=222/15=14.80 ∑(X- X )2=∑X2-(∑X)2/n=0.2093 ∑(X- X )(Y- Y )=∑XY-∑X· ∑Y/n=-1.7800
r≠0原因:① 由于抽样误差引起,ρ=0 ② 存在相关关系, ρ≠0
相关系数假设检验的过程
(一)t检验 由于来自ρ=0的总体的所有样本相关系数呈对称 分布,故r的显著性可用t检验来进行。
公式
tr
r 0 Sr
=
r 1 r n2
2
υ=n-2
Sr----
相关系数的标准误
对r值检验的判断
在凝血酶浓度的实测范围内,即X=0.8到X=1.2之 间,任选两个X值(一般选相距较远且直角坐标 系上容易读出者),代入此回归方程,即得相应 的两个Y值,就可画出该直线。 须注意回归直线必通过( X , Y )点,并穿过观察 点群,直线上下各有一些点散布着,否则计算有 误。
直线回归的概念
反映两变量间的依存变化的数量关系。 应变量(dependent variable) Y 随自变量(independent variable) X 变化而变化,以直线回归方程( linear regression equation)表示。
与数学上的函数关系不同,回归关系具有不确定性。 如:成年人年龄和血压的关系,大量调查发现平均收缩 压随年龄的增长而增高,且呈直线趋势,但各点并非恰 好都在直线上。为强调这一区别,统计上称这是血压在 年龄上的“回归”。
相关系数的意义
相关系数:说明具有直线关系的两变量间,相关 方向与密切程度的统计指标。 相关系数 r 没有单位,在-1~+1范围变动, 符号 表示相关的方向,大小表示相关的程度。
r> 0,正相关;r< 0,负相关;r= 1, -1, 完全相关; r= 0, 零相关(无直线关系),但不能表达直线 以外的关系(如各种曲线)。
负值表示血凝时间随凝血酶浓度的增高而缩短;绝对值 ∣-0.9070∣表示这一关系的密切程度。 此相关系数是否显著,则要经过下面的分析。
相关系数的假设检验
虽然样本相关系数r可作为总体相关系数ρ的估 计值,但从相关系数ρ=0的总体中抽出的样本, 计算其相关系数r,因为有抽样误差,故不一定 是0,要判断不等于0的r值是来自ρ=0的总体还 是来自ρ≠0的总体,必须进行显著性检验。
相关系数的显著性与自由度的大小有关, 如n=3,ν=1时,虽r=-0.9070,却为不显著; 若ν=400时,即使r=0.1000,亦为显著。 因此不能只看r的值,不考虑ν就下结论。
相关分析应注意的问题
1. 相关分析一定要有实际意义。X, Y来自正态总 体,随机变量。 2. 相关分析前,先绘制散点图。散点有线性趋势, 再进行相关分析。 3. 样本量足够大,可以根据r值大小推断两变量间 的相关程度。小样本时,即使检验有显著性, 也仅能对两变量间的直线关系作判断,相关的 强度不可靠。 尤其当r有统计学意义,但r2较小,结论要慎重。
1. Positive correlation, 2. Perfect positive correlation, 3. Negative correlation, 4. Perfect negative correlation, 5. 6. 7. Zero correlation, 8. Non-linear correlation
举例:
1.绘图,将第(2)、(3)栏各对数据绘成散点图。
17
凝血时间(秒)
16 15 14 13 0.8 0.9 1 1.1 凝血酶浓度(单位/毫升) 1.2
2.求出∑X、∑Y、∑X2、∑Y2、∑XY ∑X=15.1 ∑Y=222 ∑XY=221.7 ∑X2=15.41 ∑Y2=3304
3. 代入公式,求出r值。r=-0.9070
相关系数的计算
r
( X X )(Y Y ) ( X X ) (Y Y )
2
2
X的离均差平方和 Y的离均差平方和
( X X )2 X 2
( X ) 2
(Y Y ) 2 Y 2
n ( Y ) 2
n
X与Y的离均差乘积之和,
( X X )(Y Y ) XY