线性计算方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章线性相关
前面着重于描述某一变量的统计特征
或比较该变量的组间差别
两个随机变量之间的关系:
如体重与肺活量、
年龄与血压
是否存在线性联系?正向还是负向?联系的程度?
线性相关(linear correlation):线性联系?方向?程度?
8.1 线性相关概念
1.独立随机的双变量正态分布样本
讨论两个变量X和Y的相关性。
样本:独立的、成对的观察值(x1,y1),(x2,y2),…,(x n,y n)
第八章线性相关 2
例8.1 为讨论父子身高间的线性相关程度,南方某地在应届中学毕业生花名册中随机抽取20名男生,分别测量他们和他们的父亲的身高(cm),得样本资料如表8.1所示。
表8.1 20对父子的身高(cm)数据
问如何保证这是一份可供讨论线性相关的合格样本?
解(1)随机抽取;
(2)互相独立?
2.散点图(scatter plot)
线性相关3/17
座标轴:分别表示两个变量;n个点:构成一幅散点图(图8.1)
第八章线性相关 4
图8.2 典型散点图
线性相关 5/17
图(a)和(c),正相关(positive correlation) 图(b)和(d),负相关(negative correlation) 图(e) 、(f) 、(g),Y 和X 无关联 图 (h),可能存在曲线型联系。
通常所说的相关就是线性相关,(e)到(h)均属不相关 对于不相关的情形,宜进一步澄清是否为曲线关系
8.2 相 关 系 数
Pearson 积矩相关系数(product-moment correlation coefficient) 对双变量正态分布变量X 和Y 的方差)
的方差(的协方差和相关系数)(Y Y X X
(8.1)
第八章 线性相关 6
总体相关系数,记为ρ
ρ=0,X 和Y 无线性相关或零相关(null correlaton) ρ >0, 正相关 ρ <0, 负相关
ρ=1或-1, 完全相关(罕见!)。 样本相关系数,记为r
对于n 对随机样本,X 和Y 的样本协方差:
1
1
))((1
-=
---=
∑=n l n y y x x
Y X xy n
i i i
的样本协方差和 (8.2)
l xy :X 与Y 的离均差乘积和
若所有离均差乘积平均后接近零,则表明部份个体的X 和Y 同方向,部份个体的X 和Y 反方向,总的说来,诸个体各循其道,杂
线性相关 7/17
乱无章
相反,若离均差乘积平均后为正,且距零较远,则表明多数个体的X 和Y 同方向,即正相关;
若离均差乘积平均后为负,且距零较远,则表明多数个体的X 和Y 反方向,即负相关。
协方差的大小与X ,Y 的取值单位有关,不同问题中的协方差不可比较。
相关系数:X 和Y 分别标准化之后的协方差。 数值介于-1和+1之间,且没有单位
])(1][)(1[))((1)()())((2
11
221121
1111221∑∑∑∑∑∑∑∑∑∑==========---=----=
=n
i i
n i i n i i n i i n
i i n
i i n
i i i n i n i i i n
i i i yy
xx xy
y n y x n x y x n y x y y x x y y x x l l l r
(8.3)
第八章 线性相关 8
l xx : X 的离均差平方和 l yy :Y 的离均差平方和
例8.2 试计算例8.1中父高X 和子高Y 的样本相关系数(假定系独立随机双正态样本)。 解 ∑=n i i
x 1=3376, ∑=n
i i
y 1=3407, n =20
∑=n
i i
x
1
2=571728,
∑=n
i i
y
1
2=581081,
∑=n
i i
i y x 1
=576161
由(8.3)式得到, 9296.0)55.698)(2.1859(4.1059)
20/3407581081)(20/3376571728(20
/)3407)(3376(5761612
2==---=
r 8.3 相关系数的统计推断
样本相关系数r 只是总体相关系数ρ的一个估计值。
样本相关系数也存在变异性。
线性相关 9/17
得到线性相关的描述统计量r 之后,还有必要对其所来自的总体进行统计推断。
1. 相关系数的假设检验 H 0: ρ=0
直接查r 界值表 或 t 检验:
r
r s r t 0-= v =n -2 (8.4)
2
12
--=n r
s r (8.5)
S r : 样本相关系数r 的标准差(也称标准误)。 例8.3 继例8.2中算得r =0.9296后,试检验相关是否具有统计学意义。
第八章 线性相关 10
解 (1)直接查r 界值表
可得到r 0.001,18 = 0.679, | r | >r 0.001,18,P <0.001, (2)t 检验
H 0:ρ=0, H 1:ρ≠0,α=0.05。 7.102
209296.019296.02
=--=r
t
查t 分布表,得到t 0.001,18=3.922。显然|t r |>3.922,P <0.001。 故拒绝H 0,接受H 1,可以认为父子身高之间存在正相关关系。与查表结论相同。
2. 相关系数的区间估计
(1) 对样本相关系数r 作变换 r z 1
tanh -= 或 )11l n (21r
r
z -+= (8.6)