线性计算方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第八章线性相关

前面着重于描述某一变量的统计特征

或比较该变量的组间差别

两个随机变量之间的关系:

如体重与肺活量、

年龄与血压

是否存在线性联系?正向还是负向?联系的程度?

线性相关(linear correlation):线性联系?方向?程度?

8.1 线性相关概念

1.独立随机的双变量正态分布样本

讨论两个变量X和Y的相关性。

样本:独立的、成对的观察值(x1,y1),(x2,y2),…,(x n,y n)

第八章线性相关 2

例8.1 为讨论父子身高间的线性相关程度,南方某地在应届中学毕业生花名册中随机抽取20名男生,分别测量他们和他们的父亲的身高(cm),得样本资料如表8.1所示。

表8.1 20对父子的身高(cm)数据

问如何保证这是一份可供讨论线性相关的合格样本?

解(1)随机抽取;

(2)互相独立?

2.散点图(scatter plot)

线性相关3/17

座标轴:分别表示两个变量;n个点:构成一幅散点图(图8.1)

第八章线性相关 4

图8.2 典型散点图

线性相关 5/17

图(a)和(c),正相关(positive correlation) 图(b)和(d),负相关(negative correlation) 图(e) 、(f) 、(g),Y 和X 无关联 图 (h),可能存在曲线型联系。

通常所说的相关就是线性相关,(e)到(h)均属不相关 对于不相关的情形,宜进一步澄清是否为曲线关系

8.2 相 关 系 数

Pearson 积矩相关系数(product-moment correlation coefficient) 对双变量正态分布变量X 和Y 的方差)

的方差(的协方差和相关系数)(Y Y X X

(8.1)

第八章 线性相关 6

总体相关系数,记为ρ

ρ=0,X 和Y 无线性相关或零相关(null correlaton) ρ >0, 正相关 ρ <0, 负相关

ρ=1或-1, 完全相关(罕见!)。 样本相关系数,记为r

对于n 对随机样本,X 和Y 的样本协方差:

1

1

))((1

-=

---=

∑=n l n y y x x

Y X xy n

i i i

的样本协方差和 (8.2)

l xy :X 与Y 的离均差乘积和

若所有离均差乘积平均后接近零,则表明部份个体的X 和Y 同方向,部份个体的X 和Y 反方向,总的说来,诸个体各循其道,杂

线性相关 7/17

乱无章

相反,若离均差乘积平均后为正,且距零较远,则表明多数个体的X 和Y 同方向,即正相关;

若离均差乘积平均后为负,且距零较远,则表明多数个体的X 和Y 反方向,即负相关。

协方差的大小与X ,Y 的取值单位有关,不同问题中的协方差不可比较。

相关系数:X 和Y 分别标准化之后的协方差。 数值介于-1和+1之间,且没有单位

])(1][)(1[))((1)()())((2

11

221121

1111221∑∑∑∑∑∑∑∑∑∑==========---=----=

=n

i i

n i i n i i n i i n

i i n

i i n

i i i n i n i i i n

i i i yy

xx xy

y n y x n x y x n y x y y x x y y x x l l l r

(8.3)

第八章 线性相关 8

l xx : X 的离均差平方和 l yy :Y 的离均差平方和

例8.2 试计算例8.1中父高X 和子高Y 的样本相关系数(假定系独立随机双正态样本)。 解 ∑=n i i

x 1=3376, ∑=n

i i

y 1=3407, n =20

∑=n

i i

x

1

2=571728,

∑=n

i i

y

1

2=581081,

∑=n

i i

i y x 1

=576161

由(8.3)式得到, 9296.0)55.698)(2.1859(4.1059)

20/3407581081)(20/3376571728(20

/)3407)(3376(5761612

2==---=

r 8.3 相关系数的统计推断

样本相关系数r 只是总体相关系数ρ的一个估计值。

样本相关系数也存在变异性。

线性相关 9/17

得到线性相关的描述统计量r 之后,还有必要对其所来自的总体进行统计推断。

1. 相关系数的假设检验 H 0: ρ=0

直接查r 界值表 或 t 检验:

r

r s r t 0-= v =n -2 (8.4)

2

12

--=n r

s r (8.5)

S r : 样本相关系数r 的标准差(也称标准误)。 例8.3 继例8.2中算得r =0.9296后,试检验相关是否具有统计学意义。

第八章 线性相关 10

解 (1)直接查r 界值表

可得到r 0.001,18 = 0.679, | r | >r 0.001,18,P <0.001, (2)t 检验

H 0:ρ=0, H 1:ρ≠0,α=0.05。 7.102

209296.019296.02

=--=r

t

查t 分布表,得到t 0.001,18=3.922。显然|t r |>3.922,P <0.001。 故拒绝H 0,接受H 1,可以认为父子身高之间存在正相关关系。与查表结论相同。

2. 相关系数的区间估计

(1) 对样本相关系数r 作变换 r z 1

tanh -= 或 )11l n (21r

r

z -+= (8.6)

相关文档
最新文档