最短距离法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

最短距离法:

定义i G 与j G 之间的距离为两类最近样品的距离,即为ij G X G X ij

d D j j i i ,

,min

min

∈∈=,

设类p G 与q G 合并成一个新类记为r G ,则任一类k G 与r G 的距离为

}

{kq kp ij G X G X ij G X G X ij

G X G X kr D D d d d D q j k i p j k i r

r k k ,min min ,min min min

,,,=⎭⎬

⎫⎩⎨⎧==

∈∈∈∈∈∈

最短距离法进行聚类分析的步骤如下:

(1)定义样品之间距离,计算样品的两两距离,得一矩阵记为)0(D ,开始每个样品自成一类,显然这时ij ij d D =。

(2)找出距离最小元素,设为pq D ,则将p G 与q G 合并成一个新类记为r G ,即

}{q p r G G G ,=。

(3)按公式计算新类与其他类的距离。 (4)重复(2)(3)两步,直到所有元素合并成一类为止。如果某一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并。

R 型因子分析模型:

R 型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即

,2211i m im i i i F a F a F a X ε++++= p i ,,2,1 = (1)

(1)式中的m F F F ,,21称为公共因子,i ε称为i X 的特殊因子。该模型可用矩阵表示为

ε+=AF X (2)

这里()m

pm p p m m A A A a a a a a a a a a A ,,212

1

22221

11211=⎥⎥⎥⎥⎥⎦

⎤⎢⎢⎢⎢

⎢⎣⎡=, ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=p X X X X 21, ⎥⎥⎥⎥⎦⎤

⎢⎢⎢⎢⎣⎡=m F F F F 21, ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=p εεεε 21 且满足:

(1);p m ≤

(2)0),cov(=εF ,即公共因子与特殊因子是不相关的;

(3)m F I F D D =⎥⎥⎥⎥

⎤⎢⎢⎢

⎢⎣⎡==10101

)( ,即各个公共因子不相关且方差为1; (4)⎥⎥⎥⎥⎥⎦

⎤⎢⎢⎢⎢⎢⎣⎡==22

22100)(p D D σσσεε ,即各个特殊因子不相关,方差不要求相等。 模型中的ij a 称为因子“载荷”,是第i 个变量在第j 个因子上的负荷,如果把变量i X 看成m 维空间中的一个点,则ij a 表示它在坐标轴j F 上的投影,因此矩阵A 称为因子载荷矩阵。 因子旋转:

令,)(**

*

m p ij a A A =Γ= i ij

ij h a d /*= , ∑==p i ij j d p d 1

2

1

则的第j 列元素平方的相对方差可定义为∑=-=p i j ij j d d p V 1

22

)(1 (1)

所谓最大方差旋转法就是选择正交矩阵Γ,使得矩阵*

A 所有m 个列元素平方的相对方差之和 m V V V V +++= 21 (2) 达到最大。 V 是旋转角度θ的函数,按照最大方差旋转法的原则,求θ使得V 达到最大。

p

B A

C p

AB D /)(/24tan 2

2---=

θ (3) 其中∑==

p i i u A 1

,∑==p

i i

v

B 1

,∑=-=

p

i i

i

v u

C 1

22)(,∑==p

i i i v u D 1

2

2221)()(

i i i i i h a h a u +=, 2212i

i i i h a a v = 其正交变换矩阵为

k l lk ⎥⎥⎥

⎥⎥

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

⎢⎢⎢⎢⎢⎢⎢⎢

⎢⎢⎢⎢⎢⎢⎣

⎡-=Γ11cos sin 1

1sin cos 1

θ

θθ

θ 其中θ是因子轴k l F F 和的旋转角度,矩阵中其余位置上的元素全为0,m 个公共因子两两配对旋转共需进行)1(2

1

2

-=

m m C m 次,称其为完成了第一次旋转,并记第一轮旋转后的因子载荷矩阵为)

1(A ,然后再重新开始,进行第二轮的2

m C 次配对旋转,新的因子载荷矩阵记为

)2(A 。这样可以得到一系列的因子载荷矩阵为 ,,,,)()2()1(s A A A

记)()

(S S A V

为各列元素平方的相对方差之和,则必然有 ≤≤≤≤)()2()1(s V V V ,这是一

个有界的单调上升数列,因此,一定会收敛到某个极限 ,当)

(s V 的值变化不大时,即可停

止旋转。

计算因子得分:

设公共因子可在对p 个原始变量作回归,即,ˆ110P

jp j j j X b X b b F +++= m j ,,1 = 如果j F ,i X 都标准化了,回归的常数项为零,即0=ji b 。

由因子载荷的统计意义可知,对于任意的m j p i ,,1,,,1 ==,都有

ip

jp j p jp j i j i F X p r b r b X b X b X E F X E r a j i ++=++=== 1111,)]([)(

记⎥⎥⎥⎥⎥⎦

⎢⎢⎢⎢⎢⎣⎡=mp m m p p b b b b b b b b b B 212222111211则上式可写成矩阵形式'RB A =

相关文档
最新文档