主成分分析及算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-
1)
(
n)
x ji (
n)
i =1
Δ w
( i
j)
(
n)
= ηy ( j) ( n) [ x ji ( n)
-
y ( j)
(
n)
w
( i
j-
1)
(
n)
]
w
( i
j)
(
n)
=
w
( i
j-
1)
(
n)
+Δw
( i
j)
(
n)
Step 2 : j = j + 1 ,转 Step 1 ,继续执行 ,直到 j = m .
w i ( n) 的稳定.
最后 ,由式 (2. 2) 得出 :
w i ( n + 1) = w i ( n) + ηy ( n) [ x i ( n) - y ( n) w i ( n) ]
(2. 3)
当 n → ∞时 , w ( n) → u , u 即为第一主成分线的方向向量 (第一特征向量) .
d
∑ y =
wixi
i =1
根据 HEBB 学习的假设 ,突触权值随时间变化为
( 211)
34
苏 州 大 学 学 报 (自然科学版) 第 21 卷
w i ( n + 1) = w i ( n) + ηy ( n) x i ( n) i = 1 , 2 , …, m
主成分分析主要产生于以下动因 :即希望设计一种变换 ,将数据集转化为由维数较少的“有效”特征成分 来表示 ,而不减少原始数据所包含的内在信息内容 ,使其在统计意义下达到方差最优的目的 ,故该问题亦称 为特征抽取. 当只截取第一有效成分时 ,PCA 称为最大线性主成分分析. PCA 理论可以应用到数据挖掘 、信 息压缩 、图像编码以及模拟识别等诸多领域.
311 算法说明
n
∑ 假设 χn
= { x1 , x2 , …, xn}
∈
Rd
为一数据集
,
同时假设
1 n
i =1
xi
= 0 (相当于分布情形的 E ( x)
= 0) , u
是其最大特征值对应的特征向量 ( ‖u ‖ = 1) ,则
第 1 期 李玉珍 ,王宜怀 :主成分分析及算法
i =1
在一个可逆的线性变换 T ,这里 T = U T ,并且 U = [ u1 , u2 , …, ud ] , ui T uj =δij ,满足 Rui = λi ui , ( i = 1 ,
∧wk.baidu.com
∧
…, d) ,使得 Tx 成为 x 的 k 个 ( k < d) 顺序最大特征提取. k = 1 时 , Tx (即为 a1) 为 x 的最大线性主成分 ,
…, w d) T 为突触权值向量 , n 为时间步.
d
∑ Step
0 :设
n
= 1,j
= 1 ,初始化
w
(0) i
(
n)
, 同时满足
w
(0) i
(
n)
=
i =1
1 ,并赋一个小的正值给 η.
Step 1 :对 i = 1 ,2 , …, d ,计算 :
d
∑ y ( j) ( n) =
w
( i
j
1 主成分分析的特征结构分析
在文献[ 4 ]中 ,PCA 问题被描述如下 : 假定 x 为数据空间 Rd 上的服从某一分布的随机向量 ,且 E ( x) = 0 (将向量聚集于中心) , 那么是否存
∧
在一个可逆的线性变换 T : Rd → Rd ,使得 Tx 的截取 Tx 为 x 的 k 个 ( k ≤ d) 顺序特征抽取值. 那么 PCA 问题如何转化为特征值问题 ?这个可逆的线性变换 T 是否存在呢 ?为什么需要这样的转化呢 ? 为了解决这一系列问题 , 我们考虑一数据向量 x = ( x 1 , x 2 , …, x d) T 在某个单位方向 u 的投影 : a =
交相似变换 U , U = [ u1 , u2 , …, ud ] ,满足 :
ui T uj =δij =
1 i = j 0 i ≠ j
使得
U T RU = Λ
( 112)
这里 Λ = diag[λ1 ,λ2 , …,λd ] 且有 U T = U - 1 . 展开式 (1. 2) 可知 ,当 u 为特征向量 ui 时 ,不但 ψ( ui) 极值存在 ,而且有 ψ( ui) = λi ( i = 1 , …, d) .
利用常微分方程 (OD E) 稳定性理论方法可以证明 ,算法使 w ( n) 以概率 1 收敛于特征向量 u , u 是与自
相关矩阵 R 的最大特征值λ相对应的特征向量. 这不仅是算法的固定点 ,而且是唯一的渐进稳定点.
2. 2 算法的实现
假设 χm = { x1 , x2 , …, xm } ∈ Rd 为一数据集 , xj = ( x j1 , x j2 , …, x jd) T ( j = 1 , …, m ) , w = ( w 1 , w 2 ,
u1 所决定的直线称为第一主成分线.
∧
T x = ( a1 , a2 , …, ad) T , T x = ( a1 , a2 , …, a k) T 通过上述分析 ,随机变量 x 的 PCA 问题被转化为求 x 在 R 的特征子空间上的投影 ,投影值即为主分量 ,
特征向量所决定的特征线被称为主成分线. 若顺序截取前面 k 个最大的特征值λi ( i = 1 , …, k) ( k < d) 对应 的特征向量 ui ( i = 1 , …, k) ,舍去后面较小的 ( d - k) 个特征向量 ,即达到了将 d 维向量 x 降为 k 维向量的 目的 (这种方法亦称为子空间分解方法 ,参见文献[5 ]) .
33
为了使这个方差探针达到稳定值
,
利用极值理论
,
考虑
d
(ψ( u) du
)
= 0 ,可利用变分ψ( u +δu)
= ψ( u) 推
出:
(δu) T Ru = 0
( 111)
再由 ‖u ‖2 = 1 , ‖u +δu ‖ = 1 ,推出 (δu) T u = 0 ,因此 u 使ψ( u) = u T Ru 取得极值的充要条件是存在
Vol. 21 ,No . 1 Jan. 2005
李玉珍 ,王宜怀
(苏州大学 计算机科学与技术学院 ,江苏 苏州 215006)
摘 要 :以主成分分析 ( PCA) 特征结构的理论分析为基础 ,分别从神经网络和向量量化器两个不同的角度给 出了最大主成分线的算法实现和比较 ,并由此讨论了 HEBB 算法对学习率的依赖和敏感度. 关键词 :主成分分析 ;神经网络 ;学习率 ;算法 中图分类号 :O24212 文献标识码 :A
0 引言
主成分分析 (principal component analysis ,PCA) 也许是多变量分析中最古老和最著名的技术. 最早是由 PEARSON[1 ]在 1901 年的生物学理论研究中引入的. 1933 年 , HO TELL IN G[2 ]将此想法应用于心理学研究 , 并得到了进一步的发展. 1947 年 , KARHUN EN[3 ]独立地用概率论的形式再次将其显现出来 ,其后 ,LO E’V E 将该理论进一步扩充和完善. 故 PCA 理论也称为 KARHUN EN2LO E’V E 变换.
因此 ,任一随机变量 x ,令 ai = ui T x = x T ui ( i = 1 , …, d) ,则 x 可以写成
d
∑ x =
ai ui = U ( a1 , a2 , …, ad) T
i =1
( 113)
∑ ∧
k
令 x = ai ui = [ u1 , u2 , …, uk ] ( a1 , a2 , …, ak) T ( k < d) ,则对于服从某一分布的随机向量 x ,一定存
Step 3 : n = n + 1 , j = 1 ,转 Step 1 ,当 (1 - w ( j +1) T w ( j) ) 小于某
个预先设定的阀值时 , w 达到稳定值 , w 即为第一主成分线的方向向 量.
图 1 HEBB 算法产生的随学习率η变 化的主成分线
对自我生成的数据集 ,实验给出的数据如表 1 和图 1 所示.
第 21 卷第 1 期 2005 年 1 月
苏 州 大 学 学 报 (自然科学版) J OU RNAL OF SU ZHOU UN IV ERSIT Y(NA TU RAL SCIENCE EDITION)
文章编号 :100022073 (2005) 0120032205
主成分分析及算法 Ξ
从统计模式识别的观点看 ,主分量分析的实际价值在于它为维数减缩提供了有效的方法. 具体通过丢弃
(1. 3) 中方差较小的项 ,保留方差较大的项 ,可以减少有效数据表示所需要的特征数量.
2 HEBB 算法
自组织神经网络的行为和主分量分析的统计方法之间存在密切的联系. 神经网络中基本的学习算法之 一 ———HEBB 算法可以用来证实这个关系.
其中 , n 表示离散时间 ,η是学习率参数.
d
∑ 归一化处理后利用式 (2. 1) 和 w i ( n) = 1 ,将此式展开成 η的幂级数为 i =1
w i ( n + 1) = w i ( n) + ηy ( n) [ x i ( n) - y ( n) w i ( n) ] + o (η2)
Ξ 收稿日期 :2004 - 08 - 10 基金项目 :江苏省教育厅自然科学基金资助项目 (02 KJD52001) 作者简介 :李玉珍 (1961 - ) ,女 ,江苏泰州人 ,在读硕士研究生 ,主要从事数据处理研究.
第 1 期 李玉珍 ,王宜怀 :主成分分析及算法
忽略 η的二次项部分 ,得到如下差分形式 :
w i ( n + 1) = w i ( n) + ηy ( n) x′i ( n)
( 212)
其中 , x′i ( n) = x i ( n) - y ( n) w i ( n) . 这里 , x′i ( n) 可以视为第 i 个突触的有效输入. - y ( n) 的负反馈控制 w i ( n) 的增大 ,因此导致突触权值
HEBB 算法是为了纪念神经心理学家 HEBB (1949) 而命名的 ,它通过突触权值采用 HEBB 自适应规则的 单个线性神经元 ,形成关于输入分布第一个主成分方向的过滤器. 2. 1 算法分析
考虑单个神经元的简单前馈神经网络模型. 设神经元通过 d 个分别具有权值 w 1 , w 2 , …, w d 的突触来接受 d 个输入信号 x 1 , x 2 , …, x d ,输出结果 y 为
η 迭代次数 分量 w (1) 分量 w (2)
表 1 采用 HEBB 算法主成分线达到稳定状态时随 η变化的迭代情况
01000 1 155 7 01037 684 670 36 01999 289 666 14
01006 5 16
01025 364 505 14 01999 721 803 24
35
∑ s ( t)
=
tu
为χn
的初始主成分线 (如
∧
x=
n
1 n
i =1
xi
≠0 ,那么 s ( t)
=
∧
x + tu) .
数 λ,使得 Ru = λu ,即 u 为 R 的特征向量.
由 R 的定义 ,我们得知 R 是对称 、半正定的 ,所以其特征值必定非负.
假定 R 的特征值互不相同 ,则对应的特征向量所决定的特征直线一定是唯一的. 设 R 有 d 个互不相同
的特征值 :λ1 ,λ2 , …,λd ,且满足 :λ1 > λ2 > … > λd ,对应的特征向量分别为 : u1 , u2 , …, ud , 则一定存在正
uT x = xT u. 记 R = E[ xx T ] ψ( u) = σ2 = E ( a2) = u T Ru 这里 R 称为 x 的自相关矩阵 ( d ×d 矩阵) ,亦称 x 的协方差矩阵 (covariance mat rix) ,ψ( u) 是反映投影
值 (可以认为是 x 在某个方向上的变化量) 的方差探针 ,即投影值的方差.
01056 5 2
- 01097 931 417 28 01995 277 610 88
01106 5
01156 5
2
2
- 01205 060 938 20 - 01277 078 935 44
01980 800 755 780 01963 249 979 553
3 R TB 算法
R TB 算法是由 ROWEIS 和 TIPPON G 与 B ISHOP[6 ] 独立给出的 ,此算法采用向量量化器的思想 1