投影寻踪
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
m
Q( s ) = s (a ) ⋅ d (a )
• 类间距离用样本序列的投影特征值方差计算
s ( a ) = [ ∑ ( zi − z a )
i =1 n 2
n]
1
2
s ,(a) 愈大,散布愈开。
n n i =1 k =1
• 类内密度 d (a) = ∑∑ ( R − rik ) f ( R − rik ) 其中 rij = zi − zk (i, k =1,2,⋯, n)
投影寻踪聚类模型
• 设第i个样本第j个指标为 xij (i = 1,2,⋯ , n; j = 1,2,⋯ , m) ,n为样 本个数,m为指标个数,建立投影寻踪聚类模型的步骤如 下: ' • 样本指标数据归一化: x ij = x ij x j max • 线性投影:在单位超球面中随机抽取若干个初始投影方 向 a ( a 1 , a 2 , ⋯ , a m ) ,利用样本i在一维线性空间的投影特 征值的表达式 z i = ∑ a j x ij' 计算其投影指标的大小,根据指标 j =1 选大的原则,最后确定最大指标对应的解为最优投影方向。 • 寻找目标函数:综合投影指标值时,要求投影值 zi 的散布 特征应为:局部投影点尽可能密集,最好凝聚成若干个点 团,而在整体上投影点团之间尽可能散开。故可将目标函 数Q(a) 定义为类间距离s (a) 与类内密度d (a ) 的乘积,即
一、投影寻踪的产生背景
• 传统的多元分析方法是建立在总体服从正 态分布满足正态假定,需要用稳健的或非 参数的方法来解决。但是,当数据的维数 很高时,即使用后两种方法也面临以下困 难: 1、维数增加,计算量迅速增大 2、维数祸根 (在给定逼近精度的条件下, 估计一个多元函数所需的样本点数随着变 量个数的增加以指数形式增长。) 3、对低维稳健性好的统计方法,用到高维 时则稳健性变差
−∞
∫
g ( x)
Q 信息散度指标定义为: ( f ) = d ( f g ) + d ( g f ) d 当 f = g 时, ( f g ) = 0;若f偏离g越远,那么 d ( f g ) 值就越大, 因此 d ( f g ) 刻划了到g的偏离程度。 用离散化的概率分布p和q分别代替连续的密度函数f和g,这时 p Q( p, q) = D( p q) + D(q p) ,其中 D ( p q ) = ∑ q ⋅ log( ) 指标变为 q 如果投影指标的值越大,那么意味着它越偏离正态分布。
PP方法的主要特点: • PP方法能够在很大程度上减少维数祸根的 影响; • PP方法可以排除与数据结构和特征无关, 或关系很小的变量的干扰; • PP方法为使用一维统计方法解决高维问题 PP 开辟了途径; • PP方法可以用来解决某些非线性问题; • 一些传统的多元分析方法就是PP方法的特 例,如主成分分析; • PP方法的不足之处是计算量大,同时对于 高度非线性问题的效果不好。
样本形式为 ∑1 ( 2 j + 1)[ E P Q j ( 2 Φ ( a T Z ) − 1)] 2 i= 3、偏度指标和峰度指标 偏度是用来衡量分布非对称性的统计指标,峰度是用来 衡量分布平坦性的统计指标,它们都对离群点非常敏感。 因此可以用作投影指标来寻找离群点。设原随机变量为X, 投影方向为a,偏度指标和峰度指标分别为: I1 (a) = Q1 (aT X ) = k32 和 I 2 ( a ) = Q 2 ( a T X ) = k 42 两者混合产生的指标 2 T 2 2 I 4 (a) = Q4 (aT X ) = k32 ⋅ k 4 I3(a) = Q3(a X) = k3 + k4 /12 和
1 f ( R − rik ) = 0 R ≥ rik R < rik
R为估计局部散点密度的窗宽参数,
r max < R ≤ 2m
类内密度愈大,分类愈显著。 4.优化投影方向:当 Q(a)取得最大值时所对应的投影 方向就是所要寻找的最优投影方向。
= 寻找最优投影方向的问题转化为 max Q(a) m s(a) ⋅ d (a)
• 机械PP:模仿手工PP,用数值计算方法在计 算机上自动找出高维数据的低维投影,即让计 算机按数值法求极大解的最优化问题的方法, 自动地找出使指标达到最大的投影。它要求对 一个P维随机向量X,寻找一个K(K<P)维投 影矩阵A,使定义在某个K维分布函数集合 Fk 上的实值函数Q(投影指标), 满足
• 传统的数据分析方法大多采用“对建立的 模型进行证实”这样一条证实性数据分析 思维方法。 弱点: 当数据的结构或特征与假定不相符时,模 型的拟合和预报的精度均差,尤其对高维 非正态、非线性数据分析,很难收到好的 效果。 因此,高维数据尤其是非正态高维数据分 析的需要,加上80年代计算机技术的高度 发展是PP产生的主要背景。
PP的分类
• PP包括手工PP和机械PP两方面内容。 • 手工PP:主要是利用计算机图像显示系统 在终端屏幕上显示出高维数据在二维平面 上的投影,并通过调节图像输入装置连续 地改变投影平面,使屏幕上的图像也相应 地变化,显示出高维数据在不同平面上投 影的散点图像。使用者通过观察图像来判 断投影是否能反映原数据的某种结构或特 征,并通过不断地调整投影平面来寻找这 种有意义的投影平面。 • 1974年斯坦福大学教授J.H.Friedman等人 编制的,PRIM-9是最早的图象显示系统。
Q( Ax1 , Ax2 ,⋯, Axk ) = Q( Ax) = Max
如果原数据确有某种结构或特征,指标又选得 恰当,那么在所找到的某些方向上,一定含有 数据的结构或特征。
主成分分析与投影寻踪
,
• 以主成分分析为例说明投影寻踪 • 取描述一维数据散布程度的标准差作为投影指标 P维数据 x 1 , x 2 , ⋯
四、投影指标
• PP的出发点是度量投影分布所含信息的多少,而高 维数据集合的线性投影是几乎正态的,并且正态分 布通常为无信息分布的代表。从而寻求与正态分布 差异最大的线性投影分布,即含信息最多的投影分 布,成为PP方法的常用方式之一。 • 投影指标: 1、方差指标 Q ( a T X ) = Var ( a T X ) 设( x1 , x2 ,⋯ , xn ) 是总体X的独立同分布的样本,方差 1 Q ( a X ) = ∑ ( a x − E ( a X )) 指标的样本形式为 n
a =1, a < b1
λ2
• 是机械投影寻踪的特例 • 一般的并不要求后面的投影方向与前面找 到的投影方向垂直。而且,对于主成分分 析其样本协方差阵及特征根和特征向量对 离群点是非常敏感的,正是由于样本协方 差阵的不稳定,造成了传统主成分分析的 不稳健。 • 缺点:用主成分来描述或逼近原始数据, 反映的是数据的全局特征或宏观特征,可 能会漏掉主要的局部特征或细节特征,因 此主成分分析是不稳健的。
, xn
a =1
找出一个方向b,投影的散布达到最大
σ (b1' x1 ,⋯, b1' xn ) = max σ (a ' x1 ,⋯, a ' xn )
• b1 就是 x1 , x2 ,⋯ , xn 的样本协差阵S的最大特征根 λ1 的特征向 量( λ 1 , λ 2 , ⋯ , λ p ,从大到小) • x1 , x2 ,⋯, xn 的第一主成份
• 降维流程图
线性、非线性 高维 数据集 结 构 结构 度量 线性 投影
基于机构的PP降维流程
五、投影寻踪聚类模型(PPC)
• 由于PP是一种数据分析的新思维方式,可 以将这种新思想与传统的回归分析、聚类 分析、判别分析、时序分析和主分量分析 等相结合,会产生很多新的分析方法。例 如投影寻踪聚类(Projection Pursuit Classification,简称PPC),它是以每一类 内具有相对大的密集度,而各类之间具有 相对大的散开度为目标来寻找最优一维投 影方向,并根据相应的综合投影特征值对 样本进行综合分析评价。
一般方案: • 选定一个分布模型作为标准(一般是正态 分布),认为它是最不感兴趣的结构; • 将数据投影到低维空间上,找出数据与标 准模型相差最大的投影; • 将上述投影中包含的结构从原数据中剔除, 得到改进了的新数据; • 对新数据重复步骤(2)(3),直到数据 与标准模型在任何投影空间都没有明显差 别为止。
优化问题
ቤተ መጻሕፍቲ ባይዱ
a = ∑ a2 = 1 j
j =1
5.综合评价聚类分析: 根据最优投影方向,便可计算反映各评价 指标综合信息的投影特征值 zi 的差异水平, zi 以 的差异水平对样本群进行聚类分析。
六、遗传算法(GA)
• 定义:遗传算法(Genetic Algorithm,简称GA)以生物 进化过程为背景,模拟生物进化的步骤,将繁殖、杂交、 变异、竞争和选择等概念引入到算法中,通过维持一组可 行解,并通过对可行解的重新组合,改进可行解在多维空 间内的移动轨迹或趋向,最终走向最优解。它克服了传统 优化方法容易陷入局部极值的缺点,是一种全局优化算法。 主要特点: • 直接对结构对象操作,不存在求导和函数连续性的限定; • 具有内在的隐并行性和更好的全局寻优能力; • 采用概率化的寻优方法,能自动获取和指导优化的搜索空 间,自适应地调整搜索方向,不需要确定的规则。
n
1 I n (a ) = 2
J
4、信息散度指标 高维数据在不同方向上的一维投影与正态分布的差别是不一 样的,它显示了在这一方向上所含有的有用信息的多少,因 此可以用投影数据的分布与正态分布的差别来作为投影指标。 设f是一维密度函数,g是一维标准正态分布密度函数,f对g +∞ 的相对嫡为 d ( f g ) = g ( x ) ⋅ log f ( x ) dx
n 2 T T T i =1 i
如果我们求max Q(a X ) ,得到的 的方向。
T
∧
a
就是样本散布最大
主成分分析就是取样本方差为投影指标的PP方法。
2、Friedman指标 设X为P维随机向量, 是X的n个样本, Pn 是其 经验分布,P是X的分布函数,则Friedman指标为
1 J I ( a , P ) = ∑ ( 2 j + 1)[ E P Q j ( 2 Φ ( a T Z ) − 1)] 2 2 i =1
• 运算过程: • 遗传算法染色体编码 • 适应度函数
选择
3.遗传算子
交叉 变异
4.迭代终止
• 遗传算法染色体编码 遗传算法不能直接处理问题空间的参数, 必须把它们转换成遗传空间的由基因按一 定结构组成的染色体或个体,这一转换操 作就叫做编码。二进值编码是目前遗传算 法中最常用的编码方法。即是由二进值字 符集{0, 1}产生通常的0, 1字符串来表示 问题空间的候选解。
三、PP及其分类
• 投影寻踪是用来分析和处理高维数据,尤 其是来自非正态总体的高维数据的一类统 计方法。 • 基本思想:利用计算机技术,把高维数据 通过某种组合,投影到低维(1~3维)子空 间上,并通过极小化某个投影指标,寻找 出能反映原高维数据结构或特征的投影, 在低维空间上对数据结构进行分析,以达 到研究和分析高维数据的目的。
b 1' x 1 , b 1' x 2 , ⋯ , b 1' x n
,标准差
σ (b1' x1 ,⋯ , b1' xn ) = λ1 • 继续作投影寻踪
b 2' x 1 , ⋯ , b 2' x n
σ (b2' x1 , ⋯ , b2' x n ) = max σ ( a ' x1 , ⋯ , a ' x n )
二、发展简史
• 20世纪70年初Kruskal把高维数据投影到低维空间, 通过数值计算得到最优投影,发现数据的聚类结 构和解决化石分类问题。 • 1974年Frledman和Tukey正式提出了PP概念,并 于1976年编制了计算机图像系统PRIM——9。 • 1979年后,Friedman等人相继提出了PP回归、 1979 Friedman PP PP分类和PP密度估计。 • 1981年Donoho提出了用Shannan嫡作投影指标, 又利用PP的基本思想给出了多元位置和散布的一 类仿射同变估计。 。 • 1985年Huber的综述论文中对前人的研究作了概 括和总结。
Q( s ) = s (a ) ⋅ d (a )
• 类间距离用样本序列的投影特征值方差计算
s ( a ) = [ ∑ ( zi − z a )
i =1 n 2
n]
1
2
s ,(a) 愈大,散布愈开。
n n i =1 k =1
• 类内密度 d (a) = ∑∑ ( R − rik ) f ( R − rik ) 其中 rij = zi − zk (i, k =1,2,⋯, n)
投影寻踪聚类模型
• 设第i个样本第j个指标为 xij (i = 1,2,⋯ , n; j = 1,2,⋯ , m) ,n为样 本个数,m为指标个数,建立投影寻踪聚类模型的步骤如 下: ' • 样本指标数据归一化: x ij = x ij x j max • 线性投影:在单位超球面中随机抽取若干个初始投影方 向 a ( a 1 , a 2 , ⋯ , a m ) ,利用样本i在一维线性空间的投影特 征值的表达式 z i = ∑ a j x ij' 计算其投影指标的大小,根据指标 j =1 选大的原则,最后确定最大指标对应的解为最优投影方向。 • 寻找目标函数:综合投影指标值时,要求投影值 zi 的散布 特征应为:局部投影点尽可能密集,最好凝聚成若干个点 团,而在整体上投影点团之间尽可能散开。故可将目标函 数Q(a) 定义为类间距离s (a) 与类内密度d (a ) 的乘积,即
一、投影寻踪的产生背景
• 传统的多元分析方法是建立在总体服从正 态分布满足正态假定,需要用稳健的或非 参数的方法来解决。但是,当数据的维数 很高时,即使用后两种方法也面临以下困 难: 1、维数增加,计算量迅速增大 2、维数祸根 (在给定逼近精度的条件下, 估计一个多元函数所需的样本点数随着变 量个数的增加以指数形式增长。) 3、对低维稳健性好的统计方法,用到高维 时则稳健性变差
−∞
∫
g ( x)
Q 信息散度指标定义为: ( f ) = d ( f g ) + d ( g f ) d 当 f = g 时, ( f g ) = 0;若f偏离g越远,那么 d ( f g ) 值就越大, 因此 d ( f g ) 刻划了到g的偏离程度。 用离散化的概率分布p和q分别代替连续的密度函数f和g,这时 p Q( p, q) = D( p q) + D(q p) ,其中 D ( p q ) = ∑ q ⋅ log( ) 指标变为 q 如果投影指标的值越大,那么意味着它越偏离正态分布。
PP方法的主要特点: • PP方法能够在很大程度上减少维数祸根的 影响; • PP方法可以排除与数据结构和特征无关, 或关系很小的变量的干扰; • PP方法为使用一维统计方法解决高维问题 PP 开辟了途径; • PP方法可以用来解决某些非线性问题; • 一些传统的多元分析方法就是PP方法的特 例,如主成分分析; • PP方法的不足之处是计算量大,同时对于 高度非线性问题的效果不好。
样本形式为 ∑1 ( 2 j + 1)[ E P Q j ( 2 Φ ( a T Z ) − 1)] 2 i= 3、偏度指标和峰度指标 偏度是用来衡量分布非对称性的统计指标,峰度是用来 衡量分布平坦性的统计指标,它们都对离群点非常敏感。 因此可以用作投影指标来寻找离群点。设原随机变量为X, 投影方向为a,偏度指标和峰度指标分别为: I1 (a) = Q1 (aT X ) = k32 和 I 2 ( a ) = Q 2 ( a T X ) = k 42 两者混合产生的指标 2 T 2 2 I 4 (a) = Q4 (aT X ) = k32 ⋅ k 4 I3(a) = Q3(a X) = k3 + k4 /12 和
1 f ( R − rik ) = 0 R ≥ rik R < rik
R为估计局部散点密度的窗宽参数,
r max < R ≤ 2m
类内密度愈大,分类愈显著。 4.优化投影方向:当 Q(a)取得最大值时所对应的投影 方向就是所要寻找的最优投影方向。
= 寻找最优投影方向的问题转化为 max Q(a) m s(a) ⋅ d (a)
• 机械PP:模仿手工PP,用数值计算方法在计 算机上自动找出高维数据的低维投影,即让计 算机按数值法求极大解的最优化问题的方法, 自动地找出使指标达到最大的投影。它要求对 一个P维随机向量X,寻找一个K(K<P)维投 影矩阵A,使定义在某个K维分布函数集合 Fk 上的实值函数Q(投影指标), 满足
• 传统的数据分析方法大多采用“对建立的 模型进行证实”这样一条证实性数据分析 思维方法。 弱点: 当数据的结构或特征与假定不相符时,模 型的拟合和预报的精度均差,尤其对高维 非正态、非线性数据分析,很难收到好的 效果。 因此,高维数据尤其是非正态高维数据分 析的需要,加上80年代计算机技术的高度 发展是PP产生的主要背景。
PP的分类
• PP包括手工PP和机械PP两方面内容。 • 手工PP:主要是利用计算机图像显示系统 在终端屏幕上显示出高维数据在二维平面 上的投影,并通过调节图像输入装置连续 地改变投影平面,使屏幕上的图像也相应 地变化,显示出高维数据在不同平面上投 影的散点图像。使用者通过观察图像来判 断投影是否能反映原数据的某种结构或特 征,并通过不断地调整投影平面来寻找这 种有意义的投影平面。 • 1974年斯坦福大学教授J.H.Friedman等人 编制的,PRIM-9是最早的图象显示系统。
Q( Ax1 , Ax2 ,⋯, Axk ) = Q( Ax) = Max
如果原数据确有某种结构或特征,指标又选得 恰当,那么在所找到的某些方向上,一定含有 数据的结构或特征。
主成分分析与投影寻踪
,
• 以主成分分析为例说明投影寻踪 • 取描述一维数据散布程度的标准差作为投影指标 P维数据 x 1 , x 2 , ⋯
四、投影指标
• PP的出发点是度量投影分布所含信息的多少,而高 维数据集合的线性投影是几乎正态的,并且正态分 布通常为无信息分布的代表。从而寻求与正态分布 差异最大的线性投影分布,即含信息最多的投影分 布,成为PP方法的常用方式之一。 • 投影指标: 1、方差指标 Q ( a T X ) = Var ( a T X ) 设( x1 , x2 ,⋯ , xn ) 是总体X的独立同分布的样本,方差 1 Q ( a X ) = ∑ ( a x − E ( a X )) 指标的样本形式为 n
a =1, a < b1
λ2
• 是机械投影寻踪的特例 • 一般的并不要求后面的投影方向与前面找 到的投影方向垂直。而且,对于主成分分 析其样本协方差阵及特征根和特征向量对 离群点是非常敏感的,正是由于样本协方 差阵的不稳定,造成了传统主成分分析的 不稳健。 • 缺点:用主成分来描述或逼近原始数据, 反映的是数据的全局特征或宏观特征,可 能会漏掉主要的局部特征或细节特征,因 此主成分分析是不稳健的。
, xn
a =1
找出一个方向b,投影的散布达到最大
σ (b1' x1 ,⋯, b1' xn ) = max σ (a ' x1 ,⋯, a ' xn )
• b1 就是 x1 , x2 ,⋯ , xn 的样本协差阵S的最大特征根 λ1 的特征向 量( λ 1 , λ 2 , ⋯ , λ p ,从大到小) • x1 , x2 ,⋯, xn 的第一主成份
• 降维流程图
线性、非线性 高维 数据集 结 构 结构 度量 线性 投影
基于机构的PP降维流程
五、投影寻踪聚类模型(PPC)
• 由于PP是一种数据分析的新思维方式,可 以将这种新思想与传统的回归分析、聚类 分析、判别分析、时序分析和主分量分析 等相结合,会产生很多新的分析方法。例 如投影寻踪聚类(Projection Pursuit Classification,简称PPC),它是以每一类 内具有相对大的密集度,而各类之间具有 相对大的散开度为目标来寻找最优一维投 影方向,并根据相应的综合投影特征值对 样本进行综合分析评价。
一般方案: • 选定一个分布模型作为标准(一般是正态 分布),认为它是最不感兴趣的结构; • 将数据投影到低维空间上,找出数据与标 准模型相差最大的投影; • 将上述投影中包含的结构从原数据中剔除, 得到改进了的新数据; • 对新数据重复步骤(2)(3),直到数据 与标准模型在任何投影空间都没有明显差 别为止。
优化问题
ቤተ መጻሕፍቲ ባይዱ
a = ∑ a2 = 1 j
j =1
5.综合评价聚类分析: 根据最优投影方向,便可计算反映各评价 指标综合信息的投影特征值 zi 的差异水平, zi 以 的差异水平对样本群进行聚类分析。
六、遗传算法(GA)
• 定义:遗传算法(Genetic Algorithm,简称GA)以生物 进化过程为背景,模拟生物进化的步骤,将繁殖、杂交、 变异、竞争和选择等概念引入到算法中,通过维持一组可 行解,并通过对可行解的重新组合,改进可行解在多维空 间内的移动轨迹或趋向,最终走向最优解。它克服了传统 优化方法容易陷入局部极值的缺点,是一种全局优化算法。 主要特点: • 直接对结构对象操作,不存在求导和函数连续性的限定; • 具有内在的隐并行性和更好的全局寻优能力; • 采用概率化的寻优方法,能自动获取和指导优化的搜索空 间,自适应地调整搜索方向,不需要确定的规则。
n
1 I n (a ) = 2
J
4、信息散度指标 高维数据在不同方向上的一维投影与正态分布的差别是不一 样的,它显示了在这一方向上所含有的有用信息的多少,因 此可以用投影数据的分布与正态分布的差别来作为投影指标。 设f是一维密度函数,g是一维标准正态分布密度函数,f对g +∞ 的相对嫡为 d ( f g ) = g ( x ) ⋅ log f ( x ) dx
n 2 T T T i =1 i
如果我们求max Q(a X ) ,得到的 的方向。
T
∧
a
就是样本散布最大
主成分分析就是取样本方差为投影指标的PP方法。
2、Friedman指标 设X为P维随机向量, 是X的n个样本, Pn 是其 经验分布,P是X的分布函数,则Friedman指标为
1 J I ( a , P ) = ∑ ( 2 j + 1)[ E P Q j ( 2 Φ ( a T Z ) − 1)] 2 2 i =1
• 运算过程: • 遗传算法染色体编码 • 适应度函数
选择
3.遗传算子
交叉 变异
4.迭代终止
• 遗传算法染色体编码 遗传算法不能直接处理问题空间的参数, 必须把它们转换成遗传空间的由基因按一 定结构组成的染色体或个体,这一转换操 作就叫做编码。二进值编码是目前遗传算 法中最常用的编码方法。即是由二进值字 符集{0, 1}产生通常的0, 1字符串来表示 问题空间的候选解。
三、PP及其分类
• 投影寻踪是用来分析和处理高维数据,尤 其是来自非正态总体的高维数据的一类统 计方法。 • 基本思想:利用计算机技术,把高维数据 通过某种组合,投影到低维(1~3维)子空 间上,并通过极小化某个投影指标,寻找 出能反映原高维数据结构或特征的投影, 在低维空间上对数据结构进行分析,以达 到研究和分析高维数据的目的。
b 1' x 1 , b 1' x 2 , ⋯ , b 1' x n
,标准差
σ (b1' x1 ,⋯ , b1' xn ) = λ1 • 继续作投影寻踪
b 2' x 1 , ⋯ , b 2' x n
σ (b2' x1 , ⋯ , b2' x n ) = max σ ( a ' x1 , ⋯ , a ' x n )
二、发展简史
• 20世纪70年初Kruskal把高维数据投影到低维空间, 通过数值计算得到最优投影,发现数据的聚类结 构和解决化石分类问题。 • 1974年Frledman和Tukey正式提出了PP概念,并 于1976年编制了计算机图像系统PRIM——9。 • 1979年后,Friedman等人相继提出了PP回归、 1979 Friedman PP PP分类和PP密度估计。 • 1981年Donoho提出了用Shannan嫡作投影指标, 又利用PP的基本思想给出了多元位置和散布的一 类仿射同变估计。 。 • 1985年Huber的综述论文中对前人的研究作了概 括和总结。