投影寻踪

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
zi =
∑a
j =1
m
j
x ij
,i=1,2…,n
3.目标函数 目标函数:聚类分析就是对样本群进行合理的分类,可以 目标函数 根据分类指标来构造目标函数,故将目标函数Q(a)定义为类 间距离s(a)与类内密度d(a)的乘积,即Q(a)=s(a)·d(a)。类间 距离用样本序列的投影特征值标准差计算, S(a)愈大,散布愈开。 设投影特征值间的距离
投影寻踪技术是国际统计界于70年代中期发展 起来的、用来处理和分析高维观测数据,尤其是非正 态、非线性高维数据的一种新兴统计方法。它利用 计算机直接对高维数据进行投影降维分析,进行数据 , 客观投影诊断,自动找出能反映高维空间规律的数据 结构,达到研究分析高维数据的目的。
一、产生背景
传统的多元分析方法是建立在总体服从某种分布比 如正态分布这个假定基础之上的,采用 “假定—模 拟—检验”这样一种证实数据分析法(Confirmatory Data Analysis,简称CDA)。 但实际问题中有许多数据并不满足正态分布,需要用 稳健的或非参数的方法去解决。不过,当数据维数很 高时,存在计算量大、维数祸根、稳健性变差等问题。
5.综合评价分析 综合评价分析:根据最优投影方向,便可计算反映各评价指 综合评价分析 标综合信息的投影特征值 zi ,以 zi 的差异水平对样本群进 行综合分析。
密度窗宽参数R的确定 密度窗宽参数 的确定
不同的R值对应不同的最佳投影方向,也就是从不 同角度观测数据样本的特性,对于某一样本群体, 只有选择合理的密度窗宽参数才能得到合理的分类 结果,因此,参数R的取值在模型中非常关键。目 前大多是通过试算或经验来确定,一般认为R的合 理取值为
xij =
x −x x
0 ij 0 max
−x
0 min 0 min
0 0 其中: xmax 和 xmin 分别为第j个指标的初始最大值和最小值.
2.线性投影.所谓投影实质上就是从不同的角度去观察 数据,寻找能够最大程度地反映数据特征和最能充分
r 挖掘数据信息的最佳观察角度即最优投影方向.设 a
为m维单位向量,则 xij 的一维投影特征值为
投影寻踪
Projection Pursuit,简称PP
世界著名的数理统计杂志,美国的The Annals of Statistics 1985年第3期上,刊登了该杂志特邀的综合 性论文,长达40页,还同时刊登了十五篇讨论该论文 的文章,又是50页,参加讨论的包括好几位世界著名 的统计学家.这篇论文是哈佛大学教授P.J.Huber写 的,题目就叫“Projection Pursuit” (投影寻踪,简称 PP),那么,什么是投影寻踪呢?
p i j =1 j ij n p 2 1 i 2 1j i j
1
1
1 n Q(a2 ) = max( ∑ ( zi − Ez )2 ), n −1 i
∑a
j
p
2 2j
= 1, a2 ⊥ a1
…… 0 d d≤p . 共提取投影指标函数值大于0的d(d≤p)个成分. p 4.计算各个主成分。 Fmi = ∑ amj xij , i = 1,L , n; m = 1,L , d ; d ≤ j 构造各个评价样本的综合评价函数
4.优化投影方向 优化投影方向。模型建立的关键是找到能反映系统特征 优化投影方向 的最优投影方向,根据上述分析可知,当式Q(a)=s(a)-d(a) 取 得最大值时所对应的 题可转化为下式描述的优化问题:
r 就是最优投影方向向量。所以,此问 a
max Q(a ) a =1
免疫进化算法可应用于解决上述优化问题。
d(a)愈小,则相似样本的聚集程度越高。投影分散度记为
s(a ) =
z m , z j ∈Ω

d ( zm , z j )
其值愈大,则整个样本投影特征值离散程度越高。根据类内聚集度与投影 分散度的定义可将目标函数Q(a)定义为投影分散度与类内聚集度之差,即 Q(a)=s(a)-d(a)。对此目标函数的求解就是寻求一投影方向满足Q(a)取得 最大值,显然,投影分散度越大或类内聚集度越小,则目标函数越大,这正是投 影寻踪建模思想的体现。
四、PP的应用
(一)PP聚类(PPC)
0 设第i个样本的第j个因素为 xij (i=1,…,n; j=1,…,m; n为样本 个数,m为因素个数),投影寻踪聚类模型的实现步骤如下:
1.数据无量纲化 数据无量纲化.为了消除各指标的量纲效应,首先对各指标 数据无量纲化 进行无量纲化处理.无量纲化公式较多,可选择采用,这里采 用如下公式:
,d ( Ai0 − z ) 为点 Ai0 和集
合 Ω中任一点的绝对值距离。
1 1 1 1 (3)由 P 出发,计算新的聚核 L = ( A1 , A2 ,L , AK )
0
,其中
A i1 =
1 ni

z i ∈ P i0
zi
(4)重复以上步骤,由此得到一个分类结果序列 V t = ( Lt , P t ), t = 1, 2, L 记 D ( A , Pi ) =
PPDC步骤
0 设第i个样本的第j个因素为 xij (i=Leabharlann ,…,n; j=1,…,m; n为样本
个数,m为因素个数),投影寻踪聚类模型的实现步骤如下: 1.数据无量纲化 数据无量纲化.为了消除各指标的量纲效应,首先对各指标进 数据无量纲化 行无量纲化处理.无量纲化公式较多,可选择采用,这里采用 如下公式:
=1,反之为0;R为密度窗宽参数,其
取值与样本数据结构有关。类内密度d(a)愈大,分类愈显著。
4. 优化投影方向 优化投影方向:由上述分析可知,当Q(a)取得最大值时所对 应的投影方向就是最优投影方向。因此,寻找最优投影方向 的问题可转化为优化问题
max Q(a) a =1
可采用遗传算法等优化方法求解.
为第一、二…第d主成分的贡献率。
(三)PP回归
(四)解不确定型决策问题的投影寻踪模型
五、实证分析
在股票的选择上,经典方法是Markowitz首先提出的以分散 风险为主要目的的现代投资组合理论,近代又兴起了利用多 元统计分析方法中的因子分析和聚类分析来预测股票行情。 投影寻踪聚类分析建立的是一种长期投资的理念,有利于缩 小投资选择范围,确定投资价值,降低投资风险。在我国证 券市场走向成熟的过程中,提倡运用这种理性的投资分析方 法,不仅可以降低投资风险,规范投资行为,也可促进我国 证券市场的健康发展。
d (a ) =
1 n s(a) = ∑ ( zi − za )2 n − 1 i =1
ri k = z i − z k
(k=1,2,…,n),则 为单位阶跃函数,
∑∑
i =1
n
n
k =1
( R − rik ) f ( R − ri k )
其中
f ( R − rik )
当R>r时,
f ( R − rik )
二、投影寻踪技术的基本思想
投影寻踪是一种用来处理和分析高维数据,既可作探 索性分析,又可作确定性分析的有效方法,其基本思 想是:利用计算机技术,把高维数据通过某种组合 投 高维数据通过某种组合,投 高维数据通过某种组合 影到低维子空间上,并通过极小化某个投影指标 寻 影到低维子空间上 并通过极小化某个投影指标,寻 并通过极小化某个投影指标 找出能反映原高维数据结构或特征的投影,在低维空 找出能反映原高维数据结构或特征的投影 在低维空 间上对数据结构进行分析,以达到研究和分析高维数 间上对数据结构进行分析 据的目的。
(二)投影寻踪主成分分析PPCA
PPCA的基本思想:如果投影指标函数值的大于0 的部分归因于前d(d≤p)个成分,那么这些成分 就可以体现原来的p个特征,而且信息完全利用。 实现步骤: 1.数据无量纲化 数据无量纲化.先归一化,再标准化。 数据无量纲化 2.线性投影。 z = ∑ a x , i = 1, 2, L , n 线性投影。 线性投影 1 Q(a ) = max( ∑(z − Ez) ), ∑a =1 3.构造投影指标函数。 构造投影指标函数。 构造投影指标函数 n −1 Q(a )是主成分分析中协方差矩阵的最大特征值,a 就是其对应的最大特征向量。继续做投影…
rmax + m ≤ R ≤ 2m 2
PP动态聚类(PPDC)
PPC在多因素评价、聚类、优选等方面得到了广泛应用,充 分体现了PP处理高维数据的优势.然而,一方面,PPC中的唯一 参数—密度窗宽R还是依靠经验或试算来确定,缺乏理论依 据.另一方面,对于没有参照标准的聚类问题,PPC并不能直接 输出明确的聚类结果,只能输出样本的投影特征值序列, 必须 借助其它方法对投影特征值序列进行分类处理才能得到最终 的聚类结果。针对上述问题,结合动态聚类思想,可建立投影 寻踪动态聚类(Projection Pursuit Dynamic Cluster,简称 PPDC)模型。
t i t


z i ∈ Pi
t
zi − A , ut =
t i

K
u t +1 − u t ≤ ε u t +1
i =1
D ( Ait , Pi t )
,则算法的终止判断条件
d (a ) =
是充分小。类内样本的聚集度可表示为

k
i = 1 z m , z j ∈ Pi

d (zm , z j )
, ,
三、投影寻踪技术的实现方法
用PP探索高维数据的结构或特征时,一般采用迭代模式。首先根据经 初始模型;其次把数据投影到低维空间 投影到低维空间上,找出数据与现 验或猜想给定一个初始模型 有模型相差最大的投影。这表明在这个投影中含有现有模型中没有反映 的结构,然后把上述投影中所包含的结构并在现有模型上,得到改进了的新 模型。再从这个新模型出发,重复以上步骤,直到数据与模型在任何投影空 间都没有明显的差别为止。 由于PP是一种数据分析的新思维方式,因此将这种新思想与传统的回归 分析、聚类分析、判别分析、时序分析和主分量分析等相结合,会产生很 多新的分析方法,如PP回归分析、PP聚类、PP判别等。
Fi = ∑ α m Fmi , i = 1,L , n; m = 1,L , d ; d ≤ p
m =1 d
1 n Q(ad ) = max( ∑ ( zi − Ez)2 ), n −1 i
∑a
j
p
2 dj
= 1, ad ⊥ a1, a2, L , ad −1
p
其中,α
1
, α 2 ,L , α d
xij =
x −x x
0 ij 0 max
−x
0 min 0 min
0 0 其中: xmax 和 xmin 分别为第j个指标的初始最大值和最小值.
2.线性投影 线性投影.所谓投影实质上就是从不同的角度去观察 线性投影 数据,寻找能够最大程度地反映数据特征和最能充分
r 挖掘数据信息的最佳观察角度即最优投影方向.设 a
这里尝试将投影寻踪聚类分析用于股票的选择上, 选取16支银行股票的主要财务指标进行实证分析。 样本股票的主要财务指标数据来自同花顺F10,包 括12项财务指标:每股收益、每股净资产、每股现 金流、每股未分配利润、每股公积金、主营收入、 利润总额、净利润、净资产收益率、销售毛利率、 主营收入同比增长率、净利润同比增长率。
实现步骤如下: (1)随机选取K个点作为K个聚核,记为 (2)根据L 0,把 中的点分为K类,记为 其中, P
i 0
0 L0 = ( A10 , A2 ,L , Ak0 )
P 0 = ( P 0 , P20 ,L , Pk0 ) 1
= {z ∈ Ω d ( Ai0 − z ) ≤ d ( A0 − z ), ∀j = 1, 2,L , K , j ≠ i} j
当数据的结构或特征与假定不相符时,模型的拟合和预报的精度 均差,尤其对高维非正态、非线性数据分析,传统的CDA方法 很难收到好的效果。其原因是它过于形式化、数学化,受束缚 大,无法真正找到数据的内在规律,远不能满足高维非正态数 据分析的需要。为了克服上述困难,需要对客观数据不作假定 或只作极少假定,而采用“直接审视数据——通过计算机模拟 数据结构——检验”这样一种探索性数据分析方法。而PP 就是实现这种新思维的一条行之有效的途径。
为m维单位向量,则 xij 的一维投影特征值为
zi =
∑a
j =1
m
j
x ij
,i=1,2…,n
3.构造目标函数 构造目标函数。对于任一投影方向,基于某一聚类准则的样 构造目标函数 本分类结果是确定的,记整个样本的投影特征值序列组成的集 合为
Ω = {z1 , z2 ,L , zn }
,要将它们分成K类,采用动态聚类法,
相关文档
最新文档