投影寻踪模型
基于遗传算法(粒子群算法人工鱼群算法等)的投影寻踪模型MATLAB源代码
基于遗传算法(粒子群算法、人工鱼群算法等)的投影寻踪模型MATLAB源代码投影寻踪是一种处理多因素复杂问题的统计方法,其基本思路是将高维数据向低维空间进行投影,通过低维投影数据的散布结构来研究高维数据特征,可用于聚类、分类、综合评价、预测等。
投影寻踪模型最终可归结为一个非线性连续函数优化模型,可以采用遗传算法、粒子群算法、人工鱼群算法或人工免疫克隆优化算法等进行求解,得到最优的投影向量。
%% 第一步:仿真参数设置clcclearclose allload data1.txtD=data1。
%导入D矩阵[n,p]=size(D)。
K=300。
%迭代次数N=100。
%种群规模Pm=0.3。
%变异概率LB=-ones(1,p)。
%决策变量的下界UB=ones(1,p)。
%决策变量的上界Alpha=0.1。
%窗口半径系数,典型取值0.1b%% 调用遗传算法[BESTX,BESTY,ALLX,ALL Y]=GAUCP(K,N,Pm,LB,UB,D,Alpha)。
% GreenSim团队——专业级算法设计&代写程序% 欢迎访问GreenSim团队主页→%% 整理输出结果Best_a=(BESTX{K})'。
%方向向量d=zeros(n,p)。
Djmax=max(D)。
Djmin=min(D)。
for i=1:nd(i,:)=(D(i,:)-Djmin)./(Djmax-Djmin)。
endZ=zeros(n,1)。
for i=1:nZ(i)=abs(sum(Best_a.*d(i,:)))。
endZ=abs(Z)。
figure%投影散布图plot(abs(Z),'bd','LineWidth',1,'MarkerEdgeColor','k','MarkerFaceColor','b','MarkerSize',5)。
投影寻踪模型
投影寻踪方法及应用内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。
最后结合上市公司的股价进行实证分析,并给出结论和建议。
关键词:投影寻踪投影寻踪聚类模型遗传算法一、简介(一)产生背景随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。
多元分析方法是解决高维数据这类问题的有力工具。
但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。
不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。
但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。
第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。
对于核估计,近邻估计之类的非参数法很难使用。
第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。
另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。
这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。
其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。
它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。
针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。
(二)发展简史PP最早由Kruskal于70年初建议和试验。
他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。
1974年Frledman和Tukey加以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。
投影寻踪模型
2 投影寻踪评价模型投影寻踪方法最早出现于20世纪60年代末,Krusca 首先使用投影寻踪方法,把高维数据投影到低维空间,通过计算,极大化一个反映数据聚集程度的指标,从而找到反映数据结构特征的最优投影方向。
它是用来分析和处理高维观测数据,尤其是对于非线性、非正态高维数据的一种新型统计方法。
目前已广泛地应用于分类、模式识别、遥感分类、图像处理等领域。
具体应用过程如下: 设投影寻踪问题的多指标样本集为{}n j m i j i x ,,1;,,1),( ==,其中, m 是样本的个数,n 为指标个数。
建立投影寻踪模型的步骤如下:(1)数据预处理:样本评价指标集的归一化处理,消除各指标值的量纲和统一各指标值的变化范围。
对于越大越优的指标:))()(/())(),((),(min max min j x j x j x j i x j i x --=*(1);对于越小越优的指标:))()(/()),()((),(min max max j x j x j i x j x j i x --=*(2);其中,)(max j x )(min j x 为第j 个指标的最大值、最小值。
(2)构造投影指标函数:设A(j)为投影方向向量,样本i 在该方向上的投影值为:∑=*=nj j i X j A i Z 1),()()( (3)即构造一个投影指标函数Q(A)作为确定投影方向优化的依据,当指标达到极大值时,就认为是找到了最优投影方向。
在优化投影值时,要求Z(i)的分布特征应满足:投影点局部尽可能密集,在整体上尽可能散开。
因此,投影指标函数为:Q(A)=S z *D z ,式中:S z — 类间散开度,可用Z(i)的标准差代替;D z — 类内密集度,可表示为Z(i)的局部密度。
其中:2121)}1/(])([{--=∑=m Z i Z S m i z ; )()(11ij m i m j ij z r R I r R D -*-=∑∑== Z —序列{Z (i )|i =1~m }的均值;R 是由数据特征确定的局部宽度参数,其值一般可取0.1*S z ,当点间距值ij r 小于或等于R 时,按类内计算,否则按不同的类记;ij r =| Z(i)一Z(j)|;符号函数I (R -ij r )为单位阶跃函数,当R ≥ ij r 时函数值取1,否则取0。
投影寻踪模型在企业信用评价中的应用——以家电行业为例
缸)2 ( . ) 1 ) , } 。 , , a 为投 影 方 向的 一维 投 影 值 Z i () : = n) , = , ( 圭o o 地力 ( 1K 1, 吣 () 3
、
投影 寻踪模 型介 绍
然 后 根 据 l z , 的 一 维 散 布 图 进 行 分 类 。 投 l , K
过程包括如下几步 :
其 中 ,S 为投 影值 zi的标 准差 ,D, ( ) 为投 影值 zi () 的局部 密 度 ,即 :
——————■
』 ∑0( () 0 = )
一
步 骤 l: 评价 指 标 的 归 一பைடு நூலகம்化 处 理 。
() 5
设各指标值 的样本 为 , , , -K l 2 :z , ,其中 x , K , ,
步骤 2 :构 造 投影 指 标 函数 Q( ) a。 P P 方 法 就 是 把 P 维 数 据 J 2 , 综 合 成 以 ) ,p l K} J
a =
遗传 算 法¨的投 影 寻踪 模 型 [( 称 P ,高效 克 服 了 2简 1 P) 以上弊端 ,取得 了满 意的评 价 结果 。
S N AN MAN E N - 3一 CI CE E D AG ME T
冀
而增加太高 ,R 可以根据试验来确定 ;r i ) (, 表示样本 j
计算得到最大投影指标函数值为 18 3 ,最佳投影方 .2 7
向 a = ( .1 2 02 7 , .9 0 019 , .5 9, .1 5 } 03 6 , .3 5 02 2 , .7 5 03 3 04 3 , 03 6 ,02 1 .3 4 .7 6,04 7 ,01 7 ,014 ) .10 .9 l .7 1 。
软件质量综合评价的投影寻踪模型
摘
要 :软 件质 量评价 直接 影响 到 软件 开发 的 质 量 ,软 件 质 量 是 由 多维指 标 因素 决定 的 ,投 影
寻踪模 型 能够将 多维指 标综合投 影 成一 维投 影指 标 ,根 据 该投 影 指 标 值 的 大 小 可 以对软 件 质 量
进行优劣排序。为 了有效地利用投 影寻踪模型降维分析和处理数据的能力、粒子群算法和 多智 能体遗传算法全局快速搜索的能力 ,文中将 粒子群算法和 多智能体遗传算法应用于投影寻踪模 型,建立了软件质量的综合评价模型。实验 结果表 明投 影寻踪模 型为软件质量综合评价提供 了
f a s t s e rc a h c a p a b i l i t y o f p a r t i c l e s w a m r o p t i mi z a t i o n( P S O)a l g o r i h t m a n d m u l t i — a g e n t g e n e t i c a l g o r i t h m
3 . Ma n a g e me n t S c h o o l , U n i v e r s i t y o f S h a n g h a i or f S c i e n c e a n d T ch e n o l o g y , S h a n g h i a 2 0 0 0 9 3 , C in h a)
i n d e x e s t o o n e — d i me n s i o n a l p mj e c t i o n i n d e x , a n d b a s e d o n t h e v a l u e o f i t t h e c o m p r e h e n s i v e e v a l u a t i o n 章编号: 1 0 0 9— 2 5 5 2 ( 2 0 1 4 ) 0 3— 0 0 7 2— 0 4 中图分类号 : T P 3 1 1 文献标识码 : A
基于信息熵的地基处理投影寻踪决策模型
( 4 )
值 越大则 方 案越优 。
C= +∑[ ∑ 愚 1 z)∑z ) =l = z) (] [i (/ )n (/ ( ] 是
( 5) 收稿 日期 :0 20—0 2 1-53
2 实例应用
现有 4种地基 处 理方案 , , 的: 它 f 忮术 弃 埘 『 ]
作者简介 : 董荣 书(9 8 , , 1 7 ~) 女 辽宁鞍 山人 , 硕士 , 贵州交通职业技术学院讲师
和有 效性 [ ] 6 。本文根 据最 大信 息熵 原理 _构 造投 影 。 8 ] 指标 函数 , 立 了基于 信息熵 的地 基处 理投 影寻踪 决 建
x( , i )一
i ) 2 ( /x ̄ I ( 一2ij]Em ( 一z ] E , z ) ) ( ) I 一( 一z J][ ( 一z ] [ z ) ( )/ , ) ( )
基 于信 息 熵 的地基 处 理 投 影 寻 踪 决 策模 型
董 荣书 , 高莺燕
(. 1贵州交通职业技术学院 路桥系 , 贵州 贵阳
摘
50 0  ̄. 5 0 8 2 贵阳公路桥梁工程有 限公 司, 贵州 贵 阳
骶 }O O q
要: 针对地基处理方案决策过程中需要将多个 指标形成一个综合指 标的复杂问题 , 根据信 息熵原 理构建 了投 影指标 函
其 中 , () z 。 和 () 分别 为第 J个 指 标样 本 集 中 的最 小值 和最 大值 。 ( )步骤 2构 造投 影 指 标 函数 。将 多 个 评 价 指 2 :
标综 合成 投影 值 , 即
若指标 为正向 指标
: 1
若指标J 为逆向指; 际
E= = = n( l ) 一∑ 。 )a( jn
机织物透气性预测的投影寻踪回归模型
o i e m e b l y o v n f br c fa r p r a ii f wo e a i s t
W ANG in,ZHANG a l,L U Ta Ja Xio i 1 o ( ih一 ̄ teE gneig a dA tC l g ,A h i g iutr lU iest Lg t7xi n ier n r ol e n u r l a nvri l n e A c u y,
对 比。 结 果 炭 明 , 影 寻踪 回归 模 型 的拟 合 及预 测 精 度 均 优 于 B 投 P神 经 网 络 及 多 7 线 【 归 模 型 , 亡 口 l
r
圳缘 样 小
较 少 的 情 况 下 , 影 寻踪 嘲归 模 型 仍 有 较 高 的预 测 精 度 和 较 强 的 泛 化 能 力 , 为 机 织 物 透 气 性 预 测 提 供 ・ 新 的 投 町 种
打 。
纺 _ 亘
织 T
关键词
机 织 物 ; 气 性 ;投 影 寻 踪 回归 ; 测 模 型 ;B 透 预 P神 经 网络 ;多 元 线 性 回 _ J ]
文 献标 志 码 : A
学
} ∽ 艮 R e
中图 分 类 号 : S l 1 1 T 0 .
P o t n p ru t e r sin mo e f rp e it n r jci u s i r g eso d l o r dci e o o
建设项目投资方案优选的参数投影寻踪模型
v0 . 4 No 1 11 .
J .2 0 n a ,0 8
建 设 项 目投 资 方 案 优 选 的 参 数 投 影 寻 踪 模 型
卢纪云
( 新疆志翔工程建设咨询监理[ 要] 针对 建设项 目投 资方案 决策 问题 , 摘 采用 高维 降维技 术一
P C Po co u u l s ctnM dl简称 P c模 P (r etnP r iCa i a o oe, ji s t sf i i P 型) 的建模过程包括 如下几步L : 3 J 步骤 1 样本评价指标集 的归 一化处理 。 : 设各指标 值 的样本集为 { ( ,) :1 n J=1 P}其 中 ( , f 『I J f , , i ) 为第 i 个样本第. 『 个指标值 ; 、 n P分别为样本的个数( 样 本容量 ) 和指标 的数 目。 为消除各指标值 的量 纲和统一各 指标值 的变化范围, 可采用下式进行极值归一化处理 : 对于越大越优的指标
A s at 删l ap i P oebs A Ai ei etet l  ̄ ln ret eio bt c: r pln P Cm dl ae nR G t v m np no yg o nh n s a f d po c sn i g j d i c m 地 , eat runm t—d esndt ioo ies nsaeS eot m retnd- h t u o r ui i ni a tl dm ni c.ot pm np j i i h t l m o an w o p h i oc o r t ncns n r e etn un ecl ti .h st a eo p j tnf co a v u e i a a df s i ec t t oe i t T u , e l f r e i ntnC ea - co t o t b f e oh h l l vy c h v u o c o u i n l
遗传算法投影寻踪模型matlab代码
遗传算法投影寻踪模型近年来,遗传算法在寻优问题中的应用越来越广泛,其中遗传算法投影寻踪模型在MATLAB代码中的实现备受关注。
本文将以此为主题,结合具体的内容,对遗传算法投影寻踪模型进行深入探讨。
一、遗传算法的原理1.1 遗传算法的基本概念遗传算法是一种基于生物进化过程的启发式优化技术,它模拟了自然选择和遗传机制,通过不断的迭代优化过程来寻找最优解。
遗传算法包括选择、交叉、变异等基本操作,其中选择过程通过适应度函数来评价个体的优劣,交叉过程通过染色体的交换来产生新的个体,变异过程通过基因的随机改变来增加种群的多样性。
1.2 遗传算法的应用领域遗传算法广泛应用于优化问题、机器学习、神经网络、信号处理、图像处理等领域,在工程、科学领域有着重要的应用价值。
二、投影寻踪模型的概念2.1 投影寻踪模型的基本原理投影寻踪模型是一种在信号处理领域中常用的算法,其基本原理是通过对信号进行投影变换来实现信号的降维和提取特征。
2.2 投影寻踪模型的应用投影寻踪模型在语音识别、图像处理、数据压缩等方面有着广泛的应用,是一种常见的信号处理技术。
三、MATLAB代码实现3.1 MATLAB环境准备在进行遗传算法投影寻踪模型的实现之前,首先需要在MATLAB环境中准备好相应的工具箱和设置参数。
3.2 遗传算法投影寻踪模型代码编写通过MATLAB的编程能力,可以实现遗传算法投影寻踪模型的代码编写,包括遗传算法的参数设置、适应度函数的定义、种群的初始化、交叉和变异操作的实现等步骤。
3.3 代码调试和优化在编写完整的遗传算法投影寻踪模型代码后,需要进行充分的调试和优化,确保代码的正确性和效率。
四、实验结果分析4.1 实验数据准备在进行实验结果分析之前,需要准备相应的实验数据集,以便进行测试和对比分析。
4.2 结果对比分析通过对遗传算法投影寻踪模型的实验结果进行对比分析,可以评估其算法性能和适用范围,与其他优化算法进行效果比较。
4.3 结果展示与解读最后需要将实验结果进行展示,并对结果进行解读和分析,从数学模型和应用角度分析遗传算法投影寻踪模型的优缺点和改进方向。
上海市公路网安全宏观评价投影寻踪模型
it cu t yadn bet e et ci n io s ote d e, hc o nycn i r te u — noao n i s jci r t nc d i c b d gu v r i o o t n t h mo l w i n t l s es h b s h o o d s j t e u l h bet ee a ai dx w i t e o i ae cl aigG nt l — e i ta o teo j i v l t n i e e h .R a cdn bsdAce rt e ei A g cv b s cv u o n g l g e n c o
P oe t nP rut d lo h n h i ih yN t r rjci us i Mo e r a g a g wa ewok o f S H
Sa e y M a r s o i a u to f t c o c p c Ev l a i n
L N u ,,Z A I Y 一 H NG F n f n A a g a g ,F NG h un S o e
t eag r h efc v l a ov h lb p i i t n p o lm t a iu etit n c n iin . h o i m fet ey c slet ego a o t z i r be wi v r srsr i o dt s l t i n l m ao h o co o
( . yL brtr f oda dT af n i en f h ns yo d ctn o  ̄ i rt,hn hi 0 0 2 C i ; 1Ke aoaoyo a n rfcE g er go e R i n i t Miir f ua o ,T n i v s yS ag a2 0 9 ,hn t E i Un e i a 2 Sh o o Cil n ier , n u Unvri f i c n .co l f v E ne n A h i i syo S e eadTehooy u i n2 2 0 , i ) i g i g e t c n cn l ,H an 3 0 1 C n g a h a
基于投影寻踪分类模型的暗管优化布局
基于投影寻踪分类模型的暗管优化布局近年来,随着云计算、大数据分析等领域的快速发展,网络数据中心(Data Center)规模不断扩大,能耗问题成为制约其发展的重要因素之一。
为了降低数据中心的能耗,研究人员提出了如优化布局、深度休眠等措施。
本文将重点介绍一种基于投影寻踪分类模型的暗管优化布局方法。
暗管布局是一种较为常见的优化布局方法。
它将机柜摆放在一定的空间布局中,通过优化过的降温、冷却系统实现机柜的散热。
与传统布局方法相比,暗管布局更加灵活,能够更好地适应不同规模的数据中心。
但是,在实际应用中,暗管布局需要经过多轮试验和调整,效率较低,且本身的优化能力也存在一定局限。
因此,如何进一步优化暗管布局成为研究的热点之一。
基于投影寻踪分类模型的暗管优化布局方法是近年来研究人员提出的一种新型优化方法。
它首先通过数据采集和分析,获取数据中心中设备的工作负载和散热情况。
接着,将这些数据输入到投影寻踪分类模型中进行分析和建模。
在模型分析结果的指导下,优化者可以针对不同的布局方案进行试验和调整,实现数据中心的最优布局。
投影寻踪分类模型是一种基于数据挖掘技术的分类模型。
它通过投影与寻踪算法将数据映射到高维空间中,实现数据的分类和预测。
在暗管优化布局中,投影寻踪分类模型将数据中心的各项指标映射到高维空间中,根据这些指标之间的关系进行分析。
在分析过程中,模型可以确定不同指标之间的权重关系,并根据这些关系提供相关建议,指导优化者调整暗管布局。
基于投影寻踪分类模型的暗管优化布局方法与传统的暗管布局方法相比,具有以下优点:1. 网络数据中心的规模不断扩大,数据量的增加和复杂性的提高为优化带来了极大的挑战。
基于数据挖掘技术的投影寻踪分类模型能够高效地处理大量数据,并提供基于数据的决策支持。
2. 传统的暗管布局方法需要经过多轮试验和调整,效率较低。
基于投影寻踪分类模型的优化方法可以在较短时间内对数据进行分析和建模,提高了优化效率。
投影寻踪模型原理及其应用
式 中 I NT 为 取 整 函 数 。 由 式 (3) 得 对 应 二 进 制 数 ia(j,k,i),它们与n组模型参数cj(i)对应,并把它们 作为初始父代个体群。 编码与解码的逻辑过程:cj(i)~ Ij(i)~ ia(j, k,i)
步骤3:父代个体适应能力评价。
把第i组参数代入式(1)得目标函数值 fi,fi越小表示模型与观测值拟合得 越好,适应能力越强,设第i个个体 的适应能力与fi成反比。 构造选择概率序列{pi},把[0, 1]区间分成n个子区间:(0,p1), (p1,p2),…,[pn-1,pn],它们与n 个个体一一对应,fi越小的个体对 应的子区间长度越大。
越接近,表示样本i与样本j越倾向于分为同一类。按z*(i)值 从大到小排序,据此可把各指标的样本集进行分类。
2 基于加速遗传算法的投影寻踪聚类模型AGA-PPCE
2.2 基于加速遗传算法的投影寻踪聚类模型在气候区划中的应用 气候区划就是把研究区域划分成若干个分区,在同一分区内具有相似的 气候条件,以便调整种植结构,因地制宜地发展农业生产。 表2.1
12.9 11.8 14.1 15.1 14.2 13.7 10.4 13.4
33.6 31.5 35.4 36.0 33.1 33.5 31.1 35.7
–10.1 –8.8 –8.6 –6.2 –9.5 –8.4 –14.5 –11.6
3672.0 3332.8 4047.4 4703.3 4264.2 4005.6 2572.8 3948.9
j=1 j=2 j=3 j=4
气候样本集及其投影值
气候因子j
j=5 j=6 j=7 j=8 j=9 j=10 Nhomakorabea样本 值
年平均 气温/°C z*(i)
K-L绝对信息散度投影寻踪分类模型及其应用
K—L P C模 型 的建 模过 程包 括如 下 4步 P
。
( )样本 评 价指 标集 的归 一化 处理 。设 各 指标值 1
作者简 介 : 小勇 , , 士研究 生 , 要 从 事水 文 水资 源及 水 环境 、 域 水生 态及 演 变规律 研 究。 赵 男 博 主 流
t r .c on om
第4 1卷 第 1 5期 2 0 1 午 8 月 0
人 民 长 江
Ya g z Ri e n te v r
VO1 41. . NO 1 . 5 Au ., g 2 0 01
文 章 编 号 :0 1 1 9 2 1 ) 5—0 9 — 3 1 0 —4 7 ( 0 0 1 0 1 0
类 模 型 。采 用基 于 实数 编 码 的 加 速 遗 传 算 法 寻 找 最 优 的 投 影 方 向 , 时 用 最佳 投 影 方 向 信 息 研 究 了各 评 价 指 同 标 对 节 水 灌 溉 方 案 的 影 响 程 度 , 得 了符 合 客 观 实 际 的 评 价 结 果 , 节 水 灌 溉 方 案 评 价 研 究提 供 了决 策 依 据 。 取 为 关 键 词 : 水 灌 溉 ;评 价 ; 影 寻 踪 ; 传 算 法 节 投 遗 文献标志码 : A
进 行 方案优 选 之前 , 须进 行预 审 , 必 因为 有些 因素对 方 案 选择 具有 决定 性 作 用 , 即某 个 因素 的不 适 应将 使 整
个 方 案 被 推 翻 , 称 作 具 有 一 票 否 决 权 的 因 素 。 因 此 或
必 须 在 方 案 选 择 之 前 进 行 预 审 , 排 除 不 可 行 方 以
一
与所有 灌溉 方 案应 用都 相关 且 相互 影 响程度 相 近 的 因 子一 一列 出并 进行 比较 也没 有 必要 。因此 在选 择具 体 的灌 溉方 案 时 , 应根 据 具 体 情 况 选 择 那 些 对 方 案 评 价
投影寻踪评价模型分析解析
3、富营养化评价实例:与参考文献中用“模糊评价法对10 个湖区富营养化作出的评价”结果,可以看出!除湖区4相差1 级以外其余湖区NV-PPR和模糊评价法作出的评价结果完全 一致”模糊评价法作出的评价结果完全一致。
五、结论
1、基于指标规范值的NV-PPR水质评价模型对3类水体的72项指标中的任意 m(2≤m≤72)项指标组合的水质评价都普适、通用,因而该模型不受指 标数多少的限制,并极大的提高了PPR的求解效率和模型精度。 2、 NV-PPR模型的普适性对72项指标以外的其它指标,只要能适当设定这 些指标的参照值及指标值的规范变换式,使计算得到这些指标的各级标 准规范值在表1中72项指标同级标准规范值范围内,则优化得出的 NVPPR(2)和 NV-PPR(3)的模型和分级标准值仍可用于这些指标的水 质评价,而不会有大的偏差,因为用规范值表示的这些指标也与72项指 标的规范指标“等效”。 3、用优化好的 NV-PPR模型作3类水质评价,不再需要编程优化计算,只需 用规范变换式计算出m项指标的规范值,并将m项指标分解为若干个NVPPR(2)和(或) NV-PPR(3)组合表示,直接将指标规范值代入优 化得出的 NV-PPR(2)和 NV-PPR(3)模型计算,就能作出评价,计 算简单,使用方便。 4、此方法不足之处为: NV-PPR(2)和 NV-PPR(3)的组合可以有多种 不同的形式,采用不同的组合获得的最终结果有时难免有一定差异。因 此,可以采用多种组合,将其结果进行比较,进而做出评价。
2、具体方法介绍:在P维空间中随机选取m组0~1区间的随机数 bi(i=1,…,p);令ai=-1+2· bi,||a||=1计算投影指标Q=f(a);按有利于投影指 标增大的原则,通过选配、杂交、变异操作,取得3组共3m个解,从其中 选出m个投影指标大的编码后,回到第二步,开始下一个优选循环;满足 一定循环次数后或根据先验知识决定输出解的时机;将高维数据投影 到一维数轴上,绘出反映数据特征的散点图,作为进一步研究的依据。
基于RAGA的投影寻踪分类模型在评标中的应用
一 , , 一
12 投影 寻踪 建模 步骤 .
P C模型的建模过程包括 以下 几点l, : P 3J
即 1样本评 价指标 集 的归一 化处 理 。设各 指标 值 的样本 集 为 估计最 佳投影方 向 , : )
{ ( ,) i - , z iJ l =1 :1 ~P}其 中 , ( , 为第 i 样本第 , i ) 个
据点来说 , 以发现数据在投 影空 间中的结构 或特征 。它可 以排 的窗 口半 径 , 的选取 既要使包含在 窗 口内的投影点 的平均个 数 足 它
除与数据结构 和特 征无关 的, 或关 系很 小 的变量 的干扰 。另 外 , 不太少 , 避免滑动偏差 值太 大 , 又不 能使它 随着 r 的增大 而增 加 l P P方法可 以将高维 数据 投影 到 一维 子空 间上 , 再对 投 影后 的一 太高 , 可 以根据 实验 来确定 , 般可取 值为 0 1 ; ( , ) R 一 . r iJ 为样 维数据进 行分析 , 比较不 同一 维投影 的分 析结果 , 出好 的投 影 。 本之 间的距 离 , ( , = l i 一z( ) ; t 为 一单 位 阶越 函 找 r i ) ) Z( j l“( ) P P方法与其他非参 数方 法 一样 可 以用 来解 决某 种非 线 性 问题 。 数 , 当 ≥0时 , 其值为 1 当 t , <0时 , 其值为 0 。 P P方法虽然是 以数据 的线性投影为基础 , 但它 找的是线性投影 中 的非线性结构 , 因此它可以用来解决一定 程度 的非线性 问题 。 3 优 化投影指标 函数 。当各指标值 的样本集 给定 时, ) 投影 指 标 函数 Q( ) a 只随着投影方 向 a变化 , 同的投影方 向反 应不 同 不 的数据 特征 , 最佳 投影方 向就是最 大可能暴 露高维数 据某类特 征 结构 的投影方 向, 因此可 以通过求解 投影 指标 函数最 大化 问题 来
预测取代芳烃生物降解性的投影寻踪回归模型
21 0 2年 9 月
甘 肃 联 合 大 学 学报 ( 自然 科 学 版 )
J u n l fGa s a h iest ( t rl ce c s o r a n uLin eUnv riy Nau a in e) o S
Vo . 6 NO 5 12 .
陆光 华 等l 采 用 量 子 化 学 M( Ac—AM 1 4 ) P
法计 算 了 4 2种 取 代芳 烃 的生 成 热 H 、 子 最 高 分 占有 轨道 能 E 、 子 量 Mw 、 子 总 表 面 积 Ⅲ 分 分
2 WHI 描 述 子 M
To ec ii 提 出 的 WHI ( ihe o d shn 等 M we tdh — g
近 年来 , 类描 述 子广 泛地 应 用 于 各类 化 合 物 的 该
QS AR模 型 中 , 以准确 地 预 测包 括 熔 点 、 点 、 可 沸
分子形 状 指数 K 与 取代 芳烃 的 B OD拟合 , 五 其
元 线性 回归模 型 ( 7 取代 芳烃 ) R 为 0 4 2 3 个 的 。 .8 , 测 试组 平均 相 对 百 分 误 差 为 1 . O . 文 采 用 8 4 本 三 维分 子 描述子 WHI w ih e oi i iv r M( eg tdh l t a— s cn
性 主 要 与 分 子 的形 状 、 度 分 布 和 对 称 性 有 关 , 且 受 原 子 量 、 子 范 德 华 体 积 及 电子 拓 扑 指 数 的影 响. 逐 步 密 并 原 在
线 性 回归 基 础 上构 建 了 取 代 芳 烃 生 物 降 解 性 的投 影 寻 踪 回归 模 型 . 于 采 用 了“ 视 数 据 一 模 拟 一 预 测 ” 样 由 审 这
投影寻踪聚类模型应用步骤
2投影寻踪分类模型简介一、投影寻踪分类模型投影寻踪分类模型(Projection Pursuit classification ,简称PPc)的建模过程包括如下几步:步骤1:样本评价指标集的归一化处理。
设各指标值的样本集为{x*(i,j)|i=1,2,…,n; j=1,2,…,p },其中x*(i,j)为第i 个样本第j 个指标值,n,p 分别为样本的个数(样本容量)和指标的数目。
为消除各指标值的量纲和统一各指标值的变化范围,可采用下式进行极值归一化处理:对于越大越优的指标:)(x -)()(x -j)(i,*x =j)(i,x min max min j j x j 对于越小越优的指标: )(x -)(),(*x -(j)x =j)(i,x min max max j j x j i 其中,(j)x max ,)(x min j 分别为第j 个指标值的最大值和最小值,j)(i,x 为指标特征值归一的序列。
步骤2:构造投影指标函数Q(a)。
PP 方法就是把p 维数据{x(i,j)|i=1,2,…,p}综合成以a={a(1),a(2),a(3),…,a(p)}为投影方向的一维投影值z(i)),,()(=)(∑1=j i x j a i z pj i=1,2,…,n然后根据{z(i)|i=1,2,…,n}的一维散布图进行分类。
式(4.2)中α为单位长度向量。
综合投 影指标值时,要求投影值z(i)的散布特征应为:局部投影点尽可能密集,最好凝聚成若干个 点团;而在整体上投影点团之间尽可能散开。
因此。
投影指标函数可以表达成:Q(a)=S z D Z其中,S z 为投影值z(i)的标准差,D z 为投影值z(i)的局部密度,即: 1-E(z))-)((=∑1=2n i z S n i z∑∑1=1=)j)r(i,-u(R ×j))r(i,-(=n j n i Z R D其中,E( z)为序列{z(i)|i=1,2,…,n}的平均值;R 为局部密度的窗口半径,它的选取既要使包 含在窗口内的投影点的平均个数不太少,避免滑动平均偏差太大,又不能使它随着n 的增大 而增加太高,R 可以根据试验来确定; r(i,j)表示样本之间的距离, z(j)-)(=),(i z j i r ;u(t)为一单位阶跃函数,当t ≥0时,其值为1,当t<0时其函数值为0。
工程项目评标的投影寻踪模型
(上接第319页)
了投标标价情况、 反映了投标方案的工期、 反映了工程项 目质量保证情况、 反映了项目的主材用量情况、 反映了投 标企业的施工经验、 反映了投标企业信誉。4 家投标企业 相应指标的统计数据由表 1 所示。
表1 评价指标数据与评标结果
编号
排序
甲 4900 35 乙 4950 37 丙 5050 35 丁 5100 37
(下转第321页)
319
TM
施工,消除噪音。 2.2 解决水循环故障方法 2.2.1 注重管道质量
基于循环冷却水的以上特点,要求管道连接方式考虑温 度、水压、耐腐蚀、间隙使用故障,例如可以通过合理安排 管线坡度和标高、安装排气阀等方法改善水循环故障,在实 际运用中有很强的操作意义。 2.2.2 改善水质
1 项目评标投影寻踪模型
投影寻踪是一种用来处理和分析高维数据的一类统计方 法,其基本思路是将高维数据投影到向低维空间上,寻找出能反 映高维数据结构或特征的投影,以达到研究分析高维数据的 目的【4】。它已广泛应用于涉及多因素影响的综合评价问题中 。 【5,6】
建立投影寻踪模型的步骤如下【3】:
(1)数据归一化。将量纲不相同各个指标数据 xij 进行归一
征值 为:
(3)
(3)构造投影指标 。投影指标பைடு நூலகம்定义为类间距离
与类内密度 的乘积。即
(4)
类间距离 用样本的投影特征值样本方差计算,即
(5)
其中 表示为样本投影特征值均值。
类内密度 则通过投影特征值间的两两距离,
在设计管道时,管道的长度和坡度都应适宜,否则会出 现滴水现象。管道的安装和布置要适合冷凝水的尽快排出, 必要时可以设置水封装置。
注重材料的保温。风管与冷冻水管必须注意保温,因此 总体来讲,管道的保温必须把握好两个方面,一个是保证其 完整性,另一个是密闭性。 2.4 加强各专业配合
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
投影寻踪方法及应用内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。
最后结合上市公司的股价进行实证分析,并给出结论和建议。
关键词:投影寻踪投影寻踪聚类模型遗传算法一、简介(一)产生背景随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。
多元分析方法是解决高维数据这类问题的有力工具。
但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。
不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。
但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。
第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。
对于核估计,近邻估计之类的非参数法很难使用。
第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。
另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。
这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。
其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。
它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。
针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。
(二)发展简史PP最早由Kruskal于70年初建议和试验。
他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。
1974年Frledman和Tukey加以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。
1979年后,Friedman 等人相继提出了PP回归、PP分类和PP密度估计。
在这以后Huber等人积极探索了PP的理论。
1981年Donoho提出了用Shannan嫡作投影指标比wiggins用标准化峰度更好的方法,接着他又利用PP的基本思想给出了多元位置和散布的一类仿射同变估计。
Diaeonis、Friedman和Jones等还讨论了与PP有关的其他理论问题。
上述工作和结果在1985年Huber 的综述论文中作了概括和总结。
我国学者成平和吴健福于1985年证明了PP密度估计的一个收敛性问题,并于1987年给出PP经验分布的极限分布。
陈忠琏和李国英等于1986年用PP方法给出了散布阵和主成分的一类稳健估计。
成平和李国英于1986年还对多元位置和散布的PP型估计性质进行了讨论叫。
陈家弊于1986年证明了密度PP估计的一个极限定理。
宋立新和成平于1996年就PP回归逼近的均方收敛性,回答了Huber1985年的猜想。
这些都是很好的工作。
在PP的应用研究方面,从1985年起,郑祖国、杨力行等人通过几年的潜心研究和探索,成功地完成了投影寻踪回归(PPR)和投影寻踪时序(PPTS)软件包的程序设计,并对大量实例进行了验算。
二、PP及其分类投影寻踪是用来分析和处理高维数据,尤其是来自非正态总体的高维数据的一类统计方法。
其基本思想是:利用计算机技术,把高维数据通过某种组合,投影到低维(1~3维)子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。
它的一般方案是:(l)选定一个分布模型作为标准(一般是正态分布),认为它是最不感兴趣的结构;(2)将数据投影到低维空间上,找出数据与标准模型相差最大的投影,这表明在投影中含有标准模型没能反映出来的结构;(3)将上述投影中包含的结构从原数据中剔除,得到改进了的新数据;(4)对新数据重复步骤(2)(3),直到数据与标准模型在任何投影空间都没有明显差别为止。
PP方法的主要特点是:(l)PP方法能够在很大程度上减少维数祸根的影响,这是因为它对数据的分析是在低维子空间上进行的,对1-3维的投影空间来说,高维空间中稀疏的数据点就足够密了,足以发现数据在投影空间中结构特征;(2)PP方法可以排除与数据结构和特征无关,或关系很小的变量的干扰;(3)PP方法为使用一维统计方法解决高维问题开辟了途径,因为PP方法可以将高维数据投影到一维子空间,再对投影后的一维数据进行分析,比较不同一维投影的分析结果,找出好的投影;(4)与其他非参数方法一样,PP方法可以用来解决某些非线性问题。
PP虽然是以数据的线性投影为基础,但它找的是线性投影中的非线性结构,因此它可以用来解决一定程度的非线性问题,如多元非线性回归;(二)PP的分类PP包括手工PP和机械PP两方面内容。
手工PP主要是利用计算机图像显示系统在终端屏幕上显示出高维数据在二维平面上的投影,并通过调节图像输入装置连续地改变投影平面,使屏幕上的图像也相应地变化,显示出高维数据在不同平面上投影的散点图像。
使用者通过观察图像来判断投影是否能反映原数据的某种结构或特征,并通过不断地调整投影平面来寻找这种有意义的投影平面。
最早的图象显示系统是斯坦福大学教授J.H.Friedman等人1974年编制的,PRIM一9。
利用这个系统可以看到不超过九维的数据在任何二维平面上的投影图象,以发现数据的聚类和超曲面结构。
这个系统还可以只显示指定的区域内的高维点,把其他点移出屏幕不显示出来。
因此当人们在投影平面上发现了某种聚类结构时,可以把不同类的数据分开,再分别考察每个类中的数据的结构和特征。
使用手工PP 成功的例子是美国的Reaven 和Miller 于1979年关于多尿病病理的研究。
他们将145人的5项指标观察值输入PRIM 一9图像显示系统,对5项指标中的每3项指标,观察145个3维点构成的点云在任何2维平面上的投影图像,最后找到了一个在医学上有意义的图像。
从这张图像上可以看到隐性和显性多尿症患者的数据是完全分开的。
不经过中间正常状态,两者是不能相互转换的。
机械PP 是模仿手工PP ,用数值计算方法在计算机上自动找出高维数据的低维投影,即让计算机按数值法求极大解的最优化问题的方法,自动地找出使指标达到最大的投影。
它要求对一个P 维随机向量X ,寻找一个K (K<p )维投影矩阵A ,使定义在某个K 维分布函数集合k F 上的实值函数Q (投影指标),满足Max Ax Q Ax Ax Ax Q k ==)(),,,(21 。
如果原数据确有某种结构或特征,指标又选得恰当,那么在所找到的某些方向上,一定含有数据的结构或特征。
有些传统的多元分析方法可以看成是机械投影寻踪的特例。
例如主成份分析,判别分析等,但是主成分分析方法是用主成分来描述或逼近原始数据,所反映的是数据的全局特征或宏观特征,这样显然就有可能会漏掉主要的局部特征或细节特征。
下面以大家熟知的主成份分析为例具体说明机械投影寻踪方法。
主成份分析的目的是要考察P 维数据n x x x ,,,21 ,是否真正散布在P 维空间上,还是主要只散布在某个维数小于P 的子空间上。
好比一块铁饼,虽然是三维空间中的形体,由于相对地说厚度明显地小,所以它主要是散布在二维平面上的园形东西,在与这个园形垂直的方向上没有多少布散布。
我们取描述一维数据散布程度的标准差作为投影指标。
实数n y y y ,,,21 的标准是∑--=ni n n y y y y y 1221)1/()(),,,( σ,其中n y y ni /1∑=。
用投影寻踪了解数据n x x x ,,,21 的散布情况,就是找出一个方向b ,使得数据在这个方向上的投影的散布达到最大,即),,(m ax ),,('1'1'11'1n a n x a x a x b x b σσ==,1b 就是n x x x ,,,21 的样本协差阵S 的最大特征根1λ的特征向量。
把S 的特征根从大到小排列,记作p λλλ,,,21 ,这样投影寻踪就给出了n x x x ,,,21 的第一主成份n x b x b x b '12'11'1,,, ,它的标准差1'11'1),,(λσ=n x b x b 。
继续作投影寻踪,在与1b 垂直的空间里求单位向量2b ,使),,(m ax ),,('1',1'21'21n b a a n x a x a x b x b σσ<==。
可以证明2b 就是相应于2λ的特征根,进而得到n x x x ,,,21 的第二主成份n x b x b '21'2,, ,及其标准差2λ,如此类推,就可以求出第三、第四主成份等等,直到某个主成份的标淮差接近零为止。
当然,主成份分析只是机械投影寻踪的一个特例。
一般的并不要求后面的投影方向与前面找到的投影方向垂直。
而且,对于主成分分析其样本协方差阵及特征根和特征向量对离群点是非常敏感的,正是由于样本协方差阵的不稳定,造成了传统主成分分析的不稳健。
为了得到稳健性,可以采用稳健的散布度量加以改进另外,实际作主成份分析时也不用求极值的投影寻踪法,而是直接求样协差阵S 的特征根和特征向量。
三、投影指标PP 的出发点是度量投影分布所含信息的多少,而我们知道高维数据集合的线性投影是?几乎正态的,并且正态分布通常为无信息分布的代表。
从而寻求与正态分布差异最大的线性投影分布,即含信息最多的投影分布,成为PP 方法的常用方式之一。
既然如此,那么它是如何实现的呢?为了避免繁杂的细节讨论,突出问题的重点,我们选取简单的度量准则,如方差、偏度、峰度,至于更加复杂的度量准则也有完全类似的描述、解释,这里从略。
(1)方差指标)()(X a Var X a Q T T =设),,,(21n x x x 是总体X 的独立同分布的样本,方差指标的样本形式为21))((1)(∑=-=n i Ti T TX a E x a n X a Q 。
如果我们求)(max X a Q T ,得到的∧a 就是样本散布最大的方向。
主成分分析就是取样本方差为投影指标的PP 方法。
(2)Friedman 指标 设有Legendre 多项式R R Q R Q ==)(,1)(10, 3,2],)1()12[(121=---=--j Q j RQ j jQ j j j设X 为P 维随机向量,协方差阵∑的正交分解T UDU =∑,U 是标准正交阵,D 是对角阵。