基于测地距离的核主成分分析方法

合集下载

基于核主成分分析的异常轨迹检测方法

基于核主成分分析的异常轨迹检测方法

基于核主成分分析的异常轨迹检测方法鲍苏宁;张磊;杨光【摘要】针对现有算法不能有效应用于多因素轨迹异常检测的问题,提出基于核主成分分析(KPCA)的异常轨迹检测方法.首先,为了改善轨迹特征提取的效果,采用KPCA对轨迹数据进行空间转换,将非线性空间转换到高维线性空间;其次,为了提高异常检测的准确率,采用一类支持向量机对轨迹特征数据进行无监督学习和预测;最终检测出具有异常行为的轨迹.采用大西洋飓风数据对算法进行测试,实验结果表明,该算法能够有效提取出轨迹特征,并且与同类算法相比,该算法在多因素轨迹异常检测方面具有更好的检测效果.【期刊名称】《计算机应用》【年(卷),期】2014(034)007【总页数】4页(P2107-2110)【关键词】异常轨迹检测;核主成分分析;高维特征空间;一类支持向量机【作者】鲍苏宁;张磊;杨光【作者单位】中国矿业大学计算机科学与技术学院,江苏徐州221116;中国矿业大学计算机科学与技术学院,江苏徐州221116;中国矿业大学计算机科学与技术学院,江苏徐州221116【正文语种】中文【中图分类】TP3120 引言随着全球定位系统(Global Positioning System,GPS)、射频识别(Radio Frequency Identification,RFID)等定位设备的应用普及,轨迹数据呈现爆炸式增长[1]。

通过对轨迹数据集进行异常检测,可以检测出行进路线异常的飓风等自然灾害,根据位置传感器返回的轨迹数据集可以检测出出现故障的传感器。

Lee 等[2]提出了基于 TRAOD (TRAjectory Outlier Detection)算法的异常轨迹检测框架;刘良旭等[3]使用基于R-Tree 的高效异常轨迹检测算法,根据轨迹间的距离特征矩阵来计算轨迹之间的距离以确定其是否匹配;Xiong 等[4]采用分层概率模型来检测一些局部正常而整体表现异常的轨迹;文献[5]采用基于马尔可夫假设的密度估计方法,对每条轨迹赋予一个概率值,并通过概率阈值来判定异常轨迹。

一种快速的Isomap算法

一种快速的Isomap算法

信息与控制2014 年第43 卷第4 期: 476 ~482DOI: 10. 13976 / j. cnki.x k. 2014. 0476 文章编号: 1002 - 0411( 2014)- 04 - 0476 - 07一种快速的Isomap 算法屈太国,蔡自兴中南大学信息科学与工程学院,湖南长沙410083基金项目: 国家自然科学基金资助项目( 90820302,60805027) ; 教育部博士点基金资助项目( 200805330005) .通信作者:屈太国,qutai g uo@ ali y u n. c o m 收稿/ 录用/ 修回: 2013 - 06 - 13 / 2013 - 11 - 19 / 2014 - 05 - 08摘要针对Is o map 采用Fl oy d-Warshall 算法求最短路径时运算速度慢的问题,考虑到邻域图的稀疏性,提出了Is o map 的改进算法.通过采用基于Fib o nacci 堆的Dijk- stra 算法,减少了求最短路径的时间,从而提高了Is o map 的速度.在多个数据集上的实验结果表明,改进后的算法较原Is o map 算法的运算速度快.关键词流形学习IsomapFibonacci 堆最短路径Dijkstra 算法中图分类号: T P273 + 2文献标识码: AA Fast Isomap AlgorithmQU Taiguo,CAI ZixingSchool of I nform ation Science and Engineering,C entral Sout h Univ ersity,Changsha 410083,ChinaA bstractF o r the sl ow o perati o n al speed pr o blem of the Is o map al g o rithm in w hich the Fl oy d-Warsh all al go rith m is applied t o f inding shortest paths,an impr o v ed Is o map al g o rithm is p r o posed bas ed o n th e sparsen ess of th e a d-jacen c y g raph.In the impr ov ed al go rithm,th e runtime fo r shortest paths is reduced by using Dijkstra’s al go- rithm based o n a Fibonacci heap,th us speeding up the Is o map o perati o n.The e x periment al results o n se v eral data sets sho w that the imp r o v ed v ersi o n of Is o map is f aster than th e o ri g in al o n e.Keywords manifold learning; Isomap;Fibon acci heap; shortest path; Dijkstra's algorith m1 引言随着计算技术、存储技术、多媒体技术和网络技术的发展,数据收集和获取变得越来越容易,数据的高维化趋势也越来越明显.高维数据固然给人们提供了更丰富的信息,但也增加了计算和存储的代价,导致“维数灾难” ( curse of dimensi o nalit y).为应对“维数灾难”,人们提出了各种数据降维方法.数据降维不是简单地减少数据维数,其目的在于找出高维测量数据中隐藏的低维结构,并使降维后得到的特征数据能保持高维测量数据的某些本质特征.与测量数据相比,基于特征数据的运算速度更快,存张图像的分辨率为64 × 64,即图像的维数高达4096.图1在部分点 2 维坐标的附近给出了相应的图像,这些点用圆圈标识.通过把这些图像降到2 维,可以清晰地看到其姿态的变换规律:头像沿着水平方向自右向左旋转,沿着竖直方向从俯视转为仰视.降维后的数据很好地反映了石膏头像的姿态变化,抓住了头像变化的内在规律,为后续处理奠定了基础.主成分分析法(PCA)[2]、多维标度法(M D S)[3]等线性降维方法对线性数据处理较好,但是它们对S曲面(S- cur v e)这样的非线性数据无能为力.在图2(b)中,M D S不能把S曲面“展开”,出现了S曲面上非相邻数据的2 维降维结果交错重叠的现象.储空间更小,传输起来更快; 另外,当数据降至2 维或3 维近年来出现的流形学习方法[4 -9]对线性数据和非线性后,可以以图形方式显示出来,有利于发现数据的内在结构、异常点等.因此,数据降维有着广泛的应用.数据都能取得很好的降维效果,因此,在人脸识别、图像分析、图像检索、故障检测等诸多研究领域都备受关[10-13]图1 为一组不同姿态下的石膏头像[1]的降维结果.每注.ii j4 期屈太国,等: 一种快速的 Isomap 算法477Ω→Rm,d < m ,则集合 F ≡f ( Ω) 及映射 f 被称为 d 维参数 化流形.定义 2 假定已知高维测量空间 Rm中的 n 个样本点 x 1 ,…,x n ,并进一步假定这些点位于一个潜在的 d ( d < m )维流形 F 上. 流形学习就是确定 Rd中的低维坐标 τ ,使 得: x i = f ( τi ) + εi , i = 1,…,n图 1 石膏头像的 2 维降维结果 Fi g . 1 The t wo -dimensi o n al pr o jecti o n of theplaster head sculpture ima g es流形学习的理论基于黎曼几何. 为了避免涉及复杂的 数学理论,这里引述文[4]给出的定义:定义 1 假定 Ω 为 Rd中的一个开子集,定义映射 f :其中 εi 表示噪音干扰.Tenenbaum 和 S il v a 提出的 Is o map 是最早提出的流形学习方法之一,它从局部度量信息中学习数据集内在的全 局几何结构,具有涉及自由参数少、有代数解析解、可以确 定流形内在维数等优点,获得了广泛的应用[14 - 19].Is o map 建立在 M D S 的基础上,通过保持两点间的测 地距离而不是欧氏距离,试图保持数据点的内在几何性 质. 由于在实际问题中给出的是采样点而不是流形本身, 所以,不能精确地求得采样点之间的测地距离,只能采用 近似的方法求测地距离. 在 Is o map 算法中,利用最短路径 来近似测地距离.( a) S 曲面散点图( n = 1500)( b) S曲面的MDS降维结果(c) S曲面的Isomap 降维结果图2 S曲面及其MDS、Isomap降维结果Fig .2S-cur v e and its t wo -dimensi o nal pr o jecti o ns by M D S and Is o map在 Tenenbaum 和 Silva 给出 的 Isomap 算 法 中,采 用 Floyd-Warshall 算法[20 - 21]求最短路径,如果用 n 表示采样的中间顶点, p 的权值 w ( p ) 定义为各组成边的权值之和, 即:点的个数,其求最短路径的时间为 O ( n 3) ,影响了 Isomapw ( p ) =∑ku = 1w ( iu -1 ,i u ) ( 1)的速度.从顶点 i 到 j 所有路径中权值最小的称为最短路径,注意到 Isomap 中的邻域图是一个典型的稀疏图,如果其权值为从 i 到 j 的最短路径的权,记为 δ ,. 采用 基 于 Fibonacci 堆[22] 的 Dijkstra 算 法[23]代 替 Floyd- Warshall 算法,可以极大地提高运行速度. 根据这一设想,本文提出了一种改进的 Is o map 算法.2Floyd-Warshall 算 法 与 基 于 Fibonacci 堆的 Dijkstra 算法如第 1 节所述,在 Isomap 算法中,需要根据邻域图计 最短路径是计算机领域经常碰到的问题,相关算法有 很多,本节着重介绍 Fl oy d -Warshall 算法和基于 Fib o nacci 堆的 Dijkstra 算法.2. 1 Floyd-Warshall 算法Floyd-Warshall 算法基于如下事实: 对 i ,j ∈V ,考察 从 i 到 j 且中间顶点属于集合{ 1,…,k } ( k ≤ n ) 的所有路 径,设 p 是其中的一条最短路径( 其权值记为 d ( k )) . 根据 算各点之间的最短路径. 在邻域图中,采样点用图中的顶点表示,如果用 V 、E 表示图上的顶点和边的集合,邻域图 k 的取值,有以下 3 种可能:( 1) k = 0,d ( 0) = w .ijij可表示为 G = ( V ,E ) . 假定各边的权值为 w ij ,邻域图上顶 点编号为 1,…,n ,n = | V | 表示顶点个数,m = | E | 表示边 的个数. 设 p 为从 i 0 到 i k 的一条路径,i 1 ,…,i k - 1 为路径 p ( 2) 1≤k ≤n 且 k 不是 p 的中间顶点,此时,p 的中间 顶点都来自{ 1,…,k - 1} .( 3) 1≤k ≤n 且 k 是 p 的中间顶点,将 p 分成子路径 p 1i j =478信息与控制 43 卷= < i ,…,k > 和 p 2 = < k ,…,j > ,显然,p 1 是从 i 到 k 且中 间顶点属于集合{ 1,…,k - 1} 的最短路径,p 2 是从 k 到 j 且 中间顶点属于集合{ 1,…,k - 1} 的最短路径. 综合上述 3 点,可以得到:{源点 s 到图中其它各点的最短路径. 在 Dijkstra 算法中,每 个顶点 v 都有一个被称为最短路径估计的属性值 d ( v ) ,它 是从源点 s 到 v 的最短路径的权的上界,表示迄今所能确 定的从 s 到 v 的最短路径的最优估计. 除 d ( s ) 被初始化为d (k ) w ij ,k = 0( 2)0 外,其它点的 d 值都被初始化为∞ .min( d ( k - 1)( k - 1)( k - 1)Dijkstra 算法中有两个互为补集的顶点集合 S 和 Q . 在d( n )ij,d i k + d kj ) , k ≥1由于任意路径的中间顶点只能来自{ 1,…,n } ,因此, ( n )任何时刻,从源点 s 到 S 中任意顶点的最短路径权值已经 确定. S 初始化为空,Q 初始化为 V . Q 中的顶点依据 d 值 ij 就是从 i 到 j 的最短路径的权值,即 δi ,j = d ij .Fl oy d -Warshall 算法的运行时间为 O ( n 3) ,其具体实现在一般计算机算法教材中均有介绍,在此不再赘述. 2. 2 基于 Fibonacci 堆的 Dijkstra 算法 2. 2. 1 Fibonac ci 堆Fib o nacci 堆是一种典型的数据结构. 它由若干树组 成,在所有树中,任意结点的关键字都不小于其父结点的 关键字. 所有树的树根都链接成一个环形双链表,树根在 链表中出现的次序是任意的. 对于一个 Fib o nacci 堆 H 而 言,H .m i n 指向包含最小关键字的树根.Fib o nacci 堆中每个节点 x 包含一个指向其父节点的指 针 x .p 及一个指向其任一孩子的指针 x . c h il d .x 的所有孩子 也被链接成环形双链表,每个孩子 y 通过指针 l e f t ( y ) 、 r i gh t ( y ) 分别指向其左、右兄弟. 各兄弟在链表中出现的次 序是任意的. 每个节点还包含另外两个域: d e gr ee 和 m ark .x 节点的孩子个数存储在 x .d e gr ee 中; 布尔值 x . m ark 用于 表明 x 节点自最近一次成为另一个节点的孩子以来,它是 否失去了一个孩子. 新创建节点的 m ark 值取 FAL S E ,而当 一个节 点成为另一个节点的孩子时其 m ark 值 也 取 为 FAL S E . 图 3 为一个 Fib o nacci 堆.图 3 Fibonacci 堆[24]Fi g .3 A Fibonacci heap [24]Fibonacci 堆支持多种 操 作,与本文相关的是以下 3 种:Insert( H ,x ) : 将元素 x 插入到堆 H 中;Decrease -Ke y( H ,x ,k ) : 将堆 H 中元素x 的关键字重 置为一个比现有关键字小的新值 k ;E x tract -min ( H ) : 返回指向堆 H 中包含最小关键字的 元素的指针,并从堆中删除该元素;除 Extract-Min 的平摊时间( amortized time) 为 O ( lgn ) 外,其余两种操作均为 O ( 1 ) . 因此,对于最短路径这种E x tract -M in 操作次数相对少的问题,Fib o nacci 堆是一个理 想的选择.2. 2. 2 Dijkstra 算法Dijkstra 算法解决单源最短路径问题的方式为: 求从构成一个最小优先队列( min-priority queue) .Dijkstra 算法重复如下操作直至 Q = V - S 为空: 每次 从 Q 中选取一个具有最短路径估计的顶点 u ,将其加入到 S 中; v ∈Q ,如果从 u 到 v 有边连接,即( u ,v ) ∈V ,则 对该边 进 行“松 弛”( relax) 操 作: 判 定 经 过 u 能 否 减 小 d ( v ) ; 如果可以,则更新 d ( v ) . 算法结束时,有 δs ,v = d ( v ) .Dijkstra 算法的运行时间主要体现在对最小优先队列 Q 的操作上,共需进行 n 次 Insert 、n 次 Extract-Min 以及最 多 m 次的 Decrease -Ke y 操作. 算法的运行时间取决于 Q 所 采用的数据结构. 如果采用 Fib o nacci 堆,则根据第 2. 2. 1 节,其运行时间为 O ( n l g n + m ) . 如果采用线性数组或二叉最小堆( binar y min -heap ) ,其运行时间分别为 O ( n 2+ m )和O ( ( m + n ) l g n ) . 显然,采用 Fib o nacci 堆的运行时间最 短.Dijkstra 算法很容易推广到求各顶点间最短路径: 将 每个顶点作为源点运行一次上述单源最短路径算法即可.如果采用 Fibonacci 堆,其运行时间为 O ( n 2lg n + mn ) .基于 Fib o nacci 堆的 Dijkstra 算 法 ( 简 记 为 Fib -Dij 算法) 具有以下特点: 一方面,它是一种直接算法,它一次性求得各点之间的最短路径( 全局最优) ; 它不属于“用变量 的旧值递推新值”的迭代算法,而迭代算法是必须考虑收 敛性的. 另一方面,它属于确定的算法( deterministic al go -rithm ) ,在整个算法的执行过程中,不涉及随机数. 对于给 定的邻域图,Fib -Dij 算法规定了其在计算机上运行的每一 个步骤,即: 每一步做什么都是确定的,最后得到的结果 也是唯一确定的. 这个唯一确定的结果就是各点之间的最 短路径,是一个全局最优解,不是局部最优解. 关于这一 点,在文[24]中有详细的证明. 求解所有顶点间最短路径的算法还有很多,如 Bell -man -F o rd 算法[25 - 26] 和 J o hns o n 算法[27]. J o hns o n 算法集成 了 Bellman -F o rd 算法和 Dijkstra 算法. 由于 Is o map 邻域图 中各边权值非负,此时的 J o hns o n 算法其实就是 Dijkstra 算 法. 这 4 种方法的运行时间如表 1.表 1 4 种最短路径算法的运行时间 Tab . 1 Runtime of the fo u r shortest -path al go rithms4 期屈太国,等: 一种快速的Isomap 算法4793C-Isomap 算法与Fib-Isomap 算法Tenenbaum 和S il v a 给出的Is o map 算法包含如下4 步: ( 1)计算采样点之间的欧氏距离,确定每个点的邻域.确定邻域有以下两种方式:1) k 邻域: 当j 是离i 最近的k 个点中的一个( 或i 是离j 最近的k 个点中的一个) 时,认为它们是相邻的;2)ε邻域:当i 和j的欧氏距离d i j小于某个阈值ε时,认为它们是相邻的.( 2) 构造邻域图G = ( V,E) .每个采样点对应图上的一个顶点,并按如下原则确定顶点i 和j 之间的边的权值:1)如果i = j,则w i j= 0.2) 如果i 和j 相邻,则在图中有边( i,j) ,对应权为w ij = d i j .3) 如果i 和j 不相邻,则二者之间没有边连接,此时w ij= ∞.图中所有边的权值构成权值矩阵W = (w i j),显然,W 是一个对称矩阵.( 3) 计算各点之间的最短路径D = ( δi,j ) .采用Floyd-Warshall 算法计算各点之间的最短路径.( 4)利用测地距离矩阵求各点的低维坐标.令:图为稀疏图,采用Fib-Dij 算法计算最短路径是最好的选择.因此,一个很自然的想法就是:在Is o map 算法的第3 步,用Fib-Dij 算法替代Fl oy d-Warshall 算法计算最短路径,从而提高Is o map 的速度.这种改进后的Is o map 算法,记为Fib-Is o map.4 实验实验包含3 个部分:首先是验证Fib-Is o map 算法的求解质量,其次是对比C-Is o map 和Fib-Is o map 的运算速度,最后对这两种算法的运行时间进行定量分析.4.1 验证Fib-Is o map 算法的求解质量如上所述,C-Is o map 和Fib-Is o map 的唯一区别在于求最短路径的算法.由于Fl oy d-Warshall 算法和Fib-Dij 算法都能给出最短路径的权的精确解,因此,它们的结果是完全相同的,从而,Fib-Is o map 可以得到与C-Is o map 完全一样的降维结果.为了验证这一结论,本文从S曲面上任意选取500 个点,然后分别采用C-Is o map 和Fib-Is o map 将它们降到2 维空间.为了清楚起见,只给出了其中100 个点的2 维坐标散点图(图4 ),图中“x”、小方框分别表示C- Is o map 和Fib-Is o map 的降维结果.从图4 可以看出,两种算法的结果完全重合.A =[-δ2/2],H = I - 1 1 1T,B = HAHi,jN N N对 B 进行特征值分解,假定λ1 ,…,λd是 B 的前 d 个最大特征值,v1 ,…,v d为对应的单位正交特征向量,定义矩阵V =[v1 ,…,v d],则要求的d 维嵌入结果Y =[y1 ,…,1 /2 1 /2 Ty n]= diag( λ1 ,…,λd) V .为了与下文的改进算法相区别,把Tenenbaum 和Silva给出的上述Isomap 算法称为经典Isomap,简记为C-Isomap( classical Isomap) .下面以k邻域为例来分析邻域图的稀疏性.如果j是离i 最近的k个顶点之一,则有(i,j)∈E,(i,j)称为i 的邻域边.显然有如下结论:( 1) 邻域图G = ( V,E) 中任意一条边至少是其中一个端点的邻域边,而每个顶点有且仅有k 个邻域边,因此,邻域图最多包含kn 条边,即m≤kn,k 为一个远小于n 的常数;( 2)由于每个顶点至少通过一条边(实际上是有不少于k条边)与其它顶点相连,所以m≥n.综上所述,n≤m≤kn,即m= O(n),所以,邻域图是稀疏图.针对这类稀疏图,比较前述4 种最短路径算法的运行时间.采用Bellman-F o rd 算法的运行时间为O( mn2 ) = O( n3 ) ( 3) Fib-Dij 算法的运行时间为O( n2 lg n +mn) = O( n2 lg n +n2 ) = O( n2 lg n) ( 4) Fib-Dij 算法显然优于Bellman-Ford 算法,也优于Floyd-Warshall 算法的O( n3 ) .此时的Johnson 算法实际上就是Dijkstra 算法.所以,在Is o map 算法中,考虑到邻域图4 CIs o map、Fib-Is o map 在S曲面上的2维降维结果Fi g. 4 The t wo-dimensi o nal pr o jecti o ns o n S cur v e by C-Is o map and Fib-Is o map4.2 对比C-Is o map 和Fib-Is o map 的运算速度本文通过在多个数据集上运行C-Is o map 和Fib-Is o- map,比较了二者的运行速度.这些数据集包括:S曲面、“瑞士卷”(Sw issr o ll)[28](如图5 ( a))、石膏头像、Fre y f ace 人脸数据库[29]、M NI S T( mi x ed nati o nal institute o f standardsand techn o l ogy)手写数字数据库[30](实验中只涉及数字“2”的1000 个样本).所有数据都被降到2 维,即d= 2.各数据集在降维中使用的邻域大小( k) 以及其它参数如表2 所示.石膏头像的降维结果如图1 所示,S曲面的降维结果如图2(c)所示,其余3 个数据集的降维结果如图5( b)~( d)所示.( a ) “瑞士卷”散点图( b ) “瑞士卷”降维结果( c ) M NI ST ( “2”) 降维结果( d ) Fre y f ace 降维结果480信息与控制43 卷表 2 5 个数据集的相关参数 Tab . 2 Parameters of the f i v e dat a sets对每个数据集分别运行 C-Isomap 和 Fib-Isomap ,得到 4 组时间: C-Isomap 、Fib-Isomap 的运行时间及各自求最短数据 S 曲面 / sout名称 “瑞士卷” / s out MNIST石膏 ( “2”)头像 Frey face 路径的时间 Fl oy d 、Fib -Dij . 各数据集的运算时间如图 6 所 示. 图 6 中,每个数据集的运算时间从左至右依次为 Fib - 样本数( n ) 1500 1500 1000 6981965图像大小 / / 28 × 28 64 × 64 28 × 20 维数 3 3 784 4096 560 d 22 2 2 2k1010666Dij 、Fib -Is o map 、Fl oy d 、C -Is o map .从图 6 中可以看出: 对所有数据集: ( 1) Fl oy d 占了 C - Is o map 的大部分时间,因此求最短路径是 C -Is o map 的最大 瓶颈; ( 2) 利用 Fib -Dij 算法替代 Fl oy d -Warshall 算法,大大减少了求最短路径的时间,从而提高了 Is o map 的整体运 行速度.图 5 “瑞士卷”、M NIS T( “2”) 、F rey face 的 Iso map 降维结果Fi g . 5 The 2-dimensi o nal pr o jecti o ns by Is o map of Sw iss r o ll ,M NI ST( “2”) and Fre y f ace4.3 定量分析 Fl oy d -Warshall 算法和 Fib -Dij 算法的运行时间为了定量分析 Fl oy d -Warshall 和 Fib -Dij 的运行时间,本文从 S 曲面上随机取 100,200,…,2800 个点,每次增 加 100 个点,对每次的采样结果运行 C -Is o map 和 Fib -Is o - map ,得到 4 组时间: C -Is o map 、Fib -Is o map 、Fl oy d 、Fib -Dij , 如图 7( a ) 所示.为了定量分析 Floyd-Warshall 算法和 Fib-Dij 算法的运 行时间,本文将它们单独绘成图 7( c ) 和图 7 ( e) . 不难发 现: 当 n 足够大时,Floyd-Warshall 的运行时间都落在 t 1 =6. 8 × 10 - 8 × n 3 和 t = 5. 4 × 10 - 8 × n 3之间; Fib-Dij 的时间 小于 t 3 = 2. 8 × 10 × n 2l g n . 这充分验证了前述的理论分 图 6 C-Isomap 与 Fib-Isomap 运行时间对比Fi g . 6 The c o mparis o n of runtime bet w een C -Is o map and Fi b -Is o map析,即在 Isomap 中求各点之间的最短路径时,Floyd-Wa r- shall 算法的运行时间为 O ( n 3 ) ,Fib-Dij 算法为 O ( n 2 lg n ) .2 - 74 期屈太国,等: 一种快速的 Isomap 算法481( a) S 曲面上运行时间的比较( b )“瑞士卷”上运行时间的比较( c) Floyd-Warshall 算法在 S 曲面上的运行时间( d) Floyd-Warshall 算法在“瑞士卷”上的运行时间( e) Fib-Dij 算法在 S 曲面上的运行时间( f) Fib-Dij 算法在“瑞士卷”上的运行时间图 7 C-Isomap 与 Fib-Isomap 运行时间的定量分析Fi g . 7 The quantitati v e anal y sis of the runtime of C -Is o map and Fib -Is o map本文对“瑞士卷”也进行了同样的实验,其结果如图 7( b ) 、7( d ) 、7( f) 所示,从这些图可以得到同样的结论.5 结论Is o map是一种重要的流形学习方法. 由于采用 Fl oy d -Warshall 算法求最短路径,C-Is o map 的速度非常慢,从而 影响了它的应用. 针对这一瓶颈,考虑到邻域图的稀疏 性,本文采用基于 Fib o nacci 堆的 Dijkstra 算法计算最短路 径. 理论分析和实验结果都表明: Fib -Is o map 算法提高了求最短路径的速度,从而提高了 Is o map 算法的整体运行速482 信息与控制43 卷度.这为Is o map 的广泛应用尤其是在大规模数据集上的应用创造了条件.参考文献[1 ] Data sets fo r nonlinear dimensi o n alit y redu cti o n[DB].[2013 - 06 - 09].http: / / i s o map. stanf o rd. edu / datasets. html.[2 ] J o lli ff e I T.Principal c o mponent anal y sis[M]. 2nd ed.Ne w Y o rk,USA:Springer-Verla g,2002.[3 ] C ox T F,C ox M AA.M ultidimensi o n al scalin g[M]. 2nd ed.L o ndon,UK:Chapman &H all / CRC,2001.[4 ] Zhang Z Y,Zha H Y.Princip al mani fo lds an d nonlinear dimensi o n alit y redu cti o n v ia tangent sp ace ali g nment[J].SIA M J o u rnal of Sci enti f icC o mputing,2004,26( 1): 313 - 338.[5 ] Tenenbaum J B,de Sil v a V,Lang fo rd J. A g l o bal g e o metric f rame wo rk fo r nonlinear dimensi o nalit y reducti o n[J]. Science,2000,290 ( 5500): 2319 - 2323.[6 ]Ro w eis S T,Saul L K.N o nlinear dimensi o n alit y redu cti o n by l o call y linear embed din g[J].Science,2000,290( 5500): 2323 - 2326.[7 ] Belkin M,Ni y og i P. Lapl acian ei g en maps f o r dimensi o n alit y redu cti o n and data represent ati o n[J]. Neu ral C o mp utati o n,2003,15( 6): 1373 - 1396.[8 ] D o noho D L,Grimes C.Hessian ei g enmaps:L o call y linear emb edding techniqu es fo r hi g h-dimensi o n al data[J].Pr o ceedings of the Nati o nal Academ y of Scien ces,2003,100( 10): 5591 - 5596.[9 ] Seung H S,D aniel D L.The mani fo ld w a y s of percepti o n[J].Scien ce,2000,290( 5500): 2268 - 2269[10] He X F,Yan S C,Hu Y X,et al.Face rec og niti o n using Laplacian f aces[J]. IEEE Transacti o ns o n Pattern Anal y sis and M achin e Intelli-g en ce,2005,27( 3): 328 - 340.[11] Zhang C S,Wang J,Zha o N Y,et al.Rec o nstru cti o n and an al y sis of multi-pose f ace ima g es bas ed o n nonlinear dimensi o nalit y redu cti o n [J].Pattern Rec o g niti o n,2004,37( 2): 325 - 336.[12]傅向华,李坚强,王志强,等.基于N y str o m 低阶近似的半监督流形排序图像检索[J].自动化学报,2011,37( 7): 787 - 793.Fu X H,Li J Q,Wang Z Q,et al. Semi-super v ised mani fo ld-ranking-based ima g e retrie v al w ith l o w-ran k N y str o m appr o x imati o n[J]. Acta Aut o matica Sinica,2011,37( 7): 787 - 793.[13]王健,冯健,韩志艳.基于流形学习的局部保持PCA 算法在故障检测中的应用[J].控制与决策,2013,28( 5): 683 - 687.Wang J,Feng J,H an Z Y.L o call y preser v ing PCA method based o n mani fo ld learning and its applicati o n in f ault detecti o n[J].C o ntr o l and Decisi o n,2013,28( 5): 683 - 687.[14]袁远,季星来,孙之荣,等.Is o map 在基因表达谱数据聚类分析中的应用[J].清华大学学报:自然科学版,2004,44 ( 9 ):1286 -1289.Yuan Y,Ji X L,Sun Z R,et al.Applicati o n of Is o map fo r cluster an al y ses of g ene e x pressi o n dat a[J].J o urnal of Tsinghua Uni v ersit y:Sci- ence &Technol og y,2004,44( 9): 1286 - 1289.[15]Ram o s F T,Kumar S,Upcr of t B,et al. A natural f eature rep resentati o n fo r unstructured envir o nments[J].IEEE Transacti o ns o n Ro botics,2008,24( 6): 1329 - 1340.[16] Verma R,Khurd P,D a v at z ikos C. On anal yz ing di ff usi o n tens o r ima g es by identi fy ing mani fo ld stru cture using Is o maps[J]. IEE E Trans acti o ns o n M edical Ima g ing,2007,26( 6): 772 - 778.[17] Takah ashi S,Fujishir o I,Ok ad a M.Appl y ing mani fo ld learning t o pl o tting appr ox imate c o nt o u r trees[J].IEEE Transacti o ns o n Visuali z ati o n and C o mputer Graphi cs,2009,15( 6): 1185 - 1192.[18]程起才,王洪元,吴小俊,等.一种用于人脸识别的有监督核化多类多流形ISO M AP 算法[J].控制与决策,2012,27 (5 ):713 -719.Cheng Q C,Wang H Y,Wu X J,et al. A super v ised kerneli z ed multi-class multi-mani fo ld ISO M A P al go rith m fo r f ace rec o g niti o n[J]. C o ntr o l and Decisi o n,2012,27( 5): 713 - 719.[19]程起才,王洪元,吴小俊,等.一种基于ISO M A P 的分类算法[J].控制与决策,2011,26( 6): 826 - 830.Cheng Q C,Wang H Y,Wu X J,et al.An al go rithm fo r classi f icati o n b ased o n ISO M A P[J].C o ntr o l an d Decisi o n,2011,26( 6 ):826 -830.[20] Fl o y d RW.Al go rithm 97(SHORTE ST PATH)[J].C o mmunicati o ns of the AC M,1962,5( 6): 345 - 349.[21] Warsh all S.Athe o rem o n bo o lean mat rices[J].J o urnal of the AC M,1962,9( 1): 11 - 12.[22] Fredman M L,Tarj an RE.Fibonacci heaps and thei r uses in impr ov ed net wo rk o ptimi z ati o n al g o rithms[J].J o urn al of the AC M,1987,34 ( 3): 596 - 615.[23] Dijkstra E W. A note o n t wo pr o blems in c o nne x i o n w ith g raph s[J]. Numerische M ath ematik,1959,1( 1): 269 - 271.[24] C o rmen T H,Leisers o n C E,Ri v est RL,et al.Intr o ducti o n t o al go rithms[M].3rd ed.Cambridg e,M assachusetts,USA: the M IT Press,2009.[25] Bellman R. On a r o uting pr o bl em[J]. Quarterl y of Applied M athematics,1958,16( 1): 87 - 90.[26] F o rd L R,Fulkers o n D R.Fl o w s in net wo rks[M].Princet o n,Ne w J erse y,USA:Prin cet o n Uni v ersit y Press,1962.[27] J o hns o n D B.E ff icient al go rithms fo r shortest paths in sparse n et wo rks[J].J o urnal of th e AC M,1977,24( 1): 1 - 13.( 下转第489 页)4 期逄勃,等: 基于奇异值分解的PID 型参数优化迭代学习控制算法489Pang B,Sh a o C. A r o bust iterati v e learning c o ntr o l w ith parameter-o ptimi z ati o n fo r discrete nonlinear s y stems[J]. C o ntr o l and Decisi o n,2014,29( 3): 449 - 454.[22] Amann N,O w ens D H,Ro g ers E.Iterati v e learning c o ntr o l using o ptimal f eedback and f eedf o r w ard acti o n s[J].Internati o nal J o urn al of C o n- tr o l,1996,65( 2): 277 - 293.[23] O w ens D H,Feng K.Parameter o ptimi z ati o n in iterati v e learning c o ntr o l[J].Intern ati o n al J o urn al of C o ntr o l,2003,76( 11): 1059 - 1069.[24] Li H,Ha o X,Xu W. A f ast parameter o ptimal iterati v e learning c o ntr o l al go rith m[C]/ / Embedded Sof t w are and Sy stems Sy mposia 2008.2008: 375 - 379.[25] Ha o X H,O w ens D H,Dale y S. Pr o porti o n al di ff erence t y pe iterati v e learning c o ntr o l al go rithm based o n paramet er o ptimi z ati o n[C]/ / ChineseC o ntr o l and Decisi o n C o nferen ce.Shandong:C o nferen ce Publicati o ns,2008: 3136 - 3141.作者简介逄勃( 1981 -),男,博士,工程师.研究领域为迭代学习控制.邵诚( 1958 -),男,博士,教授.研究领域为复杂系统建模及优化控制等.( 上接第475 页)[21]余志斌,金炜东.多分量LF M雷达辐射源信号的经验模式分解[J].西南交通大学学报,2009,44( 1): 49 - 54.Yu Z B,Jin W D. E M D fo r multi-c o mponent LF M rad ar emitter si g nal s[J]. J o urn al of So uthwest Jia o t o ng Uni v ersit y,2009,44( 1): 49 - 54.[22] Wang S G,James J C. On the independent c o mponent an al y sis of e v o ked potentials thr o ugh single o r f e w rec o rding chann els[C]/ / Pr o ceedings of the 29th Annual Internati o n al C o nference of the IEE E E M B S.Piscata w a y,NJ,USA:IEEE,2007: 5433 - 5436.[23]张贤达.现代信号处理[M].第2 版.北京:清华大学出版社,2002: 210 - 218.Zhang X D.Mo dern si g nal pr o cessin g[M]. 2nd ed.Beijing:Tsinghua Uni v ersit y Press,2002: 210 - 218.[24]Curr yRG.Radar s y st em per fo rman ce m o deling [M]. 2nd ed.N o r woo d,M A,USA:Artech H o use,2005: 120 - 125.[25]彭耿,黄知涛,姜文利,等.卫星通信信号的多普勒频率参数盲估计[J].系统工程与电子技术,2010,32( 4): 6 - 9.Peng G,Huang Z T,Jiang W L,et al. Blind D o ppler parameters estimati o n of sat ellite c o mmunicati o n si g n als[J].Sy stems Engineering and E- lectr o ni cs,2010,32( 4): 6 - 9.[26]李式巨,姚庆栋,赵民建.数字无线传输[M].第2 版.北京:清华大学出版社,2007: 80 - 88.Li S J,Ya o Q D,Zha o M J.Di g ital w ireless c o mmunicati o n[M]. 2nd ed.Beijing:Tsinghua Uni v ersit y Press,2007: 80 - 88.作者简介彭耿( 1980 -),男,博士,工程师.研究领域为通信侦察,空间信息对抗和系统仿真等.王泽众( 1983 -),男,博士,工程师.研究领域为雷达信号处理等.陆凤波( 1982 -),男,博士,工程师.研究领域为综合电子战系统与技术,通信信号侦察处理等.( 上接第482 页)[28] Tenenb au m J.M apping a mani fo ld of perceptu al o bser v ati o ns[C]/ / Advances in Neural Inf o rmati o n Pr o cessing Sy stems. Cambridge,USA: M IT Press,1998: 682 - 688.[29]Ro w eis S.Data fo r M ATLAB hackers[DB].[2013 - 06 - 09].http: / / www. cs. t o r o nt o.edu / ~ r o w eis / data. html.[30] LeCun Y,C o rtes C.The M NI ST datab ase of handwritten di g its[DB].[2013 - 06 - 09].http: / / y ann. lecun. c o m / e x db / mnist.作者简介屈太国( 1969 -),男,博士生.研究领域为人工智能,流形学习.蔡自兴( 1938 -),男,教授,博士生导师.研究领域为人工智能,机器人,智能控制.。

地理信息系统名词解释大全

地理信息系统名词解释大全

地理信息系统名词解释大全地理信息系统Geographic Information System GIS作为信息技术的一种,是在计算机硬、软件的支持下,以地理空间数据库(Geospatial Database)为基础,以具有空间内涵的地理数据为处理对象,运用系统工程和信息科学的理论,采集、存储、显示、处理、分析、输出地理信息的计算机系统,为规划、管理和决策提供信息来源和技术支持。

简单地说,GIS就是研究如何利用计算机技术来管理和应用地球表面的空间信息,它是由计算机硬件、软件、地理数据和人员组成的有机体,采用地理模型分析方法,适时提供多种空间的和动态的地理信息,为地理研究和地理决策服务的计算机技术系统。

地理信息系统属于空间型信息系统。

地理信息是指表征地理圈或地理环境固有要素或物质的数量、质量、分布特征、联系和规律等的数字、文字、图像和图形等的总称;它属于空间信息,具有空间定位特征、多维结构特征和动态变化特征。

地理信息科学与地理信息系统相比,它更加侧重于将地理信息视作为一门科学,而不仅仅是一个技术实现,主要研究在应用计算机技术对地理信息进行处理、存储、提取以及管理和分析过程中提出的一系列基本问题。

地理信息科学在对于地理信息技术研究的同时,还指出了支撑地理信息技术发展的基础理论研究的重要性。

地理数据是以地球表面空间位置为参照,描述自然、社会和人文景观的数据,主要包括数字、文字、图形、图像和表格等。

地理信息流即地理信息从现实世界到概念世界,再到数字世界(GIS),最后到应用领域。

数据是通过数字化或记录下来可以被鉴别的符号,是客观对象的表示,是信息的表达,只有当数据对实体行为产生影响时才成为信息。

信息系统是具有数据采集、管理、分析和表达数据能力的系统,它能够为单一的或有组织的决策过程提供有用的信息。

包括计算机硬件、软件、数据和用户四大要素。

四叉树数据结构是将空间区域按照四个象限进行递归分割(2n×2n,且n≥1),直到子象限的数值单调为止。

3.11地震基于主成分分析法的震中方位角估算

3.11地震基于主成分分析法的震中方位角估算

基于主成分分析法的震中方位角估算分析马亮卢建旗李山有马强(中国地震局工程力学研究所,中国地震局强震动观测研究室,哈尔滨 150080)摘要:地震定位的实现可以有多种方法,主要分为单台定位法、双台定位法、三台定位法和台网定位。

单台定位法用于快速定位,优点是快速及时,能实现地震预警;缺点是精度小误差较大。

本文使用主成分分析法对日本311地震多个台站测得的数据计算得出的方位角与实际方位角做比较误差分析,希望对实现快速定位有所裨益。

关键词: 地震预警,震中方位角,主成分分析法,地震定位中图分类号:P315.61 文献标识码:A文章编号:引言:1988年, 日本铁路技术研究所学者Nakamura在第九届世界地震工程大会上提出了UrEDAS单台地震预警系统,这个系统最初是为了让新干线列车遭遇地震时紧急制动不至于出轨。

其中包含了地震的震中方位角确定方法,其原理是使用单个台站接收的最先到达的P波“EW分量到NS分量的振幅比值”导出的估计方位角。

这个方法认为,在震源释放的能量的驱使下,地面上的质点M累积的运动轨迹和从震源→质点M的向量所在线段概率性重合,而且质点的累积位移向量与震源→质点向量一致,其的缺陷是它们的方向有可能相反,而且累计计算法得到的震中方位角离散型较大。

1992年,吴兆熊、刘希强等的论文里提出了与“基于协方差矩阵的主成分分析法估算震中方位角”的方法有关的数学依据,但并未计算。

2006年,刘建华、刘福田、婿颐在其论文里提出了“三分量地震记录的偏振分析”,其中的方法可以用于震中方位角估算。

2008年,工程力学研究所学者马强在其博士论文里使用以上方法进行了大量的统计计算,显示了偏振分析法的良好价值。

05-07年,李伟,李峰,唐子波等人的主持下完成了《兖州矿区数字遥测矿震台网建设及技术研究》的报告,其中应用了协方差主成分分析法。

其主要目的是减轻地震造成的矿难引起的人员伤亡以及财产损失,并做了编程。

2010年,山东省地震局学者周彦文、刘希强等再次在论文《基于单台P波记录的快速地震定位方法研究》中明确了协方差矩阵主成分分析法,具有很好的价值。

近红外反射光谱法-土壤性质的主成分回归分析-NIRS–PCR

近红外反射光谱法-土壤性质的主成分回归分析-NIRS–PCR

近红外反射光谱法-土壤性质的主成分回归分析摘要一个快速,便捷的土壤分析技术是需要土壤质量评价和精密的土壤管理。

本研究的主要目的是评估近红外反射光谱(NIRS)来预测不同土壤性质的能力。

从Perstrop近红外系统6500扫描单色仪(福斯NIRSystems,马里兰州Silver Spring),和33种化学、物理和生物化学特性得到近红外反射光谱,从四个主要土地资源收集区802土壤样品(MLRAs)进行了研究。

定标是基于在1300到2500nm光谱范围内使用光学密度一阶导数[log(1/ R )]得主成分回归。

全部的碳、氮、湿度、阳离子交换量(CEC)、1.5兆帕水、基础呼吸速率、沙、淤泥和Mehlich III可萃取钙通过近红外光谱(r2>0.80)成功地预测。

有些Mehlich III可萃取金属(铁,钾,镁,锰)、可交换阳离子(钙,镁,钾),可交换基地、交换性酸、粘土、潜在可矿化氮、总呼吸速率、生物量碳和pH值的总和也可通过近红外光谱估计,但精度较低(r 2=0.80~0.50)。

聚合(wt%>2,1,0.5,0.25mm,并宏观聚合)的预测结果是不可靠的(r2=0.46~0.60)。

Mehlich III提取的Cu,P和Zn和交换性钠不能使用NIRS-PCR技术(r2<0.50)进行预测。

结果表明,NIRS可以作为一种快速的分析技术,在很短的时间用可接受的准确度来同时估计多个土壤特性。

测量土壤性质的标准程序是复杂的、耗时的,而且费用昂贵。

在农民和土地管理者将能够充分利用测土作为精准农业与土壤质量的评估和管理的一种辅助手段之前,一种快速、经济的土壤分析技术是需要。

近红外反射光谱技术是一种为研究入射光和材料表面之间相互作用的非破坏性的分析技术。

由于其简单性、快速性,并且需要很少或无需样品制备,近红外反射光谱被广泛用于工业。

三十多年以前,该技术最早用于粮食的快速水汽分析。

现在,近红外光谱是用于粮食和饲料质量评估的主要分析技术。

主成分分析方法

主成分分析方法

主成分分析方法主成分分析(Principal Component Analysis,PCA)是一种常用的数据降维技术,它可以将高维数据转化为低维数据,同时保留数据的主要特征。

主成分分析方法在数据挖掘、模式识别、图像处理等领域被广泛应用,本文将介绍主成分分析的基本原理、算法步骤和应用场景。

1. 基本原理。

主成分分析的基本原理是通过线性变换将原始的特征空间转换为新的特征空间,新的特征空间是由原始特征的线性组合构成的,这些线性组合被称为主成分。

主成分分析的目标是找到能够最大程度保留原始数据信息的主成分,从而实现数据的降维。

2. 算法步骤。

主成分分析的算法步骤如下:(1)标准化数据,对原始数据进行标准化处理,使得每个特征的均值为0,方差为1。

(2)计算协方差矩阵,根据标准化后的数据计算特征之间的协方差矩阵。

(3)计算特征值和特征向量,对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。

(4)选择主成分,按照特征值的大小,选择最大的k个特征值对应的特征向量作为主成分。

(5)数据转换,利用选定的主成分进行数据转换,将原始数据映射到新的低维空间中。

3. 应用场景。

主成分分析方法在实际应用中具有广泛的场景,例如:(1)数据可视化,通过主成分分析可以将高维数据转化为二维或三维数据,便于数据的可视化展示和分析。

(2)特征提取,在图像处理和模式识别领域,主成分分析可以用于提取图像的主要特征,从而实现图像的压缩和识别。

(3)数据预处理,在机器学习和数据挖掘任务中,主成分分析可以用于数据的降维处理,减少特征的数量和复杂度,提高模型的训练效率和预测准确度。

总结。

主成分分析是一种重要的数据分析方法,它通过线性变换将高维数据映射到低维空间,从而实现数据的降维和特征提取。

在实际应用中,主成分分析具有广泛的应用场景,能够帮助人们更好地理解和分析数据。

希望本文的介绍能够帮助读者更好地理解主成分分析方法,并在实际工作中加以应用。

基于主成分分析(PCA)的人脸识别技术

基于主成分分析(PCA)的人脸识别技术

基于主成分分析(PCA)的⼈脸识别技术本科期间做的⼀个课程设计,觉得⽐较好玩,现将之记录下来,实验所⽤。

1、实验⽬的(1)学习主成分分析(PCA)的基础知识;(2)了解PCA在⼈脸识别与重建⽅⾯的应⽤;(3)认识数据降维操作在数据处理中的重要作⽤;(4)学习使⽤MATLAB软件实现PCA算法,进⾏⼈脸识别,加深其在数字图像处理中解决该类问题的应⽤流程。

2、实验简介(背景及理论分析)近年来,由于恐怖分⼦的破坏活动发⽣越发频繁,包括⼈脸识别在内的⽣物特征识别再度成为⼈们关注的热点,各国均纷纷增加了对该领域研究的投⼊。

同其他⽣物特征识别技术,如指纹识别、语⾳识别、虹膜识别、DNA识别等相⽐,⼈脸识别具有被动、友好、⽅便的特点。

该技术在公众场合监控、门禁系统、基于⽬击线索的⼈脸重构、嫌疑犯照⽚的识别匹配等领域均有⼴泛应⽤。

⼈脸识别技术是基于⼈的脸部特征,对输⼊的⼈脸图像或者视频流,⾸先判断其是否存在⼈脸。

如果存在⼈脸,则进⼀步的给出每个脸的位置、⼤⼩和各个主要⾯部器官的位置信息。

其次并依据这些信息,进⼀步提取每个⼈脸中所蕴涵的⾝份特征,并将其与已知的⼈脸进⾏对⽐,从⽽识别每个⼈脸的⾝份。

⼴义的⼈脸识别实际包括构建⼈脸识别系统的⼀系列相关技术,包括⼈脸图像采集、⼈脸定位、⼈脸识别预处理、⾝份确认以及⾝份查找等;⽽狭义的⼈脸识别特指通过⼈脸进⾏⾝份确认或者⾝份查找的技术或系统。

我们在处理有关数字图像处理⽅⾯的问题时,⽐如经常⽤到的图像查询问题:在⼀个⼏万或者⼏百万甚⾄更⼤的数据库中查询⼀幅相近的图像。

其中主成分分析(PCA)是⼀种⽤于数据降维的⽅法,其⽬标是将⾼维数据投影到较低维空间。

PCA形成了K-L变换的基础,主要⽤于数据的紧凑表⽰。

在数据挖掘的应⽤中,它主要应⽤于简化⼤维数的数据集合,减少特征空间维数,可以⽤较⼩的存储代价和计算复杂度获得较⾼的准确性。

PCA法降维分类原理如下图所⽰:如上图所⽰,其中五⾓星表⽰⼀类集合,⼩圆圈表⽰另⼀类集合。

isomap原理

isomap原理

isomap原理Isomap(Isometric Feature Mapping)是一种非线性降维算法,用于将高维数据映射到低维空间,在该空间中保持原始数据之间的等距关系。

Isomap主要基于流形学习的思想,通过考虑数据点之间的测地距离,而不是传统的欧氏距离,来保留数据中的结构信息。

Isomap的原理可以分为以下几个步骤:1.流形建模:首先,需要根据高维数据中的数据点之间的相似性构建一个图形模型。

此过程使用K最近邻算法,根据欧氏距离或其他度量方法,选择每个数据点的最近邻数据点。

这些最近邻点之间的连接形成了数据的初始邻接矩阵。

2. 最短路径计算:接下来,使用最短路径算法(如Dijkstra算法)计算每对数据点之间的最短路径距离。

这些距离将构成一个距离矩阵,其中每个元素表示两个数据点之间的测地距离。

3.测地距离逼近:为了将测地距离逼近为欧氏距离,需要利用距离矩阵进行主成分分析(PCA)降维。

首先,计算距离矩阵的内积矩阵和外积矩阵。

然后,通过对内外积矩阵进行特征向量分解,得到测地距离的线性逼近。

4.低维映射:通过从特征向量中选择前k个最大的特征值和对应的特征向量,可以将高维数据映射到低维空间。

在这个低维空间中,保留了原始数据之间的等距关系。

Isomap算法的优点在于可以在保持原始数据结构的同时,降低数据的维度。

这使得数据可视化和分类更加方便。

但是,Isomap也存在一些限制。

例如,它假设数据分布在一个连通且光滑的流形上,而不是适用于任意分布的数据。

此外,Isomap对异常值和噪声敏感,可能导致降维结果不准确。

总的来说,Isomap通过测地距离逼近和低维映射,实现了高维数据到低维空间的降维,并保持了数据之间的等距关系。

虽然存在一些局限性,但Isomap仍然是一种常用的非线性降维算法,常用于数据分析和可视化中。

基于Illumina_MiSeq技术分析谷子根际丛枝菌根真菌群落多样性

基于Illumina_MiSeq技术分析谷子根际丛枝菌根真菌群落多样性

櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄[27]闫洪奎,王欣然.长期定位试验下秸秆还田配套深松对土壤性状及玉米产量的影响[J].华北农学报,2017,32(增刊1):250-255. [28]李新华,郭洪海,朱振林,等.不同秸秆还田模式对土壤有机碳及其活性组分的影响[J].农业工程学报,2016,32(9):130-135.[29]冀保毅,赵亚丽,郭海斌,等.深耕和秸秆还田对不同质地土壤团聚体组成及稳定性的影响[J].河南农业科学,2015,44(3):65-70,107.[30]李 景,吴会军,武雪萍,等.长期保护性耕作提高土壤大团聚体含量及团聚体有机碳的作用[J].植物营养与肥料学报,2015,21(2):378-386.[31]程教擘,陈力力,李梦丹,等.不同耕作方式对稻田土壤微生物的影响[J].湖南农业科学,2017(8):8-10.[32]武 均,蔡立群,齐 鹏,等.不同耕作措施下旱作农田土壤团聚体中有机碳和全氮分布特征[J].中国生态农业学报,2015,23(3):276-284.[33]刘红梅,李睿颖,高晶晶,等.保护性耕作对土壤团聚体及微生物学特性的影响研究进展[J].生态环境学报,2020,29(6):1277-1284.[34]冯 彪,青格尔,高聚林,等.不同耕作方式对土壤酶活性及微生物量和群落组成关系的影响[J].北方农业学报,2021,49(3):64-73.[35]路怡青,朱安宁,张佳宝,等.免耕和秸秆还田对土壤酶活性和微生物群落的影响[J].土壤通报,2014,45(1):85-90.段 明.基于IlluminaMiSeq技术分析谷子根际丛枝菌根真菌群落多样性[J].江苏农业科学,2023,51(6):222-229.doi:10.15889/j.issn.1002-1302.2023.06.031基于IlluminaMiSeq技术分析谷子根际丛枝菌根真菌群落多样性段 明(山西农业大学实验教学中心,山西太谷030801) 摘要:为研究谷子(Setariaitalica)根际丛枝菌根真菌(AMF)群落的多样性特征,以便充分发掘和利用AMF优势菌群。

基于TOPSIS及主成分分析方法的学科评价

基于TOPSIS及主成分分析方法的学科评价
0.0282
0.1699
0.2118
0.0295
0.1222
0.1068
0.0445
0.2939
0.1051
0.0859
0.4497
0.2279
0.0079
0.0335
0.1431
0.0058
0.0389
0.1169
0.0696
0.3732
0.2336
0.0003
0.0012
0.0833
0.0603
0.1950
0.1159
0.0277
0.1931
0.1319
0.0211
0.1378
0.2095
0.0245
0.1049
0.1430
0.0077
0.0512
0.1327
0.0225
0.1453
0.2120
0.0551
0.2064
0.0877
0.0559
0.3892
0.1322
0.0210
0.1369
0.1780
0.9074
0.0588
0.0356
0.3768
0.1306
0.0280
0.1764
0.0836
0.0131
0.1359
0.0545
0.1717
0.7591
0.0520
0.0354
0.4049
0.1359
0.0239
0.1498
科研经费(万元)
成果奖项(项)
科研成果
正理想距离
负理想距离
综合指标值
0.2224
0.0125
0.0531

徐建华计量地理学课后习题

徐建华计量地理学课后习题

徐建华计量地理学课后习题徐建华计量地理学课后习题-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN计量地理学期末第⼆章1. 地理数据有哪⼏种类型,各种类型地理数据之间的区别和联系是什么?答:地理数据就是⽤⼀定的测度⽅式描述和衡量地理对象的有关量化指标。

按类型可分为:1)空间数据:点数据,线数据,⾯数据;2)属性数据:数量标志数据,品质标志数据地理数据之间的区别与联系:数据包括空间数据和属性数据,空间数据的表达可以采⽤栅格和⽮量两种形式。

空间数据表现了地理空间实体的位置、⼤⼩、形状、⽅向以及⼏何拓扑关系。

属性数据表现了空间实体的空间属性以外的其他属性特征,属性数据主要是对空间数据的说明。

如⼀个城市点,它的属性数据有⼈⼝,GDP,绿化率等等描述指标。

它们有密切的关系,两者互相结合才能将⼀个地理试题表达清楚。

2. 各种类型的地理数据的测度⽅法分别是什么?地理数据主要包括空间数据和属性数据:空间数据——对于空间数据的表达,可以将其归纳为点、线、⾯三种⼏何实体以及描述它们之间空间联系的拓扑关系;属性数据——对于属性数据的表达,需要从数量标志数据和品质标志数据两⽅⾯进⾏描述。

其测度⽅法主要有:(1) 数量标志数据①间隔尺度(Interval Scale)数据: 以有量纲的数据形式表⽰测度对象在某种单位(量纲)下的绝对量。

②⽐例尺度(Ratio Scale)数据: 以⽆量纲的数据形式表⽰测度对象的相对量。

这种数据要求事先规定⼀个基点,然后将其它同类数据与基点数据相⽐较,换算为基点数据的⽐例。

(2) 品质标志数据①有序(Ordinal)数据。

当测度标准不是连续的量,⽽是只表⽰其顺序关系的数据,这种数据并不表⽰量的多少,⽽只是给出⼀个等级或次序。

②⼆元数据。

即⽤0、1 两个数据表⽰地理事物、地理现象或地理事件的是⾮判断问题。

③名义尺度(Nominal Scale)数据。

即⽤数字表⽰地理实体、地理要素、地理现象或地理事件的状态类型。

地理学科中的地理统计和数据处理方法

地理学科中的地理统计和数据处理方法

地理学科中的地理统计和数据处理方法地理学是一门研究地球表面自然环境和人文环境的学科,它既关注具体的地理事实,也注重对这些事实进行统计和数据处理。

地理统计和数据处理方法在地理学研究中起着重要的作用,它帮助地理学家更好地理解和解释地理现象,为决策提供科学依据。

本文将探讨地理学科中常用的统计和数据处理方法。

一、地理统计方法1. 地理统计描述分析地理统计描述分析是地理学家最常用的方法之一,它通过各种统计指标和图表展示地理现象的分布和变化规律。

常见的地理统计描述方法包括:中心位置测量(如平均数、中位数等)、离散程度测量(如方差、标准差等)、分布形态测量(如偏度、峰度等)等。

这些统计指标能够客观地反映地理现象的特征,并便于进行比较和分析。

2. 空间插值方法地理学研究中经常需要对离散的地理数据进行空间插值,以获取完整的地理信息。

空间插值方法能够通过已知的点数据推测出未知点的属性值,并用空间分布图或等值线图展示出来。

常见的空间插值方法有反距离加权法、克里金插值法等,它们基于离散点之间的空间关系,通过数学模型将数据进行插值预测。

3. 空间统计方法空间统计方法是研究地理现象在空间分布上的相关性和模式的方法。

它可以揭示地理现象的空间联系和影响因素,为地理学家提供有关地理系统功能和相互作用的重要信息。

常见的空间统计方法包括空间自相关分析、热点分析、聚类分析等。

这些方法结合了统计学理论和地理学的特点,有助于揭示地理现象的空间特征和规律。

二、地理数据处理方法1. 数据收集与整理地理学研究通常需要收集各种地理数据,如地形数据、气候数据、人口数据等。

数据收集需要依据研究目的确定采集方法,并通过现场调查、实地测量、遥感技术等方式获取数据。

随后,对采集到的数据进行整理和清洗,包括去除异常值、填补缺失值、处理重复值等步骤。

数据的准确性和完整性对地理学研究的可靠性至关重要。

2. 数据可视化与分析地理学研究需要将数据可视化以更好地理解和展示地理现象。

基于DLNS-DSVDD的故障检测方法

 基于DLNS-DSVDD的故障检测方法

基于DLNS-DSVDD的故障检测方法作者:谢彦红张浩然张成李元来源:《河北工业科技》2022年第04期摘要:為了解决支持向量数据描述方法对多模态动态过程故障检测率低的问题,提出了基于双局部近邻标准化的动态支持向量数据描述的故障检测方法。

首先,应用DLNS方法标准化样本生成标准数据集;其次,利用动态方法将标准数据集构造成动态矩阵;最后,使用SVDD 方法建立基于空间距离的统计量进行故障检测,应用DLNS-DSVDD方法对一个数值例子和田纳西-伊斯曼过程(TE过程)进行仿真测试,并与传统方法对比分析。

结果表明,DLNS-DSVDD方法在具有更低的误报率的前提下拥有更高的故障检测率,平均误报率为2.2%,相比于SVDD方法降低了2.1%,平均故障检测率为88.2%,相比于SVDD方法提高了38.5%,证明了所提出的方法可以有效地监控具有多模态动态特征的化工生产过程。

DLNS-DSVDD方法可以有效地剔除数据的多模态结构并且准确地捕获样本中的动态信息,为提高SVDD方法在多模态动态过程中的故障检测性能提供了参考。

关键词:自动控制技术其他学科;故障检测;支持向量数据描述;双局部近邻标准化;动态矩阵;动态特征;多模态特征中图分类号:TP277 文献标识码:ADOI: 10.7535/hbgykj.2022yx04006Fault detection method based on DLNS-DSVDDXIE Yanhong1,ZHANG Haoran2,ZHANG Cheng1,LI Yuan2(1.College of Science,Shenyang University of Chemical Technology,Shenyang,Liaoning 110142,China;2.College of Information Engineering,Shenyang University of Chemical Technology,Shenyang,Liaoning 110142,China)Abstract:Aiming at the problem of low fault detection rate of multi-modal dynamic process by support vector data description (SVDD) method,a fault detection method based on dynamic SVDD based on double local neighborhood standardization (DLNS-DSVDD) wasproposed.Firstly,the DLNS method was used to standardize samples to generate a standard data set.Secondly,the dynamic method was used to construct the standard data set into a dynamic matrix.Finally,the SVDD method was used to establish statistics based on spatial distance for fault detection,and the DLNS-DSVDD method was used to simulate a numerical example and the Tennessee-Eastman (TE) process,which was compared with the traditional method.The results show that the DLNS-DSVDD method has a higher fault detection rate on the premise of lower false alarm rate.The average false alarm rate is 2.2%,which is 2.1% lower than that of the SVDD method,and the average fault detection rate is 88.2%,which is 38.5% higher than the SVDD method.It is proved that the method proposed in this paper can effectively monitor the chemical production process with multi-modal dynamic characteristics.The DLNS-DSVDD method can effectively eliminate the multi-modal structure of the data and accurately capture the dynamic information in the sample,which provides a reference for improving the fault detection performance of the SVDD method in the multi-modal dynamic process.Keywords:other disciplines of automatic control technology;fault detection;support vector data description;double local neighborhood standardization;dynamic matrix;dynamic characteristics;multi-modal characteristics随着现代工业过程的快速发展,企业对系统安全提出了更高的要求。

主成分分析、因子分析、聚类分析的比较与应用

主成分分析、因子分析、聚类分析的比较与应用

主成分分析、因子分析、聚类分析的比较与应用一、本文概述在数据分析与统计学的广阔领域中,主成分分析(PCA)、因子分析(FA)和聚类分析(CA)是三种重要的数据分析工具。

它们各自具有独特的功能和应用领域,对数据的理解和解释提供了不同的视角。

本文将对这三种分析方法进行详细的比较,并探讨它们在各种实际场景中的应用。

我们将对每种分析方法进行简要的介绍,包括其基本原理、数学模型以及主要的应用场景。

然后,我们将详细比较这三种分析方法在数据降维、变量解释以及数据分类等方面的优势和劣势。

主成分分析(PCA)是一种常见的数据降维技术,通过找出数据中的主要变量(即主成分),可以在保留数据大部分信息的同时降低数据的维度。

因子分析(FA)则是一种通过寻找潜在因子来解释数据变量之间关系的方法,它在心理学、社会学等领域有着广泛的应用。

聚类分析(CA)则是一种无监督学习方法,通过将数据点划分为不同的类别,揭示数据的内在结构和分布。

接下来,我们将通过几个具体的案例,展示这三种分析方法在实际问题中的应用。

这些案例将涵盖不同的领域,如社会科学、生物医学、商业分析等,以展示这些方法的多样性和实用性。

我们将对全文进行总结,并提出未来研究方向。

通过本文的比较和应用研究,我们希望能为读者提供一个全面、深入的理解这三种重要数据分析方法的视角,同时也为实际问题的解决提供一些有益的启示。

二、主成分分析(PCA)主成分分析(Principal Component Analysis,简称PCA)是一种常用的数据分析方法,它旨在通过正交变换将原始数据转换为一组线性不相关的变量,即主成分。

这些主成分按照方差大小进行排序,第一个主成分具有最大的方差,后续主成分方差依次递减。

通过这种方式,PCA可以在保持数据主要特征的同时降低数据的维度,简化数据结构,便于进一步的分析和可视化。

PCA的核心思想是数据降维,它通过计算协方差矩阵的特征值和特征向量来实现。

特征值代表了各个主成分的方差大小,而特征向量则构成了转换矩阵,用于将原始数据转换为主成分。

05实验五地理要素主成分分析

05实验五地理要素主成分分析

05实验五地理要素主成分分析实验五地理要素主成分分析一、实验目的1. 掌握地理要素主成分分析的原理;2. 掌握地理要素主成分分析分析的方法和步骤;3. 掌握地理系统聚类分析的方法和步骤。

二、仪器设备(及耗材)1. 给定的地理数据2. 电子计算机3. Excel软件4.DPS统计软件三、简述原理地理要素主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法,它可以简化所研究的地理系统。

主成分通常是取原指标的线性组合,要求主成分之间相互独立,并能够最大程度地反映原指标所包含的信息。

一般是利用原始数据标准化后的方差、协方差矩阵,对其求特征值、特征向量得到主成分。

而聚类分析是根据地理要素的属性或特征的相似性、亲疏程度,用数学的方法把它们逐步地分型划类,最终得到一个分类系统。

四、实验步骤1. 对原始数据进行标准化处理;2. 利用计算机软件对标准化后的数据进行主成分分析;3. 利用系统聚类法对给定的地理要素进行聚类分析。

五、结果及分析通过实验进行地理要素的主成分分析及聚类分析,完成如下内容:1.附录1的地理要素的标准化后的方差-协方差矩阵;2. 附录1的地理要素主成分表达式(累积贡献率达90%即可)、各样本主成分得分表;3.附录2的各样本地理要素的欧氏距离系数表;4. 附录2的各样本最短距离法的聚类分析的联结表和聚类图。

六、附录1.在上海市宝山、吴淞地区的环境质量综合评价中,对20个监测点的大气、地面水和土壤要素进行监测,得到一组实测资料如下表,试对其进行主成分分析。

表1上海市宝山、吴淞地区环境要素超标倍数2.根据下表的火成岩的氧化物含量进行聚类分析,并作出聚类图。

基于主成分分析的地球物理数据处理与解释

基于主成分分析的地球物理数据处理与解释

基于主成分分析的地球物理数据处理与解释地球物理是一种通过观察地球内部或表层的物理特性,来研究地球结构,探测地下资源和研究地球变化的学科。

地球物理数据处理和解释是该领域的重要研究内容之一,并且随着计算机技术和数学工具的发展,基于主成分分析的方法在地球物理数据处理与解释上得到了广泛应用。

一、主成分分析的基本思想主成分分析(PCA)是一种非常常见的数据降维方法,其基本思想是将具有多个变量的数据转换成一组线性无关的变量。

在这些变量中,第一个成分解释的方差最大,第二个成分解释的方差次大,以此类推。

这些成分就被称为主成分,它们是原始数据转换后的新的变量。

主成分分析的好处在于可以减少变量的数量,以便更好地理解数据的特性。

在地球物理数据处理中,PCA可以用于降噪,提取信号以及探测地下结构。

二、基于主成分分析的地球物理数据处理1. 地震数据处理地震勘探是通过模拟人工地震波来研究地层结构,探测地下资源的一种方法。

在处理地震数据时,噪声是一个常见的问题。

基于主成分分析的方法可以用来降噪。

首先,我们可以将每个地震道看作是一个变量,并将地震数据矩阵做主成分分析。

由于主成分是线性无关的,我们可以删除低方差的成分(对应噪声),只保留高方差的成分(对应信号),然后重构数据矩阵,以便减少噪音。

这种方法已经成功应用于地震数据降噪和信号提取。

2. 电磁数据处理电磁勘探是通过测量电场和磁场来研究地层结构和探测地下资源的一种方法。

在处理电磁数据时,信号弱,噪声强,噪声通常包括电源、仪器和环境噪声,影响数据质量和解释。

基于主成分分析的方法可以用于电磁数据降噪和解释。

首先,我们将电磁数据矩阵做主成分分析。

然后,我们保存前几个成分,并扔掉方差很小的成分,这个方法也被称为主成分截断。

最后,我们通过重构数据矩阵,以获得更好的数据质量和解释。

三、基于主成分分析的地球物理数据解释在地球物理数据解释中,我们通常需要对数据进行分类、变换和分析。

基于主成分分析的方法可以帮助我们对数据进行分类和分析。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中图分类号: TP391
文献标识码: A
Abstract: Feature extraction, which is a key step in data analysis such as classification, clustering and so on, has an important impact on the results. Principal component analysis is a simple linear transformation technique and can not build the non -linear relationship among data. The kernel principal component analysis is proposed based on kernel function. In some cases euclidean distance as the similarity measure can not extract the essential feature of the data. In the paper the geodesic distance is introduced as the similarity measure in kernel principal component analysis. Simulation data and Tennessee Eastman process data are used for model validation, as a result the proposed method has better performance on feature extraction, compared with the traditional kernel principal component analysis. Key words: Geodesic Distance; Kernel Principal Component Analysis; Feature Extraction; Data Analysis
上述四种核函数中 R,d,σ, , 均为相应的核参数。上述
四种常用核函数中以高斯核函数最为常用。
4.2 测地距离高斯核函数
高斯核函数

表示相应的
技 两个向量的欧式距离,而在某些情况下,用欧式距离作为相似性
度量难以有效表示数据间的差异性, 本文利用测地距离代替欧
术 式距离作为相似性度量方式, 用第 3 节中的测地距离来代替欧
本文利用正常情况下的 100 个数据和第 1、2 两种故障的 100 个数据分别建立了基于欧式距离的传统 KPCA 模型和基于 测地距离的 KPCA 模型,图 2(a)和(b)分别给出了两种模型提取 出的前三个成分的散点图, 从图中可以看到基于测地距离的高 斯核函数的 KPCA 可以更加有效地提取中不同类别数据间的 非线性关系,体现出基于测地距离核主成分析的优越性。
的田纳西-伊斯曼(Tennessee Eastman, TE)模型,由连续搅拌式反
(b) 基于测地距离 KPCA 前 3 个主成分图 图 2 TE 生产中传统和基于测地距离 KPCA 模型中
前 3 个主成分对比图 参考文献 [1]段建民译. 工业系统的故障检测与诊断[M]. 北京:机械工业出 版社,2003 [2]张杰,阳宪惠. 多变量统计过程控制[M]. 北京:化学工业出版 社,2000 [3]贺曼,陈莉.基于 PCA 及 SVM 对含能化合物结构性能预测[J]. 微计算机信息,2008,24(8-3):192-193 [4]曾庆鹏,吴水秀,王明文. 模式识别中的特征提取研究[J]. 微计 算机信息,2008,24(1-1):220-221 [5]F. Jia, E. B. Martin, A. J. Morris. Non -linear principal
(下转第 109 页)
- 124 - 360元 / 年 邮局订阅号:82-946
《现场总线技术应用 200 例》
您的论文得到两院院士关注
软件天地
电流内环才能起到快速调节电流的作用, 改善速度输出的平稳 性。电流、速度闭环控制系统的模型如图 2 所示。
图 2 电流、速度双闭环控制系统的控制模型 Fig.2 The model of current & velocity closed-loop control system
具体计算: 1) 根据观察数据 x 和邻域大小 k 构造局部空间上点间的
《P LC 技术应用 200 例》
邮局订阅号:82-946 360 元 / 年 - 123 -
软件天地
《微计算机信息》(测控自动化 )2010 年第 26 卷第 11-1 期
测地距离,即认为局部空间测地距离等于欧式距离,每个数据与 其 k 近邻点的距离等于欧式距离,否则为无穷大;
摘要: 特征 提 取 作 为 分 类 、聚 类 等 数 据 分 析 问 题 的 关 键 步 骤,对 结 果 产 生 重 要 的 影 响,常 用 的 主 成 分 分 析 方 法 作 为 线 性 方 法,
难以提取非线性特征,引入核函数后形成的核主成分分析方法,使用了欧式距离作为相似性度量,有时难以有效提取数据的
您的论文得到两院院士关注 文 章 编 号 :1008-0570(2010)11-1-0123-02
软件天地
基于测地距离的核主成分分析方法
Kernel Principal Component Analysis based on Geodesic Distance
(延安大学) 薛 宁 静
XUE Ning-jing
5 实验分析
5.1 仿真实验 仿真数据来源于两个不同类别,每个类别均有两个变量。第 一类数据来源于均值为 0,方差为 0.5 的高斯分布,第二类数据 来源于圆心为 0,半径为 3 的圆,外加方差为 0.1 的高斯白噪声。 分别选取每类数据 200 个样本, 利用传统的 KPCA 分析和基于 测地距离的 KPCA 分析,提取前两个成分,给出如图 1 所以的第 一、二成分的散点图,从图中可以看到基于测地距离的 KPCA 分 析可以更加有效地提取出两类样本的差异性, 只用第一主成分 即可以将两类样本分开, 而传统的 KPCA 分析必须选用两个主 成分才可以将两类样本清晰分类或聚类。
式距离


基于测地距离的核主成分分析即利用测地距离的高斯核
函数将原始数据映射到高维特征空间, 然后进行线性主成分
新 分析。
应釜、冷凝器、气液分离塔、气提塔和离心式压缩机等多个操作 单元组成,文献给出了其流程示意图和数据。TE 模型共有 52 个 变量,其中 11 个控制变量,41 个过程变量,冷凝器冷却水的入口 流量即为重要过程变量之一。实验分别测定了模型正常情况和 21 种故障形式情况下的过程数据。
由引入电流环后波动力矩引起的速度波动量如式 6 所示 (6)
2 仿真分析
为了验证电流环对力矩波动的抑制效果,电流、速度双闭环 仿真模型得出仿真结果。
将 系 统 输 入 信 号 设 定 为 0.1° /s, 力 矩 波 动 信 号 设 定 为 0.01sin(0.89t)的正弦信号,由式 4 可得电机波动力矩引起的速度 波动幅值为 0.02°/s。
向量,可认为是 F 空间中样本的线性组合,即:
(2)
式(1)两边左乘
得:
(3)
定义
的核矩阵
。将 K 代入
式(3),具体推导过程详见文献,可得:
(4)
其中,

则样本在 F 空间中第 k 个主成分 为:
(5)
3 测地距离
当两点非常近时,测地距离等于欧式距离,而对较远的点之 间的测地距离则根据近邻点之间测地距离的累加实现。
(a) 传统 KPCA 模型前 3 个主成分图
(a) 传统 KPCA 模型
(b) 基于测地距离 KPCA 模型
前 2 个主成分图
前 2 个主成分图
图 1 仿真数据中传统和基于测地距离 KPCA 模型中
前 2 个主成分对比图
5.2 TE 过程实验
1993 年美国 Eastman 化学公司建立了实际化工生产过程
技 术 创
1 引言

2 核主成分分析
现代工业生产的自动化,随着传感技术的发展,产生了大量 的过程数据,其中蕴含着丰富的产品质量信息。如何对这些数据 进行有效分析, 进而提高工程技术人员和操作人员对生产过程 的认识成为一个重要的研究课题。常用的对生产过程数据的分 类、聚类分析,可以进而实现对生产过程的监控、诊断和控制。而 特征提取作为数据分析的关键步骤,对结果产生重要的影响。
3 试验分析
根据仿真结果,本文最后通过试验验证了电流、速度闭环控 制方法对电机的力矩波动抑制效果, 以验证仿真数据的真实性 和合理性。
实际生产过程各工艺参数间存在着非线性关系, 主成分分 析 (Principal Component Analysis ,PCA) 和偏最小二乘法(Partial Least Squares, PLS)作为线性特征提取方法,难以有效提取非线 性关系。目前解决非线性数据关系的神经网络方法建立在经验 风险最小化的基础上,泛化能力较差,另外模型结构也较难确定, 需要解决复杂的非线性优化问题;而核函数方法,通过核函数将 原始空间的非线性问题转化为高维特征空间的线性问题, 而且 核函数方法建立在结构风险最小化基础上, 较好解决了模型泛 化能力问题,运算较简单。核主成分分析(Kernel Principal Com- ponent Analysis, KPCA)即是其中一种。
薛宁静: 讲师 硕士研究生
KPCA 的基本思想是将数据从输入空间映射到高维特征空
间,然后在特征空间利用线性主成分分析方法计算主成分。给定
N 个样本:
,由非线性函数 将输入数据从原
相关文档
最新文档