国外MATLAB文献已翻译
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
河北工业大学
毕业设计(论文)外文资料翻译
学院:
系(专业):
姓名:
学号:
外文出处:Pattern Recognition
附件:1.外文资料翻译译文;2.外文原
文。
ﻬ附件1:外文资料翻译译文
基于没有交集的主成分模型下的模式识别方法
化学计量学研究组,化学研究所,umea大学
摘要:通过独立的主成分建模方法对单独种类进行模式识别,这一方法我们已经进行了深刻的研究,主成分的模型说明了单一种类之内拟合所有的连续变量。
所以,假如数据充足的话,主成分模型的方法可以对指定的一组样品中存在的任何模式进行识别,另外,将每一种类中样品通过独立的主成分模型作出拟合,用这种简单的方式,可以提供有关这些变量作为单一变量的相关性。
这些试样中存在着“离群”,而且不同种类间也有“距离”。
我们应用经典的Fisher鸢尾花数据作为例证。
1介绍
对于挖掘和使用经验数据的规律性,已经在像化学和生物这样的学科中成为了首要考虑的因素。
在化学上一个经典的例子就是元素周期表。
当元素按渐增的原子质量排列时,化学元素特性上的规律以每8个为一个周期的出现。
相似的,生物学家也常按照植物和动物形态学上的规律才将其归类。
比如,植物的花朵和叶片的形状,动物两臂的长度和宽度以及动物不同的骨骼等等。
数据分析方法(通常叫做模式识别方法),特别的创制用以探知多维数据的规律性。
这种方法已在科学的各分支上得到了广泛的应用。
模式识别中的经典问题可系统的陈述如下:指定一些种类,每一类都被定义为一套样本,训练集和检验集,还有基于每组样本的M测度值,那么是否有可能基于原M值对新的样本作出分类呢?
我们提出解决这类或相关问题的许多方法,这些方法也由Kanal和另外一些人回顾过了。
在科学的分支中,比如化学和生物中,数据分析的范围往往比仅获得一组未分类数据广泛,通常上,数据分析的目的之一仍然可说是分类,但有时我们不能确定一个样本是否属于一未知的或未辨明的类别,我们希望不仅去辨别已知种类,还有未知种类。
还有一点很重要,数据分析方法不能过于强调种类间的区别,由于已使用的异变量的介入考虑,两或多种的区别是很小或不明显的。
第二,如果我们把一个物体按类比的方法看成某一种,我们其实关心的是物体的某种特性在此种类中的类比性,而某些特性又没有。
在化学中,类比模型有着理论上和实践上的重要性,而且可以看成是化学模式识别方法的早期应用。
第三,也许是最重要的一点,在化学和生物应用上,我们经常关心某个种类中数据的经验描述,以获取某种的经验模型,这个模型可以被用作解释和说明。
比如说,为了构建样本,用已知的合适的特性。
实际上,基于相似种类,亦即同一种类的样本的测度方式是可以得出一般模型的。
这些模型可以用来解决问题的一般分类和以及处理上面讨论的其他问题。
这些是后来证明本文是基于简单的泰勒展开式的模型推导。
由此产生的模型形式是主成分(PC)的模型。
只要在数据分析实验过程中一系列连续性假设可以得到满足,主成分分析模型可以用来描述基于单独一组样本的变量衡量,总模型由一组不相交集的主成分模型;一个模型对应每个类。
不相交集的主成分模型已由福永,渡边等人在模式识别中应用过。
由于Karhunen-loeve 扩展在模式识别方法的科学中常被称作主成分分析。
福永声望调查指出,当数据分析的单一的目的是分类,你可能想放弃模型拟合的方法,而使用组合的特征向量,以最大限度地分辨种类间区别。
福利和桑蒙就按照这种思路,他们的意思就是基于分类的单一目的,构建最优特征向量组合。
因此,模式识别的建模方法是不是最有效的分类方法。
有些方法是在牺牲效率的优势,获得各种类的实证模型,也在建模中防止各种类间的过于独立。
主成分分析方法有特别的优势,可以近似的类内任意连续的行为,此外,他们在测量空间的线条或超平面的表现形式,这使得他们很容易映射和可视。
本文的目的是在化学和生物学中使用了重点模式识别中的主成分分析方法的。
因此,在适应条款中从细节方面给出了陈述。
作为一个例证,该方法适用于Fisher鸢尾花数据。
2类模型在模式识别方面的框架
现有研究下模式识别方法的本质,承认这一事实,即根据定义在一个单一的独立的类的对象,存在某种相似的方式。
在此相似性的基础上,一个数学模型,是在相当一般的假设前提上得出。
在一个类描述了样本的行为,因此,总的数学模型,包括为每个类一个不相交的模型的集合。
通过对对象的观察“已知”分类(这些对象组成参考集合),在不同的相似性模型的参数估计(给定的数值)。
未分类的对象,根据这他们最适合模型去拟合所有的参数化类模型然后分类。
要知道存在这样的可能性,未分类的样本可能是一种新的,不适合以前的任何已知的类模型。
因此,模式识别由两部分框架组成:数据和通过这些数据“校准”相似类别。
2.1数据
这些数据包括测量变值(索引i)在一个样本组的数目(指数K)。
作为一个例子,我们将使用包涵150个样本的鸢尾花费雪的经典数据。
该测量量包括⑴萼片长度⑵萼片宽度⑶花瓣长度⑷花瓣宽度。
此外,我们认为样本必属于已给定的种类。
这些种类通常用对已知分类中对象的方法来确定。
这些对象构成的参考集,有时也被称为训练集(每类1套)。
例子中的种类有三种,我们认为所有鸢尾花都属于⑴山鸢尾⑵云芝鸢尾⑶维吉尼亚鸢尾这三类中。
基于当前的阐述,这些鸢尾花分为两部分,第一类25个样本为训练集和测试集为(后者25所假定为未知的分类)。
另见附表1和2。
,共同形成尺寸M * N的(图2)的观察矩阵Y。
在本文章这些数据表示为y
ik
中,这将是假设的矩阵Y完整,即所有的M个变量用以衡量全部N个对象。
这是没有必要的假设,然而,当数据丢失,模型也工作,另见第3节。
对一个M维向量形式的对象所作的观测,可以因此被看作是一个m维空间中的点代表,这里所谓的测量空间。
2.1.1转化数据。
理想情况下,变量应根据其相关加权考虑特定的分类问题。
然而,有关这方面的资料之前,很少可用。
然而,习惯上转化后的变量,都让他们平等的权重(等于方差),所谓数据标准化。
这可以对参考集的基础上或使用所有可用的数据实现。
在本例子中的4个变量的方差是相似的,但是,没有数据的标准化已经完成。
如果一个变量的值的分布是非常不均匀的,例如,大多数测量值比较小,但一些非常大,若采取对数化或平方根化观测值或使用其他特殊转换来修正,可能是不切实际的。
在目前这个例子来说,没有进行这样的转变。
2.2相似模型
目前的处理为每个单独的类定义一个单独的模型。
因此,让我们考虑一个n 个样本,按照定义,在某些方面是相似的单个类。
在每个对象,都对矩阵Y中数据
元素yik 测定了 M 的变量的值。
如果种类的样本是相同的,除了由于测量误差小偏差值eik 所有样本的变量i 的值是相同的。
因此,对于这个简单的例子,在一个类中的数据可通过模型描述。
公式一
然而,方程(1)往往是过于的简单.基本假设即在一个类的对象是如此相似,他们几乎是一致的,是实际上这种情况很少发生。
如果我们另外假设样本都稍有不同,第二个模型得到(见附录和导附录1。
1)。
公式二
最后,种类中样本之间的较大的变化,导致了相似模型(见附件)。
公式三
可以看出,所有三个模型(1-3)都分别被0,1和A标注作为主成分个数。
如果现在的对象来自一系列的种类(下标为q),这些数据因此可以由一个不相交的数量模型描述:
公式四
对应的单级模型(1),(2)及(3)分别令A q 为零,一个或更多. 让我们进一
步为每个类残余方差设定限制,σq2。
单一种类中模型1的几何表示,是一个以
σq 为半径的超球面测量空间领域(图3)。
这个简单的模型,事实上,是很多模式识别很的基础,两点之间的欧氏距离是两个相应样本之间的相异性表征,测量空间中几何模型的表示方式(2)是一个半径σq(图4)而且模型(3)由更高的容量表示。
该模型(4)是仅利用测量变量和样本之间的变化上假设的连续性获得的。
因此,只要这些假设能够实现,在一个类中的数据不论其结构可以被描述模型(3),如果条件足够所有主成分都包括在内。
因此,反过来,模型(4),只要该参考集的数据矩阵的维数足够大,允许我们对每组主成分结果做出估计,在Q类的数据会做出完整的描述。
这些特性使模型(4)成为在模式识别的应用中的理想模式,为了得到初步工作
(11.9) 1ik A
a ak ia i ik a y εθβ++=∑=
方法,没有太大必要知道每类的数据结构,没有什么必要知道各种类间的区别,为了达到接近最佳效率,然而,人们通常需要在类中,以验证为单峰这样的事情,研究样本量之间的关系和分类性能;参见佛利(18)和福永(Ref.13, Ch.5)的讨论。
在参考集中做完参数估计后,模型(4)给出基于对每类中的α,β和θ参数值方面的参数化结构。
这些值数就可以,除了以分类目的进行普通的使用,还可以用来讨论和解释种类结构,种类关系和结构的差异等。
2.2.1在模型中数据条款(A)
相似性模型(4)分别适应到每种类的训练集中.在做这一步前,我们必须以某种方式确定在每个种类中的数据维度。
在目前情况下,维数用样品的数目方程(4)中衡量,对于这个问题更广泛的讨论,读者可以参考福永(Ref.13.Ch.8和的A
q
10)和凯纳(Ref.1.SectionⅥ)。
图 Fig3 方程(1)分别描述的两个种类在二维测量空间中图 Fig.4方程(2)分别描述的三个种类在二维测量空间中。
为包含在该种类中,一个样本应落在与周围的代表类模型线宽2σq带中。
对于每个单独的种类,在实践中行之有效的现行模式的方法是使用交叉验证技术(24.25),做法如下:
(a)将样本分成T组,T大致为5至10组,每组应尽可能对于全体来说具有代表性,在
目前的例子中,与每个参考25集(表1) ,若分成8组,第一组包含样本1,9,17和25,第二组包含样本2,10和18日,第三组包含样本3,11和19等,直到第八组包含对象8,16和24。
(b)首先将第一组试样从训练集中除去,并设降维的数据矩阵为Y--,试样数为n-.
(c)对于Y--,应用前述单类主成分模型公式(3)去拟合。
拟合中依次令A=0,1,
2,…直到M-2或n—2,取决于二者中小者。
(参见下面2.2.2部分)。
(d)运用在(3)中建立的数学模型去拟合所除去的试样。
此步中,A=0,1,…,并且
α,β固定不变。
相应于每一A值,计算试样的偏差εik,由此得到这些偏差平方的。
加和Δ
A
(e)将所除去的那组试样重新放回数据阵Y。
(f)由数据阵Y中除去下一组试样,从而得到一新的降维数据阵Y--,回到步(e).若每一
组均被除去一次,则到第(7)步。
(g) 对于每一A 值,将ΔA 加和得到D A ,由(D A-1-D A)/n对D A /[n(M -A -1)]作
F 检验来判断A 的重要性,从而确定A 值。
也以此确定最后的主成分数是否具有显著性,这种方法与之前是完全一样,使用的F -测试,以确定在多项式回归(26)具有最终长远意义,它也取决于对独立观测间做出的相同的假设。
因此,交叉验证技术决定了样本的主成分A数,对每个种类来说,使模型(4)的预测能力相对于参考集最大化。
图5显示了这对鸢尾花数据分析技术的结果。
可以看出,所有三个类别的第一部分结果体现着更好的适应性,即数据比可以通过简单的距离相关模型(1)描述包含更多的结构。
对于类3第二个任期相对于边境的意义给出了更好的适应性。
因此,鸢尾花数据是由三个不相交的充分描述一个成分模型(方程4中的A = 1)。
第二主成分(A= 2)也许更能适合种类3。
2.2.2估计模型(4)的参数值。
在模型(4)可使用前,在新的对象分类中,例如,必须确定从该参考集的数据,为q = 1, 2, …,Q (Q =种类数)等于参数值i (q )
βia(q) an d δq 2, i =
1,2,...,M (M=变量个数),a = 1,2,...A q (Aq =种类q模型4中的成分
数)和k = 1,2,...,n q (nq = q th 参考集中的样本数)。
这相当于每个数据的参考集矩阵减去平均数αi (q )后得出的主成分估计。
这对应
于矩阵对角化的Z(q )Z (q)+,其中Z (q) 表示的矩阵,是由q t h参考集减去每个变量平均值αi(q).
Fig.5
我们可得到一些实用的方法,在目前的应用中,我更倾向于使用偏最小二乘法(NIPALS ),这种方法是一种同时逐一用迭代法计算与之相对应的特征向量的特征值的方法(至于数值的细节,参见Re fs .29.30)。
该方法的优点是使用交叉验证方法(2.2.1章节)可较好的实现联合,因为在最后的计算中,从先前利用作为初始值Y -矩阵计算出的特征值, 从而融合得非常快。
因此,βia ,θak 由矩阵Z (q )’Z(q )对角化,由参数值求得。
偏差εik (q )可由Z 值减去公式中β和θ的乘积项得到,则方差s o(q )2可由下式求得:
第一个求和的是在训练集中样本数(nq )做出的,第二个求和nq 在变量数目的(M )
)
11.11( )])(1/[()(112)(2)(0∑∑==---=g n k M i q q q q ik q A M A n S ε
做出的。
因此,为每种类的相似度计算模型(4)通过训练集中的数据被“校正”。
在校正模型可以用于确定新样本的分类和其他下面问题上。
表3给出鸢尾花结果参数,以一个主成分将1号和3号变量投影到平面上,如图6所示。
由于系数矩阵的特征向量性质,它们很容易理解。
该α
i
(q)的值仅仅是第i个变量为q种类的均值。
β-向量相互正交,因此是所有θ-向量在每个种类间,具有零均值。
因此,β-变量表示围绕种类间均值相应的变量的变化。
为了使该参数的数值更容易解释,有时,特别是当许多组分都需要用来描述在同一个种类中的数据,由单一矩阵旋转乘法β-和θ-矩阵(分别是M*A和A*M维数),是有必要的。
这在目前的例子还没做,有关详细信息,读者可以参考关于因子分析的标准文献。
在鸢尾花的例子中,其中所有的变量是长度或宽度时,第一个θ向量表达了相应的个体样以及第一个β向量在相应变量的大小在组内变化时的“比率”。
Table 3(a).
Table 3(b).
我们可以看到[表3(b),底部],第三组中的数据在大小的变化上几乎是两倍于
第一组的。
在第三组中,在两倍大小的增萼片长度(β
11(3))和花瓣长度β
31
(3)加
倍,而在种类一,花瓣长度和宽度的大小几乎是独立的(β
31(1)andβ
41
(3))。
由于这不适合做一个Fisher的数据的详细解释,我将不进一步讨论这些结果,给出的例子是足以说明在一类的参数中如何给出一个“种类结构”的量化情况。
2.2.3一个参考集内θ值的分布。
对于参数集的每个样本,由参考集(类q)的数据矩阵对应的模型(4),给出了
参数值θ
ak (q),如果我们希望,这些值可以用来确定每个θ
a
(q) 的区域;为了使未
分类的样本是作为种类内成员,较小的残余方差(种类内相同的顺序,方程5)应在可以接受的区域内随着相关参数取得。
然而,以这种方式进行一个新的样本的分类将变得更复杂,此外,这个程序大多数应用中是不必要的。
我推荐,根据2.2.4的拟合,得到简单控制后参数值(c
a
)。
在将未分类鸢尾花数据(见下文)分成3类的模型中,一个参数值(C
a
)落在
相应范围加上或减去标准差[参见Tabl e 3(b )底部]之外被标示为“异类数”(见表2)。
当,比如,3个种类(见表2)中,这种“异类数”的样本34的衡量标准有12个值。
Fig.6.
2.2.4将未分类样本按模型(4)拟合
相似模型,包括参数的值,如上所述,完全由种类间训练集数据矩阵确定。
如果之后想尝试检验特定的对象(指数P)符合本类的程度,程序如下:
(a) 比如说y ip , 将样本的测量值向具有相同样本数和相同参数值αi (q) and βi (q)的模
型 (4) 拟合,它们都是从第 2.2.2节中的“校准模型”得到的。
这种拟合对应简单的多元线性回归,即zi = yip -αi (q ) , zi 和βia (q); a=1, 2, … , Aq
作为独立变量。
公式六
(b)偏差εip 的方差表征试样p 拟合种类q好坏:
公式七
如果s p (q)2远远大于(F 检验)参考集得出的标准偏差(公式5),那么样本p 不属
于q 组,可以看出,有可能一个样本是属于多个划分类别的,在这种情况下观察到的数据不足以唯一确定样本的所属种类,也有可能发现样本是不属于任何的种类的,它是一种新型的样本。
在鸢尾花的例子,每组取出25个个体构成一个“测试”总体,这75个个体中任一个剩余差额(方程7),连同一个线性判别分析的相应结果,列于表二。
可以看出,目前的方法与其他方法相比毫不逊色; 在分析中仅依靠一或两个主成分,用目前方法75个总体中71或者73能够正确分类,其他两种方法只能分出70个。
如果所有150个个体进行分类,目前的分别使用一或两个主成分分类方法,能正确分出145和147个,相较于其他两种方法的145和141。
)(1)()(q ip
A a q ia a i q i ip g c Z a Y εβ+==-∑=(11.12)
)/()(122)(∑=-=M
i q ip q p A M S ε
2.3 两类间相似度—非相似度测量
通过用参考集r 中的所有试样去拟合类q 校正模型,反之亦然,则可得到类间的相似度测量值,根据方程(8)得出的方差与按公式(5)得出值比较,可得到定量对比值。
在方程(8)中的偏差(εik )通过把参考集r中对象向类q的相似性模型拟合计算得出。
方差s(q,r)2类似地通过改变指数r 到q获得,反之亦然。
从鸢尾花数据得出的方差值见表4。
可以看出,无论是A = 1还是A = 2,都能很好的分离成3类。
这两种情况之间最近的距离是2和3类(2,3和3,2矩阵元素)。
第二个主成分包含的结果使得第2和第3种类之间的距离略大些。
2.4 变量相关性
如果变量数(M)是3或者更大,我们可以通过比较s y,i 2 和以下 s e,i 2的大小差异获得每个变量的解释能力;也就是说,每个变量的残余方差与原始数据方差相比。
如果数据已被自动缩放,后者方差(式9)对所有变量i 来说是相同的。
公式9 10 11
残余方差和变量i(式12)数据方差的之间的比例是越小的,变量i 具有越大的解释力。
因此,1- U i是一个第i 变量的相关性的衡量水平;相关性越密切,而
且接近零,就具有越小的相关性。
(11.13) )](/[)(112)()(2),(∑∑==-=g n k M i g r q ik q r A M n S ε
()∑∑∑==--=
Q q n k q
q i q ik i y g n y y S 112)(2,(11.14) ]1)(/[∑∑∑
===
q q Q
q n k q ik i n y y g /11)((11.15) )1(/)(112)(2,∑∑∑--===q q q Q
q n k q ik i A n S g εε
公式12
表5显示了基于鸢尾花例子计算的参考集中每个变量残差和数据相关性。
我们可以看出主成分变量1和3的相关性优于变量2和4的。
另一种方法来衡量一个变量的相关性是研究其差异性的大小。
对于一个给定的变量i,我们可以,比较在参考集的所有对象都拟合在除去自己其他所有类别所得变量(1)的残差,和相同的对象拟合他们组得到的变量(2)残差。
两者的残差的比率将给出多大程度上“正确”和“不正确”的分类。
在这,我们将eikr(q)表示拟合属于种类下标为k 的样本后得到的残差,我们得
到Q-1组中每组的s not-class 2中的总和,总和值在右侧除以(Q - 1)以修正。
鸢尾花
数据的方程13值如表5所示。
我们可以看出对于主成分1第三变量在差异性大小上更为重要,而对于主成分2变量的差异性都差不多。
Tabl e 4 5
表5。
鸢尾花数据变量的相关性的衡量。
第一行(1-U i )表示了类内的变量的重
要性(见公式12)。
第二行,s not -clas s2/si n-class 2,衡量了类间参与分类变量的差异
性程度(见公式13)
公式13.
2.5参考集中的样本控制度
就像研究变量相关性那样,我们用同样的方式,通过对比每个变量数据的残差做出研究,变量相关性可以通过比较每个对象(式7)的残差和整体类的残差用(F-te st)来比较 (式5) ,样本残余的方差越小,其相关性越大,鸢尾花例子参考集中每个对象的残余方差如表1所示。
我们可以看出在参考集的对象都没有一个具有反常地高的方差;我们没有必要剔除任何“异类”。
2.6 选择
应该指出的是, 上面讨论的变量和物体典型性的处理是介于主成分分析的种类框架。
一般熵方法以处理同样的问题为基础。
这些方法由Wong 等人研究和完善。
他们也给出了其他方法的参考方式,当建模方法应用不够有效时,熵方法是很有吸
2)(0
2)(/q q p S S F
引力的,比如数据是离散或定性的。
2.7 现有程序总结
处理模式识别问题的方法,我建议下列步骤:
1 通过分别为参照组绘制直方图衡量组内各变量的贡献率,非常偏斜的布应该改正,例如,采取将变量中观测值对数化的方法。
2 数据标准化,以使所有种类中每一变量得到均值是零且方差为一的结果。
3 通过交叉验证(第2.2.1部分,例子Fig.5),估计用方程式4需要多少主成分数(Aq)来充分地描述每类参考集.如果,存在多于一类间最优主成分数不同,然后在下面步骤使用这些“最优的” Aq值。
如果在鸢尾花数据中Aq值都是相同的,对于一类使用同一值。
4 用参考集中Aq值分别拟合的主成分模型(式4)。
这给出每类的参量α β和θ的值(a=1,Aq) (第2.2.2部分例子在表3)
5 由线性回归方法,用在第四步中固定得到的α和β值将参考集的所有对象向所有类模型拟合.残差将提供关于类间“距离的”信息(第2.3部分,例子在表4),变量的“相关性” (第2.4部分,例子在表5)和在参考集对象之中的可能异类值 (第2.5部分)。
6 将测试集中的所有对象 (未分类的对象) 由线性回归方法向所有类模型拟合,再在第5.步固定的参量α和β
7 每个对象的残余方差将提供关于其自身“最接近的类的”信息,以衡量这最接近的类是否是足够接近其属于能将分类的对象那类,并且衡量相对于次接近的种类,是否明显接近现种类(第2.2.4部分,例子在表2)
如果他们落在每个种类(第2.2.3部分) “正常”的区间,我们可以看到每个对象和种类回归系数Ca(方程6),如果他们没有,这是不匹配的征兆。
分析这样结束。
自然地,在实际案例中,我们由例如转换这样的周期指示量得出结果, 下来的周期,排除或包含变量,删除对象参考集中等在接。
在模式识别中,每次分析特定问题时都需要回答这类问题。
但是难在当前上下文概括地说谈论。
因此,该方案是"标准程序”, 并且在实际应用上,方案上和步骤上期望并且努力得到偏差。
3讨论
在独立的对象,完全分开级别模型,它可能会得到一个非常简单的方法仍然
强大和模式识别方法。
事实上,它是可能的,能充分代表任何数据(如果这几个假设是实现由主分量模型)和一些条款,本方法相当普遍适用的。
(一)该观测对象的数据的可以被认为是来自一个持续两个向量变量函数,(二) 参考集中变量和对象的数量足以“运作”主成分的型。
后者的假设是,以相关形式对所有形式的数据分析方法。
它符合这一假定,参考集数据是对实际的种类结构具有充分代表性的;如果这一假定不满足,任何方法分析数据将会失败。
关于数据“连续性的”第一个假定似乎很合理的应用在自然科学的许多领域,但不会满足于数据的“肯定否定”模型。
包括的这样数据到现时方法里未被尝试,但可能会因此产生的特殊问题。
为了得到一个近的优选地高效率的分类方法,然而,数据包含的更多信息应该得到最大程度的应用,就像由Fukunaga(14)和Foley等(18) 设计的方法那样。
本方法不能直接使用信息,因为不同参考集对象着实是不同的, 因此,区别类之间的分离不被夸大。
新种类要被引用到我们之前分析过的问题时,这种分离方法的特色是被采用。
原模型不需要被重估。
我们只需要分析这些数据的新的种类,并适合的新的种类到原模型。
事实上,目前的方法能直接对矩阵的原始数据快速地进行计算,没有什么储存要求。
不需要被计算和存放与NxN (N-1) /2的距离矩阵元素。
用于当前方法的模型,即等式(4)与Snee用于分析形状的模型非常相似.这表明没有交集的主成分可能还在模式识别的更经典领域的有更好的应用,例如识别手写书面字符,应用中的变量应该能使这样的连续性假得到很好的满足,例如各种各样的字符的横断面的长度。
Kowalski等人将现时方法运用到油脂数据.并且发现结果很好。
另外,当前相似性模型(式4中A =1)的也用于模式识别(群簇分析)的应用,其中气相色谱分析柱填充剂(N=226)根据他们经验主义的相似性(10个变量)可以被分组。
主成分分析方法通常适用之前,有几个问题是有待解决的,最为重要的是失踪的数据。
也就是说,参考集和测试集数据矩阵是不完整的.由Christoffersson已经提出的单一成分模型的估值程序,有可能扩展到两个成分模型(式4中A =2)。
在我们的实验室,模式识别方法的开发基于在没有交集的种类模型间这。