国外MATLAB文献已翻译
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
河北工业大学
毕业设计(论文)外文资料翻译
学院:
系(专业):
姓名:
学号:
外文出处:Pattern Recognition
附件:1.外文资料翻译译文;2.外文原
文。
ﻬ附件1:外文资料翻译译文
基于没有交集的主成分模型下的模式识别方法
化学计量学研究组,化学研究所,umea大学
摘要:通过独立的主成分建模方法对单独种类进行模式识别,这一方法我们已经进行了深刻的研究,主成分的模型说明了单一种类之内拟合所有的连续变量。所以,假如数据充足的话,主成分模型的方法可以对指定的一组样品中存在的任何模式进行识别,另外,将每一种类中样品通过独立的主成分模型作出拟合,用这种简单的方式,可以提供有关这些变量作为单一变量的相关性。这些试样中存在着“离群”,而且不同种类间也有“距离”。我们应用经典的Fisher鸢尾花数据作为例证。
1介绍
对于挖掘和使用经验数据的规律性,已经在像化学和生物这样的学科中成为了首要考虑的因素。在化学上一个经典的例子就是元素周期表。当元素按渐增的原子质量排列时,化学元素特性上的规律以每8个为一个周期的出现。相似的,生物学家也常按照植物和动物形态学上的规律才将其归类。比如,植物的花朵和叶片的形状,动物两臂的长度和宽度以及动物不同的骨骼等等。
数据分析方法(通常叫做模式识别方法),特别的创制用以探知多维数据的规律性。这种方法已在科学的各分支上得到了广泛的应用。模式识别中的经典问题可系统的陈述如下:指定一些种类,每一类都被定义为一套样本,训练集和检验集,还有基于每组样本的M测度值,那么是否有可能基于原M值对新的样本作出分类呢?
我们提出解决这类或相关问题的许多方法,这些方法也由Kanal和另外一些人回顾过了。
在科学的分支中,比如化学和生物中,数据分析的范围往往比仅获得一组未分类数据广泛,通常上,数据分析的目的之一仍然可说是分类,但有时我们不能确定一个样本是否属于一未知的或未辨明的类别,我们希望不仅去辨别已知种类,还有未知种类。还有一点很重要,数据分析方法不能过于强调种类间的区别,由于已使用的异变量的介入考虑,两或多种的区别是很小或不明显的。
第二,如果我们把一个物体按类比的方法看成某一种,我们其实关心的是物体的某种特性在此种类中的类比性,而某些特性又没有。在化学中,类比模型有着理论上和实践上的重要性,而且可以看成是化学模式识别方法的早期应用。
第三,也许是最重要的一点,在化学和生物应用上,我们经常关心某个种类中数据的经验描述,以获取某种的经验模型,这个模型可以被用作解释和说明。比如说,为了构建样本,用已知的合适的特性。
实际上,基于相似种类,亦即同一种类的样本的测度方式是可以得出一般模型的。这些模型可以用来解决问题的一般分类和以及处理上面讨论的其他问题。这些是后来证明本文是基于简单的泰勒展开式的模型推导。由此产生的模型形式是主成分(PC)的模型。只要在数据分析实验过程中一系列连续性假设可以得到满足,主成分分析模型可以用来描述基于单独一组样本的变量衡量,总模型由一组不相交集的主成分模型;一个模型对应每个类。
不相交集的主成分模型已由福永,渡边等人在模式识别中应用过。由于Karhunen-loeve 扩展在模式识别方法的科学中常被称作主成分分析。福永声望调查指出,当数据分析的单一的目的是分类,你可能想放弃模型拟合的方法,而使用组合的特征向量,以最大限度地分辨种类间区别。福利和桑蒙就按照这种思路,他们的意思就是基于分类的单一目的,构建最优特征向量组合。
因此,模式识别的建模方法是不是最有效的分类方法。有些方法是在牺牲效率的优势,获得各种类的实证模型,也在建模中防止各种类间的过于独立。主成分分析方法有特别的优势,可以近似的类内任意连续的行为,此外,他们在测量空间的线条或超平面的表现形式,这使得他们很容易映射和可视。
本文的目的是在化学和生物学中使用了重点模式识别中的主成分分析方法的。因此,在适应条款中从细节方面给出了陈述。作为一个例证,该方法适用于Fisher鸢尾花数据。
2类模型在模式识别方面的框架
现有研究下模式识别方法的本质,承认这一事实,即根据定义在一个单一的独立的类的对象,存在某种相似的方式。在此相似性的基础上,一个数学模型,是在相当一般的假设前提上得出。在一个类描述了样本的行为,因此,总的数学模型,包括为每个类一个不相交的模型的集合。通过对对象的观察“已知”分类(这些对象组成参考集合),在不同的相似性模型的参数估计(给定的数值)。
未分类的对象,根据这他们最适合模型去拟合所有的参数化类模型然后分类。要知道存在这样的可能性,未分类的样本可能是一种新的,不适合以前的任何已知的类模型。
因此,模式识别由两部分框架组成:数据和通过这些数据“校准”相似类别。
2.1数据
这些数据包括测量变值(索引i)在一个样本组的数目(指数K)。作为一个例子,我们将使用包涵150个样本的鸢尾花费雪的经典数据。该测量量包括⑴萼片长度⑵萼片宽度⑶花瓣长度⑷花瓣宽度。此外,我们认为样本必属于已给定的种类。这些种类通常用对已知分类中对象的方法来确定。这些对象构成的参考集,有时也被称为训练集(每类1套)。例子中的种类有三种,我们认为所有鸢尾花都属于⑴山鸢尾⑵云芝鸢尾⑶维吉尼亚鸢尾这三类中。基于当前的阐述,这些鸢尾花分为两部分,第一类25个样本为训练集和测试集为(后者25所假定为未知的分类)。另见附表1和2。
,共同形成尺寸M * N的(图2)的观察矩阵Y。在本文章这些数据表示为y
ik
中,这将是假设的矩阵Y完整,即所有的M个变量用以衡量全部N个对象。这是没有必要的假设,然而,当数据丢失,模型也工作,另见第3节。
对一个M维向量形式的对象所作的观测,可以因此被看作是一个m维空间中的点代表,这里所谓的测量空间。
2.1.1转化数据。
理想情况下,变量应根据其相关加权考虑特定的分类问题。然而,有关这方面的资料之前,很少可用。然而,习惯上转化后的变量,都让他们平等的权重(等于方差),所谓数据标准化。这可以对参考集的基础上或使用所有可用的数据实现。在本例子中的4个变量的方差是相似的,但是,没有数据的标准化已经完成。
如果一个变量的值的分布是非常不均匀的,例如,大多数测量值比较小,但一些非常大,若采取对数化或平方根化观测值或使用其他特殊转换来修正,可能是不切实际的。在目前这个例子来说,没有进行这样的转变。
2.2相似模型
目前的处理为每个单独的类定义一个单独的模型。因此,让我们考虑一个n 个样本,按照定义,在某些方面是相似的单个类。在每个对象,都对矩阵Y中数据