模式识别与机器学习思考题及参考答案

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

模式识别与机器学习期末考查

思考题

1：简述模式识别与机器学习研究的共同问题和各自的研究侧重点。

机器学习是研究让机器（计算机）从经验和数据获得知识或提高自身能力的科学。

机器学习和模式识别是分别从计算机科学和工程的角度发展起来的。然而近年来，由于它们关心的很多共同问题（分类、聚类、特征选择、信息融合等），这两个领域的界限越来越模糊。机器学习和模式识别的理论和方法可用来解决很多机器感知和信息处理的问题，其中包括图像/视频分析、（文本、语音、印刷、手写）文档分析、信息检索和网络搜索等。近年来，机器学习和模式识别的研究吸引了越来越多的研究者，理论和方法的进步促进了工程应用中识别性能的明显提高。

机器学习：要使计算机具有知识一般有两种方法；一种是由知识工程师将有关的知识归纳、整理，并且表示为计算机可以接受、处理的方式输入计算机。另一种是使计算机本身有获得知识的能力，它可以学习人类已有的知识，并且在实践过程中不总结、完善，这种方式称为机器学习。机器学习的研究，主要在以下三个方面进行：一是研究人类学习的机理、人脑思维的过程；和机器学习的方法；以及建立针对具体任务的学习系统。机器学习的研究是在信息科学、脑科学、神经心理学、逻辑学、模糊数学等多种学科基础上的。依赖于这些学科而共同发展。目前已经取得很大的进展，但还没有能完全解决问题。

模式识别：模式识别是研究如何使机器具有感知能力，主要研究视觉模式和听觉模式的识别。如识别物体、地形、图像、字体（如签字）等。在日常生活各方面以及军事上都有广大的用途。近年来迅速发展起来应用模糊数学模式、人工神经网络模式的方法逐渐取代传统的用统计模式和结构模式的识别方法。特别神经网络方法在模式识别中取得较大进展。理解自然语言计算机如能“听懂”人的语言（如汉语、英语等），便可以直接用口语操作计算机，这将给人们带来极大的便利。计算机理解自然语言的研究有以下三个目标：一是计算机能正确理解人类的自然语言输入的信息，并能正确答复（或响应）输入的信息。二是计算机对输入的信息能产生相应的摘要，而且复述输入的内容。三是计算机能把输入的自然语言翻译成要求的另一种语言，如将汉语译成英语或将英语译成汉语等。目前，研究计算机进行文字或语言的自动翻译，人们作了大量的尝试，还没有找到最佳的方法，有待于更进一步深入探索。机器学习今后主要的研究方向如下：

1)人类学习机制的研究；

2)发展和完善现有学习方法，建立实用的学习系统，特别是开展多种学习方法协同工作的集成化系统的研究；通过多个现有的具体例子进行分析，归纳为更一般的概念.机器学习所关注的一个根本问题是如何提高学习系统的泛化能力，或者说

是机器在数据中发现的模式怎样才能具有良好的推广能力.机器学习的研究主旨是使用计算机模拟人类的学习活动，它是研究计算机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法。

模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。模式识别的研究的内容是指利用计算机对要分析的客观事物与标准模板的通过某种模式算法，对其进行分类，在错误概率最小的条件，使识别到的结果最接近于待识别的客观事实。先用一定数量的样本，根据它们之间的相似性进行分类器设计，而后用所设计的分类器对待识别的样本进行分类决策．目前模式识别的主要研究的是提取目标的运动特征，或在此基础上进行对目标的整体的运动轨迹进行研究，

2：列出在模式识别与机器学习中的常用算法及其优缺点。

1.k-近邻法

近邻法是一种最简单的非参数模式识别方法中的模式匹配法,它主要依据样本间的多维空间距离来实现分类.

令Dn={x1,x2,…,xn},其中,每一个样本所属的类别均已知.

对于测试样本点x,分类是，在集合Dn中与每个模板进行一一比较，将距离最近的点标记为x'.那么,近邻法就是把点x分为x'所属类别.

（1）优点：算法简单，易于理解和分析，分类效果好。

（2）缺点：大样本的计算量大，存储所有样本需较大容量，样本小时误差难控制。

2. 贝叶斯决策法

贝叶斯决策法是基于概率统计的基本的判别函数分类法。

（1）贝叶斯决策优点：算法简单，易于理解和分析，其基本概念被众多的先进决策算法运用，判断结果较精确。

（2）贝叶斯决策的主要的缺陷：在采用贝叶斯算法之前，要事先收集一定数量的符合实际情况的样本，这样才能较精确得出先验概率和条件概率。且在实际生活中，决策表是很难确定的，计算所需要的损失差数，往往是根据多位专家根据实际具体问题，共同其错误的决策造成的损失的严重程度来大概确立的。

3. 逆向传播神经网络

其算法在应用中的缺点主要如下：

算法的稳定性与学效率成反比。

还没找到某一明确的规则确定学效率的大小，尤其相对于非线性网络来说，学效率的选择更是一个难题。

训练过程也可能陷入局部最小，可以通过变换初始值进行多次训练来决绝这个问题，但又增加了计算的负担。

没有有效的方法可以确定网络层数，太多或太少都会影响系统的性能。

收敛于局部极小的较早收敛问题尚未解决

主要的优点如下：

每个神经元的运算功能十分简单。

各神经元之间是并行结构互使得其具有高速处理能力。

在神经网络中，知识与信息的存储表现为神经元之间分布式的物理联系，知识存储容量很大。网状结构似的整个系统的工作不会因为个别的神经元的损失而大大降低系统性能。

它可以实现输入和输出数据之间的非线性映射.

4. 遗传算法

遗传算法的优点

①遗传算法解决了传统优化算法容易误入局部最优解的缺点，不用单值迭代，而是从解集合进行搜索，利于全局择优。

②遗传算法需要的参数少，容易形成通用算法程序。

③遗传算法有极强的容错能力，遗传算法的初始串集本身就带有大量与最优解甚远的信息；该算法具有收敛性，通过选择、交叉、变异操作能迅速排除与最优解相差极大的串。

④遗传算法是采用随机方法进行最优解搜索，选择体现了向最优解迫近，交叉体现了最优解的产生，变异体现了全局最优解的复盖。

力称为隐含并行性(Implicit Parallelism)。它说明遗传算法其内在具有并行处理的特质。

遗传算法的缺点

遗传算法虽然可以在多种领域都有实际应用，并且也展示了它潜力和宽广前景；遗传算法还