模式识别(入门)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
2011/9/20
课程作业要求
课程作业应该在截止日期之前完成并提交,迟交的 课程作业将降低相应的分数; 课程作业的文件格式应该为DOC或PDF文件; 编程语言使用MATLAB或C语言,可执行文件格式为 EXE文件,提交时以压缩文件格式(包括必要的数 据文件)提供。 课程作业必须独立完成,鼓励同学之间互相讨论。
收集数据(训练样本)和手工分类 通过从背景中分割出每条鱼的图像进行预处理 抽取可能存在差别的特征 如:长度,亮度,宽度,鱼翅数目等 分类器设计(选择模型,训练分类器) 测试分类器
分类器设计
注意鲑鱼一般比鲈鱼短 使用鱼的身长作为区别特征 统计每种长度下鲑鱼和鲈鱼的数目
22
6
2011/9/20
模式识别
模式识别(PR)是解决机器智能问题的一种工具。 模式识别是对测量量进行描述或者分类/识别的一门 科学。 科学 模式识别的相关方法 统计模式识别 句法或结构模式识别 神经网络 支持向量机 ……
模式识别应用
7
2011/9/20
字符识别
输入模式:图像
19
2011/9/20
决策边界
我们如何来区分宠物呢?假如我们基于它们的 身长来分类,那么身长就是我们的分类特征。
P(动物|身长 长)
分类器,决策边界
分类器将特征空间分成标记为类别的决策区域; 对于唯一的分类结果,这些区域必须覆盖整个特征 空间且不相交; 每个区域的边缘称为决策边界(不容易发现); 分类策略是简单的:根据决策区域的类别分类特征 矢量。
2011/9/20
鱼的身长作为分类特征
寻找最佳的身长阈值 L if lengthi L then i salmon
else i sea bass
例如:当L 5 时,错误分类为: 鲈鱼:1 鲑鱼:16
分类错误率:
17 34% 50
鱼的身长作为分类特征
经过对所有可能阈值的搜索,发现最佳阈值为 9, 但是,分类错误率仍然是20%。
20
2011/9/20
模式识别实例
模式识别实例
问题:使用光学传感器将传送带上的鱼根据种类进行 分拣。 解决方案: 预处理:对来自传感器的原始图像数据进行预处理 分割:分离每条鱼的图像 特征抽取:从每条鱼中抽取特征 分类:根据特征确定每条鱼所属的类别
21
2011/9/20
如何设计这个模式识别系统?
5
2011/9/20
什么是模式识别?
“The assignment of a physical object or event to one of several pre‐specified categories” – Duda and Hart “A A problem of estimating density functions in a high‐ dimensional space and dividing the space into the regions of categories or classes” – Fukunaga “Given some examples of complex signals and the correct decisions for them, make decisions automatically for a stream of future examples examples” – Ripley “The science that concerns the description or classification (recognition) of measurements” – Schalkoff
学术刊物
IEEE Transaction on Pattern Analysis and Machine Intelligence (PAMI) Pattern Recognition Pattern Recognition and Applications Pattern Recognition Letters 中国图形图像学报 模式识别与人工智能 自动化学报
输出类别:有风险的 / 无风险的
入侵检测
输入模式:网络流量数据
输出类别:正常的 / 入侵类型的
17
2011/9/20
术语
模式(pattern) 由确定的和随机的成分组成的物体、过程和事 件;由确定的和随机的因素影响的动态变化 件;由确定的和随机的因素影响的动态变化。 模式类(pattern class) 共享一组共同属性(或特征)的模式集合,通 常具有相同的来源。 特征(feature) 一种模式区别于另一种模式的相应(本质)特 点或特性;通过测量和/或处理能够抽取的数据。 分类(classification) 根据特征将模式确定为不同的模式类。
模式识别系统结构
27
2011/9/20
模式识别系统的组成
传感器 预处理机制 特征抽取机制(手动或自动) 分类算法 已经分类或者描述的样本集合(训练集合)
预测问题的类型
分类(Classification)
分配一个物体到一个类别的模式识别问题 模式识别系统的输出是一个整数标志 一个分类任务的归纳 模式识别系统的输出是一个实数值 将物体进行有意义分组的问题 模式识别系统返回一个(有时是分层的)物体分组 模式识别系统返回 个(有时是分层的)物体分组 将物体以基元序列表示的问题 模式识别系统生成一个结构描述或语言描述
X x1 , x 2 ,, x n
寻找一个根据预定义标准与输入特征匹配的相应特性 集合(输出矢量): Y y 1 , y 2 ,, y m
假设:训练样本集合已经“教授”识别系统如何将输 入矢量映射为输出矢量。
一般性问题
分类(classification)
学习(learning or training)
使用身长和亮度两个特征 特征矢量为:length, lightness
分类错误率:4%
最佳的决策边界
对于理想的决策边界,分类错误率应该是0%。
ቤተ መጻሕፍቲ ባይዱ
25
2011/9/20
在新数据集合上测试分类器
对于新数据,分类器应该可以很好地工作。 对于新数据,复杂决策边界的分类错误率:25%
课程信息
授课内容、作业和有关信息将在信息学院教学网站 和课程网站上发布,以便同学们下载学习; 课堂上采用交互式的教学方式 课堂上采用交互式的教学方式——问与答; 问与答; 课下要求同学们认真预习和复习,阅读参考书和学 术研究文章; 每周安排固定的答疑时间。
课程成绩
课程作业——30% 按时完成。鼓励同学们互相讨论,但是必须独 完成作 抄袭各方 为零分 立完成作业。抄袭各方均为零分。 课程设计——30% 包括原始目标、阶段报告、最终报告和成果展 示。以小组的形式完成。 期末考试——40% 闭卷考试,涉及授课的全部内容。
手写地址解释系统
识别:邮政编码识别
手写地址解释系统
识别:街道号码识别
12
2011/9/20
手写地址解释系统
街道名称识别
手写地址解释系统
递送点代码
13
2011/9/20
手写地址解释系统
条形码译码
语音识别
输入模式:语音波形
输出类别:口语单词
14
2011/9/20
指纹鉴别
课程作业成绩
算法描述——50% 对程序代码和处理结果的描述——40% 90%以上的分数取决于作者的创造性 作业总得分占课程总评成绩的30%
3
2011/9/20
课程设计要求
课程设计在期末考试之前完成并提交,迟交的课程 设计将降低相应得分; 课程设计文件的格式为DOC或PDF; 所需编程语言使用MATLAB或C语言,可执行文件格 式为EXE文件,提交时以压缩文件格式(包括必要 的数据文件)提供; 鼓励课程设计内容在国内外学术会议、刊物上公开 发表,提供有关证明的课程设计将提高相应得分。 课程设计以小组形式共同完成,严禁抄袭!
23
2011/9/20
下一步
获得的经验教训 单独使用的身长特征不是一个好特征! 如何改进? 试一下其它特征 鲑鱼比较亮一些 试一下使用每条鱼的亮度值作为区别特征
鱼的亮度值作为分类特征
当亮度阈值为 3.5 时,存在最好的正确识别率,分 类错误率是8%。
24
2011/9/20
使用两个特征的联合是否会更好?
课程设计成绩
研究现状描述(20%) 基本原理(20%) 基本算法(30%) 结论验证与评价(20%) 内容难度和创造性(10%) 课程设计得分占课程总评成绩的30%
4
2011/9/20
参考书
Richard O. Duda, Peter E. Hart and David G. Stork, Pattern Classification, 2nd Edition, John Wiley, 2001 Sergios Theodoridis and Konstantinos Koutroumbas, Koutroumbas Pattern Recognition, 2nd Edition, Elsevier Science, 2003 Morton Nadler and Eric P. Smith, Pattern Recognition Engineering, John Wiley & Song Inc., 1993 杨光正等编著,《模式识别》,中国科学技术大学 出版社,2001 孙即祥等编著,《现代模式识别》,国防科技大学 出版社,2001
术语
识别(recognition) 分类模式的能力——正确分类与错误分类。 误差(errors) 模糊矩阵。 噪音(noise) 与模式处理(特征抽取中的误差)和/或训练样 本联合的失真,它对系统的分类能力(如识别)产 生影响。
18
2011/9/20
一般性问题
已知一个从样本模式中抽取的输入特征集合(或 输入矢量):
2011/9/20
模式识别 Pattern Recognition g
教师信息
主讲教师:白 刚 办公电话:23500132 办公地点:伯苓楼 2‐306 电邮地址:baigang@nankai.edu.cn 信息发布:http://it.nankai.edu.cn
1
2011/9/20
为什么?
原因:不好的归纳(一般化、泛化) 复杂决策边界不能够对新数据进行很好地归纳,它 们过于倾向对训练数据的分类 们过于倾向对训练数据的分类,而不能够对真正的 而不能够对真正的 数据模型进行很好地分类。这个问题称为过度拟合。
26
2011/9/20
归纳问题
简单的决策边界对训练数据不够理想,但是对新数 据集合却能获得较好的归纳结果。
回归(Regression)
聚类(Clustering)
描述(Description)
什么是模式识别?
“The process of giving names ω to observations x” – Schürmann Pattern Recognition is concerned with answering the question “What is this?” – Morse
输出类别:字符
手写地址解释系统
数字化
8
2011/9/20
手写地址解释系统
地址块定位
手写地址解释系统
地址抽取
9
2011/9/20
手写地址解释系统
二值化
手写地址解释系统
线分离
10
2011/9/20
手写地址解释系统
地址分解
手写地址解释系统
识别:州缩写识别
11
2011/9/20
输入模式:指纹图像
输出类别:真实的 / 伪造的
签名鉴别
输入模式:签名的点序列
输出类别:真实的 / 伪造的
15
2011/9/20
面部测定
输入模式:图像
输出类别:面部 / 非面部
文本分类
输入模式:HTML文本
输出类别:主题分类
16
2011/9/20
金融预测
输入模式:股票价格的时间序列