模式识别 复习笔记
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章 概论
① 什么是模式识别?
使计算机模仿人的感知能力,从感知数据中提取信息(判别物体和行为)的过程。(老师的简略说法:用机器判断事物类别)
② 模式识别系统主要由四个部分组成:原始数据的获取和预处理,特征提取与选择,分类或类聚,后处理。
③ 紧致性:做模式识别的前提条件是每个模式类满足紧致性。
④ 相似性度量满足的条件:1234点
⑤ 一些专业术语的中英文:
PR (pattern recognition )模式识别 BP (back-propagation )反向传播算法 PCA (principal component analysis )主成分分析
NN (neural networks )神经网络 ⑥ ()()T
x u x u --⑦ ()()1T
x u x u ---∑第二章 贝叶斯决策
(两大贝叶斯决策=最小错误率贝叶斯决策+最小风险贝叶斯决策):
①贝叶斯决策的三个前提条件:类别数确定,各类的先验概率p(w i)已知,各类的条件概率密度函数p(x|w i)已知。
②最小错误率贝叶斯决策:使错误率最小的分类决策。对应于最大后验概率。
贝叶斯公式:
P17 白细胞例子
③最小风险贝叶斯决策:考虑各种错误造成损失不同时的一种最优决策。
第三章最大似然估计
(两大参数估计=最大似然估计+贝叶斯估计):
最可能出一题最大似然估计的计算题。
判断估计好坏的标准:无偏性、有效性、一致性。
①最大似然估计的求解
流程:1、构造似然函数
2、对数化
3、求偏导
4、求解
第四章线性分类器
①Fisher判别法
Fisher准则:找到一个最合适的投影轴,使两类样本在该轴上的投影之间的距离尽可能远,而每一类样本的投影尽可能紧凑,从而使分类效果为最佳。
各类样本均值向量m i
判定函数J(w)越大,说明分子类间距离越大,分母类内距离越小。符合fisher准则。
引入拉格朗日函数:
求偏导
②最小二乘法y=ax+b
第五章非线性分类器①反向传播算法BP:
1.三层结构
2.简述BP过程、偏差回来调整权系数P95
3.学习规则:
a.随机给定权系数;
b.计算输出;
c.得到偏差;
d.进行调整
4.算法步骤:
第七章特征选择
遗传算法过程:
a.初始化:设置进化代数计数器t=0,设置最大进化代数T,随机生成M个个体作为初始
群体P(0).
b.个体评价:计算群体P(t)中各个个体的适应度。
c.选择:将选择算子作用于群体。选择的目的是把优化的个体直接遗传到下一代或通过配
对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的。
d.交叉:将交叉算子作用于群体。作为交叉是指把两个父代个体的部分结构加以替换重组
而生成新个体的操作。遗传算法中起核心作用的就是交叉算子。
e.变异:将变异算子作用于群体。即是对群体中的个体串的某些基因座上的基因值变动。
群体P(t)经过选择、交叉、变异运算之后得到下一代群体P(t+1)。
f.终止条件判断:若t=T,则以进化过程中所得到的具有最大适应度个体作为最优解输出,
终止计算。(终止条件:达到适应度函数或达到进化规定的代数)
第八章特征提取
①PCA(主成分分析)
②K-L变换(最优正交线性)(完整掌握)
③结合KL变换叙述人脸识别的经典流程:
1.对向量x用确定的完备正交归一向量基u j展开,对应到的人脸识别问题上就是一个脸可以由无穷多个本征脸进行重构;
2.用有限项估计X,对应人脸识别时一个脸由有限个本征脸进行重构,假设有d个,
则;
3.下面是寻找u j,即对应的本征脸;
4.由于是用d个本征脸来重构一张脸x,所以存在一定的误差。求估计的均方误差:
第九章非监督模式识别
K均值聚类
①基本思想:k均值聚类是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k,k由用户指定,k均值算法根据某个距离函数反复把数据分入k个聚类中。
②K均值的迭代思想:
③K均值算法:先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个:
1)没有(或最小数目)对象被重新分配给不同的聚类。
2)没有(或最小数目)聚类中心再发生变化。
3)误差平方和局部最小。
④优点:直观
⑤缺点:初始点很重要,对分类有影响,可能掉进局部优解,影响速度效率;类的个数未知