模式识别方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析的数学 与几何意义示意图
Projection discrimination based on principal component analysis
2 基于相似统计量的分类方法
(1) 一次计算形成法 该法根据相似矩阵直接按相似性的大小连接成图。 该法根据相似矩阵直接按相似性的大小连接成图 。 首先选出最相似的一对样本,连接成组, 首先选出最相似的一对样本,连接成组,并随时 把有关连接顺序、 把有关连接顺序、被连接的样品号和相似性水平 记入连接顺序表中,连接完一对样本后, 记入连接顺序表中,连接完一对样本后,再选择 相似性大的一对,如此依次进行, 相似性大的一对,如此依次进行,直到把所有点 都聚合为一群并得到一个连接顺序表, 都聚合为一群并得到一个连接顺序表,根据该表 作出分类谱系图。 作出分类谱系图。
1 基于PCA的聚类分析法
因为 X =USVt 即XV=US 亦即XV= [v1, v2,..., vA] == US 亦即 可见矩阵US=T (亦称非标准化的得分矩阵 的每一 亦称非标准化的得分矩阵) 可见矩阵 亦称非标准化的得分矩阵 个元素实际是每一个样本向量x 个元素实际是每一个样本向量 it(i=1,2,...,n)对荷载 对荷载 矩阵V中的每一相互正交的荷载矢量上的投影坐标 矩阵 中的每一相互正交的荷载矢量上的投影坐标 内积本质上就是投影), ),它反映了样本与样本之 (内积本质上就是投影),它反映了样本与样本之 间的相互关系; 同理可得,载荷矩阵的每一个元素实 间的相互关系 同理可得, 际是每一个变量向量x 际是每一个变量向量 j(j=1,2,...,d)对得分矩阵中的每 对得分矩阵中的每 一相互正交的得分矢量上的投影坐标, 一相互正交的得分矢量上的投影坐标,它反映了变 量与变量之间的相互关系。 量与变量之间的相互关系。
无监督模式识别法
不需要训练集, 对所研究的模式进 不需要训练集, 行适当分类的问题则需要用无监督 模式识别方法, 这类模式识别方法 模式识别方法 , 又 叫 聚 类 分 析 法 (clustering analysis method)。 。
常用聚类分析方法有: 常用聚类分析方法有:
分级聚类分析法—Hierarchical clustering methods 最小(大)生成树法—Minimun(Max) Spanning Tree Method K均值聚类法—K-means Clustering Method 模糊聚类法—Fuzzy clustering method PCA投影分类法等等
i) 若选出的一对样本在已形成的组中均未 出现过,则将它们形成一个独立的新组。 出现过,则将它们形成一个独立的新组。 ii) 若选出的一对样本中有一个在已经分好 的组中出现过, 的组中出现过, 则把另一个样品加入该组 中。 iii) 若选出的两对样品都分别出现在两个 组中,则把这两个组合并为一个组。 组中,则把这两个组合并为一个组。 iv) 若选出的一对样品都在同一组中则不需 再分组。 再分组。
ij
∑
k =1
ik
jk
k
K-Nearest Neighbors Discrimination Method
KNN法的基本假设: KNN法的基本假设:“同类样本在模式空 法的基本假设 间中相互较靠近” 间中相互较靠近” 。
K最近邻法考查未知样本点的K个近邻(K为单数整 最近邻法考查未知样本点的K个近邻( 若近邻某一类样本最多, 数 ) , 若近邻某一类样本最多 , 则可将未知样本 判为该类。 判为该类。 为了进行定量判别, 为了进行定量判别 , 可先找出待分类样本的最近 并事先约定最近邻区域中的训练集样本数。 邻 , 并事先约定最近邻区域中的训练集样本数 。 如果只取一个最近邻样本点,即样本数为1 如果只取一个最近邻样本点 , 即样本数为 1 , 则 NN法 如果取2个最近邻样本点, 称1NN法;如果取2个最近邻样本点,即样本数为 2 , 则称2NN法; 如果样本数为K, 则称K近邻法, 则称2NN法 如果样本数为K 则称K 近邻法, 简称KNN KNN法 简称KNN法。
模式识别的数据预处理
特征抽提
模式间相似度的度量
马氏距离(Mahalanobis Distance)
协方差阵为Z的总 设Xi ,是从均值为 µ ,协方差阵为 的总 是从均值为 中的样本, 体G中的样本,则它们的马氏距离为 中的样本
Dij = ( X i − X j )T Z −1 ( X i − X j )
例:现有甲状腺病人(记为类1)和正 现有甲状腺病人(记为类 ) 常人(记为类2) 常人(记为类 )各10例,分别测试 例 分别测试5 项功能指标,测试结果见表a和表b所 项功能指标,测试结果见表a和表 所 以每一类的前8个 示。以每一类的前 个 样本作为训练 ),后 个作为测试集 个作为测试集( 集(表a),后2个作为测试集(表b)。 ), )。 法对其进行判别。 用LLM法对其进行判别。 法对其进行判别
某铜镍矿床样品的聚类分析谱系图
(2)最大生成树法 ) Largest Spanning Tree Method
上图点与点之间的数据叫作路径强度,表示 , 上图点与点之间的数据叫作 两样本点间的相似程度。 两样本点间的相似程度 。 如果一个路径的起 点与终点重合,称这条路径构成一个回路, 点与终点重合 , 称这条路径构成一个 , 对于图中砍去某些边得到的树叫生成树。若 对于图中砍去某些边得到的树叫 。 某生成树所有路径的强度都大于或等于其它 生成树的路径强度,则称此生成树为最大生 生成树的路径强度, 则称此生成树为 成树。 。 只要找到相似关图的最大生成树, 只要找到相似关图的最大生成树 , 就可以根 据最大生成树进行模糊聚类分析, 据最大生成树进行模糊聚类分析 , 其分类准 则是: 对于规定的阈值水平λ 则是 : 对于规定的阈值水平 λ , 路径强度大 的顶点可归为一类。 于λ的顶点可归为一类。
简化的KNN法 类重心法 简化的KNN法—类重心法 KNN
将训练集中每类样本点的重心求出, 将训练集中每类样本点的重心求出, 然后判别未知样本点与各类重心的距 离。未知样本点距哪一类重心距离最 即未知样本属于哪一类。 近,即未知样本属于哪一类。 例:有两种地层 , 用 7 种指标的分析 有两种地层, 有两种地层 数据判别, 数据判别,先从已经准确判断的地层 中各取9 个样本, 测得的数据如下表: 中各取 9 个样本 , 测得的数据如下表 :
地层I II的每一个矢量与C 地层I、II的每一个矢量与C1和C2的距 的每一个矢量与 离分别如表a和表b所示: 离分别如表a和表b所示:
线性学习机法 Linear learning machine—LLM
作为模式识别中决策分类的一种方 该法希望通过某种方法, 法,该法希望通过某种方法,在模 式空间中到找到一个判决面(此面 式空间中到找到一个 叫做分类器),使不同类的模式点 , 分别位于判别面的两侧。 分别位于判别面的两侧。未知模式 的分类可根据它位于判别面的哪一 侧来定。 侧来定。若判别面是一个线性超平 就叫线性分类器。 面,就叫
基于主成分对近红外光谱进行 discrimination analysis的方法原理 的方法原理
对建模样品的近红外光谱进行主成分分 析,将原来上千个波长点下的近红外吸 光值压缩为m个主成分得分来表示 个主成分得分来表示; 光值压缩为 个主成分得分来表示; 计算每一类样品在主成分坐标系(即载 计算每一类样品在主成分坐标系( 主成分坐标系 荷轴、特征向量,又叫主成分光谱) 荷轴、特征向量,又叫主成分光谱)下 的类重心坐标; 的类重心坐标; 求每个样品到每一类重心的马氏距离, 求每个样品到每一类重心的马氏距离, 距哪一类马氏距离最小, 距哪一类马氏距离最小,该样品就归哪 一类。 一类。
KNN算法 KNN算法
计算未知样本点和所有训练集样本点之间的距离。 计算未知样本点和所有训练集样本点之间的距离 。 从最小距离开始计样本数,一直计到有K个样本数 从最小距离开始计样本数,一直计到有 个样本数 为止, 此时所对应的距离就为最近邻的最小距离。 为止 , 此时所对应的距离就为最近邻的最小距离 。 如果在这个最小距离中, 如果在这个最小距离中 , 距某一类训练集中的样 本数多, 距离又小, 本数多 , 距离又小 , 则可将待分类样本划到该类 中。 优点: 对数据结构无特殊要求, 简单易行, 优点 : 对数据结构无特殊要求 , 简单易行 , 不需 要训练过程。 要训练过程。 缺点: 未对训练点进行信息压缩, 缺点 : 未对训练点进行信息压缩 , 每判断一个点 都要将其对所有已知点的距离计算一遍, 都要将其对所有已知点的距离计算一遍,工作量较 大。
与总体G的距离为它与均值 而Xi与总体 的距离为它与均值 µ 的距离
Dij = ( X i − µ )T Z −1 ( X i − µ )
马氏距离(Mahalanobis Distance)
其中X 为样本i所有变量构成的 所有变量构成的p× 维 其中 i为样本 所有变量构成的 ×1维 为关于p个变量的协方差阵 向量 , Z为关于 个变量的协方差阵 为关于 (p×p维)。 × 维 当采用主成分得分向量T 替代X 当采用主成分得分向量 i 替代 i 时 , 由于主成分向量正交, 成为由其方差 由于主成分向量正交,Z成为由其方差 特征值) 构成的对角阵, ( 特征值 ) 构成的对角阵 , 此时马氏 m 距离为:D = (T − T ) 2 / λ
华东理工大学
East China University of Science And Technology
模式识别理论及其应用简介
Pattern Recognition and its Application
模式识别计算过程示意图
有监督模式识别(判别分析) 有监督模式识别(判别分析)
如果样本的类别数是已知的, 如果样本的类别数是已知的,先用一组已 知类别的化合物作为训练集, 知类别的化合物作为训练集,建立判别模 型,再用建立的模型根据相似性原则来对 未知样本进行识别,称为判别分析。 未知样本进行识别,称为判别分析。判别 分析是在事先知道类别特征的情况下建立 判别模型对样本进行识别归属,来自百度文库判别模型对样本进行识别归属,是一种有 监督模式识别。 监督模式识别。
无监督模式识别(聚类分析) 无监督模式识别(聚类分析)
如果预先不知道样本的类别, 如果预先不知道样本的类别,要在 学习过程中根据样本的相似性对被 识别的样品进行识别分类和归类, 识别的样品进行识别分类和归类, 称为聚类分析。 称为聚类分析。聚类分析是完全依 靠样本自然特性进行识别的方法, 靠样本自然特性进行识别的方法, 是一种无监督模式识别。 是一种无监督模式识别。
常用术语
特征抽提(Feature Extraction) 训练集(Training Set) 预报集(Prediction Set) 识别率(Recognition Rate) 预报能力(Predictive Ability) 留一法(Leaving One Method)
注意事项
训练集的数据一定要可靠。 ① 训练集的数据一定要可靠。 ② 训练集的样本数目要足够多,样本数m与模 训练集的样本数目要足够多,样本数 与模 式空间维数n 的比值至少应满足m/n≥3,最好 式空间维数 的比值至少应满足 , m/n≥10。 。 模式空间特征的选择是成败的关键, ③ 模式空间特征的选择是成败的关键 , 要选 取与样本分类有关的特征, 取与样本分类有关的特征,如果不能包括与分 类有关的主要特征, 类有关的主要特征,模式识别就不会有好的效 果。
将上表数据进行归一化处理后计算两 将上表数据进行归一化处理后计算两 类的重心得: 类的重心得:
=[- 0103, 0402, 0246, 0166, C1=[-0.0103,0.0402,-0.0246,0.0166, 0313, 0246, 0174] 0.0313,-0.0246,-0.0174]´ =[0 0103, 0402, 0246, 0166, C2=[0.0103,-0.0402,0.0246,-0.0166, 0313, 0246, 0174] -0.0313,0.0246,0.0174]´