模式识别与机器学习(一)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模式识别与机器学习(⼀)
模式识别与机器学习 [国科⼤]
模式: 为了能够让机器执⾏和完成识别任务,必须对分类识别对象进⾏科学的抽象,建⽴它的数学模型,⽤以描述和代替识别对象,这种对象的描述即为模式。
模式识别系统过程:
1. 特征提取与选择
2. 训练学习
3. 分类识别
模式识别过程从信息层次、形态转换上讲,是由分析对象的物理空间通过特征提取转换为模式的特征空间,然后通过分类识别转换为输出的类别空间。
特征提取是对研究对象本质的特征进⾏量测并讲结果数值化或将对象分解并符号化,形成特征⽮量、符号串或关系图,产⽣代表对象的模式。
特征选择是在满⾜分类识别正确率的条件下,按某种准则尽量选⽤对正确分类识别作⽤较⼤的特征,从⽽⽤较少的特征来完成分类识别任务。
在模式采集和预处理中,⼀般要⽤到模数(A/D)转换。
A/D转换必须注意:
1. 采样率,必须满⾜采样定理
2. 量化等级,取决于精度要求
在数据采集过程中,⼀般我们会进⾏⼀些预处理过程,如
1. 去噪声:消除或减少模式采集中的噪声及其它⼲扰,提⾼信杂⽐(信噪⽐)
2. 去模糊:消除或减少数据图像模糊及⼏何失真,提⾼清晰度
3. 模式结构转换:例如把⾮线性模式转变为线性模式,以利于后续处理,等等
预处理的⽅法包括: 滤波,变换,编码,归⼀化等
特征提取/选择的⽬的:降低维数,减少内存消耗,使分类错误减⼩
分类: 把特征空间划分成类空间,影响分类错误率的因数:
1. 分类⽅法
2. 分类器的设计
3. 提取的特征
4. 样本质量
模式识别的主流技术有:
1. 统计模式识别
2. 结构模式识别
3. 模糊模式识别
4. ⼈⼯神经⽹络⽅法
5. ⼈⼯智能⽅法
6. ⼦空间法
统计模式识别直接利⽤各类的分布特征或隐含地利⽤概率密度函数、后验概率等概念进⾏分类识别。
基本的技术有聚类分析、判别类域代数界⾯法、统计决策法、最近邻法等。
结构模式识别将对象分解为若⼲基本单元,即基元;其结构关系可以⽤字符串或图来表⽰,即句⼦;通过对句⼦进⾏句法分析,根据⽂法⽽决定其类别。
模糊模式识别将模式或模式类作为模糊集,将其属性转化为⾪属度,运⽤⾪属函数、模糊关系或模糊推理进⾏分类识别。
⼈⼯神经⽹络⽅法由⼤量的基本单元,即神经元互联⽽成的⾮线性动态系统。
⼈⼯智能⽅法研究如何是机器具有⼈脑功能的理论和⽅法,故将⼈⼯智能中有关学习、知识表⽰、推理等技术⽤于模式识别。
⼦空间法根据各类训练样本的相关阵通过线性变换由原始模式特征空间产⽣各类对应的⼦空间,每个⼦空间与每个类别⼀⼀对应。
特征⽮量⼀个分析对象的n个特征量测值分别为x1,x2,...,x3,它们构成⼀个n维特征⽮量x,x=(x1,x2,...,x n)T,x是原对象(样本)的⼀种数学抽象,⽤来代表原对象,即为原对象的模式。
特征空间对某对象的分类识别是对其模式,即它的特征⽮量进⾏分类识别。
各种不同取值的x的全体构成了n维空间,这个n维空间称为特征空间,不同场合特征空间可记为X n,R n或Ω。
特征⽮量x便是特征空间中的⼀个点,所以特征⽮量有时也称为特征点。
随机变量由于量测系统随机因素的影响及同类不同对象的特征本⾝就是在特征空间散步的,同⼀个对象或同⼀类对象的某特征测值是随机变量。
由随机分量构成的⽮量称为随机⽮量。
同⼀类对象的特征⽮量在特征空间中是按某种统计规律随机散步的。
协⽅差矩阵和⾃相关矩阵都是对称矩阵。
设A为对称矩阵,对任意的⽮量x,x T Ax是A的⼆次型。
若对任意的x恒有:
x T Ax≥0
则称A为⾮负定矩阵。
协⽅差矩阵是⾮负定的。
独⽴必不相关,反之不⼀定。
在正态分布的情况下,独⽴于不相关是等价的。
聚类分析概念
聚类分析基本思想:
假设对象集客观存在着若⼲个⾃然类,每个⾃然类中个体的某些属性具有较强的相似性。
原理将给定模式分成若⼲组,每组内的模式是相似的,⽽组间各模式差别较⼤。
该⽅法的有效性取决于分类算法和特征点分布情况的匹配。
分类⽆效的情况有:
1. 特征选取不当使分类⽆效;
2. 特征选择不⾜可能使不同类别的模式判为⼀类;
3. 特征选取过多可能⽆益反⽽有害,增加分析负担并使分析效果变差;
4. 量纲选择不当。
聚类分析过程:
1. 特征提取
2. 模式相似性度量
3. 点与类之间的距离
4. 类与类之间的距离
5. 聚类准则及聚类算法
6. 有效性分析
模式相似性测度
模式相似性测度⽅法
1. 距离测度
2. 相似测度
3. 匹配测度
距离测度
测度基础:两个⽮量⽮端的距离
测度数值:两⽮量各相应分量之差的函数
欧式(Euclidean)距离
d(→x,→y)=||→x−→y||=[
n ∑
i=1(x i−y i)2]1
2→x=(x
1,x2,...,x n),
→y=(y
1,y2,...,y n)
绝对值距离(Manhattan距离)
d(→x,→y)=
n
∑
i=1|x i−y i|
切⽒(Chebyshev)距离
d(→x,→y)=max
明(Minkowski)⽒距离
d(\vec x, \vec y) = [\sum_{i=1}^n|x_i - y_i|^m]^{1/m}
马⽒(Mahalanobis)距离
设n维⽮量\vec x_i和\vec x_j是⽮量集{\vec x_1, \vec x_2,...,\vec x_m}中的两个⽮量,马⽒距离d定义为
d^2(\vec x_i, \vec x_j) = (\vec x_i - \vec x_j)^`V^{-1}(\vec x_i - \vec x_j)
其中
V = \frac{1}{m-1} \sum^m_{i=1}(\vec{x_i} - \overline{\vec{x}})^` \\ \overline{\vec{x}} = \frac{1}{m} \sum^m_{i=1} {\vec x_i}
马⽒距离具有平移不变性。
对于\vec y = \vec x进⾏类变换即\vec y = A\vec x,其中A为⾮奇异矩阵,马⽒距离不变。
马⽒距离的性质: 对于⼀切⾮奇异线性变化都是不变的。
即,具有坐标系⽐例、旋转、平移不变性,并且从统计意义上尽量去掉了分量间的相关性。
例题
模式相似性测度
测度基础:以两⽮量的⽅向是否相近作为考虑的基础,⽮量长度并不重要。
设
\vec x = (x_1, x_2, ...,x_n), \vec y = (y_1,y_2,...,y_n)
1. ⾓度相似系数
cos(\vec x, \vec y) = \frac{\vec x \vec y}{||\vec x|| ||\vec y||} = \frac{\vec x \vec y}{[(\vec x^` \vec x)(\vec x^` \vec x)]^{1/2}}
注意:坐标系的旋转和尺度的缩放是不变的,但对⼀般的线性变换和坐标系的平移不具有不变性。
2. 相关系数
实际上是数据中⼼化后的⽮量夹⾓余弦
r(\vec x, \vec y) =\frac{(\vec x - \overline{\vec x})^`(\vec y - \overline{\vec y})}{[(\vec x - \overline{\vec x})^`(\vec x - \overline{\vec x})(\vec y -\overline{\vec y})^`(\vec y - \overline{\vec y})]^{\frac{1}{2}}}
相关系数的取值在 [-1,1],取值为1时,两组数据最相关。
3. 指数相似系数
e(\vec x, \vec y) = \frac {1}{n} \sum^n_{i=1} exp[-\frac{3(x_i-y_i)^2}{4 \sigma^2_i}]
式中\sigma^2_i为相应分量的协⽅差,n为⽮量维度,它不受量纲变化的影响。
4. 匹配测度
当特征只有两个状态(0, 1)时,常使⽤匹配测度。
0表⽰⽆此特征,1表⽰有此特征,故称之为⼆值特征。
对于给定的x和y中的某两个相应分量x_i与y_j:
若x_i=1,y_j=1,则称x_i与y_j是(1-1)匹配;
若x_i=1,y_j=0,则称x_i与y_j是(1-0)匹配;
若x_i=0,y_j=1,则称x_i与y_j是(0-1)匹配;
若x_i=0,y_j=0,则称x_i与y_j是(0-0)匹配。
对于⼆值n维特征⽮量可定义如下相似性测度
令a = \sum_i x_iy_i为\vec x与\vec y的(1-1)匹配的特征数⽬
令b = \sum_i y_i(1-x_i)为\vec x与\vec y的(0-1)匹配的特征数⽬
令c = \sum_i x_i (1-y_i)为\vec x与\vec y的(1-0)匹配的特征数⽬
令e = \sum_i (1-x_i)(1-y_i)为\vec x与\vec y的(0-0)匹配的特征数⽬
Tanimoto测度
s(\vec x, \vec y) = \frac {a}{a+b+c} = \frac {\vec x^`\vec y}{\vec x^` \vec x + \vec y^` \vec y - \vec x^` \vec y}
例题
可以看出,它等于共同具有的特征数⽬与分别具有的特征种类数⽬之⽐。
这⾥只考虑了(1-1)匹配⽽不考虑(0-0)匹配。
Rao测度
s(\vec x, \vec y) = \frac{a}{a+b+c+e} = \frac{\vec x^` \vec y}{n}
注:(1-1)匹配特征数⽬和所选⽤的特征数⽬之⽐
简单匹配系数
m(\vec x, \vec y) = \frac {a+e}{n}
注:上式分⼦为(1-1)匹配特征数⽬与(0-0)匹配特征数⽬之和,分母为所考虑的特征数⽬。
Dice系数
m(\vec x, \vec y) = \frac{a}{2a+b+c} = \frac{\vec x^` \vec y}{\vec x^` \vec x + \vec y^` \vec y} = \frac {(1-1)匹配个数}{两⽮量中1的总数} Kulzinsky系数
m(\vec x, \vec y) = \frac{a}{b+c} = \frac{\vec x^` \vec y}{\vec x^` \vec x + \vec y^` \vec y - 2\vec x^` \vec y} = \frac{(1-1)匹配个数}{(0-1)+(1-0)匹配个数}
类的定义
定义1
若集合S中任意两个元素x_i,x_i的距离d_{ij}有
d_{ij} \leq h
则称S相对于阙值h组成⼀类。
定义2
若集合S中任⼀元素x_i与其他各元素x_j间的距离d_{ij}均满⾜
\frac{1}{k-1} \sum_{x_j \in S} d_{ij} \leq h
则称S相对于阙值h组成⼀类(k为集合元素个数)
定义3
若集合S中任意两个元素x_i, x_j的距离d_{ij}满⾜
\frac {1}{k(k-1)} \sum_{x_i \in S} \sum_{x_j \in S} d_{ij} \leq h 且 d_{ij} \leq r
则称S相对于阙值h,r组成⼀类
定义4
若集合S中元素满⾜对于任⼀x_i \in S,都存在某x_j \in S使它们的距离
d_{ij} \leq h
则称S相对于阙值h组成⼀类。
Loading [MathJax]/jax/element/mml/optable/BasicLatin.js。