模式识别与机器学习期末总结
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1.样本(sample, object):一类事物的一个具体体现,对具体的个别事物进行观测所得到的某 种形式的信号。模式(pattern):表示一类事物,如印刷体 A 与手写体 A 属同一模式。B 与 A 则属于不同模式。样本是具体的事物,而模式是对同一类事物概念性的概括。模式类与模式 联合使用时,模式表示具体的事物,而模式类则是对这一类事物的概念性描述。模式识别是 从样本到类别的映射。样本模式识别类别。 1.2.数据获取 .测量采样-预处理.去噪复原-特征提取与选择.寻找有利于分类的本质特征-分类 器设计-分类决策.做出关于样本类别的判断。 1.3.先验概率 :根据大量统计确定某类事物出现的比例,类条件概率密度函数 :同一类事物的各 个属性都有一定的变化范围,在其变化范围内的分布概率用一种函数形式表示 ,后验概率:一 个具体事物属于某种类别的概率。 1 exp( 1 (x μ)T 1 (x μ)) 2.1.最小错误率准则即最大后验准则, , p ( x) 1/ 2 2 (2 )n / 2 计 算 两 类 后 验 。 最 小 风 险 准 则 , x ( x1 , x2 ,..., xn )T , 通过保证每个观测之下的条件风险最小,使得它的期望 μ E (x) ( 1 , 2 ,..., n )T , i E ( xi ) 风险最小。 E (x μ)(x μ)T ( ij2 )n*n 2.2.多元正态分布的 pdf、均值、协方差矩阵如下。等概 率密度轨迹为超椭球面,主轴方向由协方差矩阵的特征 ij2 E ( xi i )( x j j ) 向量决定,轴长度由其特征值决定。 1 T T 2.3.最小距离分类器,线性分类器 g i ( x) (2μT i x μ i μ i ) w i x wi 0 2 2 2.4.医生判断病人是否有病:先验,似然,后验。Bayes 决 1 1 T w i 2 μi , wi 0 2 μi μi 策的三个前提: 类别数确定,各类的先验概率 P(ωi)已知,各类 2 的条件概率密度函数 p(x|ωi)已知.问题的转换 :基于样本估 p(x) c (x μ)T 1 (x μ) 2 计概率密度,基于样本直接确定判别函数. 3.1.一元正态分布的最大似然估计:假设样本 x 服从正态分布 N(μ,σ2);已获得一组样本 x1 , x2 , … , xN 。解:似然函数:l(θ) = p(K|θ) = p(x1 , x2 , … , xN |θ) = ∏N k=1 p(xk |θ),其对数似然 函数:H(θ) = ∑N 。样本服从正 k=1 lnp(xk |θ).最大似然估计 N 态 分 布 N(μ,σ2) , 则 n 2 p(xk ; μ, σ2 ) = 1/√2πσ2 exp *−(xk − μ)2 /2σ2 + , H(μ, σ2 ) = ∑N k=1 ln p(xk ; μ, σ ) = − ln(2π) −
;
] 0
2
地减少,以同时达到既减少计算量,又减少存储量的双重效果。 5.4.剪辑近邻法:其基本思想是,利用现有样本集对其自身进行剪辑,将不同类别交界处的 样本以适当方式筛选, 可以实现既减少样本数又提高正确识别率的双重目的。 剪辑的过程是: 将样本集 KN 分成两个互相独立的子集:test 集 KT 和 reference 集 KR。首先对 KT 中每一个 Xi 在 KR 中找到其最近邻的样本 Yi(Xi) 。 如果 Yi 与 Xi 不属于同一类别, 则将 Xi 从 KT 中删除, 最后得到一个剪辑的样本集 KTE(剪辑样本集) ,以取代原样本集,对待识别样本进行分类。 5.5.压缩近邻法:利用现有样本集,逐渐生成一个新的样本集,使该样本集在保留最少量样 本的条件下,仍能对原有样本的全部用最近邻法正确分类,那末该样本集也就能对待识别样 本进行分类,并保持正常识别率。压缩近邻算法:定义两个存储器,一个用来存放即将生成 的样本集,称为 Store;另一存储器则存放原样本集,称为 Grabbag。其算法是:1.初始化。 Store 是空集,原样本集存入 Grabbag;从 Grabbag 中任意选择一样本放入 Store 中作为新样 本集的第一个样本。2.样本集生成。在 Grabbag 中取出第 i 个样本用 Store 中的当前样本集按 最近邻法分类。若分类错误,则将该样本从 Grabbag 转入 Store 中,若分类正确,则将该样 本放回 Grabbag 中。3.结束过程。若 Grabbag 中所有样本在执行第二步时没有发 19.5 9.5 C 7.5 生转入 Store 的现象,或 Grabbag 已成空集,则算法终止,否则转入第二步。 9.5 6.1. 设一样本集的协方差矩阵是: ,求最优 2x1 特征提取器 U。 0.875 0.482 V 解答:计算特征值及特征向量[V, D]=eig(C);特征值 D=[24.736, 2.263]T,特征向量: 0.482 0.875 。由于λ1>λ2,故最优 2x1 特征提取器,此时的 K-L 变换式为: 。 0.875 x 6.2.用 K-L 变换降维至 d 维 y U T x uT x 0.875 0.482 1 U u1 0.482 K-L 变换的产生矩阵可以有多种选择: x2 c x 的相关函数矩阵 R=E[xxT] S P , E (x μ )(x μ )T , x w i i i i i i x 的协方差矩阵 C=E[(x-μ) (x-μ)T+样本总类 i 1 内离散度矩阵:求出产生矩阵的特征值、特征 函数,选取最大的 d 个特征值对应的特征向量组成变换矩阵 U。7.1.有监督学习(supervised learning):用已知类 别的样本训练分类器,以求对训练集数据达到某种最优,并能推广到对新数据的分类,标记 了两类样本的标号,需要人手工干预训练过程, 。非监督学习(unsupervised learning) :样 本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering),依照数据 的自然分布,把它们划分成两类, 。监督学习方法的目的是识别事物,给待识别数据加上标 号(label)。因此训练样本集必须由带标号的样本组成。而非监督学习方法只有要分析的数据 集本身,没有标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与 某种预先的分类标号对上号为目的。监督学习方法必须要有训练集与测试样本。在训练集中 找规律,而对测试样本使用这种规律;而非监督学习只有一组数据,在该组数据集内寻找规 律. 主要的非监督学习方法:基于概率密度函数估计的直接方法: 设法找到各类别在特征空间 的分布参数再进行分类。直方图方法。 基于样本间相似性度量的间接聚类方法:设法定出 不同类别的核心或初始类核, 然后依据样本与这些核心之间的相似性度量将样本聚集成不同 类别。 7.2.设 x1=(4 5)T,x2=(1 4)T,x3=(0 1)T,x4=(5 0)T。 现有下列三种划分: (1) f1={x1,x2},f2={x3,x4}. (2) f1={x1,x4},f2={x2,x3}; (3) f1={x1,x2,x3},f2={x4}. 证明对于平方误差和准则,第三种划分最好, 而若用|Sw|准则,前两种划分好。 解: f1:m1=1/2(x1+x2)=1/2(5 9)T,m2=1/2(x3+x4)=1/2(5 1)T,J1=||x1-m1||2+…+||x4-m2||2=18; f2: ……..f3: m1=1/3(x1+x2+x3)=1/3(5 10)T,m2=(5 0)T,J3=52/3;J3 最小,第三种划分好。 |Sw|准则: S (x m )(x m )T , i 1,2, 3 S S S
i
ห้องสมุดไป่ตู้
n n 2 (x ) 0 i 2( 2 )2 i 1
则
, , 对μ是无偏估计, 对σ n n ˆ (1 / n) x ˆ 2 (1 / n) ( x )2 i i i 1 i 1
1 n ln H [ x n 2 i 1 i
n 2
ˆ argmax l (θ) argmax ln p( x | ) θ k k 1 θ θ
ln σ2 −
1 2σ2
2 2 ∑n i=1(xi − μ) 。 对 μ,σ 的 最 大 似 然 估 计 :
2
2
ln H
n 2 2
是有偏估计。 3.2.类条件概率密度函数的估计:两大类方法,参数估计:概率密度函数的形式已知,而表征 函数的参数未知,需要通过训练数据来估计,(最大似然估计,Bayes 估计).非参数估计:概率密 度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计(Parzen 窗法和 kn近邻法,神经网络方法). N x xi k N ( ) 3.3.估计量的评价标准:无偏性:E()=θ 有效性:D()小,估 1 hN i 1 1 u j , j 1,2,..., d 计更有效;一致性:样本数趋于无穷时,依概率趋于 θ. (u ) 2 3.4. 贝叶斯决策问题:样本 x,决策 ai,真实状态 wj,状态空间 A 是离散空间, w 1 2 0 otherwise i i i x 先验概率 P(wj).贝叶斯参数估计问题:样本集 K,估计量^s,真实参数 s,参数空间 i S 是连续空间,参数的先验分布 p(s). 7.3.使用流程图描述 C-Means 算法 3.5.Parzen 窗:样本集 KN= ,x1, x2,…, xN-,区域 RN 是一个 d 维超立方体, 棱长 hN, 体积 VN= hNd, 答:1)初始化:选择 c 个初始聚类 K1, K2, …,Kc;2)建立 c 个空聚类列表: L1, L2, …,Lc;3) 定义窗核函数.落入超立方体内样本数 Kn,某点概率密度 p(x)的估计。核函数需满足归一化 条件, 常用的核函数: 均匀核、 正态核。 Hn 控制窗宽, 按照最小距离法则逐个对样本 x 进行分类: j argmin ( x, K i ), add( x, L j ) ;4)计 1 N 1 x xi ˆ N (x) p 根据样本的数量选择。太大,平均化,分辨力低,太 ( h ) i N i 1 VN N 小,统计变动大。kN-近邻估计:把窗扩大到刚好覆盖 算 J 及用各 聚 类列 表 (Ki) 计算 聚类 均 值 (pi) , 作 为各 聚类 新 的代 表 点( 更新 代 表 点) kN 个点。落在窗内的样本点的数目固定,窗宽是变化的。kN 根据样本总数 N 选择。 c ;6)若 J 不变或代表点未发生变化,则停止。否则转 2。 3.6.未设计好的分类器的错误率估计:需要把样本集分为训练集和测试集。C-法:利用 N 个 J (x, K ) i 样本设计,也利用这 N 个样本测试,得到乐观估计。U-法:把样本集分为训练集和测试集, i 1y K i 得到保守估计。U-法可以划分成两类,样本划分法:样本数需要比较多,测试样本数越多越 7.4.试小结一下下列相似性度量:1)样本 x 与样本 y 之间的相似性度量;2)样本 x 与聚类 K 有效。留一法:样本较少 K / N 时,N-1 个样本设计,另一样本测试,遍历 N 个样 之间的相似性度量;3)聚类 Ki 与聚类 Kj 之间的相似性度量。 ( K , K ) (m , m ) 本。假设错分样本数为 K,则错误率估计为。 i j i j (xi , x j ) (xi x j )T (xi x j )2) (x , K )3)聚类 Ki 与 Kj 间的距离度量: 答:1) 4.1. 设在三维空间中一个类别分类问题拟采用二次曲面。如欲采用广义线性方程求解,试问 i j i> 最近距离 ;ii> 最远距离 ;iii> 均值距离 。 其广义样本向量与广义权向量 的表达式,其维数是多少?二 次曲面 ( K , K ) min (x, y) ( K , K ) max (x, y) i j xKiyK j i j xKi yK j 2 2 ax12 bx2 cx3 dx1x2 ex1x3 fx2 x3 gx1 hx2 lx3 m 0.广义权向量为 a (a, b, c, d , e, f , g , h, l , m)T广义 为: 2 2 2 T T 8.1.解释 Hebb 学习规则的基本思想。 答: Hebb 学习规则的物理解释: 输入输出同时兴奋时, 样本向量为 y ( x1 , x2 , x3 , x1x2 , x1x3 , x2 x3 , x1, x2 , x3 ,1,) 维数为 10,广义线性判别函数为 z g (x) h(y) a y 相应的权值得到加强。 4.2. Fisher 准则的基本原理:找到一个最合适的投影轴,使两类样本在该轴上投影之间的距 w ap 离尽可能远,而每一类样本的投影尽可能紧凑,从而使分类效果为最佳。用投影后数据的统 8.2. 写出 C-Means 算法双层神经网络实现的算法描述或画出流程图.答: i i 计性质(均值和离散度的函数)作为判别优劣的标准。各类样本的均值 mi,i=1,2,类内离散度矩 1)初始化:选择前 c 个样本 x1, x2, …,xc 初始化 w1, w2, …,wc,并建立 c 个空 (n 1) (n) T T w w ap 阵: Si (x mi )(x mi ) , i 1,2 总类内离散度矩阵 Sw S1 S2 ,类间离散度矩阵 Sb (m1 m2 )(m1 m2 ) 聚类列表:K1, K2, …,Kc 2)依次把样本 x 馈入网络并计算输出 l(即按照最小 i i i T x S w S w b 4.3. Fisher 准则函数的定义 w* argmax J F (w) J F ( w) T b Fisher 最佳投影方向的求解。
;
] 0
2
地减少,以同时达到既减少计算量,又减少存储量的双重效果。 5.4.剪辑近邻法:其基本思想是,利用现有样本集对其自身进行剪辑,将不同类别交界处的 样本以适当方式筛选, 可以实现既减少样本数又提高正确识别率的双重目的。 剪辑的过程是: 将样本集 KN 分成两个互相独立的子集:test 集 KT 和 reference 集 KR。首先对 KT 中每一个 Xi 在 KR 中找到其最近邻的样本 Yi(Xi) 。 如果 Yi 与 Xi 不属于同一类别, 则将 Xi 从 KT 中删除, 最后得到一个剪辑的样本集 KTE(剪辑样本集) ,以取代原样本集,对待识别样本进行分类。 5.5.压缩近邻法:利用现有样本集,逐渐生成一个新的样本集,使该样本集在保留最少量样 本的条件下,仍能对原有样本的全部用最近邻法正确分类,那末该样本集也就能对待识别样 本进行分类,并保持正常识别率。压缩近邻算法:定义两个存储器,一个用来存放即将生成 的样本集,称为 Store;另一存储器则存放原样本集,称为 Grabbag。其算法是:1.初始化。 Store 是空集,原样本集存入 Grabbag;从 Grabbag 中任意选择一样本放入 Store 中作为新样 本集的第一个样本。2.样本集生成。在 Grabbag 中取出第 i 个样本用 Store 中的当前样本集按 最近邻法分类。若分类错误,则将该样本从 Grabbag 转入 Store 中,若分类正确,则将该样 本放回 Grabbag 中。3.结束过程。若 Grabbag 中所有样本在执行第二步时没有发 19.5 9.5 C 7.5 生转入 Store 的现象,或 Grabbag 已成空集,则算法终止,否则转入第二步。 9.5 6.1. 设一样本集的协方差矩阵是: ,求最优 2x1 特征提取器 U。 0.875 0.482 V 解答:计算特征值及特征向量[V, D]=eig(C);特征值 D=[24.736, 2.263]T,特征向量: 0.482 0.875 。由于λ1>λ2,故最优 2x1 特征提取器,此时的 K-L 变换式为: 。 0.875 x 6.2.用 K-L 变换降维至 d 维 y U T x uT x 0.875 0.482 1 U u1 0.482 K-L 变换的产生矩阵可以有多种选择: x2 c x 的相关函数矩阵 R=E[xxT] S P , E (x μ )(x μ )T , x w i i i i i i x 的协方差矩阵 C=E[(x-μ) (x-μ)T+样本总类 i 1 内离散度矩阵:求出产生矩阵的特征值、特征 函数,选取最大的 d 个特征值对应的特征向量组成变换矩阵 U。7.1.有监督学习(supervised learning):用已知类 别的样本训练分类器,以求对训练集数据达到某种最优,并能推广到对新数据的分类,标记 了两类样本的标号,需要人手工干预训练过程, 。非监督学习(unsupervised learning) :样 本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering),依照数据 的自然分布,把它们划分成两类, 。监督学习方法的目的是识别事物,给待识别数据加上标 号(label)。因此训练样本集必须由带标号的样本组成。而非监督学习方法只有要分析的数据 集本身,没有标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与 某种预先的分类标号对上号为目的。监督学习方法必须要有训练集与测试样本。在训练集中 找规律,而对测试样本使用这种规律;而非监督学习只有一组数据,在该组数据集内寻找规 律. 主要的非监督学习方法:基于概率密度函数估计的直接方法: 设法找到各类别在特征空间 的分布参数再进行分类。直方图方法。 基于样本间相似性度量的间接聚类方法:设法定出 不同类别的核心或初始类核, 然后依据样本与这些核心之间的相似性度量将样本聚集成不同 类别。 7.2.设 x1=(4 5)T,x2=(1 4)T,x3=(0 1)T,x4=(5 0)T。 现有下列三种划分: (1) f1={x1,x2},f2={x3,x4}. (2) f1={x1,x4},f2={x2,x3}; (3) f1={x1,x2,x3},f2={x4}. 证明对于平方误差和准则,第三种划分最好, 而若用|Sw|准则,前两种划分好。 解: f1:m1=1/2(x1+x2)=1/2(5 9)T,m2=1/2(x3+x4)=1/2(5 1)T,J1=||x1-m1||2+…+||x4-m2||2=18; f2: ……..f3: m1=1/3(x1+x2+x3)=1/3(5 10)T,m2=(5 0)T,J3=52/3;J3 最小,第三种划分好。 |Sw|准则: S (x m )(x m )T , i 1,2, 3 S S S
i
ห้องสมุดไป่ตู้
n n 2 (x ) 0 i 2( 2 )2 i 1
则
, , 对μ是无偏估计, 对σ n n ˆ (1 / n) x ˆ 2 (1 / n) ( x )2 i i i 1 i 1
1 n ln H [ x n 2 i 1 i
n 2
ˆ argmax l (θ) argmax ln p( x | ) θ k k 1 θ θ
ln σ2 −
1 2σ2
2 2 ∑n i=1(xi − μ) 。 对 μ,σ 的 最 大 似 然 估 计 :
2
2
ln H
n 2 2
是有偏估计。 3.2.类条件概率密度函数的估计:两大类方法,参数估计:概率密度函数的形式已知,而表征 函数的参数未知,需要通过训练数据来估计,(最大似然估计,Bayes 估计).非参数估计:概率密 度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计(Parzen 窗法和 kn近邻法,神经网络方法). N x xi k N ( ) 3.3.估计量的评价标准:无偏性:E()=θ 有效性:D()小,估 1 hN i 1 1 u j , j 1,2,..., d 计更有效;一致性:样本数趋于无穷时,依概率趋于 θ. (u ) 2 3.4. 贝叶斯决策问题:样本 x,决策 ai,真实状态 wj,状态空间 A 是离散空间, w 1 2 0 otherwise i i i x 先验概率 P(wj).贝叶斯参数估计问题:样本集 K,估计量^s,真实参数 s,参数空间 i S 是连续空间,参数的先验分布 p(s). 7.3.使用流程图描述 C-Means 算法 3.5.Parzen 窗:样本集 KN= ,x1, x2,…, xN-,区域 RN 是一个 d 维超立方体, 棱长 hN, 体积 VN= hNd, 答:1)初始化:选择 c 个初始聚类 K1, K2, …,Kc;2)建立 c 个空聚类列表: L1, L2, …,Lc;3) 定义窗核函数.落入超立方体内样本数 Kn,某点概率密度 p(x)的估计。核函数需满足归一化 条件, 常用的核函数: 均匀核、 正态核。 Hn 控制窗宽, 按照最小距离法则逐个对样本 x 进行分类: j argmin ( x, K i ), add( x, L j ) ;4)计 1 N 1 x xi ˆ N (x) p 根据样本的数量选择。太大,平均化,分辨力低,太 ( h ) i N i 1 VN N 小,统计变动大。kN-近邻估计:把窗扩大到刚好覆盖 算 J 及用各 聚 类列 表 (Ki) 计算 聚类 均 值 (pi) , 作 为各 聚类 新 的代 表 点( 更新 代 表 点) kN 个点。落在窗内的样本点的数目固定,窗宽是变化的。kN 根据样本总数 N 选择。 c ;6)若 J 不变或代表点未发生变化,则停止。否则转 2。 3.6.未设计好的分类器的错误率估计:需要把样本集分为训练集和测试集。C-法:利用 N 个 J (x, K ) i 样本设计,也利用这 N 个样本测试,得到乐观估计。U-法:把样本集分为训练集和测试集, i 1y K i 得到保守估计。U-法可以划分成两类,样本划分法:样本数需要比较多,测试样本数越多越 7.4.试小结一下下列相似性度量:1)样本 x 与样本 y 之间的相似性度量;2)样本 x 与聚类 K 有效。留一法:样本较少 K / N 时,N-1 个样本设计,另一样本测试,遍历 N 个样 之间的相似性度量;3)聚类 Ki 与聚类 Kj 之间的相似性度量。 ( K , K ) (m , m ) 本。假设错分样本数为 K,则错误率估计为。 i j i j (xi , x j ) (xi x j )T (xi x j )2) (x , K )3)聚类 Ki 与 Kj 间的距离度量: 答:1) 4.1. 设在三维空间中一个类别分类问题拟采用二次曲面。如欲采用广义线性方程求解,试问 i j i> 最近距离 ;ii> 最远距离 ;iii> 均值距离 。 其广义样本向量与广义权向量 的表达式,其维数是多少?二 次曲面 ( K , K ) min (x, y) ( K , K ) max (x, y) i j xKiyK j i j xKi yK j 2 2 ax12 bx2 cx3 dx1x2 ex1x3 fx2 x3 gx1 hx2 lx3 m 0.广义权向量为 a (a, b, c, d , e, f , g , h, l , m)T广义 为: 2 2 2 T T 8.1.解释 Hebb 学习规则的基本思想。 答: Hebb 学习规则的物理解释: 输入输出同时兴奋时, 样本向量为 y ( x1 , x2 , x3 , x1x2 , x1x3 , x2 x3 , x1, x2 , x3 ,1,) 维数为 10,广义线性判别函数为 z g (x) h(y) a y 相应的权值得到加强。 4.2. Fisher 准则的基本原理:找到一个最合适的投影轴,使两类样本在该轴上投影之间的距 w ap 离尽可能远,而每一类样本的投影尽可能紧凑,从而使分类效果为最佳。用投影后数据的统 8.2. 写出 C-Means 算法双层神经网络实现的算法描述或画出流程图.答: i i 计性质(均值和离散度的函数)作为判别优劣的标准。各类样本的均值 mi,i=1,2,类内离散度矩 1)初始化:选择前 c 个样本 x1, x2, …,xc 初始化 w1, w2, …,wc,并建立 c 个空 (n 1) (n) T T w w ap 阵: Si (x mi )(x mi ) , i 1,2 总类内离散度矩阵 Sw S1 S2 ,类间离散度矩阵 Sb (m1 m2 )(m1 m2 ) 聚类列表:K1, K2, …,Kc 2)依次把样本 x 馈入网络并计算输出 l(即按照最小 i i i T x S w S w b 4.3. Fisher 准则函数的定义 w* argmax J F (w) J F ( w) T b Fisher 最佳投影方向的求解。