哈工大模式识别课程10非监督学习
模式识别课程教学大纲.doc
《模式识别》课程教学大纲一、课程基本信息课程代码:110441课程名称:模式识别英文名称:pattern recognition课程类别:专业选修课学时:总学时54学分:3适用对象:信息与计算科学专业本科考核方式:考查(开卷)先修课程:离散数学、高级语言程序设计、数据结构、高等数学、工程数学、数字图像处理二、课程简介模式识别诞生于20世纪20年代,随着计算机的出现,人工智能的兴起,模式识别迅速发展成为一门学科。
它所研究的理论和方法在很多技术领域中得到广泛的重视,推动了人工智能系统的发展,扩大了计算机应用的可能性。
几十年来模式识别研究取得了大量的成果在很多地方得到了成功的应用。
但是,由于模式识别涉及到很多复杂的问题,现有的理论和方法对于解决这些问题还有很多不足之处。
还有待进一步研究发展。
《模式识别》就是利用计算机对某些物理现象进行分类,在错误概率最小的条件下,使识别的结果尽量与事物相符。
模式识别的原理和方法在医学、军事等众多领域应用十分广泛,是计算机及其相关专业进行科学研究的基础。
这门课的教学目的是让学生掌握统计模式识别和结构模式识别基本原理和方法。
为将来继续深入学习或进行科学研究打下坚实的基础。
《Pattern recognition》is a course about classification of physical phenomenon with the help of computer, the result should best match the real matter under the condition of least probability. The theory of pattern recognition is widely used, including medicine, military affairs, etc. and it is also the base of computer speciality and other related speciality.三、课程性质与教学目的本课程一综合性学科,同时又需要一定的理论基础。
模式识别 第7章 非监督学习方法
j = a r g m in δ ( x , K i ), a d d ( x , L j )
i
J = ∑ ∑ δ (x, K 4. 计算J 并用{Li }更新各聚类核函数{Ki } 5. 若J不变则停止。否则转2
2. 3.
计算样本y协方差矩阵的最大本征值对应的本征 向量u,把样本数据投影到u上,得到v=uTy 用直方图/Parzen窗法求边缘概率密度函数p(v) 找到边缘概率密度函数的各个谷点,在这些谷点 上作垂直于u的超平面把数据划分成几个子集 如果没有谷点,则用下一个最大的本征值代替 对所得到的各个子集进行同样的过程,直至每个 子集都是| K i ) ⇒ x k ∈ K
i j
4.
若没有数据点发生类别迁移变化,则停止。 否则转2
第七章 非监督学习方法
14
7.3 类别分离的间接方法
方法的基础:物以类聚 目标: 类内元素相似性高,类间元素相似性低 该类方法的两个要点:
相似性度量 准则函数
相似性度量:
4. 5.
第七章 非监督学习方法
12
单峰子集分离的迭代算法
直接 方法
把样本集KN={xi}分成c个不相交子集Ki。对这 样的一个划分可用Parzen方法估计各类的概率 密度函数:
1 f (x | K i ) = N
x∈ K i
∑
K (x, x i)
聚类准则:理想的划分应使下式最大
J =
∫∑ ∑
i =1
j = a rg m in δ ( x , p i ), a d d ( x , K j )
机器学习的种类
机器学习的种类机器学习是一种研究计算机系统能够自动学习和改进经验而获得知识表现的计算机科学技术,它涉及到一些有趣的和有用的研究方向,包括学习算法、规则、模式识别、聚类分析、自然语言处理、语音识别、计算机视觉等。
机器学习已经成为了计算机科学中许多领域的基础技术,是当前计算机科学发展中的一个重要领域。
机器学习可以分为监督学习、非监督学习和强化学习等三个主要类别。
一、监督学习监督学习是机器学习中最常用的一种学习方法,它假设数据有着一定的规律可以从中挖掘出来,对于给定的输入属性和输出结果,建立模型从而对未知数据进行预测。
目前,监督学习主要指分类和回归: 1.类:分类是机器学习最常见的一种任务,也是最受欢迎的一种任务,用于将每个输入实例映射到一个类别上。
分类算法包括k-近邻算法、朴素贝叶斯算法、决策树算法、神经网络算法等。
2.归:回归是一种用于预测连续值的机器学习算法。
它的任务是根据输入属性预测输出值,常见的回归算法包括线性回归、多项式回归、支持向量机、随机森林等。
二、非监督学习非监督学习是一种在没有目标变量的情况下使用训练数据对数据集进行分析的机器学习算法。
它的目的是从原始数据中发现有意义的联系,通常被用作数据发现,深入了解数据的主要工具。
非监督学习的主要任务包括聚类分析、异常检测和深度学习等。
1.类分析:聚类分析是一种非监督学习算法,它是一种自动对数据进行分组的算法,结果是将任意数量的输入数据项分到若干组中,每组中数据项之间有着一定的相似性,但不同组之间的相似性更大。
常见的聚类算法有K-均值算法和层次聚类算法等。
2.常检测:异常检测是一种用于检测数据中的异常值或不正常值的非监督学习算法。
它的目的是检测数据中的异常值,以便实现快速发现和处理异常的目的。
常见的异常检测算法有简单误差检测算法、一般异常检测算法和支持向量机算法。
三、强化学习强化学习是一种学习方式,它融合了监督学习和非监督学习,是一种计算复杂问题的无模型学习算法。
监督学习与非监督学习
监督学习与⾮监督学习前⾔机器学习分为:监督学习,⽆监督学习,半监督学习(强化学习)等。
在这⾥,主要理解⼀下监督学习和⽆监督学习。
监督学习(supervised learning)从给定的训练数据集中学习出⼀个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。
监督学习的训练集要求包括输⼊输出,也可以说是特征和⽬标。
训练集中的⽬标是由⼈标注的。
监督学习就是最常见的分类(注意和聚类区分)问题,通过已有的训练样本(即已知数据及其对应的输出)去训练得到⼀个最优模型(这个模型属于某个函数的集合,最优表⽰某个评价准则下是最佳的),再利⽤这个模型将所有的输⼊映射为相应的输出,对输出进⾏简单的判断从⽽实现分类的⽬的。
也就具有了对未知数据分类的能⼒。
监督学习的⽬标往往是让计算机去学习我们已经创建好的分类系统(模型)。
监督学习是训练神经⽹络和决策树的常见技术。
这两种技术⾼度依赖事先确定的分类系统给出的信息,对于神经⽹络,分类系统利⽤信息判断⽹络的错误,然后不断调整⽹络参数。
对于决策树,分类系统⽤它来判断哪些属性提供了最多的信息。
(预先已经有的分类器来对未知数据进⾏分类)常见的有监督学习算法:回归分析和统计分类。
最典型的算法是KNN和SVM。
有监督学习最常见的就是:regression&classificationRegression:Y是实数vector。
回归问题,就是拟合(x,y)的⼀条曲线,使得价值函数(costfunction) L最⼩Classification:Y是⼀个有穷数(finitenumber),可以看做类标号,分类问题⾸先要给定有lable的数据训练分类器,故属于有监督学习过程。
分类过程中cost function l(X,Y)是X属于类Y的概率的负对数。
其中fi(X)=P(Y=i/X)。
⽆监督学习(unsupervised learning)输⼊数据没有被标记,也没有确定的结果。
哈工大模式识别-绪论
例:两类训练样本圆形分布
分类函数类型的确定:圆形的分布与线性方程。一般来说,决定使用什么类型的分类函数往往是人为决定的。
数学式子中参数的确定
是一种学习过程。如果当前采用的分类函数会造成分类错误,利用错误提供应如何纠错的信息,纠正分类函数。
分类器设计:求解优化问题的过程
模式识别中的学习与训练是从训练样本提供的数据中找出某种数学式子的最优解,这个最优解使分类器得到一组参数,按这种参数设计的分类器使人们设计的某种准则达到极值。 分类器参数的选择或者学习过程得到的结果取决于设计者选择什么样的准则函数。不同准则函数的最优解对应不同的学习结果,得到性能不同的分类器。
模式的描述方法
一种是对事物的属性进行度量,属于定量的表示方法。 另一种则是对事务所包含的成分进行分析,称为定性的描述或结构性描述
定量的表示方法
特征:模式就是用它们所具有的特征(Feature) (反映事物的本质属性)描述的。 特征向量:对一种模式与它们的样本来说,将描述它们的所有特征用一特征集表示 : 例如对水果进行分类 :用水果的重量,近似球体直径表示水果: 一只苹果重0.3斤,直径10厘米, 则可表示成(0.3,1.0)
特征空间
特征空间中的一个样本点
时域信号的向量表示法
语音信号这种随时间变化的信号,属于时域信号。此时,元素之间的时间先后顺序很重要,因此可用向量的形式将它们排列起来。说的严格一些,对语音信号进行采样,然后将在不同时刻采样值排列起来,组成向量。
图像的表示方法
数字图像:它由排列整齐的二维网格组成,分为若干行与若干列,相当于一个二维数组,或称矩阵。 每个元素称为像素。 图像的运算是向量运算。
模式类与模式
模式类与模式 :所见到的具体事物称为模式,而将他们的归属类别称为模式类。 样本与模式(模式类) :所见到的具体事物称为样本,而他们所属的事物类别,代表着这些事物的“概念”是模式。 模式与样本在集合论中是子集与元素之间的关系 模式识别:将某一具体事物(样本)正确地归入某一(模式)类别。
模式识别第2章 非监督学习方法
当特征只有两个状态(0,1)时,常用匹配测度。 0表示无此特征 1表示有此特征。故称之为二值特征。 对于给定的x和y中的某两个相应分量xi与yj 若xi=1,yj=1 ,则称 xi与yj是 (1-1)匹配; 若xi=1,yj=0 ,则称 xi与yj是 (1-0)匹配; 若xi=0,yj=1 ,则称 xi与yj是 (0-1)匹配; 若xi=0,yj=0 ,则称 xi与yj是 (0-0)匹配。
青蛙
无肺
有肺
14
特征选取不同对聚类结果的影响
(c) 按生活环境分
羊,狗,猫 蜥蜴,毒蛇 麻雀,海鸥
金鱼 绯鲵鲣
蓝鲨
青蛙
陆地
水里
两栖
15
特征选取不同对聚类结果的影响
(d) 按繁衍后代方式和肺是否存在分
蜥蜴,毒蛇 麻雀,海鸥
青蛙
金鱼 绯鲵鲣
非哺乳且有肺 非哺乳且无肺
羊,狗,猫
哺乳且有肺
蓝鲨
哺乳且无肺
p
q
最近距离法
1/2
1/2
0
-1/2
最远距离法
1/2
1/2
0
1/2
中间距离法 重心距离法 平均距离法 可变平均法 可变法 离差平方和法
1/2
np n p nq
np n p nq
(1 ) np np nq
1
2
nk n p nk nl
1/2
nq n p nq
nq n p nq (1 ) nq
48
2·3 类的定义与类间距离
49
2·3 类的定义与类间距离
w j 的类内离差阵定义为
S ( j) W
1 nj
nj
(
模式识别-1-非监督学习方法:聚类分析 (边肇祺 第二版)
−1
(x − m)
引入协方差矩阵,排除了样本之间的相关性。 欧式距离中,如果特征向量中某一分量的值非常大, 那么就会掩盖值小的项所起到的作用,这是欧式距 离的不足;当采用马氏距离,就可以屏蔽这一点。 因为相关性强的一个分量,对应于协方差矩阵C中 对角线上的那一项的值就会大一些。再将这一项取 倒数,减小该影响。 当协方差为对角矩阵时,各特征分量相互独立;当 协方差为单位矩阵时,马氏距离和欧氏距离相同。
j =1,L, c x∈s j
∑ ∑ x−m
c
2 j
J代表了分属于c个聚类类别的全部模式样本 与其对应类别模式均值之间的误差平方和; 对于不同的聚类形式, J值是不同的,聚类 的目的是:使J值达到极小; J 由此可见:聚类分析转化为寻找准则函数极 值的最优化问题; 此种聚类方法通常称为最小方差划分 最小方差划分,适用 最小方差划分 于各类样本密集且数目相差不多,而不同类 各类样本密集且数目相差不多, 各类样本密集且数目相差不多 间的样本又明显分开的情况(图例解释) 间的样本又明显分开的情况(图例解释)— 把握类内距离与类间距离的问题; 把握类内距离与类间距离的问题; 聚类准则函数有许多其他形式。 聚类准则函数有许多其他形式。
{
Step 2:选离z1最远距离的样本xj作为第二聚 z x 类中心z2 z Step 3:逐个计算各模式样本 xk , k = 1, 2,L, N , 且k ≠ i, j 与{z1 , z 2 } 之间的 距离,并选出其中的最小距离。 Step 4:在所有模式样本的最小值中选出最大 距离,若该最大值达到 z1 , z 2 的一定分数比 值以上,则将相应的样本取为第三聚类中心。 Step i: ………
说明:距离矩阵中选择距离最小的,如果有相 同的可以任选其中一个,要忽略对角线上的元 素;也可以把相同的全部聚合。 Step3:根据第n次聚合结果,计算合并后的 新类别之间的距离矩阵D(n+1) 说明:合并类的距离计算应该符合距离的运算 规则。若距离反映的是两类的重心距离,那么 合并后,应该仍然反映的重心的距离。 Step4:收敛性判决(距离阈值D的设定) 说明:算法的收敛条件判断准则的确定。
非监督学习在数据挖掘中的应用研究
非监督学习在数据挖掘中的应用研究在数据挖掘中,非监督学习是一种重要的技术,它通过探索数据集的内在结构和模式,从中生成有用的信息和洞察力。
与监督学习不同,非监督学习不需要已知的标签或类别来指导模型的训练。
这使得非监督学习成为探索性数据分析、模式识别和聚类等任务的有力工具。
本文将讨论非监督学习在数据挖掘中的应用,并介绍一些常用的算法和技术。
一、数据挖掘中的非监督学习技术1. 聚类分析聚类分析是一种通过将数据集中的对象分为相似的组或类别来揭示其内在结构的方法。
它用于发现数据集中的潜在分组,并根据对象之间的相似性将它们归类到不同的簇中。
聚类算法包括K-means、层次聚类和密度聚类等。
K-means算法基于距离来度量对象之间的相似性,它通过迭代的方式将对象分配到离它们最近的质心,直到达到收敛。
层次聚类算法将对象逐步组合到更大的簇中,形成一个层次结构。
密度聚类算法基于对象之间的密度连接来确定簇的边界。
2. 关联规则挖掘关联规则挖掘是一种寻找数据集中频繁项集之间的相关性的方法。
它用于发现事务数据中的频繁出现的模式,并基于这些模式生成关联规则。
关联规则通常具有形如“If A, then B”的形式,其中A和B代表项集。
关联规则的挖掘可以帮助我们发现数据中的隐含关联性和规律,从而为决策提供指导。
Apriori算法是一种常用的关联规则挖掘算法,它基于先验知识逐步构建频繁项集的候选集,然后检查这些候选集的支持度来选择频繁项集。
3. 异常检测异常检测是一种寻找与预期模式不一致的数据点的方法。
它用于发现与大多数数据点不同的异常或异常模式。
异常检测在异常行为的检测、网络入侵检测和信用卡欺诈检测等领域具有重要应用。
常用的异常检测算法包括基于统计的方法、基于距离的方法和基于聚类的方法。
统计方法通过检查数据点与特定分布的偏离程度来确定异常值。
距离方法通过计算数据点与其他点之间的距离来确定异常值。
聚类方法通过将数据点划分到簇中,并将簇之间的距离与数据点之间的距离进行比较来确定异常值。
无监督学习的实际应用指南(八)
无监督学习的实际应用指南在机器学习领域,无监督学习是一种重要的学习范式,它的应用范围涵盖了许多领域,包括数据挖掘、模式识别、自然语言处理等。
无监督学习的核心思想是从未标记的数据中发现规律和模式,无需人为的标签或者指导。
本文将对无监督学习的实际应用进行探讨,包括聚类、降维、异常检测等。
一、聚类聚类是无监督学习的一个重要应用领域,其目标是将数据集中的样本分成若干组,使得同一组内的样本相似度较高,而不同组之间的样本相似度较低。
聚类算法有许多种,比如K均值聚类、层次聚类、密度聚类等。
聚类的应用场景非常广泛,比如市场细分、社交网络分析、基因表达模式分析等。
例如,在市场营销中,可以利用聚类算法对客户进行细分,从而针对不同的人群采取不同的营销策略。
二、降维在实际应用中,数据通常是高维的,包含大量的特征。
高维数据不仅使得数据分析和可视化变得困难,还容易导致维度灾难问题。
降维技术可以将高维数据映射到低维空间,从而减少特征的数量,同时尽量保留原始数据的信息。
主成分分析(PCA)、t分布邻域嵌入(t-SNE)等是常用的降维算法。
降维广泛应用于图像处理、文本挖掘、生物信息学等领域。
三、异常检测异常检测是识别数据集中与大多数数据格格不入的样本。
在无监督学习中,异常检测可以帮助发现数据中的异常模式和异常行为。
异常检测在金融领域、网络安全、制造业等方面都有广泛的应用。
例如,在金融领域,异常检测可以帮助发现欺诈行为;在网络安全方面,可以通过异常检测技术来识别网络攻击。
四、关联规则挖掘关联规则挖掘是无监督学习的另一个重要应用领域,其目标是发现数据集中的频繁模式和关联规则。
关联规则挖掘在市场篮子分析、推荐系统、医学诊断等方面有着广泛的应用。
例如,在电子商务中,可以利用关联规则挖掘技术来发现商品之间的关联性,从而进行交叉销售和推荐。
五、无监督学习的挑战与应对尽管无监督学习在许多领域都有着广泛的应用,但是其面临着一些挑战。
比如,无监督学习需要处理未标记的数据,因此数据质量和数据采样对算法的性能有着重要的影响。
计算机视觉中的模型无监督学习技巧(Ⅲ)
计算机视觉中的模型无监督学习技巧在当今信息化社会,计算机视觉技术的发展日新月异,成为人工智能领域的热门研究领域之一。
而无监督学习技巧在计算机视觉中的应用也日益受到重视。
无监督学习是指从未标记的数据中提取模式和信息的机器学习技术。
本文将从无监督学习的基本原理、常见模型以及应用技巧等方面展开论述。
1. 无监督学习的基本原理无监督学习是一种从未标记的数据中学习的方法,它的基本原理是通过训练数据中的潜在结构和模式来发现特征和规律。
与有监督学习不同,无监督学习并不需要标记的数据,因此在实际应用中更加灵活和实用。
常见的无监督学习方法包括聚类、降维和生成模型等。
2. 常见的无监督学习模型在计算机视觉领域,常见的无监督学习模型包括自编码器、生成对抗网络(GAN)和变分自编码器等。
自编码器是一种常见的无监督学习模型,它通过学习数据的压缩表示来发现数据的潜在结构。
生成对抗网络是一种由生成器和判别器构成的模型,通过对抗训练的方式学习生成真实数据的模型。
变分自编码器是一种基于概率分布的无监督学习模型,通过学习数据的概率分布来发现数据的潜在结构。
3. 无监督学习的应用技巧无监督学习在计算机视觉领域的应用技巧主要包括特征提取、数据生成和半监督学习等。
特征提取是无监督学习在计算机视觉中的一大应用领域,通过无监督学习模型学习数据的特征表示,可以有效提高图像和视频的分析性能。
数据生成是利用无监督学习模型生成真实数据的一种技术,可以应用于图像生成、视频生成和图像增强等领域。
半监督学习是指利用未标记的数据进行模型训练,通过对未标记数据的特征学习来提高模型的泛化能力。
总结无监督学习技巧在计算机视觉中的应用具有重要的意义,它可以帮助我们提取数据的潜在结构和特征表示,从而提高图像和视频的分析性能。
随着计算机视觉技术的不断发展,无监督学习技巧的应用也将更加广泛和深入。
希望本文能够对读者了解无监督学习技巧在计算机视觉中的应用有所帮助。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【引言】
回顾: 直接方法: 1. 估计概率密度函数 —— 困难 2. 寻找密度函数中的单峰 间接方法:考查样本这间的相似性,根据相似性把样本集划分 为若干子集,使某种表示聚类质量的准则函数最优。
不同的聚类方法实际上反映了对聚类的不同理解: 混合模型:数据服从混合分布,聚类对应于各分布 单峰子集:聚类即概率分布中的单峰,即样本分布相对集中的 区域 间接方法:相似的样本聚类,不同聚类的样本不相似
? 生物学:推导植物和动物的分类,对基因进行分类 ? 地震研究: 根据地质断层的特点把已观察到的地震中
心分成不同的类。
5
有监督学习与无监督学习的区别
? 有监督学习方法必须要有训练集与测试样本。在训练集 中找规律,而对测试样本使用这种规律;而 非监督学习 没有训练集这一说, 只有一组数据,在该组数据集内寻 找规律。
? 有监督学习方法的目的就是识别事物 ,识别的结果表现 在给待识别数据加上了标号。因此训练样本集必须由带 标号的样本组成。而 非监督学习方法只有要分析的数据 集本身,预先没有什么标号。如果发现数据集呈现某种 聚集性,则可按自然的聚集性分类,但不以与某种预先 的分类标号对上号为目的。
6
有监督学习与无监督学习的区别
?1. 引言 ?2. 单峰子集(类)的分离方法 ?3. 类别分离的间接方法 ?4. 分级聚类方法
1
1. 引言
2
引言
? 有监督学习(supervised learning) : 分类器设计方法是在样本集中的类别标签 已知的条件下进行的,这些样本称为训练 样本。在样本标签已知的情况下,可以统 计出各类训练样本不同的描述量,如其概 率分布,或在特征空间分布的区域等,利 用这些参数进行分类器设计。??
t?
L
argmin
k ?1
p(k )
11
【多维空间投影方法】
基本思路:
多维空间中直接划分成单峰区域比较困难,而一维空间中则比较简单。 ?? 寻找一个坐标系统,在该系统下,数据的混合概率密度函数可以用边缘概率 密度表示。 ?? 如果某边缘概率密度函数呈现多峰形式,则在此坐标轴上(一维)作分割。
做法:把样本投影到某一一维坐标轴(按某种准则),在这一 维上求样本的概率密度(边缘概率密度),根据这一概率密度 函数的单峰划分子集。
(如果这一维上只有一个峰,则寻找下一个投影方向。)
投影方向:使方差最大的方向, 即协方差阵本征值最大的本征 向量方向。
12
【投影方法】
基本步骤
13
【投影方法】
直方图法求概率密度函数:
14
【存在问题】
问题:这样投影有时并不能产生多峰的边缘密度函数
-方差最大的准则有时并不一定最有利于聚类。
失败的例子
15
【基于对称集性质的单峰子集分离法】
对称集的定义:
16
【基于对称集性质的单峰子集分离法】
基本步骤:
17
【基于对称集性质的单峰子集分离法】
基本步骤:
18
【单峰子集分离的迭代算法】
概念:
19
【单峰子集分离的迭代算法】
20
【单峰子集分离的迭代算法】
目标:
步骤:
3. 类别分离的间接方法
22
23
【引言】
相似性度量:以某种距离定义 直观理解:同一类的样本的特征向量应是相互靠近的。 ——前提:特征选取合理,能反映所求的聚类关系。
与基于密度函数的方法的关系: 概念上相互关联,因密度估计也是在样本间距离的基础上
的。 具体关系取决于具体数据情况。
24
【动态聚类方法】
? 动态聚类方法的任务: 将数据集划分成一定数量的子集, 例如将一个数据集 划分成三个子集,四个子集等。因此要划分成多少个 子集往往要预先确定,或大致确定,这个子集数目在 理想情况下能够体现数据集比较合理的划分。
? 用已知类别的样本训练分类器,以求对训 练集的数据达到某种最优,并能推广到对 新数据的分类。
3
引言
? 无监督学习(unsupervised learning) : 样本数据类别未知,需要根据样本间的相 似性对样本集进行分类(聚类,clustering), 试图使类内差距最小化,类间差距最大化。
? 利用聚类结果,可以提取数据集中隐藏的 信息,对未来数据进行预测和分类。应用 于数据挖掘、模式识别、图像处理、经济 学……
7
无监督学习方 法的分类
? 基于概率密度函数估计的方法 :指设法找到各 类别在特征空间的 分布参数再进行分类。??
? 基于样本间相似性度量的方法 :直接按样本间 的相似性,或彼此间在特征空间中的距离长短 进行分类。其原理是设法定出不同类别的核心, 然后依据样本与这些核心之间的相似性度量, 将样本聚集成不同类别。 如何聚类则取决于聚 类的准则函数 ,以使某种聚类准则达到极值为 最佳。
? 无监督学习方法在寻找数据集中的规律性 ,这种规律 性并不一定要达到划分数据集的目的,也就是说 不一 定要“分类”。这一点是比有监督学习方法的用途要 广泛。譬如分析一堆数据的主分量,或分析数据集有 什么特点都可以归于无监督学习方法的范畴。
? 用无监督学习方法分析数据集的主分量与用 K-L变换 计算数据集的主分量又有区别。应该说后者从方法上 讲不是一种学习方法。因此 用K-L变换找主分量不属 于无监督学习方法,即方法上不是 。而通过学习逐渐 找到规律性这体现了学习方法这一点。在人工神经元 网络中寻找主分量的方法属于无监督学习方法。
4
广泛的应用领域
? 商务:帮助市场分析人员从客户信息库中发现不同的 客户群,用购买模式来刻画不同的客户群的特征
? 土地使用:在地球观测数据库中识别土地使用情况相 似的地区
? 保险业:汽车保险单持有者的分组,标识那些有较高 平均赔偿成本的客户。
? 城市规划:根据房子的类型,价值和地理分布对房子 分组
? 两种聚类方法:
迭代的动态聚类方法 和非迭代的分级聚类方法
8
2. 单峰子集(类)的分离方法
9
【基本思想】
? 思想:把特征空间分为若干个区域, 在每个区域上混合概率密度函数是单 峰的,每个单峰区域对应一个类别。
10
直接 方法
【一维空间中的单峰子集分离】
?一维空间中的单峰分离: 对样本集KN={xi}应用直方图/Parzen窗 方法估计概率密度函数,找到概率密度函数的峰以及峰之间的谷底, 以谷底为阈值对数据进行分割。