商业数据分析·HM

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

商业数据分析
2015·12·08
聚类
Cl百度文库sters
4
聚类
1、什么是聚类
What's clustering
Definishion：Clustering is the process of organizing a set of data into groups in such a way that observations within a group are more similar to each other than they are to observations belonging to a different cluster.
4
聚类
HM
假设有N个待聚类的样本，对于层次聚类来说，基本步骤就是： 1、（初始化）把每个样本归为一类，计算每两个类之间的距离，也就是样本与样本之间的相似度； 2、寻找各个类之间最近的两个类，把他们归为一类（这样类的总数就少了一个）； 3、重新计算新生成的这个类与各个旧类之间的相似度； 4、重复2和3直到所有样本点都归为一类，结束。整个聚类过程其实是建立了一棵树，在建立的过程中，可以通过在第二步上设置一个阈值，当最近的两个类的距离大于这个阈值，则认为迭代可以终止。
作业
课后作业
课本
5.1题 5.2题
作业
课后作业
5.1 Get the Euclidean distances for the iris data. Apply centroid linkage and construct the dendrogram. Do you get inversions? Do the same thing with Mahalanobis distance. Do you get similar results? Try some of the other distances and linkages. Do you still get inversions? 5.2 Apply single linkage hierarchical clustering to the following data sets. Do you get chaining? Explore some of the other types of distance/linkage combinations and compare results. a. geyser b. singer c. skulls d. spam e. sparrow f. oronsay
4
聚类
HM
3、 Average Linkage 把两个类中的点，两两的距离全部放在一起，求一个平均值，相对也能得到合适一点的结果。
4、Centroid Linkage 找到每个类的几何圆心位置，然后求两两圆心的距离，最近的两个合并。在这种方法中，求距离一般都使用欧氏距离。这种方法还有一个变种叫做Median Linkage，就是找到每个类的重心位置，然后两两重心求距离。
4
聚类
HM
关键的一步就是第三步，如何判断两个类之间的相似度有很多方法，书上介绍了以下4种：
1、 Single Linkage 取两个类中距离最近的两个样本的距离作为这两个类的距离，也就是说，最近的两个样本之间的距离越小，这两个类之间的相似度就越大。
缺点：容易造成一种叫做 Chaining 的效果，即：两个簇明明从“大局”上离得比较远，但是由于其中个别的点距离比较近就被合并了，并且这样合并之后 Chaining 效应会进一步扩大，最后会得到比较松散的簇。
g. gene expression data sets
预习
下节预告
下节课由助教进行一次前四周作业的答疑和讲解，前四周的所有作业已经超过截止日期但是还没有交的同学，还有最后一次补交的机会。下周二（12.13）之前要是还没有补交，该次作业就算作0分，之后再补交也不计入成绩。
4
聚类
HM
2、 Complete Linkage Single Linkage 的反面极端，取两个集合中距离最远的两个点的距离作为两个集合的距离。缺点：类似的，有时候两个簇即使已经很接近了，但是只要有不配合的点存在，就顽固到底，老死不相合并，也是不太好的办法。这两种相似度的定义方法的共同问题就是：只考虑了某个有特点的数据，而没有考虑类内数据的整体特点。
聚类：将相似的数据放在一组，不同的数据分开就是聚类。同样的数据，用不同的聚类方法或针对不同的目的，分类结果不同，如：同一群人，按照性别可以分为男人和女人，按照年龄可以分为年轻人和老年人。
4
聚类
2、聚类是非监督学习
Unsupervised Learning 聚类是著名的非监督学习的方法。
3. 分组
决定每个数据点属于哪个组，有些数据可能是模糊的，它对多个组都有一定的隶属程度。
4. 数据抽象 5. 聚类评价
可选步骤，总结分组的现实意义，抽象出数据要表达的内涵，如：病人数据被分成了肺癌和白血病两类。对输出的聚类结果进行评估，是否符合应用要求。
4
聚类
HM 1
层次聚类
Hierarchical Methods
这种聚类的方法叫做agglomerative hierarchical clustering，描述起来比较简单，但是计算复杂度比较高，为了寻找距离最近/ 远和均值，都需要对所有的距离计算个遍。另外从算法中可以看出，每次迭代都只能合并两个子类，这是非常慢的。尽管这么算起来时间复杂度比较高，但还是有不少地方用到了这种聚类方法，如：谷歌02年推出的新闻自动分类的服务，1998年某个国际会议将论文自动分类，然后发给不同的专家去审核是否录用都是用的这种方法。另外有一种聚类方法叫做divisive hierarchical clustering，过程恰好是相反的，一开始把所有的样本都归为一类，然后逐步将他们划分为更小的单元，直到最后每个样本都成为一类。在这个迭代的过程中通过对划分过程中定义一个松散度，当松散度最小的那个类的结果都小于一个阈值，则认为划分可以终止。这种方法用的不普遍，课本也没有做更多介绍。
聚类在对数据进行分类之前并不知道数据有多少
个类型，会被分成多少个簇，数据没有任何的标
签和先验知识，所以是非监督的。
4
聚类
3、聚类的步骤
Steps of Clustering 1. 模式表达 2. 模式近邻型度量
聚类的预处理，如：决定分组组数、使用数据的规模、选择测量的方法等。选择测量簇之间距离或者近邻性的方法。
4
聚类
MATLAB实例——P161-P163
我们用之前使用过的酵母菌数据 yeast.mat进行聚类实验，分别用single linkage和complete linkage进行计算簇之间的相似性，最后用dendrogram函数把簇画成树状图。下面打开matlab我们进行HM实战！
4
聚类
层次聚类的总结