层次聚类算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
层次聚类算法
层次聚类算法(Hierarchical Clustering Algorithm)是一类数据挖掘的重要方法,它的主要思想是,将最初的n个样本点当成n个单独的聚类,然后依据某一距离度量方式分别计算每两个聚类的距离,从而确定最近距离的两个聚类合并为一个,通过不断合并就可以使得初始点构成的n个聚类缩减成一个。
层次聚类算法可以用来分析数据、挖掘隐藏的知识,它主要包含以下几个步骤:
一、算法准备
1.计算原始数据集中每个样本之间的距离,通常有曼哈顿距离、欧氏距离等方式可以实现计算,这是层次聚类算法的核心步骤;
2.设定阈值,用以控制聚类的数量,实现算法的有效性。
二、算法开始
1.将每个样本作为一个单独的簇;
2.计算每两个簇之间的距离(根据第一步计算出来的距离);
3.将最相近的两个簇合并,更新聚类的数量和距离;
4.若聚类的数量不等于预设的数量,则重复步骤2、3,否则结束迭代,给出聚类结果。
三、层次聚类的应用
1.人脸识别:用层次聚类算法帮助计算机系统将相近的人脸归为一类;
2.文本聚类:在虚拟空间中用层次聚类算法对文本进行聚类,例如聚类微博、聚类博客文章等;
3.推荐系统:层次聚类可以在推荐系统中用来分析用户的兴趣点,从而提供更契合用户意愿的服务。
四、层次聚类的优点
1.易于控制聚类的数量:用户可以通过设定阈值来控制想要的聚类数量;
2.易于可视化:结果可以通过树状图等方式直观可视化;
3.准确性较高:可以准确实现用户所关心的目标。
五、层次聚类的缺点
1.数据资源要求高:层次聚类算法每次迭代中都需要计算所有数据样本之间的距离,
对数据资源要求非常高;
2.聚类结果影响大:层次聚类的结果受初始选择的聚类数量的影响很大,可能会出现收敛于局部最优点,不能达到全局最优点;
3.高维数据聚类效果不佳:高维数据的距离计算比较复杂,容易导致聚类效果不理想。
总结:
层次聚类算法是一类数据挖掘的重要方法,它的核心是将最初的n个样本点当成n 个单独的聚类,依据某一距离度量方式计算每两个聚类之间的距离,然后将最相近的两个聚类合并,不断迭代,最终输出聚类结果,主要应用于人脸识别、文本聚类和推荐系统等。
优点是易于控制聚类的数量和准确性较高,而缺点则是数据资源要求高、聚类结果受影响大,且高维数据聚类效果不佳。