层次聚类 python 自己写

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

层次聚类 python 自己写
以层次聚类是一种常用的无监督学习算法，它通过将数据集划分为不同的组或类别，以发现数据中的内在结构和模式。

在本文中，我们将介绍层次聚类算法的原理、应用场景以及如何使用Python自己实现层次聚类。

层次聚类算法是一种自底向上的聚类方法，其主要思想是通过计算不同数据点之间的相似度或距离，将相似度较高的数据点合并到一个簇中，逐步构建出一个层次化的聚类结构。

这个聚类结构可以被表示为一个树状结构，被称为聚类树或者树状图。

在层次聚类中，每个数据点最初被认为是一个单独的簇，然后根据相似度或距离的度量来合并簇，直到所有数据点都被合并到一个簇中或者达到预定义的聚类数目。

层次聚类可以分为两种类型：凝聚型和分裂型。

凝聚型层次聚类是从底部开始合并数据点，逐步构建出一个更大的簇。

分裂型层次聚类则是从顶部开始，先将所有数据点合并为一个簇，然后逐步将簇分裂为更小的簇。

层次聚类算法的优点是可以自动发现数据中的内在结构和模式，而不需要事先指定聚类的数目。

同时，层次聚类还可以提供一个层次化的聚类结果，使得用户可以根据需要选择不同层次的聚类结果。

然而，层次聚类算法的计算复杂度较高，尤其是对于大规模数据集
来说，计算时间会非常长。

层次聚类算法在许多领域都有广泛的应用。

例如，在生物学中，层次聚类可以用于基因表达数据的分析，以发现不同基因之间的关系。

在市场营销中，层次聚类可以用于将客户划分为不同的细分市场，以便进行个性化营销。

在社交网络分析中，层次聚类可以用于发现社群结构，以便更好地理解社交网络的组织。

下面我们将介绍如何使用Python实现层次聚类。

Python中有许多机器学习库可以用来实现层次聚类，例如scikit-learn和SciPy。

在这里，我们将使用SciPy库来演示层次聚类的实现过程。

我们需要导入所需的库：
```python
from scipy.cluster.hierarchy import dendrogram, linkage import matplotlib.pyplot as plt
```
接下来，我们需要准备一个数据集。

这里我们使用一个简单的二维数据集作为示例：
```python
data = [[1, 2], [2, 3], [3, 4], [4, 5], [5, 6], [6, 7], [7, 8], [8, 9]]
```
然后，我们使用层次聚类算法对数据集进行聚类：
```python
Z = linkage(data, method='ward')
```
在这里，`method='ward'`表示使用Ward方差最小化准则来计算簇之间的距离。

通过调整`method`参数，我们可以选择不同的距离度量方法。

我们可以使用`dendrogram`函数绘制聚类树状图：
```python
dendrogram(Z)
plt.show()
```
运行完以上代码，我们将会得到一个树状图，其中每个叶子节点表示一个数据点，每个内部节点表示一个簇的合并过程。

树状图的横轴表示数据点之间的距离或相似度，纵轴表示合并簇的过程。

通过观察树状图，我们可以选择合适的聚类数目，以及在不同层次上的聚类结果。

除了绘制树状图，我们还可以使用`fcluster`函数将数据点划分为不
同的簇：
```python
from scipy.cluster.hierarchy import fcluster
k = 2 # 聚类数目
cluster_labels = fcluster(Z, k, criterion='maxclust')
print(cluster_labels)
```
在这里，`k`表示聚类的数目，`criterion='maxclust'`表示使用最大簇数作为划分的依据。

运行以上代码，我们将会得到每个数据点所属的簇标签。

通过以上步骤，我们成功地使用Python实现了层次聚类算法，并得到了聚类的结果。

层次聚类算法是一种强大的无监督学习算法，可以帮助我们发现数据中的内在结构和模式。

它在很多领域中都有广泛的应用，并且可以通过调整参数来获取不同层次的聚类结果。

希望本文的介绍能够帮助读者更好地理解层次聚类算法，并在实践中灵活运用。