无监督分类聚类分析(K均值)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

无监督分类聚类分析（K均值）
K均值聚类是一种迭代算法，它将数据集分为预先指定的K个簇群。

算法的基本步骤如下：
1.初始化：选择K个初始聚类中心，可以是随机选择的数据点或者其他启发式方法。

2.数据分配：对于每个数据点，计算其与每个聚类中心的距离，并将其分配给距离最近的聚类中心。

3.聚类中心更新：对于每个簇，重新计算聚类中心，即取簇中所有数据点的平均值。

4.重复步骤2和3，直到聚类中心的变化小于一些阈值或者达到最大迭代次数。

K均值聚类的优点包括简单易懂、高效、可扩展性好等。

然而，也存在一些限制，例如对于噪声和异常值比较敏感，对于不规则形状的簇效果较差等。

下面是K均值聚类的示例代码：
```python
import numpy as np
from sklearn.cluster import KMeans
#生成示例数据
X = np.random.rand(100, 2)
#创建K均值聚类模型
kmeans = KMeans(n_clusters=3)
#拟合数据
kmeans.fit(X)
#获取聚类中心
centroids = kmeans.cluster_centers_
#获取每个样本所属的簇
labels = bels_
#可视化聚类结果
import matplotlib.pyplot as plt
plt.scatter(X[:,0], X[:,1], c=labels)
plt.scatter(centroids[:,0], centroids[:,1], marker='x',
color='red')
plt.show
```
在以上示例代码中，我们首先生成了一个100个样本的二维数据集X。

然后，我们创建了一个K均值聚类模型，其中n_clusters参数指定了目
标聚类的簇的个数。

通过调用fit方法，我们将数据集X拟合到模型中，
然后可以通过cluster_centers_属性获取聚类中心，通过labels属性获
取每个样本所属的簇。

最后，我们使用散点图可视化了聚类结果。