机器学习常见算法复习

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

决策树算法思想:

朴素贝叶斯算法:

K近邻算法:

1)计算测试数据与各个训练数据之间的距离;

2)按照距离的递增关系进行排序;

3)选取距离最小的K个点;

4)确定前K个点所在类别的出现频率;

5)返回前K个点中出现频率最高的类别作为测试数据的预测分类

K均值聚类:

密度聚类:

核心点。在半径Eps内含有超过MinPts数目的点

边界点。在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内

噪音点。既不是核心点也不是边界点的点

在这里有两个量,一个是半径Eps,另一个是指定的数目MinPts。

DBSCAN 算法有两个参数:半径eps 和密度阈值MinPts,具体步骤为:

1、以每一个数据点xi 为圆心,以eps 为半径画一个圆圈。这个圆圈被称为xi 的eps 邻域

2、对这个圆圈内包含的点进行计数。如果一个圆圈里面的点的数目超过了密度阈值MinPts,那么将该圆圈的圆心记为核心点,又称核心对象。如果某个点的eps 邻域内点的个数小于密度阈值但是落在核心点的邻域内,则称该点为边界点。既不是核心点也不是边界点的点,就是噪声点。

3、核心点xi 的eps 邻域内的所有的点,都是xi 的直接密度直达。如果xj 由xi 密度直达,xk 由xj 密度直达。。。xn 由xk 密度直达,那么,xn 由xi 密度可达。这个性质说明了由密度直达的传递性,可以推导出密度可达。

4、如果对于xk,使xi 和xj 都可以由xk 密度可达,那么,就称xi 和xj 密度相连。将密度相连的点连接在一起,就形成了我们的聚类簇。

相关文档
最新文档