DataMining聚类算法分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8.5
40
c4 4.5
7.5
75
c5
4
8.5
20
c6 3.5
9
30
c7
2
6.5
40
距离
10.07 15.02 35.02 55.01 10.02 10.42
12/104
聚类分析—基本过程
平均购买金额
/通用格式 /通用格式 /通用格式 /通用格式 /通用格式 /通用格式 /通用格式 /通用格式 /通用格式 /通用格式 /通用格式
/通用格式
/通用格式
/通用格式 /通用格式 /通用格式
平均购买量
/通用格式
/通用格式
2020/10/19
© The Institute of Business Intelligence, HFUT
14/104
距离计算—连续型属性
➢ 欧氏距离(Euclidean distance)
d (xi , x j )
p
(xik x jk )2
k 1
➢ 曼哈顿距离(Manhattan distance)
p
d ( xi , x j )
xik x jk
k 1
➢ 明考斯基距离(Minkowski distance)
p
d ( xi , x j ) (
xik x jk q )1/ q
k 1
2020/10/19
© The Institute of Business Intelligence, HFUT
15/104
距离计算—连续型属性
顾客id 订单规模 订单金额 点击量
c1
1
1.5
50
c2 5.5
9
55
c3
5
11/104
聚类分析—基本过程
➢基本过程
✓选择合理的相似度计算方法 ✓计算个体之间的距离或相似度,构建距离矩阵或相似度矩阵 ✓基于相似性,采取某种聚类方法进行聚类 ✓对不同类别的对象特征进行分析
➢ 基本原则
✓类内对象相似性尽可能大,类间对象相似性尽可能小
2020/10/19
© The Institute of Business Intelligence, HFUT
➢聚类分析是一种重要的人类活动。早在孩提时代,人 就通过不断改进下意识中的聚类模式来学会如何区分猫 和狗,动物和植物。
2020/10/19
© The Institute of Business Intelligence, HFUT
3/104
聚类分析无处不在
➢如果你是一个淘宝店铺的老板… ➢ 谁经常光顾店铺,谁买什么东西,买多少?
4/104
聚类分析无处不在
➢如果你是银行的客户经理…
✓利用储蓄额、刷卡消费金额、刷卡次数、诚信度等变量对客户聚 类,找出谁是银行信用卡的黄金客户、谁是容易流失的客户
➢ 这样银行可以……
✓制定更吸引的服务,留住客户!比如: ✓一定额度和期限的免息透资服务! ✓百盛的贵宾打折卡! ✓在他或她生日的时候送上一个小蛋糕!
8/104
聚类分析原理—引例
➢ 分成四组 ➢ 符号相同的牌为一组
A K Q J
符号相同的的牌
2020/10/19
© The Institute of Business Intelligence, HFUT
9/104
聚类分析原理—引例
➢ 分成两组 ➢ 颜色相同的牌为一组
A K Q J
颜色相同的配对
13/104
聚类分析—基本过程
顾客id 订单规模 订单金额 点击量
c1
1
1.5
50
c2
1
6.5
40
c3
1.5
2
25
c4
4.5
7.5
75
c5
4
8.5
20
c6
5.5
9
30
c7
4.5
8
55
x11 ...
... ...
x1f ...
xi1
...
xif
... ... ...
xn1
...
xnf
... ...
J
2020/10/19
© The Institute of Business Intelligence, HFUT
7/104
聚类分析原理—引例
➢ 分成四组 ➢ 每组里花色相同 ➢ 组与组之间花色相异 A
K Q J
花色相同的牌为一副
2020/10/19
© The Institute of Business Intelligence, HFUT
✓基于用户的互动信息,构建用户兴趣的挖掘算法。发现网站中具 有相同兴趣的用户群体
2020/10/19
© The Institute of Business Intelligence, HFUT
6/104
聚类分析原理—引例
➢ 我们看看以下的例子:
➢ 有16张牌
➢ 如何将他们分为一组一组
的牌呢?
A
K
Q
2020/10/19
© The Institute of Business Intelligence, HFUT
5/104
聚类分析无ห้องสมุดไป่ตู้不在
➢如果你是社会性网站的站长…
✓把每个用户想象成图中的一个节点,如果用户A对用户B有互动行 为(转发,评论等),在用户A和用户B之间建立一条有向边
➢这样网站可以……
✓按消费者的性别、年龄、职业、浏览次数、浏览时间、购物种 类、金额等变量对消费者进行聚类
➢ 这样淘宝店铺可以…
✓识别顾客购买模式(如哪些人喜欢周末时一次性大采购) ✓需要针对不同的人群,制定不同的关系管理方式,以提高客户 对公司商业活动的响应率。
2020/10/19
© The Institute of Business Intelligence, HFUT
2020/10/19
© The Institute of Business Intelligence, HFUT
10/104
聚类分析原理—引例
➢ 分成两组 ➢ 大小相近的牌为一组
A K Q J
大配对和小配对
2020/10/19
© The Institute of Business Intelligence, HFUT
x1p ...
...
xip
... ...
...
xnp
0 ...
...
d(2,1) 0 ... ... ...
d(3,1) d(3,2) 0 ...
...
... ... ... ...
d(n,1) d(n,2) ... ... 0
2020/10/19
© The Institute of Business Intelligence, HFUT
第五章 聚类分析
内容提纲
1. 分类分析 2. 聚类分析 3. 关联分析
2020/10/19
© The Institute of Business Intelligence, HFUT
2/104
聚类
➢聚 类 ( Clustering ) 就 是 将 对 象 集 合 分 成 为 多 个 类 (Cluster)的过程。