人工智能聚类分析作业

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
有些数据中的分类模糊
用户分类分析:每一个类别里面的人消费方式都不一样, 需要针对不同的人群,制定不同的关系管理方式,以提 高客户对公司商业活动的相应率。
用户习惯分析:没有明确定义习惯的方法
聚类分析在人工智能方法各阶段的作用
表征 – 计算 – 衡量
在表征阶段,聚类常用于过滤数据点和特征选择; 在计算阶段,聚类是重要应用技术; 在衡量阶段,聚类常用于在大量数据中提取参考
模式。
1.3 聚类问题特征
聚类分析中“类”的特征——无监督学习
聚类所说的类不是事先给定的,而是根据数据 的相似性和距离来划分
聚类的数目和结构可能都没有事先假定
聚类的主观性 部分指导的聚类分析
提供部分指导信息(约束聚类)
数据变量类型和距离定义
聚类的主观性
聚类方法的目的是寻找数据中:
人工智能技术导论——
聚类方法(Clustering)
内容
1. 聚类方法原理介绍
1.1 什么是聚类 1.2 为什么聚类 1.3 聚类问题特征 1.4 主要聚类算法的分类 1.5 聚类方法的不稳定性
2. 案例分析
心肌细胞数据聚类(层次聚类,Kmeans) 中国男足近几年到底在亚洲处于几流水平?( Kmeans) 某移动公司客户细分模型 ( Kmeans ,使用SPSS)
分类和聚类的区别
分类:有指导信息(训练集)
相关生活例子:教小孩认车牌
聚类:没有指导信息
相关生活例子:课程设计组队
聚类分析举例 1
“物以类聚,人以群分”
聚类分析举例 2
谁经常光顾商店,谁买什么东西,买多少?
按会员卡记录的光临次数、光临时间、性别、年 龄、职业、购物种类、金额等变量分类
这样商店可以….
识别不同顾客群的购买模式(如喜欢一大早来买酸奶和 鲜肉,习惯周末时一次性大采购)
刻画不同的客户群的特征 指定不同的促销计划
一般没有事先设定的客户群性质类别
这正是聚类分析的目的所在
聚类分析举例 3
原标题:Kmeans聚类算法应用实例:中国男足 近几年到底在亚洲处于几流水平?
数据变量类型
按照数据结构分:
结构化数据:即行数据,存储在数据库里,可以用 二维表结构来逻辑表达实现的数据
例子:学生档案数据
非结构数据:不方便用数据库二维逻辑表来表现的 数据
例子:图象、声音、超媒体、基于网络的变量等信息
混杂变量类型的数据如何聚类?
当对象是同时被各种类型的变量描述时,怎样 描述对象之间的相异度呢?
类别变量,不可加减也不可比大小,如性别、职业等
有序尺度变量(Ordinal)
等级变量,不可加减,但可比较大小,如奖学金、名次等
间隔尺度变量(Interval)
区间变量,可以加减但不能比较倍数,如年份、经纬度等
比率尺度变量(Ratio)
定比变量,可以加减也可以比较倍数,如身高、体重等
扩展阅读
3. 推荐参考书目
1. 聚类方法原理介绍
1.1 什么是聚类 1.2 为什么聚类 1.3 聚类问题特征 1.4 主要聚类算法的分类 1.5 聚类方法的不稳定性
1.1 什么是聚类
聚类(Clustering)就是在没有指导信息下将数 据分组成为多个类(Cluster,一般也译为簇)。
最大特点:没有指导信息(无监督学习) 最大化类内相似度,最小化类间相似度 或者 最大化类间距离,最小化类内距离。
类别向量 相关矩阵 一致矩阵
距离/相似性 定义
潜在的自然分组结构 感兴趣的关系
聚类的主观性
不同情况下对自然分组结构有着不同理解
聚类的主观性
什么是自然分组结构Natural grouping ? 我们看看以下的例子: 有16张牌 如何将他们分为
一组一组的牌呢? A
K
Q
J
聚类的主观性
分成四组 每组里花色相同 组与组之间花色相异
假设以世界杯和亚洲杯成绩作为特征,以 Kmeans算法聚类,类数为3。结果收敛如下:
(1)日本,韩国,伊朗,沙特 (2)乌兹别克斯坦,巴林,朝鲜 (3)中国,伊拉克,卡塔尔,阿联酋,泰国,越南,阿曼,印尼
能回答中国男足和哪些国家水平比较接近。不 能回答在亚洲处于几流水平。
聚类的应用领域
经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 企业信用等级分类 ……
生物医学领域
推导植物和动物的分类; 对基因分类,获得对种群的认识 癌症病人基因表达数据分析
有贡献的研究领域
数据挖掘
聚类可伸缩性、各种各种复杂形状类的识别,高维聚类等
A K Q J
花色相同的牌为一副
聚类的主观性
分成四组 符号相同的牌为一组
A K Q J
符号相同的的牌
聚类的主观性
ห้องสมุดไป่ตู้
分成两组 颜色相同的牌为一组
A K Q J
颜色相同的配对
聚类的主观性
这个例子告诉我们,分 组的意义在于我们怎么 定义并度量“相似性”
A
Similarity 因此衍生出一系列度量 K
相似性的算法
Q
J
如何部分修正聚类的主观性? 约束聚类例子
ML
ML(A1, A2): 数据点 A1, A2 必须在同一个类.
CL(B3, A3): 数据C点LB3, A3 必须在不同的两个类.
数据变量类型
变量按测量尺度(Measurement Level)分类
名义尺度变量(Nominal)
统计学
主要集中在基于距离的聚类分析
机器学习
无指导学习(聚类不依赖预先定义的类,不等同于分类)
空间数据技术 生物学 市场营销学
1.2 为什么需要聚类
现实生活中数据太多,但是获得数据中的模式知识 太少,不可能都靠人鉴别。
股票交易分析 网页文件聚类分析 社交网络团体检测(community detection in social network) ……
学生数据:【性别,身高,奖学金等级】
传统办法:把所有变量一起处理,将不同类型 的变量组合在单个相异矩阵中,把所有有意义 的变量转换到【0,1】的区间上,再进行聚类 分析。
新方法:将不同类别变量数据分别聚类再合并
聚类融合 (Cluster Ensembles)
聚类融合,再对一致矩阵进行聚类处理
相关文档
最新文档