大数据聚类分析0001
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据技术概论
大数据聚类分析
技术创新,变革未来
什么是聚类分析?
。聚类分析
2将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。聚类(簇):数据对象的集合
Q在同一个聚类(簇)中的对象彼此相似2不同簇中的对象则相异
什么是聚类分析?
。聚类是一种无指导的学习:没有预定义的类编号
。聚类分析的数据挖掘功能
Q作为一个独立的工具来获得数据分布
的情况
2作为其他算法(如:特征和分类)的
预处理步骤
聚类分析的典型应用O模式识别
。空间数据分析。商务应用中
O万维网
O
聚类分析的典型应用
•市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;
宸土地使用:在一个陆地观察数据库中标识那墮土地使用相似的地区;
O保险:对购买了汽车保险的客户,标识那些肴较高平均赔偿成本的客户
聚类分析的典型应用
•城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;
O地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;
什么是好的聚类分析?
什么是好的聚类分析?
•一个好的聚类方法要能产生高质量的聚类结果一簇,这些簇要具备以下两个特点:
A高的簇内相似性
»低的簇间相似性
•聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及其具体实现;
•聚类方法的好坏还取决于该方法发现隐含模式的能力;.
数据挖掘对聚类分析的要求(1)
・可扩展性(可伸缩性)
J M/E ............
・处理不同数据类型的能力
「績舫显眸分类型/标称型’序数・发现任意形状的能力
-裁距霞礬騒鱷驚韓萨的
数据挖掘对聚类分析的要求(1)
。用于决定输入参数的领域知识最小化Q对于高维数据,参数很难决定,聚类的质量也很难控制
。处理噪声数据的能力(抗噪性、健壮丿性、性)
Q对空缺值、离群点、数据噪声不敏感
数据挖掘对聚类分析的要求(2)
O对于输入数据的顺序不敏感
2同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果
O高维性
2高维的数据往往比较稀松,而且高度倾斜
数据挖掘对聚类分析的要求(2)
。基于约束的聚类
Q找到既满足约束条件,又具有良好聚类特性的数据分组
O可解释性和可用性
2聚类要和特定的语义解释和应用相联系
聚类分析中的数据类型和距离计算
聚类分析中的数据类型・许多基于内存的聚
类算法采用以下两种数据结构
-数据矩阵(对象- 变
量结构,n*p): 用P
个变量来表示n个
对象
•也叫二模矩阵,
行与列代表不同
实体
d(n^l) d{n^2)
X
1P • • • X ip • • • x np 0 "(3,2) 0 • • • •x nl
d(2,l)
d(3,l)
■
聚类分析中的数据类型
2相异度矩阵(对
条-对条结
构,n*n):存储n 个
对象两两之间的临
近度
。也叫单模矩阵,
行和列代表相同
的实体
d(n^l) d{n^2)
X
1P • • • X ip • • • x np 0 "(3,2) 0 • • • •x nl
d(2,l)
d(3,l)
■
相异度计算
。许多聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示, 则往往要将其先转化为相异度矩阵。
相异度计算
・许多聚类算法都是以相异度矩阵为基
础,如果数据是用数据矩阵形式表示, 则往往要将其先转化为相异度矩阵。
・相异度力的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括:区间标度变量、二元变量、标称型、序薮型、比例标度型变量、混合类型的变量
区间标度变量
。区间标度度量是一个粗略线性标度的连续度量,比如重量、高度等
。选用的度量单位将直接影响聚类分析的结果,因此需要实现度量值的标准化,将原来的值转化为无单位的值,给定一个变量f的度量值,可使用以下方法进行标准化:
区间标度变量
-计算平均的绝对偏差
$广氨%—竹I +1% -m f\ +...+% -m f I) 苴中m f=訴I f + X2f + -+X nf)
-计算标准化的度量值(z-score)
x -m
7 = JL__L
轉瞌髄差往往比使用标
对象间的相似度和相异度(1)
。对象间的相似度和
相异度是基于两个对象间的距离来计
算的
zEucl j de日刀距离____________________
d(i,j)= /(lx. -x , I2 +lx. -x . I2 +...+ lx. -x . I2)
V Z1丿 1 12丿 2 l P J P
v^Manha t力日刀住巨离
x. — X•丨+丨兀・—X•丨+…+lx. — X •
21 丿 1 】2 J2 l P J\
对象间的相似度和相异度(2)
^Manha t加刀距离和Euclidean^离的性质od(i,j) > 0
o d (i, i) - 0 od(i, j) = d(j, i)
od(i, j) < d(i, k) + d(k, j)