商务数据分析 第4章 商务数据挖掘技术
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析
·k 均值聚类算法
k 均值算法基本过程如下: (1)选择一个含有随机样本的 k 个簇的初始划分,计算这些簇的质心。 (2)根据欧氏距离把剩余的每个样本分配到离它最近的簇质心的一个划分。 (3)计算被分配到每个簇的样本的均值向量,作为新的簇的质心。 (4)重复(2)、(3)直到 k 个簇的质心点不再发生变化或误差平方和准 则最小。
聚类分析
·分类
聚类算法有很多种,可以根据数据类型、目的以及具体应用要求来选择 合适的聚类算法。
通常聚类算法可以分为以下几类。 (1)基于划分的聚类算法。 (2)基于层次的聚类算法。 (3)基于密度的聚类算法。 (4)基于模型的聚类算法。 (5)基于网格的聚类算法。
聚类分析
·k 均值聚类算法
k 均值(k-Means)算法的基本思想是,首先随机选取几个点作为 初始聚类中心,然后计算各个对象到所有聚类中心的距离,把对象归 到离它最近的那个聚类中心所在的类。计算新的聚类中心,如果相邻 两次的聚类中心没有任何变化,说明对象调整结束,聚类准则函数已 经收敛,至此算法结束。
聚类分析
·k 均值聚类算法
聚类分析
·应用场景
基于用户位置信息的商业选址:随着信息技术的快速发展,移动设备和 移动互联网已经普及千家万户。在用户使用移动网络时,会自然地留下位置 信息。随着近年来 GIS(Geographic Information System,地理信息系统) 的不断完善普及,结合达的商户信息,向用户推送位置营 销服务,提升商户效益。可通过大量移动设备用户的位置信息,为某连锁餐 饮机构提供新店选址。
聚类分析
·基本思想
聚类分析的基本思想是根据物以类聚的原理,把数据分成不同的组或类,使得 组与组之间的相似度尽可能小,而组内数据之间具有较高的相似度。将一群物理的 或抽象的对象,根据它们之间的相似程度,分为若干组,其中相似的对象构成一组, 这一过程就称为聚类。一个聚类(又称为簇)就是由彼此相似的一组对象所构成的 集合。采用聚类分析技术,可以把无标识数据对象自动划分为不同的类,并且可以 不受先验知识的约束和干扰,获取属于数据集合中原本存在的信息。
第4章 商务数据挖掘技术
学习目标
01
了解常用的数据挖掘 方法。
02
理解各类数据挖掘算 法。
03
常试用相关技术解决问 题。
1
分类分析
目录
CONTENTS
2
聚类分析
3
关联分析
4
文本挖掘分析
分类分析
分类分析
·定义
分类分析:将数据映射到预先定义好的群组或类。 可通过在一群已经知道类别标号的样本中,有监督地学习构造一个 分类函数(分类模型),然后使用该分类模型对测试数据和新的数据进 行分类,将具有某些特征的数据全都映射到某个更加符合其特征的群组 或类上,从而完成分类。 常用的分类算法有朴素贝叶斯算法、决策树算法、k 近邻算法。
分类分析
·常见算法
k 近邻(k-Nearest Neighbor,KNN)算法:是一种基于实例的分类方法。 该方法就是找出与未知样本 x 距离最近的 k 个训练样本,看这 k 个样本中多 数属于哪一类,就把 x 归为那一类。k 近邻算法是一种懒惰学习方法,它存放 样本,直到需要分类时才进行分类,如果样本集比较复杂,可能会导致很大的 计算开销,因此无法应用到实时性很强的场合。
分类分析
·常见算法
朴素贝叶斯算法:是基于贝叶斯定理与特征条件独立假设的分类算法,是 应用最广泛的分类算法之一。该算法假定给定目标值时属性之间相互条件独立, 即没有哪个属性变量对于决策结果占很大(很小)的比重,这在一定程度上降 低了贝叶斯算法的分类效果,但在实际应用场景中,极大简化了贝叶斯算法的 复杂性。
分类分析
·k近邻算法——KNN算法
KNN 算法基本过程:
(1)距离计算:给定测试实例,计算出测试实例与训练集中每个样本的距离 距离函数:距离是 KNN 算法测量相似性的一个手段。对于样本的距离测量,从样本 A 到 样本 B 的距离,记为 d(A,B)。欧氏距离是十分常用的距离量度,公式为:
(2)寻找近邻:找出与测试实例距离最小的前 K 个训练样本作为测试实例的近邻 (3)确定类别:将 K 个最近邻的主要归属类别作为测试实例的确定类别
分类分析
·常见算法
决策树算法:决策树算法是一种逼近离散函数值的方法。它是一种典型的 分类方法。该方法首先对数据进行处理,利用归纳算法生成可读的规则和决策 树,然后使用决策树对新数据进行分析。决策树由节点 (Node)和有向边 (Directededge)组成。节点的类型有两种:内部节点和叶节点。其中,内部 节点表示一个特征或属性的测试条件(用于分开具有不同特性的记录),叶节 点表示一个分类。
分类分析
贝叶斯定理:
·朴素贝叶斯算法
分类分析
·朴素贝叶斯算法
朴素贝叶斯分类原理:
朴素贝叶斯分类基于一个简单的假定:在给定分类特征的条件下,描述属性值是相互独 立的。
分类分析
·决策树算法
根节点:第一个测试条件
分类分析
·决策树算法
决策树的建立步骤:
(1)决定分类属性 (2)对目前的数据表,建立一个节点 N (3)如果数据表中的数据都属于同一类,N 就是树叶,在树叶上标上所属的那一类 (4)如果数据表中没有其他属性可以考虑,N 也是树叶,按照少数服从多数的原则在树叶 上标上所属类别 (5)否则,根据平均信息期望值 E 或 Gain 值选出一个最佳属性作为节点 N 的测试属性 (6)节点属性选定以后,对于该属性的每一个值:从 N 生成一个分支,并将数据表中与该 分支有关的数据收集形成分支节点的数据表,在表中删除节点属性那一栏。如果分支数据表非 空,则运用合适的决策树算法从该节点建立子树
聚类分析
聚类分析
·定义
Hale Waihona Puke 聚类分析:聚类(Clustering)用来对数据对象进行分组,将相似 的对象划分到同一组或者类别中。与分类问题不同,聚类产生的类别标签 是未知的,因此聚类被称为“无监督学习”。聚类是一种探索性的数据分 析方法,与分类方法不同,它没有预测的功能,而是根据对象不同属性所 决定的距离,来发现相似的对象并划分为同一个分组。