数据挖掘的常用算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Company Logo
1 概念和术语
数据挖掘的对象 (1)关系型数据库、事务型数据库、面向对象的数据库; (2)数据仓库 / 多维数据库; (3)空间数据(如地图信息); (4)工程数据(如建筑、集成电路的信息); (5)文本和多媒体数据(如文本、图象、音频、视 频
数据) (6)时间相关的数据(如历史数据或股票交换数据); (7)万维网(如半结构化的HTML,结构化的XML以及其
Discovery in Databases)或知识发现,它是一个从 大量数据中抽取挖掘出未知的、有价值的模式或规律 等知识的非平凡过程,它与数据仓库有着密切的联系。 广义的数据挖掘是指知识发现的全过程;狭义的数据 挖掘是指统计分析、机器学习等发现数据模式的智能 方法, 即偏重于模型和算法。 数据库查询系统和专家系统不是数据挖掘!在小规模 数据上的统计分析和机器学习过程也不应算作数据挖 掘。
Company Logo
2 决策树归纳算法
一棵典型的决策树如图表5-1所示。
某公司应用决策树方法预测客户是否购买电脑的 方法,内部节点用矩形表示,而叶节点用椭圆表 示。每个内部(非树叶)节点表示一个属性的测 试。每个树叶节点代表一个类 (buys_computer=yes,或buys_computer=no)
父节点中占多数的类别标记。 2. 某节点没有剩余的属性。此时,该节点作为叶节点,并用该节点
占多数的类别标记。
Comபைடு நூலகம்any Logo
2 决策树归纳算法
使用的策略:分而治之 过程:递归的对训练数据进行分隔的过程,自顶向下
的构造决策树 每个后续的递归都选择最佳分类属性作为分隔当前数
据实例集的属性。 最佳分类属性的选择是通过一个混杂度函数来实现的。
Quinlan后来提出了C4.5(ID3的后继),成为新的监督学习算法 的性能比较基准,核心算法是ID3。
1984年几位统计学家(L.Breiman,J.Friedman,R.Olshen和 C.Stone)出版了分类与回归树(CART),介绍了二叉决策树的产 生。
ID3,C4.5和CART都采用贪心(即非回溯的)方法,其中决策树以 自顶向下递归的分治方法构造。
Company Logo
1 概念和术语
数据挖掘算法按挖掘目的可分为: (1)概念描述(总结,对比等) (2)关联规则分析 (3)分类与预测 (信息自动分类,信息过滤,图像识
别等) (4)聚类分析 (5)异常分析(入侵检测,金融安全等) (6)趋势、演化分析(回归,序列模式挖掘)
Company Logo
他网络信息)
Company Logo
1 概念和术语
数据挖掘的步骤 (1)数据清理(消除噪音或不一致数据,补缺); (2)数据集成(多种数据源可以组合在一起); (3)数据选择(从数据库中提取相关的数据); (4)数据变换(变换成适合挖掘的形式); (5)数据挖掘(使用智能方法提取数据模式); (6)模式评估(识别提供知识的真正有趣模式); (7)知识表示(可视化和知识表示技术)。
Company Logo
目录
1. 概念和术语 2. 决策树归纳算法 3. Apriori算法 4. 聚类算法 5.其他一些算法
Company Logo
2 决策树归纳算法
在20世纪70年代后期和80年代出去,机器学习研究者J.Ross Quinlan开发了决策树算法,称作ID3(Iterative Dichotomiser, 迭代的二分器)
Company Logo
2 决策树归纳算法
何为混杂度函数? 1.混杂度函数反映了用该属性进行数据分隔以后的数据
集的混杂度。 2.目前用于决策树学习的混杂度函数是信息增益和信息
增益率。
3.这里的信息增益是涉及了信息论中信息熵的概念。
信息熵是表示一个事件的不确定性的大小, 不确定性越大那么该事件包含的信息熵就越大, 如果一个事件完全确定了,那么它所包含的信息熵就
第五章 数据挖掘中常用算法
LOGO
目录
1. 概念和术语 2. 决策树归纳算法 3. Apriori算法 4. 聚类算法 5.其他一些算法
Company Logo
1 概念和术语
数据挖掘和知识发现 数据挖掘是从存放在数据集中的大量数据挖掘出有趣
知识的过程。 数据挖掘,又称为数据库中知识发现(Knowledge
Company Logo
2 决策树归纳算法
从数据产生决策树的机器学习技术叫做决策树学习, 通 俗说就是决策树。
决策树是一种类似于流程图的树结构;其中,每个内部 节点(非树叶节点)表示在一个属性上的测试,每个分 支代表一个测试输出,而每个树叶节点(或终结点)存 放一个类标号。
决策树归纳是从类标记的训练元组学习决策树。
是0
Company Logo
2 决策树归纳算法
信息增益的主要思想
1.给定一数据集D|C| ,用公式(1)
entropy(D)=-Pr(cj)log 2(Pr(cj)) j1
1 概念和术语
按训练方式,机器学习可分为: (1)有监督的学习;有训练样本,学习机通过学习获有
监督的学习;并用其作为判断测试样本的类别的依 据。、 (2)无监督的学习:无训练样本,仅根据测试样本的 在特征空间分布情况判断其类别。 (3)半监督的学习:有少量训练样本,学习机以从训练 样本获得的知识为基础,结合测试样本的分布情况逐 步修正已有知识,并判断测试样本的类别。 (4)强化学习:没有训练样本,但有对学习机每一步 是否更接近目标的奖惩措施。
Company Logo
2 决策树归纳算法
算法思想: 设S为训练集,训练集中有U1、U2两类,训练集含有n个属性(A1、
A2…An),Ak处有m个取值(V1、V2…Vm) 1. 计算该集合所包含的全部属性的互信息,选择最大的Ak ,作为节
点。 2. 把Ak处取值相同的,归为一个子集。 3. 若子集中同时含有U1、U2类的样本,返回1,递归调用。 4. 若子集仅含有U1或U2,对该分支标上类别,该分支结束运算。 当算法遇到以下两种情况,也应停止递归运算。 1. 某节点对应的训练数据子集为空。此时该节点作为叶节点,并用
相关文档
最新文档