数据挖掘文献综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章 数据挖掘的相关算法
1 关联规则
• 关联规则首先由Agrawal,Imielinski和Swami在1993年 在对市场购物篮进行分析时首次提出,它反映的是一 个事件和其他事件之间依赖或关联的知识。如果两项 或多项属性之间存在关联,那么其中一项的属性值就 可以依据其他属性值进行预测。 • 最为著名的关联规则发现方法是Apriori算法、FP— Growth算法和使用垂直数据格式的算法。
7.数据挖掘目前的应用领域 • 市场分析和预测。 如广播公司进行的收视率调查、 大型超市销售分析与预测、 销售渠道与价格分析等; • 工业生产。主要用于发现最佳生产过程; • 金融。采用统计回归式神经网络构造预测模型,如自 动投资系统、 可预测最佳投资时机 ; • 科学研究。对天文定理的发现、分析地壳的构造活动 等; • web数据挖掘。 站点访问模式分析、网页内容 自动分 类聚类等; • 工程诊断。用于工程事故诊断。
• 基于密度的方法 绝大多数划分方法基于对象之间的距离进行聚类, 这样的方法只能发现球状的类,而在发现任意形状的 类上遇到了困难。基于密度的聚类的主要思想是:只 要临近区域的密度(对象或数据点的数目)超过某个 阈值就继续聚类。也就是说,对给定类中的每个数据 点,在一个给定范围的区域中必须至少包含某个数目 的点。这样的方法可以用来过滤噪声和孤立点数据, 发现任意形状的类。 DBSCAN算法是一个有代表性的基于密度的方法, 它是由Ester、Kriegel、Sander和Xu在1996年提出的。
3 聚类
• 聚类分析是多元统计分析方法之一,也是统计模式识 别中非监督模式识别的一个重要分支。它将数据集分 成不同的几个类,使得在同一类的数据对象尽可能相 似,而不同类中的数据尽可能的相异。 • 聚类分析已经广泛地用于许多应用领域,包括市场研 究、模式识别、数据分析和图像处理。 • 聚类的方法有划分方法、层次方法、基于密度的方法、 基于网格的方法、基于模型的方法、针对高维数据的 方法和基于约束的方法。
6.国内的数据挖掘研究 • 1993年国家自然科学基金首次支持对该领域的研究项 目。 • 北京系统工程研究所对模糊方法在知识发现中的应用 进行了较深入的研究。 • 北京大学也在开展对数据立方体代数的研究。 • 华中理工大学、复旦大学、浙江大学、中国科技大学、 中科院数学研究所、吉林大学等单位开展了对关联规 则开采算法的优化和改造。 • 南京大学、四川联合大学和上海交通大学等单位探讨、 研究了非结构化数据的知识发现以及Web数据挖掘。
数据挖掘文献综述
• 第一章 现状研究 • 第二章 数据挖掘的一般算法 • 第三章 数据挖掘的将来走向
第一章 现状研究
1.数据挖掘概念:
•
•
•
广义的数据挖掘认为,数据挖掘就是从大量的、不 完全的、有噪声的、模糊的、随机的实际应用数据 中,提取隐含在其中的、人们事先不知道的、但又 是潜在有用的信息和知识的过程。 狭义的数据挖掘认为数据挖掘仅仅是数据库中知识 发现的一个基本步骤(即发现阶段)。 然而在产业界、学术界数据挖掘已经成为数据库中 的知识发现或KDD的代名词,比狭义的数据挖掘概念 更流行,所以在这里本文也采用数据挖掘的广义观 点。
4.数据挖掘的研究历程
• KDD一词首次出现在1989年8月举行的第11届国际联合 人工智能学术会议上,20世纪90年代数据挖掘有了突 飞猛进的发展。 • 1991年,韩家炜等提出了面向属性的归纳方法,这是 一种有效的、完整的知识发现算法; • Agrawal,Imielinski和Swami在1993年在对市场购物 篮进行分析时首次提出关联规则,它被认为是最常见、 最广泛的数据挖掘应用;
• 划分方法 划分方法首先由Lloyd提出,其主要思想 是首先创建k个划分的初始集合,其中参数k 是要构建的划分数目,然后采用迭代重定位 技术,通过将对象从一个簇移到另一个来改 进划分的质量。
•
层次方法 基于划分的聚类算法获得的是单级聚类,而层次 聚类是将数据集分解成几级进行聚类,层的分解可 以用树形图来表示。根据层次分解的形成方式,层 次的方法可以分为凝聚的和分裂的。 层次的方法缺陷在于,没有全局待优化的目标函 数;合并或分裂点的选择困难,往往好的局部合并 选择不能保证高质量的全局聚类结果;对噪声、孤 立点敏感,不适于非凸型分布数据集;一旦一个步 骤(合并或分裂)完成,它就不能被取消。
2.数据挖掘的阶段
数据挖掘过程包括很多处理阶段,其一般流程主要包 括三个阶段:数据准备、数据挖掘、结果解释和评价, 其中数据准备阶段包含数据选择和数据的预处理两个 步骤。如下图:
3.数据挖掘的划分
①按数据挖掘的对象分类,包括关系数据库、数据仓库、 事务数据库、对象-关系数据库、序列数据库、时间数 据库、多媒体数据库、数据流和Web数据。不同类型的 数据储存库,数据挖掘的方法也有不同。 ②根据挖掘的任务分类有:关联规则、分类和预测、聚 类、孤立点分析等。 ③根据应用的领域分类:数据挖掘的应用领域非常广泛, 如金融、电信、DNA分析、股票市场、网络数据分析等。
• 使用垂直数据格式的算法 使用垂直数据格式的算法由Zaki和Hsiao 提出。Apriori算法和FP—Growth算法都是基于 水平数据格式的事务集挖掘频繁模式,使用垂 直数据格式的算法先是将水平数据格式的事务 数据集变换成垂直数据格式,根据Apriori性质 和附加的优化技术,对变换后的数据集进行挖 掘。
• 神经网络算法 神经网络算法早期由Rosenblatt提出, Setiono在1995年给出了一种利用神经网络进行 数据挖掘分类的方法。其基本思路都是基于搜 索的算法,对于任一给定的隐结点或输出结点, 提取符号规则后,然后对生成的规则按网络的 传导途径进行连接和整理。从神经网络中抽取 规则是一个复杂的过程,这其中隐结点的离散 化过程不仅繁琐,而且会丢失信息。另外,当 数据量增多,网络规模变大时,网络训练和规 则抽取的时间代价将会非常大。
• 李德仁院士在1994年于加拿大渥太华举行的GIS 国 际学术会议上首次提出了从GIS数据库中发现知 识— KDG(Knowledge Discovery from GIS)的概念, 并系统分析了空间知识发现的特点和方法。 • Faloutsos等在1995年给出了多媒体数据挖掘的一 种快速算法FastMap,用于对多媒体数据集的索引、 数据挖掘和可视化。 • Feldman和Hirsh于1998年研究了挖掘文本数据库中 关联规则的方法。 • Web挖掘在90年代有了大量的研究成果,1998年 Florescu,Levy和Mendelzon给出来了Web数据刻苦 研究的全面综述。
2 分类 • 它反映同类事物共同性质的特征型知识和不同事物之 间的差异型特征知识。 • 分类在金融、零售业和医疗等领域都有应用,例如给 银行贷款申请者进行风险分类、根据顾客的购物习惯 对顾客等级分类、对病人进行症状的分类。 • 分类方法有ห้องสมุดไป่ตู้策树、朴素贝叶斯、神经网络、支持向 量机、遗传算法、粗糙集方法、模糊集方法。准确性、 计算速度、鲁棒性、可伸缩性和可解释性是评估分类 方法的标准。
• 决策树算法 决策树算法早期由J.Ross Quinlan开发, 它是从实例集中构造决策树,是一种有指导 的学习方法。该方法先根据训练子集形成决 策树,如果该树不能对所有对象给出正确的 分类,那么选择一些例外加入到训练子集中, 重复该过程一直到形成正确的决策集。最终 结果是一棵树,其叶结点是类名,中间结点 是带有分枝的属性,该分枝对应该属性的某 一可能值。
• FP—Growth算法 FP—Growth算法由韩家炜等提出,是一种 不产生候选的挖掘频繁项集方法。它构造一个 高度压缩的数据结构(FP树),压缩原来的事 务数据库,聚焦于频繁模式增长,避免了高代 价的候选产生,大大降低了搜索开销。 FP—Growth算法的缺点是当数据库很大时, 构造基于内存的FP树有时不是现实的。
• 朴素贝叶斯分类 朴素贝叶斯分类由是一种统计学分类方法, 它基于一个简单的假定:在给定分类特征条件 下属性值之问是相互独立的。算法的缺点是使 用的假定(如类条件独立性)的不正确性,以 及缺乏可用的概率数据。 Domingos 和Pazzani对朴素贝叶斯分类的 预测能力进行了分析。John G.H给出了连续值 属性的核密度估计。
随着数据挖掘研究的不断深入,数据挖 掘应用领域的规模正在逐步扩大,其中较为显 著的依次为银行业、娱乐音乐,科学和卫生保 健。 国内应用数据挖掘的企业以通信企(移 动、联通、电信)为首,应用的深度和广度都 处于领先地位。除了通信业,国内的银行证券 业、国家税务系统、各大商务网站也逐渐开始 使用数据挖掘技术。由于客户信息不太完整, 国内零售业对数据挖掘应用的不是很广泛。
5.数据挖掘的学术会议 • 1995年在加拿大召开了第一届知识发现和数据 挖掘国际学术会议。 • 1998年,一个关于数据挖掘的新的学术组织 ACM–SIG-KDD建立,它组织了一些国际或地区性 数据挖掘会议 ,如“数据仓库与知识发现国际 会议”“知识发现与数据挖掘太平洋亚洲会议” 和“数据库中知识发现原理与实践欧洲会议”。
•
Apriori算法 Apriori算法由Agrawal,Imielinski和Swami提 出,是挖掘频繁项集的原创性算法,它探索逐层挖 掘Apriori性质:频繁项集的所有非空子集也必须是 频繁的。在第k次迭代,它根据频繁(k-1)项集, 形成候选频繁k项集,并扫描数据库一次,找出完整 的频繁k项集的集合。 Apriori算法的缺点是扫描事务数据库的次数和 连接成高维候选项目集时的比较次数太多,算法效 率不高。对Apriori算法进行改进的技术有基于散列 的技术、事务压缩、划分、抽样和动态项集计数等。
8.数据挖掘的应用软件 • SAS Enterprise Miner:这个工具为用户提供了用于 建模的一个图形化流处理环境,并且它有一组常用的 数据挖掘算法,包括决策树、神经网络、回归、关联 等,还支持文本挖掘。 • SPSS Clementine :Clementine 是首次引入数据挖掘 流概念的产品之一。它允许用户在同一个工作流环境 中清理数据、 转换数据和构建模型。 • IBM Intelligent Miner:不仅可以寻找包含于传统文 件、数据库、数据仓库和数据中心中的隐含信息, 更 允许企业从文本信息 中获取有价值的客户信息。 • Intelligent Miner:使用预测模型标记语言来导出挖 掘模型, 这种语言由数据挖掘协会定义。
国内也有不少新兴的数据挖掘软件: • DMiner :由上海复旦德门软件公司开发的具有 自主知识产权的数据挖掘平台。 • IDMiner :由海尔青大公司开发的具有自主知 识产权的数据挖掘系统。 • MSMiner :由中科院计算技术研究所智能信息 处理实验室开发的多策略数据挖掘平台。
一般的数据挖掘软件系统构成
• 支持向量机算法 关于支持向量机的第一篇论文是由Boser, Guyon和Vapnik写的。支持向量机是一种用于线 性和非线性数据的分类方法,它将原数据变换 到较高维空间,使用称作支持向量的基本训练 元组,从中发现分离数据的超平面。
分类的其它一些算法 • 遗传算法中,规则总体通过交叉和变异操作, 直到总体中所有规则都满足指定的阈值。 • 粗糙集方法可以用来近似地定义类,这些类根 据可用的属性是不可区分的。 • 模糊集方法是用隶属度替换连续值属性的阈值。
• 基于网格的方法 基于网格的方法把对象空间量化为有限数 目的单元,形成一个多分辨率的网络结构。所 有的聚类都是在这个网络结构(即量化的空间) 上进行。这种方法的主要优点是它的处理速度 很快,其处理时间独立于数据对象的数目,只 与量化空间中每一单元的数目有关。 基于网格的有代表性的算法包括:STING算 法(W.Wang,J.Yang,R.R.Muntz在1997年提 出),WaveCluster算法(G.Sheikholeslami, S.Chatterjee,A.Zhang在1998年提出)等。