数据挖掘算法及应用1016 (1)

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

四
数据挖掘常用的知识表示与方法
3 分类(Classification) • 统计学方法：贝叶斯分类（Bayesian Classification）是统计学分类方法。它们可以预测类成员关系的可能性，如给定样本属于一个特定类的概率。 • 人工神经网络：神经网络常用于两类问题:分类和回归。
四
2 数据质量误差、离群点、缺失数据
数据挖掘算法
• 离散：有限或者无限可能个值。二元（布尔变量 1/0 ） • 连续：取实数值（温度高度重量）
数据挖掘算法
1.3、特殊的“ 列”
• 只有一种值的“列” • 几乎只含一种值的“列” • 列的值各不相同 • 忽略与目标同义的“列”
只有一种值的“列” 单值列对于区分不同行不包含任何信息，在DM过程中应该忽略他们。有时，一种值是数据的一个特性（预留，null no 0）定义一个子集的字段可能包含同样的值几乎只含一种值的“列” 数据偏态何时可以忽略？1几乎所有记录都有相同值；2 不同值的分布列可以忽略不计在忽略某列前，弄清楚这些值之所以有如此严重的偏态分布的原因是重要的。 “拇指规则”：如果某一列中95%-99%值相同，那么这一列很可能没用。（血压）列的值各不相同客户姓名；地址；电话号码；ID；运输识别码等无法产生预测值，但是真正的也包含了大量信息。电话号码，地址---地址信息发动机识别码---生产年份、制造商、型号等。忽略与目标同义的“列” 账号非空可能与市场开发同义流失日期非空与已经流失同义维数少比较好，能少不多
产品特点
提供历史性的静态的数据
数据访问（20 世纪80年代）
关系数据库 Oracle、Sybase （RDBMS），结论化、Informix、查询语言（SQL）， IBM和 ODBC Microsoft
Pilot、Comshare OLAP、多维数据库和、Arbor、数据仓库 Cognos和 Microstrategy Pilot、Lockheed 、IBM、SGI 和其他初创公司
一
3.
数据挖掘概述
数据挖掘对所得到的经过转换的数据进行挖掘。除了完善选择合适的挖掘算法外, 其余一切工作都能自动地完成。
4. 结果分析解释并评估结果。其使用的分析方法一般应视数据挖掘操作而定, 通常会用到可视化技术。 5. 知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去。
数据挖掘算法
2、数Fra Baidu bibliotek质量
• 测量误差和数据收集错误测量误差：测量过程导致的任何问题（误差=记录值-实际值）数据收集错误：遗漏数据对象或属性值，不正确地包含数据对象等。 • 噪声和伪像噪声是测量误差的随机部分。可能涉及值的扭曲和附加的谬误对象
1 测量误差和数据收集错误测量误差：测量过程导致的任何问题误差=记录值-实际值数据收集错误：遗漏数据对象或属性值，不正确地包含数据对象等。测量误差和数据收集错误都可能是系统的或随机的。 2 噪声和伪像噪声是测量误差的随机部分。可能涉及值的扭曲和附加的谬误对象许多数据挖掘工作都关注设计鲁棒算法（robust algorithm），即存在噪声也能产生可以接受的结果。伪像（artifact）：更确定性的现象，一组照片同一地方的条纹。
二
• 概念描述
数据挖掘的基本功能
概念描述本质上就是对某类对象的内涵特征进行概括。一个概念常常是对一个包含大量数据的数据集合总体情况的概述。如对一个商店所售电脑基本情况的概述总结就会获得所售电脑基本情况的一个整体概念。对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述，这种描述就称为概念描述。
一
数据挖掘概述
2. 数据准备 (1) 数据的选择：搜索所有与挖掘对象有关的内部和外部数据信息, 并从中选择出适用于数据挖掘应用的数据。 (2) 数据的预处理：研究数据的质量, 为进一步的分析作准备, 并确定将要进行的挖掘操作的类型。 (3) 数据的转换：将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
4
四
数据挖掘常用的知识表示与方法
数据挖掘的目的是发现知识，知识要通过一定的模式给出。可用于数据挖掘系统的知识表示模式是丰富的，通过对数据挖掘中知识表示模式及其所采用方法的分析，可以更清楚地了解数据挖掘系统的特点。
四
数据挖掘常用的知识表示与方法
1 广义知识挖掘广义知识(Generalization)是指描述类别特征的概括性知识。在源数据(如数据库)中存放的一般是细节性数据，而人们有时希望能从较高层次的视图上处理或观察这些数据，通过数据进行不同层次上的泛化来寻找数据所蕴涵的概念或逻辑，以适应数据分析的要求。
一数据挖掘概述
数据挖掘的演变进程
演变阶段
数据搜集（20 世纪60年代）
商业问题
“过去五年中整个有关连锁超市总收入是多少？” “连锁超市第一分部去年三月的销售额是多少？” “连锁超市第一分部去年三月的销售额是多少？第二分部据此可得出什么结论？”
支持技术
计算机、磁带和磁盘
产品厂家
IBM和CDC
研究课题，即孤立点分析。
Web挖掘
一般的，Web挖掘可以分为3类：Web内容挖掘（web content mining）、Web结构挖掘（web structure mining）和Web使用记录
的挖掘（web usage mining）。
三
数据挖掘的分类
数据挖掘涉及的学科领域和方法很多，有多种分类方法： 1 按挖掘的对象分类数据挖掘基于的数据库类型有：关系型、事务型、面向对象型、主动型、空间型、时间型、文本型、多媒体、异质数据库和遗产数据库。按挖掘的任务分类根据挖掘任务可以分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等。
一
数据挖掘概述
一
数据挖掘概述
二
数据挖掘的基本功能
• 根据数据挖掘发现的模式类型, 数据挖掘可以分两种：描述型数据挖掘和预测型数据挖掘。 • 描述型模式是对数据中存在的规则做一种描述，或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。例如，在地球上，70％的表面被水覆盖，30％是土地。 • 预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。例如，根据各种动物的资料，可以建立这样的模式：凡是胎生的动物都是哺乳类动物。当有新的动物资料时，就可以根据这个模式判别此动物是否是哺乳动物。 • 另外, 数据挖掘能够发现各种位于不同抽象层的模式。这些数据模式由不同的视角为用户提供领域的知识, 为用户聚焦有趣模式的搜索带来了方便。
数据挖掘算法概述及应用
数据挖掘算法
一数据挖掘概述
二
三四五六
数据挖掘的基本功能
数据挖掘的分类数据挖掘常用的知识表示与方法数据挖掘的常用算法数据挖掘的应用实例
数据挖掘算法
数据
• 1、数据结构与类型 • 2、数据质量 • 3、数据挖掘预处理数据的作用相当于厨师的原材料，巧妇难为无米之炊 • 4、根据数据联系分析数据 1 数据结构与类型行、列、数据集、特殊的“列”
• 关联分析
从广义上讲，关联分析是数据挖掘的本质。既然数据挖掘的目的是发现潜藏在数据背后的知识，那么这种知识一定是反映不同对象之间的关联。它集中在数据库中对象之间关联及其程度的刻画。关联知识反映一个事件和其他事件之间的依赖或关联。数据库中的数据一般都存在着关联关系，也就是说，两个或多个变量的取值之间存在某种规律性。数据库中的数据关联是现实世界中事物联系的表现。
数据挖掘常用的知识表示与方法
3 分类(Classification)
• 遗传算法：遗传算法是基于进化理论的机器学习，它采用遗传结合、遗传交叉又变异以及自然选择等操作实现规则的生长。遗传算法试图结合自然进化的思想。
数据之间的关联是复杂的，不仅是上面所说的依附在数据模型中的关联，大部分是蕴藏的。关联知识挖掘的目的就是找出数据库中隐藏的关联信息。通过数据库中数据的关联分析获得的，因而对商业决策具有新价值。
四
数据挖掘常用的知识表示与方法
3 分类(Classification)
分类的目的是学会一个分类模型(称作分类器)，该模型能把数据库中的数据项映射到给定类别中。从这个意义上说，数据挖掘的目标就是根据样本数据形成的类知识并对源数据进行分类、进而也可以预测未来数据的归类。
聚类分析
一般把学习算法分成有导师（或监督）和无导师学习两种方式，主要区别是有没有类信息作为指导。聚类是典型的无导师学习算法, 一般用于自动分类。
二孤立点分析
数据挖掘的基本功能
一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型。那些不符合大多数数据对象所构成的规律或模型的数据对象就被称为孤立点。在挖掘正常类知识时，通常总是把它们作为噪音来处理。然而在一些应用场合中，如信用欺诈、入侵检测等小概率发生的事件往往比经常发生的事件更有挖掘价值。因此当人们发现这些数据可以为某类应用提供有用信息时，就为数据挖掘提供了一个新的
二分类和预测
数据挖掘的基本功能
分类是数据挖掘中的一个重要的目标和任务。目前的研究在商业上应用最多。分类就是对数据的过滤、抽取、压缩以及概念提取等。分类应用的实例很多。例如，我们可以将银行网点分为好、一般和较差三种类型，并以此分析这三种类型银行网点的各种属性，特别是位置、盈利情况等属性，并决定它们分类的关键属性及相互间关系。
数据挖掘的目的之一就是根据这些数据的微观特性发现有普遍性的、更高层次概念的中观和宏观的知识。被挖掘出的广义知识可以结合可视化技术以直观的图表(如饼图、柱状图、曲线图、立方体等)形式展示给用户，也可以作为其它应用(如分类、预测)的基础知识。
四
2
数据挖掘常用的知识表示与方法
关联知识挖掘
关联知识(Association)反映一个事件和其它事件之间的依赖或关联。数据库中的数据关联是现实世界中事物联系的表现。数据库作为一种结构化的数据组织形式，利用其依附的数据模型可能刻画了数据间的关联(如关系数据库的主键和外键)。
在记录级提供历史性动态数据
数据仓库决策支持（20世纪 90年代
在各种层次上提供回溯的动态数据
数据挖掘（正在流行）
“下个月第二分部的销售高级算法、多处理器会怎么样？为什么？” 计算机和海量数据库
提供预测性信息
一
数据挖掘概述
数据挖掘的步骤数据挖掘过程一般由确定挖掘对象、数据准备、数据挖掘、结果分析表述和知识的同化这五个主要阶段组成。 1. 确定挖掘对象清晰地定义出挖掘问题, 认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的, 但要探索的问题应是有预见的, 为了数据挖掘而数据挖掘则带有盲目性, 是不会成功的。
2
三
3
数据挖掘的分类
按挖掘的方法分类根据挖掘方法可以分为:机器学习方法、统计方法、聚类分析方法、探索性分析、神经网络(Neural Network) 方法、遗传算法(Genetic Algorithm)、数据库方法、近似推理和小确定性推理方法、基于证据理论和元模式的方法、现代数学分析方法、粗糙集(Rough Set)方法、集成方法等。按挖掘的知识分类根据数据挖掘所能发现的知识可以分为:广义型知识挖掘、差异型知识挖掘、关联型知识挖掘、预测型知识挖掘、偏离型(异常)知识挖掘、不确定性知识等。当然，这些分类方法都从不同角度，刻画了数据挖掘研究的策略和范畴，他们是互相交叉而相互补充的。
一
数据挖掘概述
数据挖掘产生的背景四个方面的原因促进了数据挖掘技术产生、发展和应用。 A. 大容量数据库的出现。 B. 先进计算机技术应用。 C. 现代化经营管理的需要。 D. 对数据挖掘精、深能力的要求。
一
数据挖掘概述
2. 数据挖掘技术的定义和发展历程数据挖掘从产生至今已有多种定义, 其中得到公认的是：数据挖掘是从大量数据中揭示出有效的、新颖的、潜在有用的, 以及最终可理解的知识和模式的非平凡过程。数据挖掘的核心模块技术历经了数十年的发展。数据挖掘其实也是一个逐渐演变的过程。