第六章 数据挖掘复习阶段
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7
在单层的关联规则中,所有的变量都没有考虑到 现实的数据是具有多个不同的层次的;而在多层 数据挖掘的关联规则中,对数据的多层性已经进 行了充分的考虑。 例如:IBM台式机=>Sony打印机,是一个细节数 据上的单层关联规则;台式机=>Sony打印机,是 一个较高层次和细节层次之间的多层关联规则。
Selection
3. 数据库类型: 关系数据库是表的集合,每个表都赋予一个 唯一的名字。 事务数据库由一个文件组成,其中每个记录 代表一个事务。 数据仓库是从多个数据源收集的信息存储,存 放在一个一致的模式下,并通过数据清理、变换 、集成等来构造。
3
4.数据挖掘的功能
关联分析: 分类和预测 聚类
17
13.数据质量
数据质量的指标: 数据应当准确; 应该根据数据类型存储数据; 数据要有完整性; 数据要有一致性; 数据不要冗余; 数据应当及时;
数据应当很好地被理解;
数据集应当是完整的。
18
14.数据仓库
数据仓库是一个集成的,面向主题的、设计用于 决策支持功能的数据库的集合,数据中的每一个 数据单元在时间上都是和某个时刻相关的。 数据集市是指一个组织可能有几个局部或部门的 数据仓库,有大有小,其规模主要依赖于其主题 的范围。
2013-11-19
11
9.异常值探测
异常值指的是数据库中不符合数据一般模型的数 据对象。
从数据库中探测异常值很有意义,因为它们本身 可能隐藏着重要的信息,比正常的数据更有用, 忽略或删除它们都会导致信息的丢失。
– 例如,发现金融和保险领域的欺诈行为、税款的脱逃、 通信费用的恶意欠费、网络中的黑客入侵、追寻极低 或极高收入者的消费行为以及对多种治疗方式不寻常 反映的发现等。
30
2.7 竞争网络和竞争学习
竞争神经网络属于一种循环网络,它们是以无指导学习算法 为基础的。为了构建竞争学习规则的网络,此类人工神经 网络的标准技术有3个基本元素是必需的:
具有相同结构,且与初始随机选择的权重连接的一组神经 。因此,神经可以不同地响应一组被给定的输入样本。
决定每根神经强度的极限值。 允许神经争取响应一组给定的输入子集权利的机制,这样 每次只有一个输出神经被激活,赢得竞争的神经被称为胜 者全获神经。
2013-11-19
2013-11-19
15
变量的分类:连续型变量和离散型变量。
2013-11-19
连续型变量也认为是定量型或是量度型, 是指 在一定区间内可以任意取值的变
量。
离散型变量也叫定性型变量,是指 全部
可能取到的不相同的值是有限个的变 量。
注:一种特殊类型的离散型变量是周期变 量,例如:星期、月和年中的日期。
数据挖掘与决策系统
华连连 QQ:2427023271
Biblioteka Baidu
0
一、数据挖掘及数据库的基本概念 1.什么是数据挖掘? 数据挖掘就是从大量的、不完全的、有噪声的、 模糊的、随机的数据中,提取隐含在其中的、人 们事先不知道的、但又是潜在有用的信息和知识 的过程。
与数据挖掘相近的术语:数据库中知识发现 (KDD)、知识提取、数据/模式识别、 数据考古 、数据捕捞、知识获取、商业智能等。
24
2.2 使用神经网络可以提供几种有用的属性和能力: 非线性——作为基本单元的神经网络可以使线性的或者非 线性的处理元素,但是整个神经网络是高度非线性的。 从样本进行学习的能力——神经网络通过对样本数据进行 一系列的训练和学习,可以改变它的联接权重。 自适应——神经网络有内臵的随外部环境改变联接权重的 能力。特别是在某个特定的环境下训练好的神经网络在外 部环境改变的时候稍加训练就可以适应新的环境。 响应验证——在对数据进行分类的环境中,神经网络可以 设计成不仅仅从给定的样本中提供有关分类的信息,还可 以提供分类的臵信度。
9
7.分类和预测
分类是对一个类别进行描述及概括相关特征,并 提取出描述重要数据类的模型。 数据挖掘中的分类方法很多,主要有决策树和决 策规则、贝叶斯信念网络、神经网络以及遗传算 法等。 预测是通过建立连续值函数模型达到预测未来的 数据趋势。预测的方法主要有回归分析、时间序 列分析等。各种分类模型也可以预测,但主要是 预测分类标号。
26
2.3人工神经元的模型
一个人工神经元就是一个信息处理单元,它是一 个神经网络运转的基础。神经元由3个基本元素组 成:一组连接线、加法器、激活函数f,限制神经 元输出值y的幅度。
27
2.4人工神经网络结构
人工神经网络的结构是通过节点的特性以及网络中节点连 接的特性来定义的。网络结构可以用网络的输入数目、输 出数目、基本节点的总数以及节点间的组织和连接方式来 表示。 按照连接的类型,神经网络通常分为两类:前向型和回馈 型。
异常值探测
序列模式挖掘
2013-11-19
4
5.关联分析
关联分析是用于挖掘、发现大量数据中项集之间 存在的、重要的、有趣的知识。若两个或多个变 量的取值之间存在某种规律性,就称为关联。 在不知道关联函数或关联函数不确定的情况下, 为了反映所发现规则的有用性和确定性,关联分 析生成的规则都要满足最小支持度阀值和最小臵 信度阀值。
2013-11-19 16
12.数据挖掘的步骤
数据挖掘是通过分析每个数据,从大量数据中寻 找其规律的技术,主要有数据准备、规律寻找和 规律表示3个步骤。 数据准备是从相关的数据源中选取所需的数据并 整合成用于数据挖掘的数据集;
规律寻找是用某种方法将数据集所含的规律找出 来;
规律表示是尽可能以用户可理解的方式(如可视 化)将找出的规律表示出来。
前向型:处理过程的传播方向是从输入端传向输出端且没 有任何的回环或反馈。在一个分层的前向型神经网络中, 同一层上的节点之间是没有相互连接的,在某一特定的层 上节点的输出总是作为下一层节点的输入。
反馈型:有反馈连接组成网络中的封闭回路(通常有一个 延迟单元作为同步组件。)
28
2.5 神经网络学习过程
物流实务与管理
华连连
1
知识发现(KDD)过程 2.数据挖掘是知识发现的核
心步骤
Pattern Evaluation
Data Mining Task-relevant Data Data Warehouse Data Cleaning Data Integration
2013-11-19 Databases 2
5
6.关联规则的分类
1.基于规则中处理的变量的类别,关联规则可以 分为布尔型和数值型。
2.基于规则中数据的抽象层次,可以分为单层关 联规则和多层关联规则。
3.基于规则中涉及到的数据的维数,关联规则可 以分为单维的和多维的。
6
布尔型关联规则处理的值都是离散的、种类化的,它显示 了这些变量之间的关系;而数值型关联规则可以和多维关 联或多层关联规则结合起来,对数值型字段进行处理,将 其进行动态的分割,或者直接对原始的数据进行处理,当 然数值型关联规则中也可以包含种类变量。例如:性别 =“女”=>职业=“秘书”,是布尔型关联规则;性别 =“女”=>avg(收入)=2300,涉及的收入是数值类型, 所以是一个数值型关联规则。
31
3.遗传算法(Genetic Algorithm)
3.1遗传算法的基本原理
遗传算法是一类借鉴生物界的进化规律(适者生存, 优胜劣汰遗传机制)演化而来的随机化搜索方法,是近几 年发展起来的一种崭新的全局优化算法,它借 用了生物遗 传学的观点,通过自然选择、遗传、变异等作用机制,实 现各个个体的适应性的提高。这一点体现了自然界中"物 竞天择、适者生存"进化过程。
20
决策树的应用举例
客户信贷分类
2013-11-19
21
输出结果:关于“buys_computer”的决策树
2013-11-19
22
2.神经网络
人工神经网络是人脑的抽象计算模型。大脑约有1011个微 处理单元,叫做神经元。这些神经元之间相互连接,连接 的数目大约达到1015 数量级。和人脑一样,人工神经网络 也是由人工神经元组成的,这些神经元之间相互连接。 当我们将网络看作一个图表的时候,我们可以把神经元看 作是节点,神经元之间的相互连接看作边。
8
在单维的关联规则中,我们只涉及到数据的一个 维,如用户购买的物品;而在多维的关联规则中 ,要处理的数据将会涉及多个维。换成另一句话 ,单维关联规则是处理单个属性中的一些关系; 多维关联规则是处理各个属性之间的某些关系。 例如:啤酒=>尿布,这条规则只涉及到用户的购 买的物品;性别=“女”=>职业=“秘书”,这条 规则就涉及到两个字段的信息,是两个维上的一 条关联规则。
统计学方法必须有前提假设。而数据挖掘是在没有明确假 设的前提下去挖掘信息、发现知识。数据挖掘所得到的信 息应具有先未知、有效和可实用三个特征。
13
11.原始数据的表述
数据样本是数据挖掘过程的基本组成部分。
每个样本都用几个特征来描述,每个特征有 不同类型的值。
2013-11-19
14
常见的数据类型有:数值型和分类型。 数值型包括实型变量和整型变量 注:具有数值型值的特征有两个重要的属 性:其值有顺序关系和距离关系。
2013-11-19 10
8.聚类
聚类是在要划分的类未知的情况下,将数据库中 的记录划分为多个类或簇,使得同类内的对象之 间具有较高的相似度,不同类间的差异较大。它 是概念描述和偏差分析的先决条件。 数据挖掘中的聚类方法有划分方法、层次的方法、 基于密度的方法、基于网格的方法以及基于模型 的方法等。
19
二、数据挖掘技术和功能
1.决策树和决策规则:
决策树是用二叉树形图来表示处理逻辑的一种工具,是对 数据进行分类的方法。决策树的目标是针对类别因变量加 以预测或解释反应结果。 决策树和决策规则是解决实际应用中分类问题的数据挖掘 方法。 一个典型的决策树学习系统采用的是自顶向下的方法,在 部分搜索空间中搜索解决方案。它可以确保求出一个简单 的决策树,但未必是最简单的。决策树包括属性已被检验 的节点,一个节点的输出分枝和该节点的所有可能的检验 结果相对应。
32
3.2遗传算法的特性:
25
容错性——神经网络有固有的潜在容错能力,或者说是计 算的健壮性。它的执行效率在某些不利情形下并不会显著 地降低,比如说神经元的断开、干扰或者数据的丢失。
统一的分析和设计:基本上,人工神经网络和信息处理器 一样具有良好的通用性。在所有有关人工神经网络的应用 领域,使用了相同的原理、符号以及方法上使用了相同的 步骤。
神经网络的最主要任务是学习现实世界中内嵌神 经网络的模型,并保持模型同真实世界的高度一 致性,以便能够实现相关应用程序的特定目标。 学习过程是基于真实世界的数据样本进行的,这 是设计神经网络通信息分类处理系统的最根本的 不同。
29
2.6 神经网络的多层感知机
多层感知机有3个显著的特征: 神经网络中的每个神经元模型通常包含一个非线 性的函数,曲线或者双曲线函数。 神经网络包含神经元的一个或多个隐层,不是神 经网络的输入或者输出的一部分。这些隐藏节点 使得神经网络从输入模式中不断获取有意义 的特 性来学会复杂和高度非线性的高度。 神经网络中的层与层之间高度的连接性。
2013-11-19
12
10.统计学与数据挖掘的关系
统计学和数据挖掘有着共同的目标。
– 统计学和数据挖掘有着共同的目标:发现数据中的结 构或模式。
统计学在数据挖掘中起着重要的作用。
– 传统的统计学方法是数据挖掘的经典方法,统计学思 想在整个数据挖掘过程都有重要的体现,担负着不可 忽视的重任。
数据挖掘技术与统计学集成是必然趋势。统计学 是数据挖掘的核心。
23
2.1神经网络的定义
神经网络是一个由很多节点通过方向性链接组成的一个网 络结构。每一个节点代表一个处理单元,并且节点之间的 连接表明了所连接的节点之间的因果关系。所有的节点都 是自适应的,这就意味着这些节点的输出同这些节点的可 修改的参数值有关。 定义:人工神经网络是由大量并行分布式处理单元组成的 简单处理单元。它有通过调整连接强度而从经验知识进行 学习的能力,并可以将这些知识进行运用。