《高级人工智能》第九章知识发现和数据挖掘(2)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
规则、科学规律、方程或概念网。
2019/6/13
高级人工智能 史忠植
3
数据库知识发现
目前, 关系型数据库技术成熟、应用广泛。 因此, 数据库知识发现(Knowledge Discovery in Databases KDD)的研究非常活跃。
该术语于1989年出现,Fayyad定义为 “KDD是从数据集中识别出有效的、新颖的、 潜在有用的,以及最终可理解的模式的非平凡 过程”
高级人工智能 史忠植
18
关联规则发现任务
给定一个事务数据库D,求出所有满足最小支 持度和最小可信度的关联规则。该问题可以分解 为两个子问题: 1) 求出D中满足最小支持度的所有大项集; 2) 利用大项集生成满足最小可信度的所有关联规
则。对于每个大项集A,若BA,B≠φ ,且 Confidence(B (AB))minconf,则构成 关联规则B (AB)
20世纪80年代,人们要利用现有的数据,进行分析和推理, 从而为决策提供依据。这种需求既要求联机服务,又涉及大量 用于决策的数据。而传统的数据库系统已无法满足这种需求:
所需历史数据量很大,而传统数据库一般只存储短期数据。
涉及许多部门的数据,而不同系统的数据难以集成。
对大量数据的访问性能明显下降
第九章 知识发现和数据挖掘
数据库中知识发现
史忠植 中科院计算所
2019/6/13
高级人工智能 史忠植
1
知识发现 关联规则 数据仓库 知识发现工具
2019/6/13
高级人工智能 史忠植
2
知识发现
知识发现是指从数据集中抽取和精炼新的模式。 范围非常广泛:经济、工业、农业、军事、社会 数据的形态多样化:数字、符号、图形、图像、声音 数据组织各不相同:结构化、半结构化和非结构 发现的知识可以表示成各种形式
聚类:
根据数据的不同特征,将其划分为不同的类。无导师学习
2019/6/13
高级人工智能 史忠植
7
知识发现的任务(2)
相关性分析:
发现特征之间或数据之间的相互依赖关系 关联规则
偏差分析:
基本思想是寻找观察结果与参照量之间的有意义的差别。通 过发现异常, 可以引起人们对特殊情况的加倍注意。
高级人工智能 史忠植
32
2019/6/13
高级人工智能 史忠植
33
2019/6/13
高级人工智能 史忠植
34
2019/6/13
高级人工智能 史忠植
35
数据仓库
在过去几十年,数据库技术,特别是OLTP(联机事务处 理),主要是为自动化生产、精简工作任务和高速采集数据服 务。它是事务驱动的、面向应用的。
2019/6/13
高级人工智能 史忠植
17
关联规则的相关概念(4)
最小支持度minsup
用户规定的关联规则必须满足的最小支持度。
最小可信度minconf
用户规定的关联规则必须满足的最小可信度。
大项集(大项集、大物品集largeitemset)
支持度不小于最小支持度minsup的物品集
2019/6/13
2019/6/13
高级人工智能 史忠植
5
2019/6/13
高级人工智能 史忠植
6
知识发现的任务(1)
数据总结:
对数据进行总结与概括。传统的最简单的数据总结方法是计 算出数据库的各个字段上的求和值、平均值、方差值等统计 值,或者用直方图、饼状图等图形方式表示。
分类:
根据分类模型对数据集合分类。分类属于有导师学习,一般 需要有一个训练样本数据集作为输入。
成的,内容相对稳定的、不同时间的数据集合,用以 支持经营管理中的决策制定过程。
2019/6/13
高级人工智能 史忠植
37
数据仓库的特征(1)
数据仓库中的数据是面向主题的
与传统数据库面向应用相对应的。主题是一个在 较高层次将数据归类的标准,每一个主题基本对应一 个宏观的分析领域
2019/6/13
高级人工智能 史忠植
13
关联规则的表示
关联规则的形式如 “在购买面包顾客中,有70%的人 同时也买了黄油”,可以表示成:面包→黄油。 用于关联规则发现的主要对象是事务型数据库,其中 针对的应用则是售货数据,也称货篮数据。一个事务 一般由如下几个部分组成:事务处理时间 ,一组顾客 购买的物品,有时也有顾客标识号(如信用卡号)。
神经计算:
神经网络是指一类新的计算模型,它是模仿人脑神经网络的 结构和某些工作机制而建立的一种计算模型。常用的模型: Hopfield网 多层感知机 自组织特征映射 反传网络
可视化:
2019/6/13
高级人工智能 史忠植
11
KDD的技术难点
动态变化的数据 噪声 数据不完整 冗余信息 数据稀疏 超大数据量
年代初 粗糙集(Rough Set) Pawlak 80年代初
2019/6/13
高级人工智能 史忠植
9
知识发现的方法(2)
机器学习:
规则归纳:AQ算法 决策树:ID3、C4.5 范例推理:CBR 遗传算法:GA 贝叶斯信念网络
2019/6/13
高级人工智能 史忠植
10
知识发现的方法(3)
100个顾客购买了面包和黄油,则面包→黄油 10%
2019/6/13
高级人工智能 史忠植
16
关联规则的相关概念(3)
可信度
设W中支持物品集A的事务中,有c%的事务同时也 支持物品集B,c%称为关联规则A→B的可信度。
P(B|A) 1000个顾客购物,200个顾客购买了面包,其中140个 买了黄油,则可信度是70%(140/200)。
insert into C[k] select p.item1,p.item2,...,p.item(k-1), q.item(k-1) from L[k-1] p, L[k-1] q where p.item1=q.item1, ...,p.item(k-2)=q.item(k-2),
p.item(k-1)<q.item(k-1)
2019/6/13
高级人工智能 史忠植
23
Prune算法:从C[k]中除去大小为k-1且不在 L[k-1]中的子集
(1) For all itemsets c∈C[k] do (2) For all (k-1)-subsets s of c do (3) if (sL[k-1]) (4) then delete c from C[k]
2019/6/13
高级人工智能 史忠植
25
2019/6/13
高级人工智能 史忠植
26
2019/6/13
高级人工智能 史忠植
27
2019/6/13
高级人工智能 史忠植
28
2019/6/13
高级人工智能 史忠植
29
关联规则发现注意的问题
充分理解数据 目标明确 数据准备工作要做好 选取适当的最小的支持度和可信度 很好地理解关联规则
• 如果L[k+1]为空集,则结束,L[1]∪L[2]∪…即为结果; 否则转(2),继续。
2019/6/13
高级人工智能 史忠植
20
思路的正确性
利用了大物品集向下封闭性,即大物品集X 的任意子集一定是大物品集,反过来说, 如果X有一子集不是大项集,则X肯定不是。
是宽度优先算法
2019/6/13
2019/6/13
高级人工智能 史忠植
24
举例: L[3]为{{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,4}} 经过join后,C[4]={{1,2,3,4},{1,3,4,5}} 由于{1,3,4,5}有子集{1,4,5}不在L[3]中, 所以经过prune后,得到L[4]={{1,2,3,4}}
高级人工智能 史忠植
21
经典的Apriori算法
(1) L[1]={large 1-itemsets}; (2) for (k=2; L[k-1]不为空; k++) do begin (3) C[k]=apriori-gen(L[k-1]); // 新候选物品集 (4) For all transactions t∈D do begin (5) C=subset(C[k],t); // t中的候选物品集 (6) For all candidates c∈C do
2019/6/13
高级人工智能 史忠植
15
关联规则的相关概念(2)
支持度
物品集A的支持度:称物品集A具有大小为s的支持度, 如果D中有s%的事务支持物品集X P(A)
1000个顾客购物,其中200个顾客购买了面包,
支持度就是20%(200/1000)。
关联规则A→B的支持度:关联规则A→B在事务数据 库W中具有大小为s的支持度,如果物品集A∪B的支持 度为s
2019/6/13
高级人工智能 史忠植
30
关联规则发现使用步骤
连接数据,做数据准备 给定最小支持度和最小可信度,利用知识发 现工具提供的算法发现关联规则 可视化显示、理解、评估关联规则
2019/6/13
高级人工智能 史忠植
31
关联规则在保险业务中的应用
最小支持度1%,最小可信度为50%
2019/6/13
2019/6/13
高级人工智能 史忠植
14
关联规则的相关概念(1)
设R={I1,I2……Im}是一组物品集,W是一组事务集。W 中的每个事务T是一组物品,TR。 假设有一个物品集A,一个事务T,如果AT,则称事 务T支持物品集A。 关联规则是如下形式的一种蕴含:A→B,其中A、B是 两组物品,AI,BI,且A∩B=。
2019/6/13
高级人工智能 史忠植
12
关联规则
属于知识发现任务中的相关性分析
由于条形码技术的发展,零售部门可以利用前端收款 机收集存储大量的售货数据。因此,如果对这些历史 事务数据进行分析,则可对顾客的购买行为提供极有 价值的信息。例如,可以帮助如何摆放货架上的商品 (如把顾客经常同时买的商品放在一起),帮助如何规 划市场(怎样相互搭配进货)。
2019/6/13
高级人工智能 史忠植
4
不同的术语名称
知识发现是一门来自不同领域的研究者关注的交 叉性学科,因此导致了很多不同的术语名称。
知识发现:人工智能和机器学习界。
数据挖掘(data mining):
统计界、数据分析、数据库和管理信息系统界
知识抽取 (information extraction)、 信息发现 (information discovery)、 智能数据分析 (intelligent data analysis)、 探索式数据分析 (exploratory data analysis) 信息收获 (information harvesting) 数据考古 (data archeology)
2019/6/13
高级人工智能 史忠植
19
关联规则发现的基本思路
第2个子问题比较容易。目前大多数研究集中在第 一个子问题上,即如何高效地求出大项集。
• 首先生成长度为1的大项集(即单个物品),记为L[1];
• 在L[k]的基础上生成候选物品集C[k+1],候选物品集必须 保证包括所有的大项集。
• 用事务数据库D中的事务对C[k+1]进行支持度测试以生成 长度为k+1的大项集L[k+1],计算每个候选物品集的支持 度,如果大于minsup,则加入到L[k+1]中。
(7) c.count++;
(8) end; (9) L[k]={c∈C[k]|c.count>=minsup};
(10) end; (11) Answer = L[1]∪L[2]∪…
2019/6/13
高级人工智能 史忠植
22
apriori-gen(L[k-1]) 分成两步:
join算法:从两个L[k-1]物品集生成候选 物品集C[k]
2019/6/13
高级人工智能 史忠植
36
数据仓库的定义
信息处理技术的发展趋势是:从大量的事务型数据库中抽取 数据,并将其清理、转换为新的存储格。随着此过程的发展 和完善,这种九十年代初出现的支持决策的、特殊的数据存 储即被称为数据仓库(Data Warehouse)。
Inmon将数据仓库明确定义为: 数据仓库(Data Warehouse)是面向主题的,集
建模:
构造描述一种活动或状态的数学模型
2Fra Baidu bibliotek19/6/13
高级人工智能 史忠植
8
知识发现的方法(1)
统计方法:
传统方法: 回归分析、判别分析、聚类分析、探索性分析
模糊集(fuzzy set) Zadeh 1965 支持向量机(Support Vector Machine) Vapnik 90
2019/6/13
高级人工智能 史忠植
3
数据库知识发现
目前, 关系型数据库技术成熟、应用广泛。 因此, 数据库知识发现(Knowledge Discovery in Databases KDD)的研究非常活跃。
该术语于1989年出现,Fayyad定义为 “KDD是从数据集中识别出有效的、新颖的、 潜在有用的,以及最终可理解的模式的非平凡 过程”
高级人工智能 史忠植
18
关联规则发现任务
给定一个事务数据库D,求出所有满足最小支 持度和最小可信度的关联规则。该问题可以分解 为两个子问题: 1) 求出D中满足最小支持度的所有大项集; 2) 利用大项集生成满足最小可信度的所有关联规
则。对于每个大项集A,若BA,B≠φ ,且 Confidence(B (AB))minconf,则构成 关联规则B (AB)
20世纪80年代,人们要利用现有的数据,进行分析和推理, 从而为决策提供依据。这种需求既要求联机服务,又涉及大量 用于决策的数据。而传统的数据库系统已无法满足这种需求:
所需历史数据量很大,而传统数据库一般只存储短期数据。
涉及许多部门的数据,而不同系统的数据难以集成。
对大量数据的访问性能明显下降
第九章 知识发现和数据挖掘
数据库中知识发现
史忠植 中科院计算所
2019/6/13
高级人工智能 史忠植
1
知识发现 关联规则 数据仓库 知识发现工具
2019/6/13
高级人工智能 史忠植
2
知识发现
知识发现是指从数据集中抽取和精炼新的模式。 范围非常广泛:经济、工业、农业、军事、社会 数据的形态多样化:数字、符号、图形、图像、声音 数据组织各不相同:结构化、半结构化和非结构 发现的知识可以表示成各种形式
聚类:
根据数据的不同特征,将其划分为不同的类。无导师学习
2019/6/13
高级人工智能 史忠植
7
知识发现的任务(2)
相关性分析:
发现特征之间或数据之间的相互依赖关系 关联规则
偏差分析:
基本思想是寻找观察结果与参照量之间的有意义的差别。通 过发现异常, 可以引起人们对特殊情况的加倍注意。
高级人工智能 史忠植
32
2019/6/13
高级人工智能 史忠植
33
2019/6/13
高级人工智能 史忠植
34
2019/6/13
高级人工智能 史忠植
35
数据仓库
在过去几十年,数据库技术,特别是OLTP(联机事务处 理),主要是为自动化生产、精简工作任务和高速采集数据服 务。它是事务驱动的、面向应用的。
2019/6/13
高级人工智能 史忠植
17
关联规则的相关概念(4)
最小支持度minsup
用户规定的关联规则必须满足的最小支持度。
最小可信度minconf
用户规定的关联规则必须满足的最小可信度。
大项集(大项集、大物品集largeitemset)
支持度不小于最小支持度minsup的物品集
2019/6/13
2019/6/13
高级人工智能 史忠植
5
2019/6/13
高级人工智能 史忠植
6
知识发现的任务(1)
数据总结:
对数据进行总结与概括。传统的最简单的数据总结方法是计 算出数据库的各个字段上的求和值、平均值、方差值等统计 值,或者用直方图、饼状图等图形方式表示。
分类:
根据分类模型对数据集合分类。分类属于有导师学习,一般 需要有一个训练样本数据集作为输入。
成的,内容相对稳定的、不同时间的数据集合,用以 支持经营管理中的决策制定过程。
2019/6/13
高级人工智能 史忠植
37
数据仓库的特征(1)
数据仓库中的数据是面向主题的
与传统数据库面向应用相对应的。主题是一个在 较高层次将数据归类的标准,每一个主题基本对应一 个宏观的分析领域
2019/6/13
高级人工智能 史忠植
13
关联规则的表示
关联规则的形式如 “在购买面包顾客中,有70%的人 同时也买了黄油”,可以表示成:面包→黄油。 用于关联规则发现的主要对象是事务型数据库,其中 针对的应用则是售货数据,也称货篮数据。一个事务 一般由如下几个部分组成:事务处理时间 ,一组顾客 购买的物品,有时也有顾客标识号(如信用卡号)。
神经计算:
神经网络是指一类新的计算模型,它是模仿人脑神经网络的 结构和某些工作机制而建立的一种计算模型。常用的模型: Hopfield网 多层感知机 自组织特征映射 反传网络
可视化:
2019/6/13
高级人工智能 史忠植
11
KDD的技术难点
动态变化的数据 噪声 数据不完整 冗余信息 数据稀疏 超大数据量
年代初 粗糙集(Rough Set) Pawlak 80年代初
2019/6/13
高级人工智能 史忠植
9
知识发现的方法(2)
机器学习:
规则归纳:AQ算法 决策树:ID3、C4.5 范例推理:CBR 遗传算法:GA 贝叶斯信念网络
2019/6/13
高级人工智能 史忠植
10
知识发现的方法(3)
100个顾客购买了面包和黄油,则面包→黄油 10%
2019/6/13
高级人工智能 史忠植
16
关联规则的相关概念(3)
可信度
设W中支持物品集A的事务中,有c%的事务同时也 支持物品集B,c%称为关联规则A→B的可信度。
P(B|A) 1000个顾客购物,200个顾客购买了面包,其中140个 买了黄油,则可信度是70%(140/200)。
insert into C[k] select p.item1,p.item2,...,p.item(k-1), q.item(k-1) from L[k-1] p, L[k-1] q where p.item1=q.item1, ...,p.item(k-2)=q.item(k-2),
p.item(k-1)<q.item(k-1)
2019/6/13
高级人工智能 史忠植
23
Prune算法:从C[k]中除去大小为k-1且不在 L[k-1]中的子集
(1) For all itemsets c∈C[k] do (2) For all (k-1)-subsets s of c do (3) if (sL[k-1]) (4) then delete c from C[k]
2019/6/13
高级人工智能 史忠植
25
2019/6/13
高级人工智能 史忠植
26
2019/6/13
高级人工智能 史忠植
27
2019/6/13
高级人工智能 史忠植
28
2019/6/13
高级人工智能 史忠植
29
关联规则发现注意的问题
充分理解数据 目标明确 数据准备工作要做好 选取适当的最小的支持度和可信度 很好地理解关联规则
• 如果L[k+1]为空集,则结束,L[1]∪L[2]∪…即为结果; 否则转(2),继续。
2019/6/13
高级人工智能 史忠植
20
思路的正确性
利用了大物品集向下封闭性,即大物品集X 的任意子集一定是大物品集,反过来说, 如果X有一子集不是大项集,则X肯定不是。
是宽度优先算法
2019/6/13
2019/6/13
高级人工智能 史忠植
24
举例: L[3]为{{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,4}} 经过join后,C[4]={{1,2,3,4},{1,3,4,5}} 由于{1,3,4,5}有子集{1,4,5}不在L[3]中, 所以经过prune后,得到L[4]={{1,2,3,4}}
高级人工智能 史忠植
21
经典的Apriori算法
(1) L[1]={large 1-itemsets}; (2) for (k=2; L[k-1]不为空; k++) do begin (3) C[k]=apriori-gen(L[k-1]); // 新候选物品集 (4) For all transactions t∈D do begin (5) C=subset(C[k],t); // t中的候选物品集 (6) For all candidates c∈C do
2019/6/13
高级人工智能 史忠植
15
关联规则的相关概念(2)
支持度
物品集A的支持度:称物品集A具有大小为s的支持度, 如果D中有s%的事务支持物品集X P(A)
1000个顾客购物,其中200个顾客购买了面包,
支持度就是20%(200/1000)。
关联规则A→B的支持度:关联规则A→B在事务数据 库W中具有大小为s的支持度,如果物品集A∪B的支持 度为s
2019/6/13
高级人工智能 史忠植
30
关联规则发现使用步骤
连接数据,做数据准备 给定最小支持度和最小可信度,利用知识发 现工具提供的算法发现关联规则 可视化显示、理解、评估关联规则
2019/6/13
高级人工智能 史忠植
31
关联规则在保险业务中的应用
最小支持度1%,最小可信度为50%
2019/6/13
2019/6/13
高级人工智能 史忠植
14
关联规则的相关概念(1)
设R={I1,I2……Im}是一组物品集,W是一组事务集。W 中的每个事务T是一组物品,TR。 假设有一个物品集A,一个事务T,如果AT,则称事 务T支持物品集A。 关联规则是如下形式的一种蕴含:A→B,其中A、B是 两组物品,AI,BI,且A∩B=。
2019/6/13
高级人工智能 史忠植
12
关联规则
属于知识发现任务中的相关性分析
由于条形码技术的发展,零售部门可以利用前端收款 机收集存储大量的售货数据。因此,如果对这些历史 事务数据进行分析,则可对顾客的购买行为提供极有 价值的信息。例如,可以帮助如何摆放货架上的商品 (如把顾客经常同时买的商品放在一起),帮助如何规 划市场(怎样相互搭配进货)。
2019/6/13
高级人工智能 史忠植
4
不同的术语名称
知识发现是一门来自不同领域的研究者关注的交 叉性学科,因此导致了很多不同的术语名称。
知识发现:人工智能和机器学习界。
数据挖掘(data mining):
统计界、数据分析、数据库和管理信息系统界
知识抽取 (information extraction)、 信息发现 (information discovery)、 智能数据分析 (intelligent data analysis)、 探索式数据分析 (exploratory data analysis) 信息收获 (information harvesting) 数据考古 (data archeology)
2019/6/13
高级人工智能 史忠植
19
关联规则发现的基本思路
第2个子问题比较容易。目前大多数研究集中在第 一个子问题上,即如何高效地求出大项集。
• 首先生成长度为1的大项集(即单个物品),记为L[1];
• 在L[k]的基础上生成候选物品集C[k+1],候选物品集必须 保证包括所有的大项集。
• 用事务数据库D中的事务对C[k+1]进行支持度测试以生成 长度为k+1的大项集L[k+1],计算每个候选物品集的支持 度,如果大于minsup,则加入到L[k+1]中。
(7) c.count++;
(8) end; (9) L[k]={c∈C[k]|c.count>=minsup};
(10) end; (11) Answer = L[1]∪L[2]∪…
2019/6/13
高级人工智能 史忠植
22
apriori-gen(L[k-1]) 分成两步:
join算法:从两个L[k-1]物品集生成候选 物品集C[k]
2019/6/13
高级人工智能 史忠植
36
数据仓库的定义
信息处理技术的发展趋势是:从大量的事务型数据库中抽取 数据,并将其清理、转换为新的存储格。随着此过程的发展 和完善,这种九十年代初出现的支持决策的、特殊的数据存 储即被称为数据仓库(Data Warehouse)。
Inmon将数据仓库明确定义为: 数据仓库(Data Warehouse)是面向主题的,集
建模:
构造描述一种活动或状态的数学模型
2Fra Baidu bibliotek19/6/13
高级人工智能 史忠植
8
知识发现的方法(1)
统计方法:
传统方法: 回归分析、判别分析、聚类分析、探索性分析
模糊集(fuzzy set) Zadeh 1965 支持向量机(Support Vector Machine) Vapnik 90