《高级人工智能》第九章知识发现和数据挖掘(2)PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/11/5
高级人工智能 史忠植
13
关联规则的表示
关联规则的形式如 “在购买面包顾客中,有70%的人 同时也买了黄油”,可以表示成:面包→黄油。 用于关联规则发现的主要对象是事务型数据库,其中 针对的应用则是售货数据,也称货篮数据。一个事务 一般由如下几个部分组成:事务处理时间 ,一组顾客 购买的物品,有时也有顾客标识号(如信用卡号)。
2020/11/5
高级人工智能 史忠植
5
2020/11/5
高级人工智能 史忠植
6
知识发现的任务(1)
➢ 数据总结:
对数据进行总结与概括。传统的最简单的数据总结方法是计 算出数据库的各个字段上的求和值、平均值、方差值等统计 值,或者用直方图、饼状图等图形方式表示。
➢ 分类:
根据分类模型对数据集合分类。分类属于有导师学习,一般 需要有一个训练样本数据集作为输入。
➢ 聚类:
根据数据的不同特征,将其划分为不同的类。无导师学习
2020/11/5
高级人工智能 史忠植
7
知识发现的任务(2)
➢ 相关性分析:
发现特征之间或数据之间的相互依赖关系 关联规则
➢ 偏差分析:
基本思想是寻找观察结果与参照量之间的有意义的差别。通 过发现异常, 可以引起人们对特殊情况的加倍注意。
100个顾客购买了面包和黄油,则面包→黄油 10%
2020/11/5
高级人工智能 史忠植
16
关联规则的相关概念(3)
➢可信度
设W中支持物品集A的事务中,有c%的事务同时也 支持物品集B,c%称为关联规则A→B的可信度。
P(B|A) 1000个顾客购物,200个顾客购买了面包,其中140个 买了黄油,则可信度是70%(140/200)。
年代初 ✓ 粗糙集(Rough Set) Pawlak 80年代初
2020/11/5
高级人工智能 史忠植
9
知识发现的方法(2)
➢ 机器学习:
✓ 规则归纳:AQ算法 ✓ 决策树:ID3、C4.5 ✓ 范例推理:CBR ✓ 遗传算法:GA ✓ 贝叶斯信念网络
2020/11/5
高级人工智能 史忠植
10
知识发现的方法(3)
➢ 神经计算:
神经网络是指一类新的计算模型,它是模仿人脑神经网络的 结构和某些工作机制而建立的一种计算模型。常用的模型: ✓ Hopfield网 ✓ 多层感知机 ✓ 自组织特征映射 ✓ 反传网络
➢ 可视化:
2020/11/5
高级人工智能 史忠植
11
KDD的技术难点
➢ 动态变化的数据 ➢ 噪声 ➢ 数据不完整 ➢ 冗余信息 ➢ 数据稀疏 ➢ 超大数据量
2020/11/5
高级人工智能 史忠植
14
关联规则的相关概念(1)
设R={I1,I2……Im}是一组物品集,W是一组事务集。W 中的每个事务T是一组物品,TR。 假设有一个物品集A,一个事务T,如果AT,则称事 务T支持物品集A。 关联规则是如下形式的一种蕴含:A→B,其中A、B是 两组物品,AI,BI,且A∩B=。
规则、科学规律、方程或概念网。
2020/11/5
高级人工智能 史忠植
3
数据库知识发现
目前, 关系型数据库技术成熟、应用广泛。 因此, 数据库知识发现(Knowledge Discovery in Databases KDD)的研究非常活跃。
该术语于1989年出现,Fayyad定义为 “KDD是从数据集中识别出有效的、新颖的、 潜在有用的,以及最终可理解的模式的非平凡 过程”
wk.baidu.com
2020/11/5
高级人工智能 史忠植
15
关联规则的相关概念(2)
➢支持度
物品集A的支持度:称物品集A具有大小为s的支持度, 如果D中有s%的事务支持物品集X P(A)
1000个顾客购物,其中200个顾客购买了面包,
支持度就是20%(200/1000)。
关联规则A→B的支持度:关联规则A→B在事务数据 库W中具有大小为s的支持度,如果物品集A∪B的支持 度为s
2020/11/5
高级人工智能 史忠植
17
关联规则的相关概念(4)
➢最小支持度minsup
用户规定的关联规则必须满足的最小支持度。
➢最小可信度minconf
用户规定的关联规则必须满足的最小可信度。
第九章 知识发现和数据挖掘 数据库中知识发现
中科院计算所
2020/11/5
高级人工智能 史忠植
1
➢ 知识发现 ➢ 关联规则 ➢ 数据仓库 ➢ 知识发现工具
2020/11/5
高级人工智能 史忠植
2
知识发现
知识发现是指从数据集中抽取和精炼新的模式。 ➢ 范围非常广泛:经济、工业、农业、军事、社会 ➢ 数据的形态多样化:数字、符号、图形、图像、声音 ➢ 数据组织各不相同:结构化、半结构化和非结构 ➢ 发现的知识可以表示成各种形式
➢ 建模:
构造描述一种活动或状态的数学模型
2020/11/5
高级人工智能 史忠植
8
知识发现的方法(1)
➢ 统计方法:
✓ 传统方法: 回归分析、判别分析、聚类分析、探索性分析
✓ 模糊集(fuzzy set) Zadeh 1965 ✓ 支持向量机(Support Vector Machine) Vapnik 90
2020/11/5
高级人工智能 史忠植
4
不同的术语名称
知识发现是一门来自不同领域的研究者关注的交 叉性学科,因此导致了很多不同的术语名称。
➢ 知识发现:人工智能和机器学习界。
➢ 数据挖掘(data mining):
统计界、数据分析、数据库和管理信息系统界
知识抽取 (information extraction)、 信息发现 (information discovery)、 智能数据分析 (intelligent data analysis)、 探索式数据分析 (exploratory data analysis) 信息收获 (information harvesting) 数据考古 (data archeology)
2020/11/5
高级人工智能 史忠植
12
关联规则
属于知识发现任务中的相关性分析
由于条形码技术的发展,零售部门可以利用前端收款 机收集存储大量的售货数据。因此,如果对这些历史 事务数据进行分析,则可对顾客的购买行为提供极有 价值的信息。例如,可以帮助如何摆放货架上的商品 (如把顾客经常同时买的商品放在一起),帮助如何规 划市场(怎样相互搭配进货)。