aai09知识发现和数据挖掘1高级人工智能史忠植.pptx
高级人工智能 史忠植
编号:8106高级人工智能ADVANCED ARTIFICIAL INTELLIGENCE类型:AB 学时/学分:60/3, 机时:20预修课程数理逻辑、人工智能原理教学目的和要求(1) 了解人工智能前沿研究领域(2) 了解人工智能最新研究成果(3) 掌握基本思想和关键技术(4) 培养人工智能研究能力内容提要和简要目录本课讲授和讨论人工智能前沿研究领域的主要思想和关键技术。
主要内容有非单调逻辑、自动推理、机器学习、分布式人工智能、人工思维、人工生命、大规模并行人工智能等。
简要目录第一章绪论1.1 人工智能的认知问题1.2 思维的层次模型1.3 符号智能1.4 人工智能的发展概况1.5 人工智能的研究方法1.5.1 认知学派1.5.2 逻辑学派1.5.3 行为学派1.6 自动推理1.7 机器学习1.8 分布式人工智能1.9 人工思维模型1.10 知识系统第二章人工智能逻辑2.1 逻辑-----重要的形式工具2.1.1 逻辑程序设计2.1.2 关于知识的表示与推理2.2 非单调逻辑2.3 默认逻辑2.4 限定逻辑2.5 自认知逻辑2.5.1 Moore系统${\cal L}_{B}$2.5.2 $\cal O \cal L$ 逻辑2.5.3 标准型定理2.5.4 $\diamondsuit-$ 记号以及稳定扩张的一种判定过程2.6 真值维护系统2.7 情景演算的逻辑基础2.7.1 刻划情景演算的多类逻辑$\bf LR$2.7.2 $\bf LR$中的基本动作理论2.7.3 多类逻辑$\bf LR$的改进第三章约束推理3.1 概述3.2 回溯法3.3 约束传播3.4 约束传播在树搜索中的作用3.5 智能回溯与真值维护3.6 变量例示次序与赋值次序3.7 局部修正搜索法3.8 基于图的回跳法3.9 基于影响的回跳法3.10 约束关系运算的处理3.10.1 恒等关系的单元共享策略3.10.2 区间传播3.10.3 不等式图3.10.4 不等式推理3.11 约束推理系统COPS第四章定性推理4.1 概述4.2 定性推理的基本方法4.3 定性模型推理4.4 定性进程推理4.5 定性仿真推理4.5.1 定性状态转换4.5.2 QSIM算法4.6 代数方法4.7 几何空间定性推理4.7.1 空间逻辑4.7.2 空间时间关系描述4.7.3 空间和时间逻辑的应用4.7.4 Randell算法第五章基于范例推理5.1 概述5.2 基于范例学习的一般过程5.3 范例的表示5.3.1 语义记忆单元5.3.2 记忆网5.4 基于记忆网的范例检索5.4.1 检索问题5.4.2 语义记忆单元和范例检索5.4.3 检索信息集与源范例的对应5.4.4 单概念的范例检索算法AS5.4.5 多概念的范例检索算法AM5.5 相似性关系5.5.1 语义相似性5.5.2 结构相似性5.5.3 目标特征5.5.4 个体相似性5.5.5 相似性计算5.5.6 优选过程5.5.7 约束满足理论5.6 范例复用5.6.1 类比映射5.6.2 类比转换5.7 范例保存5.8 基于范例的规划设计程序5.9 范例库维护5.10 基于范例推理的洪水预报系统FOREZ 第六章归纳学习6.1 概述6.2 归纳学习的逻辑基础6.2.1 归纳学习的一般模式6.2.2 概念获取的条件6.2.3 问题背景知识6.2.4 选择型和构造型泛化规则6.3 偏置变换6.4 变型空间方法6.4.1 消除候选元素算法6.4.2 两种改进算法6.5 AQ归纳学习算法6.6 产生与测试方法6.7 决策树学习6.7.1 CLS学习算法6.7.2 ID3学习算法6.7.3 ID4学习算法6.7.4 ID5学习算法6.8 归纳学习的计算理论6.8.1 Gold学习理论6.8.2 模型推理系统6.8.3 Valiant 学习理论第七章类比学习7.1 什么是类比学习7.2 类比的形式定义7.3 基于抽象的有用类比推理7.4 转换类比7.4.1 手段--目的分析的问题求解模型 7.4.2 类比求解问题计算模型7.4.3 问题求解状态变换7.4.4 转换类比学习系统7.4.5 类比学习的泛化规则7.5 派生类比7.6 因果关系型类比学习7.6.1 类比匹配技术与相似性度量概述 7.6.2 知识表示7.6.3 类比匹配7.6.4 抽取问题的特征7.6.5 相似度的计算方法7.6.6 最佳对应关系匹配7.7 联想类比学习7.7.1 联想类比7.7.2 联想类比条件7.8 约束满足类比7.8.1 三类约束7.8.2 约束满足理论7.8.3 ACME 第八章解释学习8.1 概述8.2 解释学习模型8.3 解释泛化学习方法8.3.1 基本原理8.3.2 解释与泛化交替进行8.4 全局取代解释泛化方法8.5 解释特化学习方法8.6 解释泛化的逻辑程序8.6.1 工作原理8.6.2 元解释器8.6.3 实验例子8.7 基于知识块的SOAR系统8.8 可操作性标准8.8.1 PRODIGY 的效用问题8.8.2 SOAR系统的可操作性8.8.3 MRS-EBG的可操作性8.8.4 META-LEX的处理方法8.9 不完全领域知识下的解释学习8.9.1 不完全领域知识8.9.2 逆归结方法8.9.3 基于深层知识方法第九章知识发现和数据开采9.1 概述9.2 数据驱动知识发现------BACON 9.3 模型躯动知识发现------COPER 9.4 理论驱动式发现方法9.4.1 知识表示9.4.2 学习实现9.4.3 学习发现9.5 概念聚类9.5.1 概念内聚9.5.2 聚类方法9.6 数据开采9.7 数据开采的数学工具------粗糙集 9.7.1 粗糙集理论9.7.2 粗糙分类9.7.3 渔网算法9.8 广义粗糙集9.9 基于粗糙集的数据约简9.10 以数据仓库为基础的数据开采9.10.1 数据仓库9.10.2 联想规则发现算法9.11 知识发现工具KDT9.11.1 系统结构9.11.2 知识发现算法第十章分布式人工智能10.1 概述10.2 分布式问题求解10.2.1 分布式问题求解系统分类10.2.2 分布式问题求解过程10.3 主体10.4 主体理论10.4.1 理性主体10.4.2 BDI主体模型10.4.3 RAO逻辑框架10.4.4 关于对别人进行推理的一个模式---换位推理 10.4.5 动作理论10.4.6 次协调机制的引进10.5 主体结构10.5.1 反应主体10.5.2 认知主体10.5.3 复合式主体10.6 主体通信10.6.1 KQML10.6.2 主体通信语言SACL10.6.3 SACL语法结构10.6.4 SACL保留关键字10.7 主体的协调与协作10.7.1 计算生态学10.7.2 基于对策论的协调与协作10.7.3 协商10.8 多主体处理环境MAPE10.8.1 主体的逻辑结构10.8.2 主体虚拟层10.8.3 主体逻辑层10.8.4 主体概念层10.8.5 多主体系统的总体结构10.8.6 主体创建10.8.7 多主体系统构建第十一章进化计算11.1 概述11.2 进化系统理论的形式模型11.3 达尔文进化算法11.4 分类器系统11.5 桶链算法11.6 遗传算法11.6.1 遗传算法的主要步骤11.6.2 表示模式11.6.3 杂交操作11.6.4 变异操作11.6.5 反转操作11.7 并行遗传算法11.8 分类器系统 Boole11.9 规则发现系统11.10 进化策略11.11 进化程序设计第十二章人工生命12.1 引言12.2 研究人工生命的原因12.3 人工生命的探索12.4 人工生命模型12.5 人工生命的研究方法和战略12.6 计算机生命12.7 细胞自动机12.8 形态形成理论12.9 混沌理论四、教材1. 史忠植:高级人工智能, 科学出版社,1998五、参考书六、教学方式课堂讲授和讨论七、考查方式课程设计 40%闭卷考试 60%撰写人:史忠植。
《高级人工智能》第九章知识发现和数据挖掘(2)PPT课件
根据数据的不同特征,将其划分为不同的类。无导师学习
2020/11/5
高级人工智能 史忠植
7
知识发现的任务(2)
➢ 相关性分析:
发现特征之间或数据之间的相互依赖关系 关联规则
➢ 偏差分析:
基本思想是寻找观察结果与参照量之间的有意义的差别。通 过发现异常, 可以引起人们对特殊情况的加倍注意。
2020/11/级人工智能 史忠植
6
知识发现的任务(1)
➢ 数据总结:
对数据进行总结与概括。传统的最简单的数据总结方法是计 算出数据库的各个字段上的求和值、平均值、方差值等统计 值,或者用直方图、饼状图等图形方式表示。
➢ 分类:
根据分类模型对数据集合分类。分类属于有导师学习,一般 需要有一个训练样本数据集作为输入。
➢ 神经计算:
神经网络是指一类新的计算模型,它是模仿人脑神经网络的 结构和某些工作机制而建立的一种计算模型。常用的模型: ✓ Hopfield网 ✓ 多层感知机 ✓ 自组织特征映射 ✓ 反传网络
➢ 可视化:
2020/11/5
高级人工智能 史忠植
11
KDD的技术难点
➢ 动态变化的数据 ➢ 噪声 ➢ 数据不完整 ➢ 冗余信息 ➢ 数据稀疏 ➢ 超大数据量
2020/11/5
高级人工智能 史忠植
15
关联规则的相关概念(2)
➢支持度
物品集A的支持度:称物品集A具有大小为s的支持度, 如果D中有s%的事务支持物品集X P(A)
1000个顾客购物,其中200个顾客购买了面包,
支持度就是20%(200/1000)。
关联规则A→B的支持度:关联规则A→B在事务数据 库W中具有大小为s的支持度,如果物品集A∪B的支持 度为s
高级人工智能第十一章-PPT精品
2019/8/20
高级人工智能 史忠植
7
研究现状分析
2019年5月在重庆召开了“第1届中国Rough集与软计 算学术研讨会”,邀请了创始人Z. Pawlak教授做大 会报告;
2019年10月在苏州第2届中国粗糙集与软计算学术研讨会
2019年5月在重庆 第3届中国粗糙集与软计算学术研讨会
P,Q,R等表示关系的族集;[x]R或R(x)表示关系R中包含元素 xU的概念或等价类。为了简便起见,有时用P代替IND(P)。
根据上述定义可知,概念即对象的集合,概念的族集
(分类)就是U上的知识,U上分类的族集可以认为是U上的
20一19/8/个20 知识库,或说知识库高即级人是工智能分史类忠植方法的集合。
The equivalence class [ x]R of an element xX consists of all objects yX such that xRy.
2019/8/20
高级人工智能 史忠植
19
不可区分性Indiscernibility (2)
Let IS = (U, A) be an information system, then with any BA there is an associated equivalence relation:
避免了主观因素的影响。
2019/8/20
高级人工智能 史忠植
15
Information Systems/Tables
Age LEMS
x1 16-30 x2 16-30 x3 31-45 x4 31-45 x5 46-60 x6 16-30 x7 46-60
50 0 1-25 1-25 26-49 26-49 26-49
aai09粗糙集高级人工智能史忠植-文档资料
根据上述定义可知,概念即对象的集合,概念的族集
(分类)就是U上的知识,U上分类的族集可以认为是U上的
一个知识库,或说知识库即是分类方法的集合。
15.03.2021
高级人工智能 史忠植
13
二、 知识分类
粗糙集理论与传统的集合理论有着相似之处,但是它们的
出发点完全不同。传统集合论认为,一个集合完全是由其
为原始概念来处理,集合的并和交就建立在其元素的隶属
度max和min操作上,因此其隶属度必须事先给定(传统集
合默认隶属度为1或0)。在粗糙集中,隶属关系不再是一
个原始概念,因此无需人为给元素指定一个隶属度,从而
避免了主观因素的影响。
15.03.2021
高级人工ation Systems/Tables
第九章 知识发现
粗糙集
史忠植 中科院计算所
15.03.2021
高级人工智能 史忠植
1
内容
一、概述 二、知识分类 三、知识的约简 四、决策表的约简 五、粗糙集的扩展模型 六、粗糙集的实验系统
15.03.2021
高级人工智能 史忠植
2
一、 概述
现实生活中有许多含糊现象并不能简单 地用真、假值来表示﹐如何表示和处理这些 现象就成为一个研究领域。早在1904年谓词 逻辑的创始人G.Frege就提出了含糊(Vague) 一词,他把它归结到边界线上,也就是说在 全域上存在一些个体既不能在其某个子集上 分类,也不能在该子集的补集上分类。
基本粗糙集理论认为知识就是人类和其他物种所固有的分类能力。例如, 在现实世界中关于环境的知识主要表明了生物根据其生存观来对各种各 样的情形进行分类区别的能力。每种生物根据其传感器信号形成复杂的 分类模式,就是这种生物的基本机制。分类是推理、学习与决策中的关 键问题。因此,粗糙集理论假定知识是一种对对象进行分类的能力。这 里的“对象”是指我们所能言及的任何事物,比如实物、状态、抽象概 念、过程和时刻等等。即知识必须与具体或抽象世界的特定部分相关的 各种分类模式联系在一起,这种特定部分称之为所讨论的全域或论域 (universe)。对于全域及知识的特性并没有任何特别假设。事实上,知 识构成了某一感兴趣领域中各种分类模式的一个族集(family),这个族 集提供了关于现实的显事实,以及能够从这些显事实中推导出隐事实的 推理能力。
人工智能(六)知识发现与数据挖掘ppt课件
北京信息科技大学计算机学院 李宝安
精选ppt课件
1
知识发现与数据挖掘
精选ppt课件
2
数据库技术和计算机网络已经成为当前计 算机应用中的两个最重要的基础领域,触及到 人类生活的各个方面。目前,全世界数据库和 因特网中的数据总量正以极快的速度增长。虽 然简单的数据查询或统计可以满足某些低层次 的需求,但人们更为需要的是从大量数据资源 中挖掘出对各类决策有指导意义的一般知识。 数据的急剧膨胀和时效性、复杂性远远超过了 人们的手工处理能力,人们迫切需要高性能的 自动化数据分析工具,以高速、全面、深入、 有效地加工数据。
B
8.67
3.571 2.427 21.038 51.06
C
14.00
7.155
1.957 7.395
53.61
D
24.67 16.889 1.418 36.459 53.89
精选ppt课件
13
BACON4调用上述的启发式,寻到了D和P的单调趋势 关系,即P随D增大而增大,但相应的斜率项不是常数, 而是随D的增加而减少。这又导致BACON4定义D2/P, 此项的值也不是常数,但随D/P减少而增加,结果系统 考虑项D3/P2,这个值接近常数(系统给出了一个允许 的误差范围如7.5%)。BACON4根据这结果就归纳出 该定律了。 一旦一个推理项定义后,它和直接观察的变量就 没有区别了。例如,理想气体定律例中,趋势探测器 会首先确定如PV这样的推理项,并进而确定如PV/T那样 的推理项。也可以发现这些推理项所取值之间的关系, 又从中重新派生出新的推理项,导致对直接观察的变 量更为复杂的描述如PV/nT。BACON4递归地应用相同 的启发式逐步生成更复杂的高层次描述,这种推理能 力使系统具备相当强大的搜索经验定律的功能。
高级人工智能
2019/11/5
史忠植 高级人工智能
38
主体的分类
execute(I);
get-new-external-events();
drop-successful-attitudes(B,G,I);
drop-impossible-attitudes(B,G,I);
until quit
2019/11/5
史忠植 高级人工智能
32
动作理论
情景演算是描述动作的主要的形式框架。 在情景演算中引入了状态和动作的概念, 并利用两条逻辑公理来描述动作与状态 的关系。一条公理描述一个动作在满足 什么条件的状态之下可能发生,另外一 条描述在一个状态之下某个动作发生以 后当前状态如何改变。
所以,智能主体的研究应该是人工智能的核心问题。斯坦福
大学计算机科学系的 Hayes-Roth在IJCAI'95的特邀报告中谈到:
“智能的计算机主体既是人工智能最初的目标,也是人工智能
最201终9/11的/5 目标。”
史忠植 高级人工智能
13
多主体系统
关于主体的研究不仅受到了人工智能研究人 员的关注,也吸引了数据通信、人机界面 设计、机器人、并行工程等各领域的研究 人员的兴趣。有人认为:“基于主体的计 算(Agent-Based Computing, 简称ABC)
2019/11/5
史忠植 高级人工智能
20
任务分解
合同网络 动态层次控制 自然分解, 固定分配 部分全局规划
史忠植 高级人工智能 电子课件(pdf)第一章
图灵测试
The Turing Test
•1950: Alan Turing的文章 “Computing Machinery and Intelligence.” Mind, Vol. 59, No. 236, pp. 433-460提出图灵测试
2012-02-26 史忠植 高级人工智能 8
2012-02-26 史忠植 高级人工智能 22
人工智能的五个基本问题
(1) 知识与概念化是否是人工智能的核心? (2) 认知能力能否与载体分开来研究? (3) 认知的轨迹是否可用类自然语言来描述? (4) 学习能力能否与认知分开来研究? (5) 所有的认知是否有一种统一的结构?
2012-02-26
2012-02-26 史忠植 高级人工智能 13
人工智能的发展
知识工程时期
•1981: 日本政府宣布日本五代机(first-generation computer) 计划(即智能计算机) •1982: John Hopfield 掀起神经网络的研究 •1983: MCC (Microelectronics and Computer Technology Corporation)成立(Bobby Inman 任主任) •1984: Doug Lenat在Bobby Ray Inman的劝说下在MCC开始Cyc的研 究 •1986: Thinking Machines Inc 研制联结机器 (Connection Machine) •1987: LISP机器市场开始暗淡 •1988: 386芯片使得PC机速度可以与LISP机器媲美 2012-02-26 14 史忠植 高级人工智能
高级人工智能
第一章 绪论
史忠植 中国科学院计算技术研究所
知识发现和数据挖掘-史忠植PPT课件
聚类
将相似的数据点聚集在一起,形 成不同的数据群组。
关联规则挖掘
发现数据集中的关联规则,用于 推荐和关联营销等。
深度学习
利用神经网络等算法对数据进行 深入分析和挖掘。
序列挖掘
发现数据中的序列模式,用于预 测未来的事件和行为。
时间序列预测
利用时间序列数据预测未来的趋 势和行为。
03
数据预处理
数据清洗
知识发现和数据挖掘史忠植ppt课件
目录 CONTENT
• 引言 • 知识发现和数据挖掘的基本概念 • 数据预处理 • 关联规则挖掘 • 分类和预测 • 聚类分析 • 总结与展望
01
引言
研究背景
随着大数据时代的来临,数据量 呈爆炸式增长,如何从海量数据 中提取有价值的信息成为亟待解
决的问题。
传统的数据处理和分析方法难以 应对大规模、复杂的数据,需要 新的技术和方法来挖掘数据的潜
研究不足与展望
第一季度
第二季度
第三季度
第四季度
隐私保护
随着数据挖掘的广泛应 用,如何有效地保护用 户隐私成为了一个亟待 解决的问题。未来的研 究需要更加重视隐私保 护技术的研究和应用。
可解释性
目前许多复杂的数据挖 掘模型往往缺乏可解释 性,使得用户难以理解 模型的决策依据。未来 研究需要努力提高模型 的解释性,以增强用户
数据挖掘
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不 知道的、但又是潜在有用的信息和知识的过程。
知识发现的过程
数据清洗
去除重复数据、对缺失数据进行填充、异常值处理等。
数据集成
将多个数据源的数据进行整合,形成一个统一的数据 集。
人工智能(六)知识发现与数据挖掘
例如下表是BACON4发现关于行星运动的 开普略第三定律中的一个简单例子。这 个定律可表示为:D3=kP2,式中D为一 个物体和它所围绕运行的另一星体的距 离,P是该物体的运动周期。
星体 A B 距离 D 5.67 8.67 周期 P 1.769 3.571 D/P 3.203 2.427 D2/P 18.153 21.038 D3/P2 58.13 51.06
5
BACON系统从1978年的BACON1开始,至1982 年发展到BACON5。BACON1只是一个简单的 通用规则归纳器,用来求解序列预测问题及发 现一些简单的定律。BACON2增加了启发式规 则去处理序列信息,使系统能预测递归的符号 序列及发现较复杂的多项式函数(如Bode定 律)。BACON3则有较大的发展,系统用不同 的描述层次(从低到高)来表示数据,最低层 的是直接观察到的数据,最高层的描述则是较 复杂的定律及解释已知数据的假说。这种逐层 扩展的表示方式使系统可以把下层发现的假说 作为上层观察的数据,并可递归地应用启发式 规则。BACON3重新发现了理想气体定律、开 普勒第三定律、库仑定律、欧姆定律及伽利略 单摆和匀加速度等定律。
16
在欧姆定律的发现过程中,二个变量是电池和 电线(符号型变量),分别取符号值A、B、C 和X、Y、Z等。电池和电线连成一个简单的电 路。单个因变量是电路中观察到的电流I,它是 数值型。下表是在不同的电池和电线组合时观 察到的值。
电池 A A A B B B C C C 电线 X Y Z X Y Z X Y Z 电流(I) 3.4763 4.8763 3.0590 3.9781 5.5803 3.5007 5.5629 7.8034 4.8952 电导率(C) 3.4763 4.8763 3.0590 3.4763 4.8763 3.0590 3.4763 4.8763 3.0590 电压(I/C) 1.0000 1.0000 1.0000 1.1444 1.1444 1.1444 1.6003 1.6003 1.6003
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/12/29
高级人工智能 史忠植
4
不同的术语名称
知识发现是一门来自不同领域的研究者关注的交 叉性学科,因此导致了很多不同的术语名称。
➢ 知识发现:人工智能和机器学习界。
➢ 数据挖掘(data mining):
统计界、数据分析、数据库和管理信息系统界
知识抽取 (information extraction)、 信息发现 (information discovery)、 智能数据分析 (intelligent data analysis)、 探索式数据分析 (exploratory data analysis) 信息收获 (information harvesting) 数据考古 (data archeology)
2020/12/29
高级人工智能 史忠植
5
2020/12/29
高级人工智能 史忠植
6
知识发现的任务(1)
➢ 数据总结:
对数据进行总结与概括。传统的最简单的数据总结方法是计 算出数据库的各个字段上的求和值、平均值、方差值等统计 值,或者用直方图、饼状图等图形方式表示。
➢ 分类:
根据分类模型对数据集合分类。分类属于有导师学习,一般 需要有一个训练样本数据集作为输入。
2020/12/29
高级人工智能 史忠植
15
关联规则的相关概念(2)
➢支持度
物品集A的支持度:称物品集A具有大小为s的支持度, 如果D中有s%的事务支持物品集X P(A)
1000个顾客购物,其中200个顾客购买了面包,
支持度就是20%(200/1000)。
关联规则A→B的支持度:关联规则A→B在事务数据 库W中具有大小为s的支持度,如果物品集A∪B的支持 度为s
规则、科学规律、方程或概念网。
2020/12/29
高级人工智能 史忠植
3
数据库知识发现
目前, 关系型数据库技术成熟、应用广泛。 因此, 数据库知识发现(Knowledge Discovery in Databases KDD)的研究非常活跃。
该术语于1989年出现,Fayyad定义为 “KDD是从数据集中识别出有效的、新颖的、 潜在有用的,以及最终可理解的模式的非平凡 过程”
2020/12/29
高级人工智能 史忠植
17
关联规则的相关概念(4)
➢最小支持度minsup
用户规定的关联规则必须满足的最小支持度。
➢最小可信度minconf
年代初 ✓ 粗糙集(Rough Set) Pawlak 80年代初
2020/12/29
高级人工智能 史忠植
9
知识发现的方法(2)
➢ 机器学习:
✓ 规则归纳:AQ算法 ✓ 决策树:ID3、C4.5 ✓ 范例推理:CBR ✓ 遗传算法:GA ✓ 贝叶斯信念网络
2020/12/29
高级人工智能 史忠植
10
2020/12/29
高级人工智能 史忠植
13
关联规则的表示
关联规则的形式如 “在购买面包顾客中,有70%的人 同时也买了黄油”,可以表示成:面包→黄油。 用于关联规则发现的主要对象是事务型数据库,其中 针对的应用则是售货数据,也称货篮数据。一个事务 一般由如下几个部分组成:事务处理时间 ,一组顾客 购买的物品,有时也有顾客标识号(如信用卡号)。
2020/12/29
高级人工智能 史忠植
12
关联规则
属于知识发现任务中的相关性分析
由于条形码技术的发展,零售部门可以利用前端收款 机收集存储大量的售货数据。因此,如果对这些历史 事务数据进行分析,则可对顾客的购买行为提供极有 价值的信息。例如,可以帮助如何摆放货架上的商品 (如把顾客经常同时买的商品放在一起),帮助如何规 划市场(怎样相互搭配进货)。
100个顾客购买了面包和黄油,则面包→黄油 10%
2020/12/29
高级人工智能 史忠植
16
关联规则的相关概念(3)
➢可信度
设W中支持物品集A的事务中,有c%的事务同时也 支持物品集B,c%称为关联规则A→B的可信度。
P(B|A) 1000个顾客购物,200个顾客购买了面包,其中140个 买了黄油,则可信度是70%(140/200)。
2020/12/29
高级人工智能 史忠植
14
关联规则的相关概念(1)
设R={I1,I2……Im}是一组物品集,W是一组事务集。W 中的每个事务T是一组物品,TR。 假设有一个物品集A,一个事务T,如果AT,则称事 务T支持物品集A。 关联规则是如下形式的一种蕴含:A→B,其中A、B是 两组物品,AI,BI,且A∩B=。
第九章 知识发现和数据挖掘
数据库中知识发现
史忠植 中科院计算所
2020/12/29
高级人工智能 史忠植
1
➢ 知识发现 ➢ 关联规则 ➢ 数据仓库 ➢ 知识发现工具
2020/12/29
高级人工智能 史忠植
2
知识发现
知识发现是指从数据集中抽取和精炼新的模式。 ➢ 范围非常广泛:经济、工业、农业、军事、社会 ➢ 数据的形态多样化:数字、符号、图形、图像、声音 ➢ 数据组织各不相同:结构化、半结构化和非结构 ➢ 发现的知识可以表示成各种形式
知识发现的方法(3)
➢ 神经计算:
神经网络是指一类新的计算模型,它是模仿人脑神经网络的 结构和某些工作机制而建立的一种计算模型。常用的模型: ✓ Hopfield网 ✓ 多层感知机 ✓ 自组织特征映射 ✓ 反传网络
➢ 可视化:
2020/12/29
高级人工智能 史忠植
11
KDD的技术难点
➢ 动态变化的数据 ➢ 噪声 ➢ 数据不完整 ➢ 冗余信息 ➢ 数据稀疏 ➢ 超大数据量
➢ 聚类:
根据数据的不同特征,将其划分为不同的类。无导师学习
ห้องสมุดไป่ตู้
2020/12/29
高级人工智能 史忠植
7
知识发现的任务(2)
➢ 相关性分析:
发现特征之间或数据之间的相互依赖关系 关联规则
➢ 偏差分析:
基本思想是寻找观察结果与参照量之间的有意义的差别。通 过发现异常, 可以引起人们对特殊情况的加倍注意。
➢ 建模:
构造描述一种活动或状态的数学模型
2020/12/29
高级人工智能 史忠植
8
知识发现的方法(1)
➢ 统计方法:
✓ 传统方法: 回归分析、判别分析、聚类分析、探索性分析
✓ 模糊集(fuzzy set) Zadeh 1965 ✓ 支持向量机(Support Vector Machine) Vapnik 90