高级人工智能
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019/3/2 高级人工智能 史忠植 5
2019/3/2
高级人工智能
史忠植
6
知识发现的任务
数据总结:
对数据进行总结与概括。传统的最简单的数据总结方法是计 算出数据库的各个字段上的求和值、平均值、方差值等统计 值,或者用直方图、饼状图等图形方式表示。
分类:
根据分类模型对数据集合分类。分类属于有导师学习,一般
高级人工智能
第十三章
知识发现
(一)
史忠植
中国科学院计算技术所
2019/3/2 高级人工智能 史忠植 1
知识发现
概述
知识发现的任务
数据仓库
知识发现工具
2019/3/2
高级人工智能
史忠植
2
知识发现
知识发现是指从数据集中抽取和精炼新的模式。
范围非常广泛:经济、工业、农业、军事、社会
数据的Βιβλιοθήκη Baidu态多样化:数字、符号、图形、图像、声音
需要有一个训练样本数据集作为输入。
聚类:
根据数据的不同特征,将其划分为不同的类。无导师学习
2019/3/2 高级人工智能 史忠植 7
知识发现的任务
相关性分析:
发现特征之间或数据之间的相互依赖关系 关联规则
偏差分析:
基本思想是寻找观察结果与参照量之间的有意义的差别。通 过发现异常, 可以引起人们对特殊情况的加倍注意。
元数据还管理粒度的划分、索引的建立以及抽取更 新的周期等,以便管理好数据仓库中的大规模数据
2019/3/2 高级人工智能 史忠植
数据仓库的相关概念
事实表(Fact):存储用户需要查询分析的数据,事实表中 一般包含多个维(Dimension)和度量(Measurement)。 维:代表了用户观察数据的特定视角,如:时间维、地区维、 产品维等。每一个维可划分为不同的层次来取值,如时间维 的值可按年份、季度、月份来划分,描述了不同的查询层次。 度量:是数据的实际意义,描述数据“是什么”,即一个数 值的测量指标,如:人数、单价、销售量等。
同质、局 部区域的 计算机群 集 intranet/e xtranet网 络计算
移动和各 种计算设 备
有些系统支持 对象,文本和 连续的媒体数 据
支持半结构化 数据和web数 据 普遍存在的计 算模型
27
多个算法
数据管理、 预言模型、 高级人工智能 史忠植 移动系统
数据挖掘软件的发展
第一代数据挖掘软件
高级人工智能
史忠植
10
知识发现的方法
神经计算:
神经网络是指一类新的计算模型,它是模仿人脑神经网络的 结构和某些工作机制而建立的一种计算模型。常用的模型: Hopfield网 多层感知机 自组织特征映射 反传网络
可视化:
2019/3/2 高级人工智能 史忠植 11
KDD的技术难点
动态变化的数据
噪声
数据不完整
冗余信息
数据稀疏
超大数据量
2019/3/2 高级人工智能 史忠植 12
数据仓库
所需历史数据量很大,而传统数据库一般只存储短期数据。 涉及许多部门的数据,而不同系统的数据难以集成。
对大量数据的访问性能明显下降
2019/3/2 高级人工智能 史忠植 13
2019/3/2
高级人工智能
史忠植
14
数据仓库的特征
数据仓库中的数据是面向主题的
与传统数据库面向应用相对应的。主题是一个在 较高层次将数据归类的标准,每一个主题基本对应一 个宏观的分析领域 数据仓库中的数据是集成的
在数据进入数据仓库之前,必然要经过加工与集 成。要统一原始数据中的所有矛盾之处,还要进行数 据综合和计算
2019/3/2 高级人工智能 史忠植 16
元数据
元数据(Metadata)是关于数据的数据,它描述了数 据的结构、内容、编码、索引等内容。传统数据库中 的数据字典是一种元数据,但在数据仓库中,元数据 的内容比数据库中的数据字典更加丰富和复杂。设计 一个描述能力强、内容完善的元数据,是有效管理数 据仓库的具有决定意义的重要前提
2019/3/2
高级人工智能
史忠植
24
数据仓库和知识发现技术的结合(2)
数据仓库为知识发现提供经过良好预处理的 数据源
知识发现往往依赖于经过良好组织和预处理的数 据源,数据的好坏直接影响知识发现的效果。 数据仓库具有从各种数据源中抽取数据,并对数 据进行清洗、聚集和转换等各种处理的能力
2019/3/2
2019/3/2 高级人工智能 史忠植 15
数据仓库的特征
数据仓库中的数据是稳定的
数据仓库的数据主要供决策分析之用,所涉及的 操作主要是数据查询,一般不进行修改操作 数据仓库中的数据又是随时间不断变化的 数据仓库的数据不是实时更新的,但并不是永远 不变的,也要随着时间的变化不断地更新、增删和重 新综合。 更新周期
2019/3/2
高级人工智能
史忠植
19
数据仓库的建模模型
度量的实际数据存放在事实表中。维的详细信息, 如不同的层次划分和相应数据等在维表中存储,事实 表中存放各个维的标识码键。事实表和维表将通过这 些键关联起来,构成一种星型模型 对于层次复杂的维,为避免冗余数据占用过大的存 储空间,可以使用多个表来描述,这种星型模式的扩展 称为雪花模型
作为一个独 立的应用
支持一个或者 多个算法
独立的系统
向量数据
和数据库以 及数据仓库 集成
和预言模型 系统集成 和移动数据/ 各种计算设 备的数据联 合
多个算法:能 够挖掘一次不 能放进内存的 数据
多个算法
数据管理系 统,包括数 据库和数据 仓库
数据管理和 预言模型系 统
第三 代 第四 代 2019/3/2
建模:
构造描述一种活动或状态的数学模型
2019/3/2 高级人工智能 史忠植
知识发现的方法
统计方法:
2019/3/2
高级人工智能
史忠植
9
知识发现的方法
机器学习:
规则归纳:AQ算法
决策树:ID3、C4.5
范例推理:CBR 遗传算法:GA 贝叶斯信念网络
2019/3/2
2019/3/2
高级人工智能
史忠植
20
OLAP
数据仓库技术中,多维数据分析(Multidimensional Data Analysis)方法是一种重要的技术,也称作联机 分析处理(On-Line Analytical Processing,简称OLAP) 或数据立方体(Data Cube)方法,主要是指通过各种 即席复杂查询,对数据仓库中存储的数据进行各种统 计分析的应用 数据仓库是面向决策支持的,决策的前提是数据分析。 在数据分析中经常要用到诸如求和、总计、平均、最 大、最小等汇集操作,这类操作的计算量特别大 。
数据组织各不相同:结构化、半结构化和非结构
发现的知识可以表示成各种形式
规则、科学规律、方程或概念网。
2019/3/2
高级人工智能
史忠植
3
数据库知识发现
2019/3/2
高级人工智能
史忠植
4
不同的术语名称
知识发现是一门来自不同领域的研究者关注的交 叉性学科,因此导致了很多不同的术语名称。
知识发现:人工智能和机器学习界。
2019/3/2 高级人工智能 史忠植 21
OLAP的类型
ROLAP:数据保留在原有的关系型结构中,并且将 聚合表也存储在关系数据库, 在技术成熟及各方面的 适应性上较之MOLAP占有一定的优势,性能较差 MOLAP: 数据和聚合都存储在多维结构中,效率较 高 ,便于进行优化操作。维数多数据量大时,存储是 难点。 HOALP: 数据保留在原有的关系型结构中,聚合存 储在多维结构。结合ROLAP和MOLAP两者的优点
2019/3/2 高级人工智能 史忠植 23
数据仓库和知识发现技术的结合(1)
知识发现成为数据仓库中进行数据深层分析 的一种必不可少的手段
数据仓库是面向决策分析的,数据仓库从事务型 数据抽取并集成得到的分析型数据后,需要各种决策 分析工具对这些数据进行分析和挖掘,得到有用的决 策信息。而知识发现技术具备从大量数据中发现有用 信息的能力。
数据仓库的定义
信息处理技术的发展趋势是:从大量的事务型数据库中抽取 数据,并将其清理、转换为新的存储格。随着此过程的发展 和完善,这种九十年代初出现的支持决策的、特殊的数据存 储即被称为数据仓库(Data Warehouse)。
Inmon将数据仓库明确定义为:
数据仓库(Data Warehouse)是面向主题的,集 成的,内容相对稳定的、不同时间的数据集合,用以 支持经营管理中的决策制定过程。
数据挖掘软件的发展
第二代数据挖掘软件
DBMiner
2019/3/2
高级人工智能
史忠植
31
数据挖掘软件的发展
第二代软件 SAS Enterprise Miner
2019/3/2
高级人工智能
史忠植
32
数据挖掘软件的发展
第三代数据挖掘软件
特点 和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产 生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收, 从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet )的分布式和高度异 质的数据,并且能够有效地和操作型系统集成 缺陷
高级人工智能
史忠植
25
数据挖掘概念----发展
2019/3/2
高级人工智能
史忠植
26
数据挖掘软件的发展
Robert Grossman, National Center for Data Mining University of Illinois at Chicago 的观点
代 第一 代 第二 代 特征 数据挖掘算法 集成 分布计算 模型 单个机器 数据模型
高级人工智能 史忠植
2019/3/2
数据挖掘软件的发展
第一代数据挖掘软件
CBA 新加坡国立大学。基于关联规则的分类算法,能从关系数据或者 交易数据中挖掘关联规则,使用关联规则进行分类和预测
2019/3/2
高级人工智能
史忠植
29
数据挖掘软件的发展
第二代数据挖掘软件
特点 与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的 可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema )和数据挖掘查 询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作 缺陷 只注重模型的生成,如何和预言模型系统集成导致了第三代数 2019/3/2 据挖掘系统的开发 30 高级人工智能 史忠植
2019/3/2 高级人工智能 史忠植 22
OLAP的分析操作
OLAP的基本多维分析操作有钻取(roll up和drill down)、 切片(slice)和切块(dice)、以及旋转(pivot)等。
钻取是改变维的层次,变换分析的粒度。它包括向上钻取和向 下钻取。roll up是在某一维上将低层次的细节数据概括到高层次的 汇总数据;而drill down则相反,它从汇总数据深入到细节数据进 行观察 切片和切块是在一部分维上选定值后,关心度量数据在剩余 维上的分布。如果剩余的维只有两个,则是切片,否则是切块 旋转是变换维的方向,即在表格中重新安排维的放置(例如 行列互换
特点 支持一个或少数几个数据挖掘算法 挖掘向量数据(vector-valued data) 数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统 (www.salford-systems.com) 缺陷 如果数据足够大,并且频繁的变化,这就需要利用数据库 或者数据仓库技术进行管理,第一代系统显然不能满足需 求。
2019/3/2
高级人工智能
史忠植
17
元数据的重要性
数据仓库使用者往往将使用元数据作为分析的第一 步。元数据如同数据指示图,指出了数据仓库内各种 信息的位置和含义 从操作型数据环境到数据仓库的数据转换是复杂的、 多方面的,是数据仓库建设的关键性步骤,元数据要 包含对这种转换的清晰描述,保证这种转换是正确、 适当和合理的,并且是灵活可变的
数据挖掘(data mining):
统计界、数据分析、数据库和管理信息系统界 知识抽取 (information extraction)、 信息发现 (information discovery)、 智能数据分析 (intelligent data analysis)、 探索式数据分析 (exploratory data analysis) 信息收获 (information harvesting) 数据考古 (data archeology)
2019/3/2
高级人工智能
史忠植
6
知识发现的任务
数据总结:
对数据进行总结与概括。传统的最简单的数据总结方法是计 算出数据库的各个字段上的求和值、平均值、方差值等统计 值,或者用直方图、饼状图等图形方式表示。
分类:
根据分类模型对数据集合分类。分类属于有导师学习,一般
高级人工智能
第十三章
知识发现
(一)
史忠植
中国科学院计算技术所
2019/3/2 高级人工智能 史忠植 1
知识发现
概述
知识发现的任务
数据仓库
知识发现工具
2019/3/2
高级人工智能
史忠植
2
知识发现
知识发现是指从数据集中抽取和精炼新的模式。
范围非常广泛:经济、工业、农业、军事、社会
数据的Βιβλιοθήκη Baidu态多样化:数字、符号、图形、图像、声音
需要有一个训练样本数据集作为输入。
聚类:
根据数据的不同特征,将其划分为不同的类。无导师学习
2019/3/2 高级人工智能 史忠植 7
知识发现的任务
相关性分析:
发现特征之间或数据之间的相互依赖关系 关联规则
偏差分析:
基本思想是寻找观察结果与参照量之间的有意义的差别。通 过发现异常, 可以引起人们对特殊情况的加倍注意。
元数据还管理粒度的划分、索引的建立以及抽取更 新的周期等,以便管理好数据仓库中的大规模数据
2019/3/2 高级人工智能 史忠植
数据仓库的相关概念
事实表(Fact):存储用户需要查询分析的数据,事实表中 一般包含多个维(Dimension)和度量(Measurement)。 维:代表了用户观察数据的特定视角,如:时间维、地区维、 产品维等。每一个维可划分为不同的层次来取值,如时间维 的值可按年份、季度、月份来划分,描述了不同的查询层次。 度量:是数据的实际意义,描述数据“是什么”,即一个数 值的测量指标,如:人数、单价、销售量等。
同质、局 部区域的 计算机群 集 intranet/e xtranet网 络计算
移动和各 种计算设 备
有些系统支持 对象,文本和 连续的媒体数 据
支持半结构化 数据和web数 据 普遍存在的计 算模型
27
多个算法
数据管理、 预言模型、 高级人工智能 史忠植 移动系统
数据挖掘软件的发展
第一代数据挖掘软件
高级人工智能
史忠植
10
知识发现的方法
神经计算:
神经网络是指一类新的计算模型,它是模仿人脑神经网络的 结构和某些工作机制而建立的一种计算模型。常用的模型: Hopfield网 多层感知机 自组织特征映射 反传网络
可视化:
2019/3/2 高级人工智能 史忠植 11
KDD的技术难点
动态变化的数据
噪声
数据不完整
冗余信息
数据稀疏
超大数据量
2019/3/2 高级人工智能 史忠植 12
数据仓库
所需历史数据量很大,而传统数据库一般只存储短期数据。 涉及许多部门的数据,而不同系统的数据难以集成。
对大量数据的访问性能明显下降
2019/3/2 高级人工智能 史忠植 13
2019/3/2
高级人工智能
史忠植
14
数据仓库的特征
数据仓库中的数据是面向主题的
与传统数据库面向应用相对应的。主题是一个在 较高层次将数据归类的标准,每一个主题基本对应一 个宏观的分析领域 数据仓库中的数据是集成的
在数据进入数据仓库之前,必然要经过加工与集 成。要统一原始数据中的所有矛盾之处,还要进行数 据综合和计算
2019/3/2 高级人工智能 史忠植 16
元数据
元数据(Metadata)是关于数据的数据,它描述了数 据的结构、内容、编码、索引等内容。传统数据库中 的数据字典是一种元数据,但在数据仓库中,元数据 的内容比数据库中的数据字典更加丰富和复杂。设计 一个描述能力强、内容完善的元数据,是有效管理数 据仓库的具有决定意义的重要前提
2019/3/2
高级人工智能
史忠植
24
数据仓库和知识发现技术的结合(2)
数据仓库为知识发现提供经过良好预处理的 数据源
知识发现往往依赖于经过良好组织和预处理的数 据源,数据的好坏直接影响知识发现的效果。 数据仓库具有从各种数据源中抽取数据,并对数 据进行清洗、聚集和转换等各种处理的能力
2019/3/2
2019/3/2 高级人工智能 史忠植 15
数据仓库的特征
数据仓库中的数据是稳定的
数据仓库的数据主要供决策分析之用,所涉及的 操作主要是数据查询,一般不进行修改操作 数据仓库中的数据又是随时间不断变化的 数据仓库的数据不是实时更新的,但并不是永远 不变的,也要随着时间的变化不断地更新、增删和重 新综合。 更新周期
2019/3/2
高级人工智能
史忠植
19
数据仓库的建模模型
度量的实际数据存放在事实表中。维的详细信息, 如不同的层次划分和相应数据等在维表中存储,事实 表中存放各个维的标识码键。事实表和维表将通过这 些键关联起来,构成一种星型模型 对于层次复杂的维,为避免冗余数据占用过大的存 储空间,可以使用多个表来描述,这种星型模式的扩展 称为雪花模型
作为一个独 立的应用
支持一个或者 多个算法
独立的系统
向量数据
和数据库以 及数据仓库 集成
和预言模型 系统集成 和移动数据/ 各种计算设 备的数据联 合
多个算法:能 够挖掘一次不 能放进内存的 数据
多个算法
数据管理系 统,包括数 据库和数据 仓库
数据管理和 预言模型系 统
第三 代 第四 代 2019/3/2
建模:
构造描述一种活动或状态的数学模型
2019/3/2 高级人工智能 史忠植
知识发现的方法
统计方法:
2019/3/2
高级人工智能
史忠植
9
知识发现的方法
机器学习:
规则归纳:AQ算法
决策树:ID3、C4.5
范例推理:CBR 遗传算法:GA 贝叶斯信念网络
2019/3/2
2019/3/2
高级人工智能
史忠植
20
OLAP
数据仓库技术中,多维数据分析(Multidimensional Data Analysis)方法是一种重要的技术,也称作联机 分析处理(On-Line Analytical Processing,简称OLAP) 或数据立方体(Data Cube)方法,主要是指通过各种 即席复杂查询,对数据仓库中存储的数据进行各种统 计分析的应用 数据仓库是面向决策支持的,决策的前提是数据分析。 在数据分析中经常要用到诸如求和、总计、平均、最 大、最小等汇集操作,这类操作的计算量特别大 。
数据组织各不相同:结构化、半结构化和非结构
发现的知识可以表示成各种形式
规则、科学规律、方程或概念网。
2019/3/2
高级人工智能
史忠植
3
数据库知识发现
2019/3/2
高级人工智能
史忠植
4
不同的术语名称
知识发现是一门来自不同领域的研究者关注的交 叉性学科,因此导致了很多不同的术语名称。
知识发现:人工智能和机器学习界。
2019/3/2 高级人工智能 史忠植 21
OLAP的类型
ROLAP:数据保留在原有的关系型结构中,并且将 聚合表也存储在关系数据库, 在技术成熟及各方面的 适应性上较之MOLAP占有一定的优势,性能较差 MOLAP: 数据和聚合都存储在多维结构中,效率较 高 ,便于进行优化操作。维数多数据量大时,存储是 难点。 HOALP: 数据保留在原有的关系型结构中,聚合存 储在多维结构。结合ROLAP和MOLAP两者的优点
2019/3/2 高级人工智能 史忠植 23
数据仓库和知识发现技术的结合(1)
知识发现成为数据仓库中进行数据深层分析 的一种必不可少的手段
数据仓库是面向决策分析的,数据仓库从事务型 数据抽取并集成得到的分析型数据后,需要各种决策 分析工具对这些数据进行分析和挖掘,得到有用的决 策信息。而知识发现技术具备从大量数据中发现有用 信息的能力。
数据仓库的定义
信息处理技术的发展趋势是:从大量的事务型数据库中抽取 数据,并将其清理、转换为新的存储格。随着此过程的发展 和完善,这种九十年代初出现的支持决策的、特殊的数据存 储即被称为数据仓库(Data Warehouse)。
Inmon将数据仓库明确定义为:
数据仓库(Data Warehouse)是面向主题的,集 成的,内容相对稳定的、不同时间的数据集合,用以 支持经营管理中的决策制定过程。
数据挖掘软件的发展
第二代数据挖掘软件
DBMiner
2019/3/2
高级人工智能
史忠植
31
数据挖掘软件的发展
第二代软件 SAS Enterprise Miner
2019/3/2
高级人工智能
史忠植
32
数据挖掘软件的发展
第三代数据挖掘软件
特点 和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产 生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收, 从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet )的分布式和高度异 质的数据,并且能够有效地和操作型系统集成 缺陷
高级人工智能
史忠植
25
数据挖掘概念----发展
2019/3/2
高级人工智能
史忠植
26
数据挖掘软件的发展
Robert Grossman, National Center for Data Mining University of Illinois at Chicago 的观点
代 第一 代 第二 代 特征 数据挖掘算法 集成 分布计算 模型 单个机器 数据模型
高级人工智能 史忠植
2019/3/2
数据挖掘软件的发展
第一代数据挖掘软件
CBA 新加坡国立大学。基于关联规则的分类算法,能从关系数据或者 交易数据中挖掘关联规则,使用关联规则进行分类和预测
2019/3/2
高级人工智能
史忠植
29
数据挖掘软件的发展
第二代数据挖掘软件
特点 与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的 可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema )和数据挖掘查 询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作 缺陷 只注重模型的生成,如何和预言模型系统集成导致了第三代数 2019/3/2 据挖掘系统的开发 30 高级人工智能 史忠植
2019/3/2 高级人工智能 史忠植 22
OLAP的分析操作
OLAP的基本多维分析操作有钻取(roll up和drill down)、 切片(slice)和切块(dice)、以及旋转(pivot)等。
钻取是改变维的层次,变换分析的粒度。它包括向上钻取和向 下钻取。roll up是在某一维上将低层次的细节数据概括到高层次的 汇总数据;而drill down则相反,它从汇总数据深入到细节数据进 行观察 切片和切块是在一部分维上选定值后,关心度量数据在剩余 维上的分布。如果剩余的维只有两个,则是切片,否则是切块 旋转是变换维的方向,即在表格中重新安排维的放置(例如 行列互换
特点 支持一个或少数几个数据挖掘算法 挖掘向量数据(vector-valued data) 数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统 (www.salford-systems.com) 缺陷 如果数据足够大,并且频繁的变化,这就需要利用数据库 或者数据仓库技术进行管理,第一代系统显然不能满足需 求。
2019/3/2
高级人工智能
史忠植
17
元数据的重要性
数据仓库使用者往往将使用元数据作为分析的第一 步。元数据如同数据指示图,指出了数据仓库内各种 信息的位置和含义 从操作型数据环境到数据仓库的数据转换是复杂的、 多方面的,是数据仓库建设的关键性步骤,元数据要 包含对这种转换的清晰描述,保证这种转换是正确、 适当和合理的,并且是灵活可变的
数据挖掘(data mining):
统计界、数据分析、数据库和管理信息系统界 知识抽取 (information extraction)、 信息发现 (information discovery)、 智能数据分析 (intelligent data analysis)、 探索式数据分析 (exploratory data analysis) 信息收获 (information harvesting) 数据考古 (data archeology)