数据仓库的建模模型-智能科学与人工智能

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

建模:
构造描述一种活动或状态的数学模型
2018/10/3 高级人工智能 史忠植 8
知识发现的方法
统计方法:
传统方法:
回归分析、判别分析、聚类分析、探索性分析
模糊集(fuzzy set) Zadeh 1965 支持向量机(Support Vector Machine) Vapnik 年代初 粗糙集(Rough Set) Pawlak 80年代初
2018/10/3 高级人工智能 史忠植 13
数据仓库的定义
信息处理技术的发展趋势是:从大量的事务型数据库中抽取 数据,并将其清理、转换为新的存储格。随着此过程的发展 和完善,这种九十年代初出现的支持决策的、特殊的数据存 储即被称为数据仓库(Data Warehouse)。
Inmon将数据仓库明确定义为:
在数据进入数据仓库之前,必然要经过加工与集 成。要统一原始数据中的所有矛盾之处,还要进行数 据综合和计算
2018/10/3 高级人工智能 史忠植 15
数据仓库的特征
数据仓库中的数据是稳定的
数据仓库的数据主要供决策分析之用,所涉及的 操作主要是数据查询,一般不进行修改操作 数据仓库中的数据又是随时间不断变化的 数据仓库的数据不是实时更新的,但并不是永远 不变的,也要随着时间的变化不断地更新、增删和重 新综合。 更新周期
20世纪80年代,人们要利用现有的数据,进行分析和推理, 从而为决策提供依据。这种需求既要求联机服务,又涉及大量 用于决策的数据。而传统的数据库系统已无法满足这种需求: 所需历史数据量很大,而传统数据库一般只存储短期数据。 涉及许多部门的数据,而不同系统的数据难以集成。
对大量数据的访问性能明显下降
2018/10/3 高级人工智能 史忠植 4
不同的术语名称
知识发现是一门来自不同领域的研究者关注的交 叉性学科,因此导致了很多不同的术语名称。
知识发现:人工智能和机器学习界。
数据挖掘(data mining):
统计界、数据分析、数据库和管理信息系统界 知识抽取 (information extraction)、 信息发现 (information discovery)、 智能数据分析 (intelligent data analysis)、 探索式数据分析 (exploratory data analysis) 信息收获 (information harvesting) 数据考古 (data archeology)
需要有一个训练样本数据集作为输入。
聚类:
根据数据的不同特征,将其划分为不同的类。无导师学习
2018/10/3 高级人工智能 史忠植 7
知识发现的任务ቤተ መጻሕፍቲ ባይዱ
相关性分析:
发现特征之间或数据之间的相互依赖关系 关联规则
偏差分析:
基本思想是寻找观察结果与参照量之间的有意义的差别。通 过发现异常, 可以引起人们对特殊情况的加倍注意。
高级人工智能
第十四章
知识发现
(一)
史忠植
中国科学院计算技术研究所
2018/10/3 高级人工智能 史忠植 1
知识发现


概述
知识发现的任务
数据仓库
知识发现工具
2018/10/3
高级人工智能
史忠植
2
知识发现
知识发现是指从数据集中抽取和精炼新的模式。
范围非常广泛:经济、工业、农业、军事、社会
数据仓库(Data Warehouse)是面向主题的,集 成的,内容相对稳定的、不同时间的数据集合,用以 支持经营管理中的决策制定过程。
2018/10/3
高级人工智能
史忠植
14
数据仓库的特征
数据仓库中的数据是面向主题的
与传统数据库面向应用相对应的。主题是一个在 较高层次将数据归类的标准,每一个主题基本对应一 个宏观的分析领域 数据仓库中的数据是集成的
2018/10/3 高级人工智能 史忠植 9
90
知识发现的方法
机器学习:
规则归纳:AQ算法
决策树:ID3、C4.5
范例推理:CBR 遗传算法:GA 贝叶斯信念网络
2018/10/3
高级人工智能
史忠植
10
知识发现的方法
神经计算:
神经网络是指一类新的计算模型,它是模仿人脑神经网络的 结构和某些工作机制而建立的一种计算模型。常用的模型: Hopfield网 多层感知机 自组织特征映射 反传网络
可视化:
2018/10/3 高级人工智能 史忠植 11
KDD的技术难点
动态变化的数据
噪声
数据不完整
冗余信息
数据稀疏
超大数据量
2018/10/3 高级人工智能 史忠植 12
数据仓库
在过去几十年,数据库技术,特别是OLTP(联机事务处 理),主要是为自动化生产、精简工作任务和高速采集数据服 务。它是事务驱动的、面向应用的。
数据的形态多样化:数字、符号、图形、图像、声音
数据组织各不相同:结构化、半结构化和非结构
发现的知识可以表示成各种形式
规则、科学规律、方程或概念网。
2018/10/3
高级人工智能
史忠植
3
数据库知识发现
目前, 关系型数据库技术成熟、应用广泛。 因此, 数据库知识发现(Knowledge Discovery in Databases KDD)的研究非常活跃。 该术语于1989年出现,Fayyad定义为 “KDD是从数据集中识别出有效的、新颖的、 潜在有用的,以及最终可理解的模式的非平凡 过程”
2018/10/3 高级人工智能 史忠植 16
元数据
元数据(Metadata)是关于数据的数据,它描述了数 据的结构、内容、编码、索引等内容。传统数据库中 的数据字典是一种元数据,但在数据仓库中,元数据 的内容比数据库中的数据字典更加丰富和复杂。设计 一个描述能力强、内容完善的元数据,是有效管理数 据仓库的具有决定意义的重要前提
2018/10/3 高级人工智能 史忠植 5
2018/10/3
高级人工智能
史忠植
6
知识发现的任务
数据总结:
对数据进行总结与概括。传统的最简单的数据总结方法是计 算出数据库的各个字段上的求和值、平均值、方差值等统计 值,或者用直方图、饼状图等图形方式表示。
分类:
根据分类模型对数据集合分类。分类属于有导师学习,一般
相关文档
最新文档