人工智能之数据挖掘资料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2018/10/22
数据仓库与OLAP技术
8
如何使用数据仓库中的信息
• 数据仓库用于商务决策活动, 包括 – 增加顾客关注 • 包括分析顾客购买模式, 如喜爱买什么、购买时间、预算周期、 消费习惯 – 根据季度、年和地区的营销情况比较, 重新配置产品和管理产品 的投资, 调整生产策略 – 分析运营情况和查找利润源 – 管理顾客关系、进行环境调整、管理公司资产开销
2018/10/22
数据仓库与OLAP技术
10
数据仓库 vs. 操作数据库(续)
• 不同的特点 (OLTP vs. OLAP): – 用户和系统的面向性: 顾客 vs. 市场 • OLTP是面向顾客的, 用于办事员、客户、和信息技术专业人员 的事务和查询处理
• OLAP是面向市场的, 用于知识工人 (包括经理、主管、和分析 人员) 的数据分析
2018/10/22
数据仓库与OLAP技术
12
数据仓库设计
• 数据仓库为商务分析提供了什么 – 拥有数据仓库可以提供竞争优势 • 通过提供相关信息, 据此测量性能并作出重要调整, 以帮助战 胜其它竞争对手 – 数据仓库可以提高企业生产力 • 因为它能够快速有效地搜集准确描述组织机构的信息 – 数据仓库有利于顾客的联系管理 • 因为它跨越所有商务、所有部门和所有市场, 提供了顾客和商 品的一致视图 – 数据仓库可以带来费用的降低 • 通过以一致和可靠的方式长期跟踪趋势、模式和异常
数据挖掘:概念与技术 3


2018年10月22日星期一
数据挖掘:在数据中发现知识 /模式
2018年10月22日星期一
数据挖掘:概念与技术
4
数据挖掘过程
知识 模式评估 数据挖掘 选择与变换 数据 仓库 清理与集成
数据库
2018年10月22日星期一
文件
数据挖掘:概念与技术
5
什么是数据仓库
• 用不同的方法定义, 但不是严格的 – 是一个决策支持数据库, 它与组织的操作数据库分离地维护 – 数据仓库系统允许将各种应用系统集成在一起, 通过为统一的历 史数据分析提供坚实的平台, 支持信息处理. – 数据仓库是一种信息环境, 它将各种应用系统集成在一起, 提供 了企业信息的完整概括, 为灵活的、交互的数据分析提供坚实的 平台, 为决策提供支持. • W. H. Inmon的定义: – 数据仓库是 面向主题的(subject-oriented), 集成的, 时变的, 和非易失的数据集合, 支持管理决策过程 • 建立数据仓库(Data warehousing): – 构造和使用数据仓库的过程
2018/10/22 数据仓库与OLAP技术 7
数据仓库的特征(续)
• 时变的 (time-variant) – 数据存储从历史的角度 (例如过去5-10年) 提供信息. • 操作数据库数据: 当前值数据 – 数据仓库中的关键结构, 隐式或显式地包含时间元素 • 非易失的 (nonvolatile) – 数据仓库总是物理地分离存放数据; 这些数据源于操作环境下的Hale Waihona Puke Baidu应用数据 – 由于这种分离, 数据仓库不需要事务处理、恢复和并发控制机制. 通常, 它只需要两种数据访问操作: 数据的初始化装入和数据访 问
– 数据内容: 当前的, 细节的 vs. 历史的, 合并的 • OLTP系统管理当前数据
–这种数据太琐碎, 很难用于决策
• OLAP系统管理大量历史数据, 提供汇总和聚集机制, 并在不同 的粒度级别上存储和管理信息
–这些特点使得数据更容易用于决策
2018/10/22 数据仓库与OLAP技术 11
数据仓库 vs. 操作数据库(续)
2018/10/22
数据仓库与OLAP技术
13
数据仓库设计(续)
• 四种视图 – 自顶向下视图 • 使得我们可以选择数据仓库所需的相关信息. 这些信息能够满 足当前和未来商务的需求 – 数据源视图 • 揭示被操作数据库系统捕获、存储和管理的信息 • 通常, 数据源用传统的数据建模技术, 如实体-联系模型或 CASE 工具建模 – 数据仓库视图 • 包括事实表和维表. 它们提供存放在数据仓库内部的信息, 包 括预计算的总和与计数, 以及增加的提供历史背景的关于源、 原来的日期和时间等信息 – 商务查询视图 • 从最终用户的角度透视数据仓库中的数据
2018/10/22 数据仓库与OLAP技术 6
数据仓库的特征
• 面向主题的 (subject-oriented) – 数据仓库围绕一些主题,如顾客、供应商、产品和销售组织 – 数据仓库关注决策者的数据建模与分析, 而不是集中于组织机构 的日常操作和事务处理. – 数据仓库排除对于决策无用的数据, 提供特定主题的简明视图 • 集成的 (integrated) – 通常, 构造数据仓库是将多个异种数据源, 如关系数据库、一般 文件和联机事务处理记录, 集成在一起 – 使用数据清理和数据集成技术, 确保命名约定、编关键字结构、 属性度量等的一致性 – 当数据装入数据仓库时, 数据将被转换
人工智能 ——数据挖掘之数据仓库
目录
一、什么是数据挖掘?
二、什么是数据仓库?数据仓库的特征。 三、数据仓库设计 四、从数据仓库到数据挖掘
什么是数据挖掘
• 数据挖掘 (数据库中知识发现): – 从大型数据库中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有 用的) 信息或模式 – 数据挖掘: 用词不当? 其它名称: – 数据库中知识发现 (Knowledge discovery in databases, KDD) – 知识提取 (knowledge extraction) – 数据/模式分析 (data/pattern analysis) – 数据考古 (data archeology) – 数据捕捞 (data dredging) – 信息收获 (information harvesting) – 商务智能 (business intelligence), 等. 什么不是数据挖掘? – (演绎) 查询处理. – 专家系统 或小型 机器学习(ML)/统计程序
2018/10/22
数据仓库与OLAP技术
9
数据仓库 vs. 操作数据库
• OLTP (on-line transaction processing, 联机事务处理) –传统关系 DBMS的主要任务 –日常事务处理: 购买, 库存, 银行, 制造, 工资单, 注册, 记帐等. • OLAP (on-line analytical processing, 联机分析处理) –数据仓库系统的主要任务 –数据分析和决策制定
相关文档
最新文档