商务智能1复习

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库的体系结构
细低综高
元数据
• 元数据(Metadata)是关于数据的数据。在数据 仓库系统中,元数据可以帮助数据仓库管理员和 数据仓库的开发人员非常方便地找到他们所关心 的数据;元数据是描述数据仓库内数据的结构和 建立方法的数据。
分箱
• 假设12个销售价格记 录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将 们划分成四个箱。等 (等深)划分时,15 在第几个箱子内? ( B ) A. 第一个 B. 第二个 C. 第三个 D. 第四个
数据挖掘任务
规则的构成
如果怎么样、怎么样、怎么样,就会怎么样
前件,激发条件
规则表现为在前件所有条件成立的 后件,结果 前提下,后件结果会以某一正确概 率出现
minsup=50%, 则最小支持度计 =50%×4=2
Apriori算
• 其规则的产生为:非空子集{B C},{B E},{C E}, {B},{C},{E}
2.2 数据仓库的数据模型
星形模式
time 维表 time_key day day_of_the_week month quarter year
branch 维表 branch_key branch_name branch_type
度量
星形模式
Sales 事实表 time_key item_key branch_key
联机分析 根据用户的要求设计多维模型,生成井存储多维数据结构,以 处理 便在响应查询时能尽快找到满足条件的数据;通过OLAP可以全 方位、多层次地考察数据
前端分析 提供简单易用的图形化界面给管理人员或一般用户,由他们自 展示 有选择要分析的数据、定义分析角度和需要显示的结果。该部 分往往与多维分析工具配合,作为多维分析服务器的前台界面
输出,因为只有这些是产生的强规则。
例题
• 右表所示的事务 集,假设最小支持 度为20%,规则的 可信度至少要大于 80%才能形成关联 规则。请用 Apriori关联规则
进行挖掘。
事务标识 1 2 3 4 5
项目 1,4,7,8 1,2,7,8 1,4,7 1,2,4,7,8
6,8
TID

T1
M,O,N,K,E,Y
• {B}∧{C}{E} conf=2/2=100% • {B}∧{E}{C} conf=2/3=66.7% • {C}∧{E}{B} conf=2/2=100% • {B}{C}∧{E} conf=2/3=66.7% • {C}{B}∧{E} conf=2/3=66.7% • {E}{B}∧{C} conf=2/3=66.7% • 如果最小置信度的阈值为70%,则只有1、3规则可以
数据仓库结构体系
♠ 数据仓库用来保存从多个数据库或其它信息源选
取的数据,并为上层应用提供统一用户接口,完成 数据查询和分析。
♠ 数据仓库是为支持整个企业范围的主要业务来建
立的,主要特点是:包含大量面向整个企业的综合 信息及导出信息。
♠ 作为一种数据环境必要功能包括:
☆ 数据收集 ☆ 数据存储 ☆ 数据传递
数据挖掘的定义
• 从结构化数据库中识别出合理的、新颖的、可能 有用的、并且最终可理解的模式的一个非简单过 程。
• Knowledge Discovery in Database is the nontrivial process of identifying valid, novel, potential useful, and ultimately understandable pattern in data. ( Fayyad, Piatetsky-Shapiro,1996)
数据挖掘
• 过程表明数据挖掘包括很多迭代步骤。 • 非平凡说明其中涉及一些实验搜索或推导,就像对预定数
值进行计算一样明确。 • 合理是指有足够程度的把握认为所发现的模式同样适用于
新数据。 • 新颖是指对于所分析的系统、模式是用户此前未知的。 • 可能有用是指所发现的模式应该能够为用户或任务带来一
些好处。 • 最终可理解意味着模式应当具有商业意义。不是立刻,但
神经网络 Neural
Θ5 Θ6 Θ3 Θ4
• 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测
I1
I2
factor n
factor 1 factor 2
数据挖掘任务
4.关联 数据挖掘中的关联规则学习,旨在从大型数据
库中发现变量间有趣关系的一种流行的成熟技术。 使用关联规则算法从超市的销售点(POS)系统的大 规模交易记录中发现产品规律,也称购物篮分析。
• (3)使用按箱中值平滑对以上数据进行平滑,箱 的深度是3。
进行分箱: 箱1:11,15,16 箱2:22,22,25 箱3:32,35,35 箱4:46,52,70 (1)箱1平均值为 (11+15+16)/3=14 箱2的平均值为 (22+22+25)/3=23 箱3的平均值为 (32+35+35)/3=34 箱4的平均值为 (46+52+70)/3=56
数据挖掘 借助数据库技术,使用统计分析的数学方法以及人工智能的算 技术 法,从海量数据中提取隐含的、有用的知识,挖掘数据背后隐 藏的规律和模式
第二章 数据仓库
• 决策的制定需要关于当前运作、趋势和变化的明 确、可靠的信息,而数据往往是分散于不同的操 作系统下,所以管理者常常是至多基于部分信息 来做出所谓的决策。数据仓库通过访问、整合、 组织关键业务数据使其一致、可靠、及时和可 用,排除了障碍,使得数据实现了随时随地地取 用。
• 目前的数据库系统虽然可以高效地实现数据的录入、查询、 统计等功能,但无法发现数据中存在的关系和规则,无法 根据现有的数据预测未来的发展趋势。为了充分利用现有 信息资源,从海量数据中找出隐藏的知识,数据挖掘技术 应运而生并显示出强大的生命力。
• 产生了一个新的研究方向:基于数据库的知识发现 (Knowledge Discovery in Database),以及相应的数 据挖掘(Data Mining)理论和技术的研究
例题
• 假定数据仓库包含三个维:时间、医生和病人, 两个度量:病人个数和医生对一位病人的一次诊 断收费。使用星型模式,画出数据仓库的模式图。
Time 维表
time_key day month year
Doctor 维表
doctor_key doctor_name doctor_sex deptment
Good Credit Risks
序列分析 Sequence Analysis
Open Accn’t
Add New Product
Decrease Usage
???
Time
• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析
聚类分析
• 客户细分 • 市场细分
关联分析
• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售
T2
D,O,N,K,E,Y
T3
M,A,K,E
T4
M,C,K,Y
T5
C,O,K,B,E
决策树方
1.决策树概念 决策树是用样本的属性作为结点,用属性的
取值作为分支的树结构,利用信息论原理对大量 样本的属性进行分析和归纳而产生的。
决策树的根结点是所有样本中信息量最大的 属性。树的中间结点是该结点为根的子树所包含 的样本子集中信息量最大的属性。决策树的叶结 点是样本的类别值。
• 假定用于分析的数据包含属性age。数据元组中 age的值如下(按递增序):11,15,16,22, 22,25,32,35,35,46,52,70,求用下列 方法进行平滑后的数据。
• (1)使用按箱平均值平滑对以上数据进行平滑, 箱的深度是3。
• (2)使用按箱边界值平滑对以上数据进行平滑, 箱的深度是3。
所以按箱平均值平滑的数据为 箱1:14,14,14 箱2:23,23,23 箱3:34,34,34 箱4:56,56,56 (2)使用按箱边界值平滑的数据
为 箱1:11,16,16 箱2:22,22,25 箱3:32,35,35 箱4:46,46,70 (3)使用按箱中值平滑的数据为 箱1:15,15,15 箱2:22,22,22 箱3:35,35,35 箱4:52,52,52
Hospital 事实表
time_key doctor_key patient_key patient_num patient_fee
Patient 维表
patient_key patient_name patient_sex age address subject
• 已知某销售 公司销售数 据仓库的3D 立方体表 示,数字 (即度量) 表示销售 额,请使用 星型模式, 画出数据仓
数据仓库定义
W.H.Inmon(著名的数据仓库专家)在《建立数据仓库》 一书中,对数据仓库的定义为:
• 数据仓库通常是一个面向主题的、集成的、非易失 的且随时间而变的数据集合,用来支持管理者的决 策。
• A data warehouse is a subject-oriented, integrated, time-variant and nonvolatile collection of data in support of management’s decision making process. Inm96 in 《Building the Data Warehouse》
数据仓库→存储 数据挖掘→分析 业务绩效→信息反馈→快速反应 企业管理者需要综合各部门的数据进行正确而有效 的决策。
商业智能的核心技术
核心技术
主要内容
数据仓库
用于抽取、整合和存储有用的信息。对于一个企业而言,数据 往往分布在不同的部门,管理者要综观全局必须能迅速地获得 各方面的相关数据,因此,有必要把不同区域的数据集中起 来,进行统一的管理
星形模
• 星形模式(有时被称做星形关联模式) 是最普遍使用和最简单的维度建模。一个星
形模式包含一个中心事实表和多个相关的维度表。 事实表包含了大量与观测事实和外部链接(例 如,外键)相对应的行数据。事实表包含了用来 进行决策分析和查询报表的描述属性,外键用来 链接维度表。决策分析属性包括性能测量指标、 操作指标、聚集度量值和其他所有指标,这些指 标用来分析企业的业绩。换句话说,事实表主要 解决了数据仓库用什么来支持决策分析的问题。

第一章 商务智能简介

企业唯一不变的是什么?


“我们认为,除了我们的梦想之外,唯一不变的是
变化!这是个高速变化的世界,我们的产业在变,我
的环境在变,我们自己பைடு நூலகம்变,我们的对手也在变…我
周围的一切全在变化之中!”
---马云
企业如何适应变化?
不断创新,满足客户的需求。 商务智能(BI:Bussiness Intelligence)
例题
ID3算法
ID3算法
• 这是一个 关于信用 等级的决 策树,请 写出规则。
例题
• If 年龄=‘<40’ and 职业=‘学生’ or职业=‘教师’ Then 信用等级=‘优’
• If 年龄=‘<40’ and 职业!=‘学生’and职业!=‘教师’ Then 信用等级=‘良’
location_key units_sold
dollars_sold avg_sales
item 维表
item_key item_name brand type supplier_type
location 维表
location_key street city state_or_province country
是至少在模式经过后置处理后,用户会由此说:“嗯,很 有道理!为什么我没想到呢?”
数据挖掘模式
决策树 Decision Trees
Income>$40K • 倾向性分析
Yes
NO
Debt<10% of Income
Debt=0%
Yes
NO
NO Yes
Good Credit Risks
Bad Credit Risks
库的模式图。
例题
时间 维表
时间键 日 月 年
地区 维表
地区键 省 市 区 街道
销售 事实表
时间键 地区键 商品键 销售量 销售额
商品 维表
商品键 商品名 商品大类 价格
第四章
商务智能中的数据挖掘
• 人类已进入一个崭新的信息时代,数据库中存储的数据量 急剧膨胀。二十世纪末以来,全球信息量以惊人的速度急 剧增长—据估计,每二十个月将增加一倍。许多组织机构 的IT系统中都收集了大量的数据(信息)。
相关文档
最新文档