商务智能1复习

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据仓库的体系结构
细低综高
元数据
• 元数据（Metadata）是关于数据的数据。在数据仓库系统中，元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据；元数据是描述数据仓库内数据的结构和建立方法的数据。
分箱
• 假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将们划分成四个箱。等（等深）划分时，15 在第几个箱子内？ ( B ) A. 第一个 B. 第二个 C. 第三个 D. 第四个
数据挖掘任务
规则的构成
如果怎么样、怎么样、怎么样，就会怎么样
前件，激发条件
规则表现为在前件所有条件成立的后件，结果前提下，后件结果会以某一正确概率出现
minsup=50%, 则最小支持度计 =50%×4=2
Apriori算
• 其规则的产生为：非空子集{B C}，{B E}，{C E}， {B}，{C}，{E}
2.2 数据仓库的数据模型
星形模式
time 维表 time_key day day_of_the_week month quarter year
branch 维表 branch_key branch_name branch_type
度量
星形模式
Sales 事实表 time_key item_key branch_key
联机分析根据用户的要求设计多维模型，生成井存储多维数据结构，以处理便在响应查询时能尽快找到满足条件的数据；通过OLAP可以全方位、多层次地考察数据
前端分析提供简单易用的图形化界面给管理人员或一般用户，由他们自展示有选择要分析的数据、定义分析角度和需要显示的结果。该部分往往与多维分析工具配合，作为多维分析服务器的前台界面
输出，因为只有这些是产生的强规则。
例题
• 右表所示的事务集，假设最小支持度为20%，规则的可信度至少要大于 80%才能形成关联规则。请用 Apriori关联规则
进行挖掘。
事务标识 1 2 3 4 5
项目 1,4,7,8 1,2,7,8 1,4,7 1,2,4,7,8
6,8
TID
项
T1
M,O,N,K,E,Y
• {B}∧{C}{E} conf=2/2=100% • {B}∧{E}{C} conf=2/3=66.7% • {C}∧{E}{B} conf=2/2=100% • {B}{C}∧{E} conf=2/3=66.7% • {C}{B}∧{E} conf=2/3=66.7% • {E}{B}∧{C} conf=2/3=66.7% • 如果最小置信度的阈值为70%，则只有1、3规则可以
数据仓库结构体系
♠ 数据仓库用来保存从多个数据库或其它信息源选
取的数据，并为上层应用提供统一用户接口，完成数据查询和分析。
♠ 数据仓库是为支持整个企业范围的主要业务来建
立的，主要特点是：包含大量面向整个企业的综合信息及导出信息。
♠ 作为一种数据环境必要功能包括：
☆ 数据收集 ☆ 数据存储 ☆ 数据传递
数据挖掘的定义
• 从结构化数据库中识别出合理的、新颖的、可能有用的、并且最终可理解的模式的一个非简单过程。
• Knowledge Discovery in Database is the nontrivial process of identifying valid, novel, potential useful, and ultimately understandable pattern in data. ( Fayyad, Piatetsky-Shapiro，1996)
数据挖掘
• 过程表明数据挖掘包括很多迭代步骤。 • 非平凡说明其中涉及一些实验搜索或推导，就像对预定数
值进行计算一样明确。 • 合理是指有足够程度的把握认为所发现的模式同样适用于
新数据。 • 新颖是指对于所分析的系统、模式是用户此前未知的。 • 可能有用是指所发现的模式应该能够为用户或任务带来一
些好处。 • 最终可理解意味着模式应当具有商业意义。不是立刻，但
神经网络 Neural
Θ5 Θ6 Θ3 Θ4
• 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测
I1
I2
factor n
factor 1 factor 2
数据挖掘任务
4.关联数据挖掘中的关联规则学习，旨在从大型数据
库中发现变量间有趣关系的一种流行的成熟技术。使用关联规则算法从超市的销售点(POS)系统的大规模交易记录中发现产品规律，也称购物篮分析。
• （3）使用按箱中值平滑对以上数据进行平滑，箱的深度是3。
进行分箱：箱1：11，15，16 箱2：22，22，25 箱3：32，35，35 箱4：46，52，70 （1）箱1平均值为（11+15+16）/3=14 箱2的平均值为（22+22+25）/3=23 箱3的平均值为（32+35+35）/3=34 箱4的平均值为（46+52+70）/3=56
数据挖掘借助数据库技术，使用统计分析的数学方法以及人工智能的算技术法，从海量数据中提取隐含的、有用的知识，挖掘数据背后隐藏的规律和模式
第二章数据仓库
• 决策的制定需要关于当前运作、趋势和变化的明确、可靠的信息，而数据往往是分散于不同的操作系统下，所以管理者常常是至多基于部分信息来做出所谓的决策。数据仓库通过访问、整合、组织关键业务数据使其一致、可靠、及时和可用，排除了障碍，使得数据实现了随时随地地取用。
• 目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源，从海量数据中找出隐藏的知识，数据挖掘技术应运而生并显示出强大的生命力。
• 产生了一个新的研究方向：基于数据库的知识发现（Knowledge Discovery in Database），以及相应的数据挖掘（Data Mining）理论和技术的研究
例题
• 假定数据仓库包含三个维：时间、医生和病人，两个度量：病人个数和医生对一位病人的一次诊断收费。使用星型模式，画出数据仓库的模式图。
Time 维表
time_key day month year
Doctor 维表
doctor_key doctor_name doctor_sex deptment
Good Credit Risks
序列分析 Sequence Analysis
Open Accn’t
Add New Product
Decrease Usage
???
Time
• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析
聚类分析
• 客户细分 • 市场细分
关联分析
• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售
T2
D,O,N,K,E,Y
T3
M,A,K,E
T4
M,C,K,Y
T5
C,O,K,B,E
决策树方
1.决策树概念决策树是用样本的属性作为结点，用属性的
取值作为分支的树结构，利用信息论原理对大量样本的属性进行分析和归纳而产生的。
决策树的根结点是所有样本中信息量最大的属性。树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。
• 假定用于分析的数据包含属性age。数据元组中 age的值如下（按递增序）：11，15，16，22， 22，25，32，35，35，46，52，70，求用下列方法进行平滑后的数据。
• （1）使用按箱平均值平滑对以上数据进行平滑，箱的深度是3。
• （2）使用按箱边界值平滑对以上数据进行平滑，箱的深度是3。
所以按箱平均值平滑的数据为箱1：14，14，14 箱2：23，23，23 箱3：34，34，34 箱4：56，56，56 （2）使用按箱边界值平滑的数据
为箱1：11，16，16 箱2：22，22，25 箱3：32，35，35 箱4：46，46，70 （3）使用按箱中值平滑的数据为箱1：15，15，15 箱2：22，22，22 箱3：35，35，35 箱4：52，52，52
Hospital 事实表
time_key doctor_key patient_key patient_num patient_fee
Patient 维表
patient_key patient_name patient_sex age address subject
• 已知某销售公司销售数据仓库的3D 立方体表示，数字（即度量）表示销售额，请使用星型模式，画出数据仓
数据仓库定义
W.H.Inmon(著名的数据仓库专家)在《建立数据仓库》一书中，对数据仓库的定义为：
• 数据仓库通常是一个面向主题的、集成的、非易失的且随时间而变的数据集合，用来支持管理者的决策。
• A data warehouse is a subject-oriented, integrated, time-variant and nonvolatile collection of data in support of management’s decision making process. Inm96 in 《Building the Data Warehouse》
数据仓库→存储数据挖掘→分析业务绩效→信息反馈→快速反应企业管理者需要综合各部门的数据进行正确而有效的决策。
商业智能的核心技术
核心技术
主要内容
数据仓库
用于抽取、整合和存储有用的信息。对于一个企业而言，数据往往分布在不同的部门，管理者要综观全局必须能迅速地获得各方面的相关数据，因此，有必要把不同区域的数据集中起来，进行统一的管理
星形模
• 星形模式（有时被称做星形关联模式）是最普遍使用和最简单的维度建模。一个星
形模式包含一个中心事实表和多个相关的维度表。事实表包含了大量与观测事实和外部链接（例如，外键）相对应的行数据。事实表包含了用来进行决策分析和查询报表的描述属性，外键用来链接维度表。决策分析属性包括性能测量指标、操作指标、聚集度量值和其他所有指标，这些指标用来分析企业的业绩。换句话说，事实表主要解决了数据仓库用什么来支持决策分析的问题。
商
第一章商务智能简介
务
企业唯一不变的是什么？
智
能
“我们认为，除了我们的梦想之外，唯一不变的是
变化！这是个高速变化的世界，我们的产业在变，我
的环境在变，我们自己பைடு நூலகம்变，我们的对手也在变…我
周围的一切全在变化之中！”
－－－马云
企业如何适应变化？
不断创新，满足客户的需求。商务智能（BI：Bussiness Intelligence）
例题
ID3算法
ID3算法
• 这是一个关于信用等级的决策树，请写出规则。
例题
• If 年龄=‘<40’ and 职业=‘学生’ or职业=‘教师’ Then 信用等级=‘优’
• If 年龄=‘<40’ and 职业!=‘学生’and职业!=‘教师’ Then 信用等级=‘良’
location_key units_sold
dollars_sold avg_sales
item 维表
item_key item_name brand type supplier_type
location 维表
location_key street city state_or_province country
是至少在模式经过后置处理后，用户会由此说：“嗯，很有道理!为什么我没想到呢?”
数据挖掘模式
决策树 Decision Trees
Income>$40K • 倾向性分析
Yes
NO
Debt<10% of Income
Debt=0%
Yes
NO
NO Yes
Good Credit Risks
Bad Credit Risks
库的模式图。
例题
时间维表
时间键日月年
地区维表
地区键省市区街道
销售事实表
时间键地区键商品键销售量销售额
商品维表
商品键商品名商品大类价格
第四章
商务智能中的数据挖掘
• 人类已进入一个崭新的信息时代，数据库中存储的数据量急剧膨胀。二十世纪末以来，全球信息量以惊人的速度急剧增长—据估计，每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据（信息）。