事实表与维度表解释

数据中心建设概念解释

商占超

Q:274231105

目录

01

02

事实表

维度表

03

表设计

04

表关系

数据谈起

地区维

时间维

交易额

客户维

类型维

一组销售数据

像叙事作文一样,包含:时间、地点、

人物、事情,描述着销售的过程。

是否可以这样理解呢?对吗

事实表存放描述业务内特定事件的数

据。

维度表存放维度属性值,如客户信息、

地区信息、时间清单、类型信息等

交易量

交易次数

事实表

01

用来存储事实的度量

和各维的码值

事实表

定义

分类

比较

举例

事务事实表Transaction fact table

周期快照事实表Periodicsnapshot fact table

累积快照事实表Accumulatingsnapshot fact table

特点事务事实周期快照事实累积快照事实

时间/时期时间时期时间跨度较短的多个时点

粒度代表一个交易事件代表一个时间周期代表一个业务周期

事实表加载新增新增新增和修改

事实表更新不更新不更新新事件产生时更新

时间维业务日期时期末多个业务过程的完成日期

事实交易活动时间周期内的绩效限定多个业务阶段内的绩效事务事实销售单数据

周期快照事实日库存数据

累积快照事实发货进度数据

02

维度表

维度的三种模型:

星形模型

雪花模型

多维模型

维度的类型:

缓慢变化维

快速变化维

大维和迷你维

退化维

表设计

03事实表指标外键主键

有数值化和可加性的度量值,如销售额、证书量事实数据特征属性值,关联维度表

来源业务系统,考虑数据冗余,可不设主键

维度表

特征主键

做为事实表的外键,整型值,节省空间,有层次结构含义

冗余数据进行分析时所用的量,可有多个维度,不超15个包含的列应该尽可能全面,记录属性变化的维

注意

1、维度表需要冗余,主要是因为维度一般不大,而维度表的冗余可以使事实表节省很多空间。

2、事实表一般都很大,得到结果的时间较长,进行特殊预处理是必要的。

3、维度表必须有而且只有一个最明细层作为该维表的颗粒度

4、维度表若被多个事实表使用,则应作为公共维度表来设计。

5、维度表,区分代理键和自然键的目的是跟踪在操作性系统中无须考虑的数据变化情况

总之,事实表的设计是以能够正确记录历史信息为准则,维度表的设计是以能够以合适的角度来聚合主题内容为准则

表关系

041、保存该维的元数据,即维的描述信息,包括维的层次及成员类别等

2、列字段可以将信息分为不同层次的结构级。

3、键属性必须为维度的每个成员包含一个对应的唯一值。

4、属性可以是可分组的,也可以是不可分组的

维度表

1、用来存储事实的度量及指向各个维的外键值

2、不应该包含描述性的信息,也不应该包含除数字度量字段及使事实与纬度表中对应项的相关索引字段之外的任何数据

3、可以累计的度量值,最有用的度量值是可累计的度量值,其累计起来的数字是非常有意义的,用户可以通过累计度量值获得汇总信息

4、非累计的度量值可以用于事实数据表,单汇总结果一般是没有意义的,但是求平均值是有意义的。

事实表

1、事实表就是你要关注的内容;

2、维度表就是你观察该事务的角度,是从哪个角度去观察这个内容的

3、事实数据和维度数据的识别必须依据具体的主题问题而定

4、一个事实数据表都要和一个或多个纬度表相关联。

总之

时间维度表的创建说明

时间维度表的创建 时间维度是数据仓库最常用的维度,时间维度表创建可以用下面的代码。 方法一:使用临时表 /*起始年后的152 年365*151 +37 = 55152 / /*先建好临时表以用作主键编号*/ select top 55152 identity(int,1,1) as iid into #tmp from sysobjects a,sysobjects b,sysobjects c /*写好数据select into 时间维度表*/ select iid as 时间主键, dateadd(day,iid-1,'1949-01-01') as 时间, year(dateadd(day,iid-1,'1949-01-01')) as 年份, month(dateadd(day,iid-1,'1949-01-01')) as 月份, day(dateadd(day,iid-1,'1949-01-01')) as 日期, datepart(quarter,(dateadd(day,iid-1,'1949-01-01'))) as 季度, datepart(weekday,(dateadd(day,iid-1,'1949-01-01'))) as 星期, day(dateadd(day,iid-1,'1949-01-01')) as 月的第几天, datepart(week,(dateadd(day,iid-1,'1949-01-01'))) as 年的第几周into tj_web_time_dimension from #tmp

/*设置主键*/ alter table tj_web_time_dimension add constraint addPrimarykey primary key(时间主键) 方法二:使用循环 CREATE TABLE [dbo].[tj_web_time_dimension]( [时间主键] [int] IDENTITY(1,1) NOT NULL PRIMARY KEY CLUSTERED , [时间] [datetime] NULL, [年份] [int] NULL, [月份] [int] NULL, [日期] [int] NULL, [季度] [int] NULL, [星期] [int] NULL, [月的第几天] [int] NULL, [年的第几周] [int] NULL, ) declare @beginDate datetime, @endDate datetime, @tempdate datetime set @beginDate = '2000-1-1' set @endDate = '2010-1-1' set @tempDate = @beginDate while @tempDate <= @endDate

课堂教学方案观察的四个维度

观课议课——课堂教学观察的四个维度观课议课是参与者相互提供教学信息,共同收集和感受课堂信息,在充分拥有信息的基础上,围绕共同关心的问题进行对话交流和扬长避短,以改进课堂教学效果、提升教学质量、促进教师专业能力提高的一种教研活动。 观课即课堂观察,是指教师或研究者凭借眼、耳、手、脑等自身的感官及相关的辅助工具(观察量表、录音录像设备等),直接地(或间接地)从课堂情景中获取信息资料,从感性到理性的一种学习、评价及研究教育教学的过程。 议课即课堂评价,对所收集的课堂信息提出问题,发表意见,与执教教师展开对话、平等交流,反思自己教学,促进相互成长的过程。其中包含了课堂诊断过程,所以,观课议课实际上就是课堂观察、诊断与评价,中心环节包括课前会议、课堂观察、课后评议三个阶段。 要观察课堂,首先必须解构课堂。课堂涉及的因素很多.需要有一个简明、科学的观察框架作为具体观察的“抓手”或“支架”.否则将使观察陷入随意、散乱。课堂主要由学生、教师、课程及课堂文化构成,因此,从学生学习、教师教学、课程性质和课堂文化四个维度来构建一个课堂观察的框架。观课教师可以在课堂观察的四个维度(学生学习、教师教学、课程性质和课堂文化)中,分析每一个维度,找出其中核心的且可观察的属性,并将这些属性确立为视角。每个维度由5个视角构成,共有20个视角,每个视角由3~5个观察点组成,共68个点。它的呈现形式,不再用评语的形式,而是用问题的形式,旨在引领教师去思考而不是评价课堂。下面我们从课堂观察框架来分析一下课堂教学的四个维度。 一、学生学习

学生学习维度主要关注怎么学或学得怎样的问题,学生是课堂学习活动的主体,他们是课堂学习的积极参与者、主动建构者,学生的有效学习是课堂成败的决定性因素。 学生学习维度有准备、倾听、互动、自主、达成五个视角。每个视角有3或5个观察点。选取互动视角中的一个观察点:在学生学习的过程有哪些互动的行为?来举例说明通过师师互动生生互动来提高课堂教学效果提升课堂教学水平?互动行为是实现以学生为主体的重要手段。实现以学生为主体,就要让课堂活起来,让学生动起来。通过多边的互动,让学生成为学习的主人。 从互动的对象看有师生互动,生生互动,学习个体与教学中介的互动,人与环境的互动。从互动的形态看有行为的互动,语言的互动,思维的互动,情感的互动,从互动的组织形式看,有同桌的主动,小组的互动,班集体的互动。一切的互动,形成了多边的、主体的、动态的活动。 因此,从学生学习维度的视角来看,我们可以看出,在观课时,观课者应多关注在学生的学习方式(自主、合作、探究等)、学习方法、学习状态、思维表现、学习习惯、学习行为、课堂气氛、学习效果等要素。在仪课时,要看学生能否积极参与教学活动;是否体验、感受,经历英语学习过程;能否在学习活动中学会了什么,学生在课堂中学会什么?得到哪些有助于自身发展的能力;能否在

数据仓库建模方法论 2018-3-29

数据仓库建模方法论 通过上一篇数据仓库建设的全局概览,我们认识了数据仓库,也明确了数据建模在仓库建设中的核心地位,数据仓库模型是整个大厦的基石,也是个难点。这么重要的环节就有必要单独拿出来详细说明一下。(本文的重点是维度建模)1什么是数据模型 数据模型是抽象描述现实世界的一种方法,是通过抽象的实体及实体之间的联系来表示现实世界中事务的相互关系的一种映射。 数据仓库模型是数据模型中针对特定的数据仓库应用系统的特定模型。由下图四部分内容组成: ●业务建模,主要解决业务层面的分解和程序化。 ●领域建模,主要对业务模型进行抽象处理,生成领域概念模型。 ●逻辑建模,主要将领域模型的概念实体以及实体之间的关系进行数据库层 次的逻辑化。 ●物理建模,主要解决逻辑模型针对不同关系型数据库的物理化以及性能等 一些具体的技术问题。

2数据仓库数据模型架构 数据仓库模型由五部分组成,如下图: 系统记录域:数据仓库业务数据存储区,模型保证了数据的一致性。(继续使用Oracle?) 内部管理域:也就是元数据模型的存储管理。(工具待定) 汇总域:系统记录域的汇总数据,数据模型保证的主题分析的性能,满足部分报表查询。 分析域:用于各个业务部分的具体的主题分析。也就是数据集市。 反馈域:针对前端反馈的数据,根据业务需求而定。 3数据模型的作用 ●进行全面的业务梳理,改进业务流程。 ●建立全方位的数据视角,打通信息孤岛,去除数据差异。 ●解决业务的变动,提高数据仓库灵活性。 ●帮助数据仓库系统本身的建设。

4如何创建数据仓库模型 4.1数据仓库建模四个阶段 4.1.1业务建模 ●划分整个企业的业务,一般按部门划分,进行各个部分之间业务工作 的界定,理清各业务部门之间的关系。 ●深入了解各业务部门工作流程的方法。 ●提出修改和改进业务部门工作流程的方法。 ●数据建模的范围界定,确定数据仓库项目的目标和阶段划分。 4.1.2领域概念建模 ●抽取关键业务概念,并抽象化。 ●将业务概念分组,按业务主线聚合类似的分组概念。 ●细化分组概述,理清分组概念内的精力流程并抽象化。 ●理清分组概念之间的关联,形成完整的领域概念模型。 4.1.3逻辑建模 业务概念实体化、事实实体化、说明实体化,并考虑其属性内容。 4.1.4物理建模 ●针对特定物理平台做出相应的技术调整 ●针对模型的性能考虑,结合特定平台做出相应调整

课堂观察视角

课堂观察框架 ——华东师范大学崔允漷 (4个维度,20个视角,68个观察点) 课程性质:目标/内容/实施/评价/资源课堂文化:思考/民主/创新/关爱/特质学生学习:准备/倾听/互动/自主/达成教师教学:环节/呈示/对话/指导/机智课堂观察框架示意图

教师如何利用课堂观察框架 课堂观察框架将课堂分解为学生学习、教师教学、课程性质、课堂文化4个维度,每个维度由5个视角构成,例如,学生学习维度包括:准备、倾听、互动、自主、达成这5个视角,每个视角由3至5个观察点组成,合计68个点,例如,学生学习维度的达成视角就由3个观察点组成,它们分别是:①学生清楚这节课的学习目标吗?②预设的目标达成有什么证据(观点/作业/表情/板演/演示)?有多少人达成?③这堂课生成了什么目标?效果如何?这些观察点不再以评价标准的方式出现,而是以问题的方式呈现,旨在引领教师思考某个视角的属性。

第一,课堂观察框架为教师理解课堂提供了一个支架。如果让教师们描述课堂是什么,对大多数老师而言是一个很难的问题。事实上,不能描述课堂的构成,当然也就难以理解课堂,难以真正做到有效教/学,难以形成自己的教学特色或风格。课堂观察框架的观察点为老师立足于“点”来思考课堂提供了支持,而68个点,20个视角,4个维度的综合又避免了“只见树木,不见森林”的问题,为老师从“面”上理解课堂提供了支持,所以,课堂观察框架从“点”和“面”出发引领教师理解课堂、反思课堂、改进课堂,提升教师教学的有效性和专业发展的品质。 第二,课堂观察框架为教师选择观察点、选择/开发观察工具提供了参照体系。我们发现,每次确定观察主题内容时,常常令老师们颇费周折。在开展课堂观察的初期,教师们联系自己的教学实践,认真阅读观察框架中每个维度的“观察视角”和“观察点”,寻找自己感兴趣的问题,从中确定自己的观察点。在比较熟悉课堂观察后,教师们根据自己的发展需要,从观察框架中寻找相关的观察维度、视角和点,设计自己的观察点。在主题式观察中,观察框架的架构体系为分析观察主题的属性提供了良好的分析思路。观察点确定后,可以根据观察框架的架构体系选择或设计观察工具,如量表、记录单、调查问卷等,选择合作观察的伙伴,商讨分工合作的观察内容,研讨双方观察的规则等。在实际的操作中,根据《课堂观察框架》选择观察点时,可以根据需要形成“一人一点,多人一点,一人多点,多人一点”的观察模式。(吴江林、林荣凑)

数据仓库与数据挖掘 课后答案 (陈志泊 著) 清华大学出版社

第1章数据仓库的概念与体系结构 1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2.元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3.数据处理通常分成两大类:联机事务处理OLTP和联机分析处理OLAP。 4.多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片(Slice)、切块(dice)、钻取(Drill-down 和Roll-up 等)和旋转(pivot)等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。 5. ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。 6.数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。 7.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集市、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。 8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。 9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。 10.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以营运导向为主、以实时数据仓库和自动决策为主。 11.什么是数据仓库?数据仓库的特点主要有哪些? 答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。 数据仓库的特点包含以下几个方面:(1)面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。(2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。(3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。(4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。 12. 简述数据仓库4种体系结构的异同点及其适用性。 答:(1)两层架构(Generic Two-Level Architecture)。 (2)独立型数据集市(Independent Data Mart)。 (3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。 (4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。 13. 答:数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web 技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备。 14. 答: (1)IBM 公司提供了一套基于可视化数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse

多维数据库维度层次的理解

多维数据库维度层次的理解 多维度数据库是按照多维数据模型的思想来建立的。而一个多维数据模型是由多个维度和实事组成。维度是多维数据模型中非常重要的概念,要进行多维分析、编写高效准确的MDX 查询,首先要对维及其维度的概念分层有比较深刻的理解。 维是描述事实的角度,也即观察数据的角度。一个多维数据模型通常都包含多个维度。比如:描述企业的销售信息这样一个事实,我们就可能要用到客户维度、时间维度、产品维度、仓库维度等。在多维数据库中,维度表的来源通常都是关系数据库中的基础数据表,如上面提到的客户维度就来自关系数据库中的客户表,产品维度就来自关系数据库中的产品表等等。而这些维度表除了与事实表相关联的键属性以外还有很多其它的数据表属性。在基于关系数据库的查询中,我们可能更多的关注表之间的关系。而在多维数据库中,应该把思维改进一下,应该理解和注意维度属性之间的关系,分析维度中每个属性之间的关系。而维度属性之间的关系就引出了本文的中心——维度层次。 还是上面那个企业销售的例子,对于客户维度,除了键属性外,可能还会有客户的名字属性,所在国家,所在城市以及省,性别,教育情况,职业等信息。通过分析这些属性的值,可以发现:城市是属于某个省的,而省又是属于某个国家的,所以在这些属性的值中就表现了一种层次关系。分析这个层次结构如下图: 图一:客户维度属性层次分析图 上图中左边是客户维度表中国家属性,城市属性和省属性所组成的层次表示,右边就是这几个属性的值之间的关系。在SSAS中,图中左边的部分表示一个层次,这个层次由四个级别组成,这四个级别分别是:国家,省,城市和客户。在这个层次中国家是粒度最大的级别,客户是粒度最小的级别。在进行多维数据分析的时候,我们就可能会在这个层次的不同级别上进行综合或分析,上卷或下钻。 维度中的层次关系有的时候是隐含的,由数据的意义表示。所以维度层次有的时候可以自动生成,但更多的时候是人为定义的。对维进行概念分层使得我们可以在任意的抽象级别分析数据。 在SSAS中有一些与层次相关的函数,要利用好这些函数,其前提就是要理解维度的层次结构。这些函数我将会在另一篇文章中介绍。

事实表设计

事实表中一般要包含2部分:一是由主键和外键所组成的键部分,另一部分是用户希望在数据仓库中所了解的数值指标,这些指标是为每个派生出来的键而定义和计算的,称为事实或指标。由于事实是一种度量,所以事实表中的这种指标往往需要具有数值化和可加性的特征。但是在事实表中,只有那些具有完全可加性的事实才能根据所有的维度进行累加而具有意义。而事实表有一些事实表示的是某种强度,这类事实就不具有完全加法性,而是一种半加法性。例如,账目余款反映的是某个时间点的数据,它可以按照地点和商品等大多数维度进行累加,但是对于时间维度则例外,将一年中每个月的账目余款进行累加是毫无意义的,而决策者则可能需要了解所有地区和所有商品账目余款的累加值。在事实表中还有一些事实是非加法性的,即这些事实具有对事实的描述特性,在这种情况下一般要将这些非加法性事实转移到维度表中。 以事实表中度量的可加性情况,可以把事实表及其包含的事实分为4种样式。 1.事务事实 事务事实以企业事件的单一情况为基础,因此通常只包含事实的次数这一种度量条件,应该尽可能以最低级别来表示。比如银行的ATM提款机的提款次数,使用某种服务的次数等。2.快照事实 快照事实以企业在某一特定时间的特殊状态为基础。也就是只有在某一段时间内才出现的结果。它们也许没有包含所有维的条件,比如不是所有的产品每天都有销售量。 3.线性项目事实 这类事实通常用来储存关于企业经营项目的详细信息。包括表现与企业相关的个别线性项目的所有度量条件,比如销售数量、销售金额、成本和运费等数值数据,也就是关键性能指标。此类事实运用范围很广,比如采购、销售和库存等。 4.事件(状态事实) 这是类特殊的事实,通常只表示事件发生与否和一些非事实本身具备的细节。它所表现的是一个事件发生后的结果变化,并且没有度量数值表示。如哪些产品在促销期间内没有卖出,有还是没有,就是事件或状态事实所表现的结果。 在事实表模型的设计中还需要注意到派生事实。派生事实主要有2种,一种是可以用同一事实表中的其他事实计算得到,例如销售行为中的商品单价可以用商品的销售总金额和销售数量计算得到,对于这些派生事实一般不保留在事实表中;另一种是非加法性事实,例如各种商品的利润率等各种比率。 在事实表模型的设计中必须要考虑到事实表中的这些事实特性,通过多次反复来确定。首先,通过调查确定所有可能的基本事实和派生事实;然后,对所有的事实按照功能或某种方式进行排序,以删除重复的事实;接着,确认那些基于不同准则但是有相同性质的派生事实,例如公司门市销售总额与地区销售总额虽由于维度的不同而被定义为不同的事实,但实际计算方法是一样的;最后,再一次确定事实表模型,在确认中要检查所有的计算派生事实的基本事实是否已经包含在模型中,并且与用户取得—致。 在设计事实表时,一定要注意使事实表尽可能地小,因为过于庞大的事实表在表的处理、备份和恢复及用户的查询等方面需要较长的时间。在实际设计时,可以利用减少列的数量、降低每一列的大小和把历史数据归档到单独的事实表中等多种方法来降低事实表的大小。另外,在事实表中还要解决好数据的精度和粒度的问题,下面将阐释粒度的设计方法。 =========================== 事实、度量和事实表 确定分析内容的构成:事实及其粒度 事实表是数据库中最大的表,是星形模型结构的核心。事实表包含了基本商业事务的详细信息,是对商务活动进行客户关系、销售趋势和产品趋势等分析的素材。事实表的设计包括对

数据库维度的基本概念

基本概念: 1.多维数据集: 多维数据集是联机分析处理(OLAP)中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术。多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。 2.xx(dimension): 是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类的有组织层次结构(级别)。这些分类和级别描述了一些相似的成员集合,用户将基于这些成员集合进行分析。 3.度量值: 在多维数据集中,度量值是一组值,这些值基于多维数据集的事实数据表中的一列,而且通常为数字。此外,度量值是所分析的多维数据集的中心值。 即,度量值是最终用户浏览多维数据集时重点查看的数字数据。您所选择的度量值取决于最终用户所请求的信息类型。一些常见的度量值有sales、cost、expenditures和productioncount等。 4.元数据: 不同OLAP组件中的数据和应用程序的结构模型。元数据描述OLTP数据库中的表、数据仓库和数据集市中的多维数据集这类对象,还记录哪些应用程序引用不同的记录块。 5.级别: 级别是维度层次结构的一个元素。级别描述了数据的层次结构,从数据的最高(汇总程度最大)级别直到最低(最详细)级别。 6.数据挖掘:

数据挖掘使您得以定义包含分组和预测规则的模型,以便应用于关系数据库或多维OLAP数据集中的数据。之后,这些预测模型便可用于自动执行复杂的数据分析,以找出帮助识别新机会并选择有获胜把握的机会的趋势。 7.多维OLAP(MOLAP): MOLAP存储模式使得分区的聚合和其源数据的复本以多维结构存储在分析服务器计算机上。根据分区聚合的百分比和设计,MOLAP存储模式为达到最快查询响应时间提供了潜在可能性。总而言之,MOLAP更加适合于频繁使用的多维数据集中的分区和对快速查询响应的需要。 8.关系OLAP(ROLAP): ROLAP存储模式使得分区的聚合存储在关系数据库的表(在分区数据源中指定)中。但是,可为分区数据使用ROLAP存储模式,而不在关系数据库中创建聚合。 9.混合OLAP(HOLAP): HOLAP存储模式结合了MOLAP和ROLAP二者的特性。 10.粒度: 数据汇总的层次或xx。 11.聚合|聚集: 聚合是预先计算好的数据汇总,由于在问题提出之前已经准备了答案,聚合可以改进查询响应时间。 12.切块: 由多个维的多个成员限定的分区数据,称为一个切块。 13.切片(slice): 由一个维的一个成员限定的分区数据,称为一个切片。

数据仓库维度建模笔记

数据仓库维度建模笔记 2009-03-24 20:01 《数据仓库工具箱—维度建模的完全指南》是数据仓库建模方面的经典著作, 1996年第一版出版被认为是数据仓库方面具有里程碑意义的事件。作者kimballl是数据仓库方面的权威,他将多年的数据仓库建模实战经验、技巧融入本书。他提出的许多维度建模概念被广泛应用于数据仓库的设计和开发中。2002年本书出版了第二版。 这是一部非常好的数据仓库建模的书,前后完整的读了三遍,受益匪浅。 以下笔记将本按四个部分组织:一、数据仓库体系结构和建模过程、技巧。 二、维度表建模技术。三、事实表建模技术。四、行业建模经验。 一、数据仓库体系结构和建模过程、技巧 关键点:数据仓库体系结构、维度建模的四个步骤、数据仓库总线结构、一致性维度。 1、对于数据仓库来说,业务需求是第一位的。 2、数据仓库的目标:(1)、随心所欲的访问数据。直观、明显、简单、易用、切割、合并、下钻、上卷。(2)、一致的展现数据(相对于原来从多个系统中出来的报表不一致)。(3)、适应性、扩展性、可维护性。(4)、为领导决策提供支持。 3、数据仓库的组成。源数据-->数据准备区-->数据仓库(维度建模)-->数据聚集区(OLAP)-->展现。其中原系统到数据准备区属于ETL过程。数据仓库和数据聚集区本书称为数据展示。展现本书称为数据存取工具。 4、数据仓库应特别注意的几点特点:(1)、数据应该以维度的形式进行展示、存储和访问。(2)、数据仓库中必须包含详细的原子数据。(3)、必须采用共同的维度和事实表来建模。 5、数据仓库采用使用维度建模的好处:易理解、查询的高性能、修改的灵活性和可扩充性。 6、维度建模的扩展性。表现在三个方面:(1)、在现有的事实表中增加维度。(2)、在事实表中增加事实。(3)、在维度表中增加属性。(第一章) 7、维度模型设计的四个步骤。(1)、选取业务(主题)。(2)、定于业务处理的粒度。(3)、选择维度。(4)、选择事实。 8、应优先为模型选择有原子性的信息,因为原子性的数据提供了最大限度的灵活性,可以接受任何可能形式的约束。(第二章)

维度建模

维度建模的基本概念及过程 摘要:本文首先介绍维度模型中的维度表和事实表这2个基本构成要素的基础知识;其次,介绍设计维度模型的4个基本步骤;再次,围绕某银行为实现业务价值链数据集成的需要,介绍多维体系结构中的3个关键性概念:数据仓库总线结构、一致性维度、一致性事实。 关键词:维度表;事实表;维度模型设计过程;数据仓库总线结构;一致性维度;一致性事实。 引言: 与流行的说法不同,Ralph Kimball本人并没有定义“维度”和“事实”这样的术语。术语“维度”与“事实”,最初是20世纪60年代在一个由General Mills与Dartmouth大学主持的联合研究计划中提出的。70年代,AC Nielsen和IRI都一致地使用这些术语描述他们的数据发布应用,用现在更为准确的话来说,就是关于零售数据的维度数据集市(Data Mart)。在简明性成为生活方式的潮流之前的长时期内,早期的数据库垄断组织们致力于将这些概念用来简化用做分析的信息。他们意识到,除非数据库做得简单易用,否则没有人会用它。因此,在将可理解性和性能作为最高目标的驱动下,产生了维度模型的构造思想。 1 维度表和事实表 1.1 事实表 事实表是维度模型的基本表,其中如图所示存放有大量的业务性能度量值。力图将从一个业务处理过程得到的度量值数据存放在单个数据集市。由于度量值数据压倒性地成为任何数据集市的最大部分,因此应该避免在企业范围内的不同地方存储其拷贝。用术语“事实”代表一个业务度量值。可以设想一个作为例子的情形:查询某个客户在某个机构下某个产品合约账户的某个币种的某个时点余额,在各维度值(客户、产品合约、账户、机构、币种、日期)的交点处就可以得到一个度量值。维度值的列表给出了事实表的粒度定义,并确定出度量值的取值范围

一步一步学习ETL

一步一步学习SQL Server BI 一步一步学习sqlserver BI--数据仓库设计 因为项目还没有真正开始,但是接触BI已有半年多,手痒,这几天准备搞一个简化版本的BI项目。一方面给刚BI入门的朋友一个参考,另外一方面也为自己的将要开始的项目做个准备,让自己能够考虑到一些项目的细节。同时也希望对BI有研究的朋友提供一些建议和经验。因为我们的这个案例是采用微软的sqlserver2005的BI平台开发的,所以这里先贴一张WebCast里面截来的图,这张图主要反映了采用 sqlserver2005的BI项目的架构。 好了,咱们开始吧。我说的这个项目需求很简单,因为是简化版本的么。这是一个游戏中使用到的物品的销售分析软件。里面包括几个概念,游戏,销售部门,物品,交易金额,交易笔数,发布单数等。我们要做的事情就是按游戏,按部门,按物品来实现对交易金额,笔数等的数据交叉分析。 在我们这个系统里面,我们的数据颗粒度是天。好了,既然是简化版,我们也就不用那么罗嗦,什么需求分析,分析设计都省了吧,下面直接进入数据库设计。 我们的数据库一共包括四张维度表(部门维度,游戏维度,物品维度,时间维度),一张事实表(游戏交易数据事实表)。 部门维度表

游戏维度表 物品维度表 时间维度表

交易数据事实表 由于我们的这个案例比较简单,所以维度与事实表之间的关系也比较简单,是一个简单的星型架构。 这一节我们就先写到这里,下一节我将会详细的写这个项目的ETL部分。

一步一步学习sqlserver BI--ETL设计 这节我们主要讲讲我的游戏交易数据分析项目的ETL(数据抽取、加载、转换)具体是怎么做的。 先来讲下源系统吧,因为我们的交易主站的服务器不是架在公司的,因此不能直接从源系统直接抽取数据了。事实上我们已经存在一个简单的数据分析系统了,只不过这个是以前人家做的,没有采用sqlserver2005的BI平台来做,而是直接写winform程序来弄的。原来的数据抽取是主站那边提供导出的excel文件过来,然后到我们这边,导入到我们的分析库中去。 好了,为了简便,事实上我只是在做一个demo,为以后项目做准备,所以我们抽取数据直接是从上面说的已经存在分析库中抽的,因为数据结构比较相近,所以ETL过程还是比较简单的。 先看看游戏维度表吧: 首先,我们来新建一个Integration Services项目。 接着,新建一个ImportDimGamePackage.dtsx的SSIS包。 拖放一个数据流任务到控制流面板上(如图) 双击数据流任务,来到数据流面板

《自我管理表》填报说明

附件二:《自我管理表》填报说明 为全面推动员工个人自我管理工作,规范自我管理考核表的填报,现拟定《<自我管理表>填报说明》,请所有员工严格按如下要求填报本岗位的《自我管理表》。具体如下: 各员工在开展自我管理前,应对本岗位的工作进行深度思考,并与直接上级充分沟通,明确本岗位的工作定位,同时,填报时应尽可能覆盖全面且简明扼要。 1.岗位使命:参照年度总公司经营指导思想及所在部门年度经营管理计划,与上级领导沟通,明确本岗位工作指导思想与工作使命。 2.岗位责任:结合岗位说明书及上级领导要求,明确本岗位职责范围,梳理本岗位各项具体工作职责。 3.工作内容:以岗位责任为指引,结合直接上级的工作内容,实现工作的分解,明确本岗位应负责和执行的具体工作事项。工作内容的填报应首先确定主要工作模块,然后根据工作模块划分填报各模块下的各项具体工作内容。 4.工作目标:工作目标的设定应遵循以下几个原则:一是明确具体,有明确具体的结果或成果;二是量化阐述,从数量、质量、时间性或成本等角度进行阐述,或是能够通过定性的等级划分进行转化;三是可实现性,既有挑战性又是可实现的。 5.计划完成时间:明确各项工作目标能达成的具体时间,有多个时间节点的工作事项则应明确每个时间节点的计划完成时间。 6.评分标准:结合工作内容和工作目标,明确各项工作的评价维度和评分原则,评价维度主要从时间、数量、质量等角度提出,并在各评价维度提出明确的量化的加减分标准。具体要求如下: ①全面综合考虑各项工作的评价维度(包括时间、数量、质量等),设定合理的量化评分机制,使考核人能够做出客观准确的评价; ②时间评价维度:根据具体工作事项,时间滞后扣分,提前完成可酌情加分; ③数量评价维度:以数量体现工作成果的,应从数量维度进行评分,可从单位时间的产出成果等角度设定具体的量化评分标准; ④质量评价维度:以具体产出体现工作成果的(如方案、策划类工作),应从质量维度进行评分,结合具体工作,从产出成果的执行情况等角度设定具体的量化评分标准。

数据仓库维度模型知识点记录

1.生命周期 a)业务需求定义 i.收集需求 ii.分析业务 iii.数据仓库建立总线矩阵 iv.项目规划 b)维度建模、 i.建模过程 1.标识需要建模的业务过程 2.声明粒度 3.标识和选择维度 4.标识和选择事实 ii.维度表 1.代理键 a)日期维度可以使用20140101这样的智能键,智能键可以用来分区 2.渐变维度 a)SCD1 直接更新 b)SCD2 标记维度的时间作用域,插入新数据,增加新行 c)SCD3 不同的列记录不同时间域的值,增加新列 d)将经常变化属性集合为小维度表 3.退化维度 a)没有对应维度表的非事实属性:类似于订单ID 4.支架维度/引用维度 a)比较类似于雪花模型,例如顾客的生日属性可以链接到日期维度表。 日期维度表就是顾客维度的支架维度 5.多值维度 a)使用桥接表实现 b)事实与维度的多值关系 i.例如订单的为多商户分成,可以通过一个商户分组链接表实现, 订单事实中记录商户分组的ID,分组链接表中分行记录不同商 户的账号ID及其分成 c)维度与维度的多值关系 i.例如用户帐户维度与消费自然人客户维度有多对多关系。因此在 帐户维度表与自然人维度表中加入一个“帐户与客户关系”桥接 表。记录 d)可变层次展示 i.例如职员与职员间隶属关系:可以使用桥接表记录每个职员与其 所有下属之间的隶属距离和其下属的直接上司,就可以层次化的 表示出职员之间关系 6.角色扮演维 a)例如下单日期维度和退款日期维度都是通过视图链接到日期维度表, 这两个维度都是角色扮演维。 7.杂项维度 a)慎用杂项维度

b)将小维度合并组成杂项维度。 iii.事实表 1.事务型事实 2.周期快照事实 3.累计快照事实 4.没有事实的事实 a)例如用户登录行为事实,其只有维度没有度量,那么添加一个值永远 为1的login_cnt字段为度量,方便sum 5.面向状态的事实表 a)例如帐户余额其实对应了一个具体的自然人,在自然人的地理位置变 化后,该自然人维度会有SCD 2的转换,可能代理键从1 – 2.帐户余 额需要做一个SCD 2的转换,将自然人维度引用该为2.其实是为了查 询任意时间点,某个地理位置的帐户余额总和 c)物理设计和ETL开发 i.源数据探查 1.出具数据剖析表来记录字段的类型,数据分布等 ii.子系统 1.提取 a)数据剖析:KETTLE有插件datacleaner实现 i.NULL值判断 ii.字符串匹配 iii.数值分布报表 iv.正则表达式匹配等 b)更改数据捕获系统:KETTLE c)提取系统:KETTLE的INPUT节点的功能 2.清理和一致化:KETTLE已经实现 a)数据清洗 i.转换数据类型 ii.重命令列等 b)数据检验 i.Kettle提供了流读取功能来验证数据是否错误 1.取值范围是否合规 2.关系完整性是否存在 3.是否符合状态机规则(例如没有支付日期时就不应该有支付 状态) 4.一般依赖约束:例如派生列和其父列是否满足约束 c)错误事件模式:KETTLE的错误流节点 i.过程错误:trans step等出错 ii.数据校验错误 iii.过滤器错误 iv.一般步骤错误 v.ETL工具箱中描述的错误事件数据分析表能够起作用 d)审核维度汇编器:KETTLE通过统计节点实现 i.审计事实细节:数据从哪里来,什么时候加载,在那个服务器上

浙江工商大学数据仓库与数据挖掘以及试卷真题回忆

1、数据仓库的定义:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。 数据仓库特征:数据仓库是将原始的操作数据进行各种处理并转换成综合信息,提供功能强大的分析工具对这些信息进行多方位的分析以帮助企业领导做出更符合业务发展规律的决策。 2、数据仓库与数据库的相同点与不同点: 3、数据仓库的重要特性:面向主题性、集成性、时变性、非易失性、集合性和支持决策作用。 4、数据挖掘的定义:从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。 5、数据挖掘与数据仓库的关系: ●数据挖掘是数据仓库发展的必然结果:数据挖掘可以看作是联机分析处理的高级阶段。 ●数据仓库为数据挖掘提供应用基础 总之,数据仓库为数据挖掘提供了更广阔的活动空间。数据仓库完成数据的收集、集成、存储和管理工作,数据挖掘面对的是经初步加工的数据,使得数据挖掘更能专注于知识的发现。 6、数据仓库的体系结构:数据仓库系统是由数据源、数据仓库的数据存储、数据仓库的应用工具和可视化用户界面组成。 7、主题数据是数据仓库的核心数据,一般以多维数据模型的形式存储在数据仓库中。 8、在数据仓库中涉及数据存储包括以下几种:数据源、主题数据、数据准备区和查询服务数据。 9、数据集市定义:数据集市一般是为满足某个业务部门进行分析决策的需求而建立的,我们可以将数据集市理解为部门级的数据仓库,数据仓库是数据集市的集合。如果一个数据集市不依赖于中央数据仓库,则这个数据集市为独立数据集市。 10、元数据的定义:元数据就是关于数据的数据。元数据是任何信息处理环境的一个重要组成部分。元数据描述了数据仓库的数据和环境,并使得用户能够更方便地使用数据仓库中的数据进行各种分析,辅助决策。 11、元数据的主要两种作用:元数据进行数据仓库的管理和通过元数据来使用数据仓库。用于对元数据进行管理的元数据称为管理元数据,而帮助我们使用数据仓库的元数据又称作用户元数据。 12、元数据的分类:根据元数据的内容我们将其分为四类:数据源元数据、预处理数据源元数据、数据仓库主题数据元数据、查询服务元数据。 13、数据仓库的数据模型: ●概念模型:多维数据模型是一种能够清楚地表达分析领域的数据模型。实体关系模型注重的是数据的结构,而 多维数据模型注重的是数据的含义。数据仓库的概念模型一般采用多维数据模型来建模。 在多维数据模型中,包含两种建模要素:观察事物的角度和观察得到的事实数据,前者被称作维度,后者被称作事实。一个分析领域或主题表达为由多个维度和一组事实数据构成的一个星型模型。 ●一个数据仓库通常包含多个主题,其概念模型也就由多个星型模型组成。 ● 14、数据仓库中的粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。越是详细的数据,粒度级别就越小;越是概括的的数据,粒度级别就越大。判断:粒度问题是设计数据仓库的一个非常重要的方面,它既是一个逻辑设计的问题,也是一个物理设计的问题。 15、数据分割是把大的数据集划分成多个较小的数据集,并分散到多个物理单元中进行存储,使它们能独立的被处理。粒度的划分和数据的分割对数据仓库的设计和实现有重大的影响。 16、确定粒度大小的一般原则: ●如果数据仓库的空间很有限的话,为了节省存储空间,宜采用大粒度集表示数据。 ●如果追求数据仓库能够回答的问题类型的能力,要求能够回答非常具体的问题,那么使用较小的粒度级别。 ●如果想要减轻服务器的负担,提高查询性能,则采用较大的数据集粒度。 ●如果没有存储空间的限制,则可以在一个数据仓库中采用多重粒度级别,既存储多粒度级别的数据,也存储高 粒度级别的数据,以同时获得高的查询效率和查询能力。 17、数据仓库的建设应该以建立部门级的数据集市为出发点,同时统观全局,使建立的数据集市成为整个企业数据仓库的逻辑子集。从而由多个数据集市集成企业级的数据仓库。为了实施这种数据仓库建设的思想,提出了一种总线型的数据仓库结构,称之为数据仓库的总线型结构。这种数据仓库结构的核心思想是使用统一的维和统一的事实来构造数据仓库的总线。 18、统一的维是指该维可以在数据集市中共享,且不论它与哪个事实表相连接,维的含义都是完全相同的。

Data Service-创建一个时间维度表

Data Service-创建一个时间维度表 写在前面: 本篇文章介绍利用SAP Data Service 创建一个时间维度表的过程. 准备工作: SAP Data Service(本人使用的是4.2版本) 具体步骤: 步骤一: 建立一个项目及Batch Job 步骤二: 双击步骤一中建立的Batch Job,在右侧界面中新建一个Data Flow组件,新建方式可选择从最右侧组件列表中拖取(第三个),也可选择在右侧界面中直接右键,选择出来列表中的”ADD NEW” ,选择相应的部件即可。新建好后双击新建的Data Flow组件,进入Data Flow 的界面 步骤三: 选择软件界面左下角第五项即Transforms,在Transforms界面中展开第一项“Data Integrator”,选择第二项“Data_Gentration”将其拖动到步骤二中展开的Data Flow界面。

步骤四: 在Data Flow界面中,双击上一步拖来的“Data_Gentration”,进入设置界面,在这一界面可以选择想要创建的时间维度表的开始和结束时间,并选择增量。这里我选择的开始时间是2010.01.01,结束时间为2017.06.01,增量选择Daily,即按日期为增量。根据需求还可以选择月份,年等。 步骤五: 与在SAPData Serice抽取数据到HANA一样,在Data Flow中新建一个“Query”组件,

和一个“Template Table”组件,并按图连接 步骤六: 双击“Query”组件,进入设置界面,将左侧的属性选中拖入右侧即可,根据实际情况可对右侧列表中的属性进行设置,如修改名字,设置为主键等。设置好后,右键本J0b,选 择Excute即可,运行成功后,最简单的时间维度表即可完成。 步骤七: 因在时间维度表中只有一个日期属性一般不能满足需求,所以一般还需要添加别的属性,例如主键ID,年份,月份,周等。此时,我们可直接在上图右侧选中行上右键,选择New Output Column ,点击后在弹出的选项中选择位置,此时可选位于当前选中行上一行还是下一行。选中后出现下图界面,按照图中要求设置你想要添加的属性名,类型,以及是否设为主键。

数据仓库与数据挖掘期末复习

1.数据仓库的概念和特点p11 定义:一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员作出决策。 特性: 面向主题的、集成的、非易失的、随时间不断变化的。 1、面向主题的:数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体,是从整体的、全局的角度来衡量这些主题在企业中的作用。 2、集成的(最重要):数据仓库必须将不一致的数据进行有效的集成,使之在数据仓库中有一致性的表示形式。一致性问题只是集成所包含的一部分工作,另外还需要根据主题进行有效的数据组织。 3、非易失性:一旦操作型数据进入数据仓库,只要数据未超过数据仓库的数据存储期限,通常不对数据进行更新操作,而只进行查询操作。即不进行一般意义上的更新,而且与操作型数据相比,更新频率要低得多,对时间的要求更为宽松。 4、随时间不断变化的(数据因时而变的特点)《与操作型数据比较的,书上14页》:(1)数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。操作型环境一般60-90天,数据仓库5-10年。 ⑵操作型环境中的数据库含有数据的“当前值”,其准确性访问是有效的,其当前值能被更新,数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。

⑶操作型环境中的数据键码结构可能含有也可能不含有;数据仓库的键码结构总是包含某时间元素。 2.数据仓库中的关键概念14 外部数据源:就是从系统外部获取的同分析主题相关的数据。 数据抽取:是数据仓库按分析的主题从业务数据库抽取相关数据的过程。 数据清洗:所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除,以免影响DSS决策的正确性。 数据转换:各种数据库产品所提供的数据类型可能不同,需要将不同格式的数据转换成统一的数据格式,称为数据转换。 数据加载:是指把清洗后的数据装入数据仓库的过程。数据加载策略包括数据加载周期和数据追加策略。数据加载周期要综合考虑经营分析需求和系统加载代价,对不同业务的数据采用不同的加载周期,但必须保持同一时刻业务数据的完整性和一致性。 元数据:元数据是关于数据的数据。元数据位于数据仓库的上层,而且能够记录数据仓库中对象的位置。 数据集市:面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集成为数据集市。 数据粒度:粒度是数据仓库的数据单位中保存数据的细化程度或综合成都的级别。细化程度越高,粒度级别就越低。相反,细化程度越低,粒度级别就越高。 数据仓库的数据组织结构:

相关文档
最新文档