SQL Server数据仓库相关概念-维度表和事实表概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基本概念:
1.多维数据集:多维数据集是联机分析处理 (OLAP) 中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术。多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。
2.维度:是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类的有组织层次结构(级别)。这些分类和级别描述了一些相似的成员集合,用户将基于这些成员集合进行分析。
3.度量值:在多维数据集中,度量值是一组值,这些值基于多维数据集的事实数据表中的一列,而且通常为数字。此外,度量值是所分析的多维数据集的中心值。即,度量值是最终用户浏览多维数据集时重点查看的数字数据。您所选择的度量值取决于最终用户所请求的信息类型。一些常见的度量值有 sales、cost、expenditures 和 production count 等。
4.元数据:不同 OLAP 组件中的数据和应用程序的结构模型。元数据描述 OLTP 数据库中的表、数据仓库和数据集市中的多维数据集这类对象,还记录哪些应用程序引用不同的记录块。
5.级别:级别是维度层次结构的一个元素。级别描述了数据的层次结构,从数据的最高(汇总程度最大)级别直到最低(最详细)级别。
6.数据挖掘:数据挖掘使您得以定义包含分组和预测规则的模型,以便应用于关系数据库或多维 OLAP 数据集中的数据。之后,这些预测模型便可用于自动执行复杂的数据分析,以找出帮助识别新机会并选择有获胜把握的机会的趋势。
7.多维 OLAP (MOLAP):MOLAP 存储模式使得分区的聚合和其源数据的复本以多维结构存储在分析服务器计算机上。根据分区聚合的百分比和设计,MOLAP 存储模式为达到最快查询响应时间提供了潜在可能性。总而言之,MOLAP 更加适合于频繁使用的多维数据集中的分区和对快速查询响应的需要。
8.关系 OLAP (ROLAP):ROLAP 存储模式使得分区的聚合存储在关系数据库的表(在分区数据源中指定)中。但是,可为分区数据使用 ROLAP 存储模式,而不在关系数据库中创建聚合。
9.混合 OLAP (HOLAP):HOLAP 存储模式结合了 MOLAP 和 ROLAP 二者的特性。
10.粒度:数据汇总的层次或深度。
11.聚合|聚集:聚合是预先计算好的数据汇总,由于在问题提出之前已经准备了答案,聚合可以改进查询响应时间。
12.切块:由多个维的多个成员限定的分区数据,称为一个切块。
13.切片:由一个维的一个成员限定的分区数据,称为一个切片。
14.数据钻取:最终用户从常规多维数据集、虚拟多维数据集或链接多维数据集中选择单个单元,并从该单元的源数据中检
索结果集以获得更详细的信息,这个操作过程就是数据钻取。
15.数据挖掘模型:数据挖掘使您得以定义包含分组和预测规则的模型,以便应用于关系数据库或多维 OLAP 数据集中的数据。之后,这些预测模型便可用于自动执行复杂的数据分析,以找出帮助识别新机会并选择有获胜把握的机会的趋势。
数据库维度 (Database dimension)
“数据库维度”是与某个键属性相关的维度属性的集合,而该键属性又与度量值维度中的事实数据相关。
维度属性 (Dimension attribute)
“维度属性”被绑定到维度表中的一个或多个列并包含成员。维度属性可以包含客户名称、月份名称和产品名称。
成员 (Member)
“成员”是维度属性(包括度量值维度)的值。层次结构中的成员可以是叶成员、父成员、数据成员或“(全部)”成员。
度量值 (Measure)
“度量值”是来自事实数据表的值,也称为“事实数据”。度量值维度的值有时也通称为“成员”。度量值通常是数值,但也可以是字符串值。
Measures 维度 (Measures dimension)
“度量值维度”是包含多维数据集中所有度量值的维度。度量值维度是一种特殊的维度,其中的成员通常是根据各个维度属性(存在指定的度量值)的当前成员(通常采用求和或计数方式)进行聚合。
度量值组 (Measure Group)
“度量值组”是 SQL Server 2005 Analysis Services 多维数据集中的相关度量值集合(通常是来自同一事实数据表的度量值)。在 SQL Server 2005 Analysis Services 中,一个多维数据集可包含多个度量值组。
“(全部)”成员 ((All) member)
“(全部)”成员是属性层次结构或用户定义的层次结构中的所有成员的计算值。
计算成员 (Calculated member)
“计算成员”是在查询时定义和计算的维度成员。可以在用户查询或 MDX 计算脚本中定义计算成员,并将其存储在服务器上。 一个计算成员对应于定义它们的维度中的多个维度表行。
数据成员 (Data member)
“数据成员”是在父子层次结构中与父成员相关联的子成员。数据成员包含其父成员的数据值,而不是该父成员的子级的聚合值。
父成员 (Parent member)
“父成员”是父子层次结构中的成员,包含其子级的聚合值。
叶成员 (leaf member)
“叶成员”是层次结构中不包含子级的成员。
子成员 (Child member)
“子成员”是层次结构中位于顶层下面的成员。
键属性 (Key attribute)
数据库维度的“键属性”是维度中的所有非键属性(以直接或间接方式)所链接到的属性。键属性通常也是粒度属性。
粒度属性 (Granularity attribute)
多维数据集维度的属性,它将维度链接到度量值维度内度量值组中的事实数
据。如果粒度属性和键属性为不同的属性,则非键属性必须直接或间接地链接到粒度属性。在多维数据集中,粒度属性定义维度的粒度。
多维数据集维度 (Cube dimension)
“多维数据集维度”是多维数据集中的数据库维度实例。
属性层次结构 (Attribute hierarchy)
“属性层次结构”是包含以下级别的属性成员层次结构:
包含所有非重复属性成员的叶级别,叶级别的各个成员也称为“叶成员”。
中间级别(如果属性层次结构为父子层次结构)。
可选的“(全部)”级别 (IsAggregatable=True),它包含属性层次结构的叶成员的聚合值。“(全部)”级别的成员也称为“(全部)”成员。
默认情况下,将为每个维度属性定义属性层次结构 (AttributeHierarchyEnabled=True)。属性层次结构默认为可见 (AttributeHierarchyVisible=True)。
均衡层次结构 (Balanced hierarchy)
“均衡层次结构”是顶级成员与任何叶成员之间存在相同级别数的层次结构。
不齐整层次结构 (Ragged hierarchy)
请参见“非均衡层次结构 (Unbalanced hierarchy)”。
非均衡层次结构 (Unbalanced hierarchy)
“非均衡层次结构”是顶级与叶级之间存在不同级别数的层次结构。父子层次结构即是不齐整层次结构的一个例子。非均衡层次结构也称为“不齐整层次结构”。
父子层次结构 (Parent-child hierarchy)
“父子层次结构”是一种将维度属性设置为 parent 类型的特殊的属性层次结构。父子层次结构是由子成员和父成员构成的非均衡层次结构。父子层次结构包含以下级别:
包含父成员子级的子级别。父成员的子级包含聚合到父成员的属性成员(包括数据成员)。
包含父成员的中间级别。
可选的“(全部)”级别 (IsAggregatable=True),它包含父子层次结构叶成员的聚合值,“(全部)”级别的成员也称为“(全部)”成员。
每个维度中只能存在一个父子层次结构,并且必须与键属性相关。
用户定义的层次结构 (User-defined hierarchy)
“用户定义的层次结构”是属性层次结构的均衡层次结构,旨在帮助用户浏览多维数据集数据。用户定义的层次结构不添加到多维数据集空间。在某些情况下可以隐藏用户定义的层次结构中的级别并使其以非均衡的形式显示。
属性关系 (Attribute relationship)
“属性关系”是属性间的一对多关系,例如州省市自治区和城市维度属性间的关系。
成员属性 (Member property)
成员属性 是特性成员的属性,例如客户的性别或产品的颜色。
单元 (Cell)
多维数据集中的“单元”是度量值维度成员的成员与多维数据集中各个属性层次结构的成员相交处所在的空间。
度量值维度的成员可以是叶成员(单个事实数据)
或聚合成员(例如,特定年份聚合的销售额)。
维度的成员可以是叶成员、数据成员、父成员或“(全部)”成员。
多维数据集空间 (Cube space)
“多维数据集空间”是多维数据集属性层次结构的成员与多维数据集的度量值的交集。
子多维数据集 (Subcube)
“子多维数据集”是表示多维数据集的筛选视图的多维数据集子集。可以使用 MDX 计算脚本中的 Scope 语句或 MDX 查询中的嵌套 select 语句定义子多维数据集。
带有嵌套 select 语句的子多维数据集 (Subcube with Subselect)
用 MDX 查询中的嵌套 select 语句定义的子多维数据集包含符合子多维数据集定义的所有成员,其结果如下:
包含层次结构的“(全部)”成员与包含层次结构的每个叶成员的结果是相同的。
包含任何成员将包括其祖先和后代。
包含用户定义的层次结构中某级别的每个成员将包含该用户定义的层次结构中的所有成员,但可排除不与此级别成员共存的其他层次结构的成员(例如不包含客户的城市)。
多维数据集中的每个“(全部)”成员始终存在于从该多维数据集创建的子多维数据集中。
子多维数据集中的聚合值将进行直接求和。
SQL Server数据库维度表和事实表概述:
事实表
每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如现金登记事务
所产生的数据,事实数据表通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性纬度表的主键,而维度表包含事实记录的特性。事实数据表不应该包含描述性的信息,也不应该包含除数字度量字段及使事实与纬度表中对应项的相关索引字段之外的任何数据。
包含在事实数据表中的“度量值”有两中:一种是可以累计的度量值,另一种是非累计的度量值。最有用的度量值是可累计的度量值,其累计起来的数字是非常有意义的。用户可以通过累计度量值获得汇总信息,例如。可以汇总具体时间段内一组商店的特定商品的销售情况。非累计的度量值也可以用于事实数据表,单汇总结果一般是没有意义的,例如,在一座大厦的不同位置测量温度时,如果将大厦中所有不同位置的温度累加是没有意义的,但是求平均值是有意义的。
一般来说,一个事实数据表都要和一个或多个纬度表相关联,用户在利用事实数据表创建多维数据集时,可以使用一个或多个维度表。
维度表
维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中事实
记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构。例如,包含产品信息的维度表通常包含将产品分为食品、饮料、非消费品等若干类的层次结构,这些产品中的每一类进一步多次细分,直到各产品达到最低级别。
在维度表中,每个表都包含独立于其他维度表的事实 特性,例如,客户维度表包含有关客户的数据。维度表中的列字段可以将信息分为不同层次的结构级。
结论:
1、事实表就是你要关注的内容;
2、维度表就是你观察该事务的角度,是从哪个角度去观察这个内容的。
例如,某地区商品的销量,是从地区这个角度观察商品销量的。事实表就是销量表,维度表就是地区表。