数据挖掘之数据分析专业名词阐释
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘之数据分析专业名词阐释
周建
(郑州幼儿师范学校,河南郑州450000)
1、引言
1.1、摘要:
数据挖掘是随着计算机的普及,企业和个人的数据量不断增加以数据库技术为基础和支撑,开发环境为工具,从大量数据中揭示出隐含的、先前未知的、并有潜在价值的信息的过程。
数据挖掘包含:数据整合、数据分析和报表服务。
数据挖掘是一门新兴的技术和学科,有大量新的专业名词产生即使已有的专业名词但也有了新的延伸和阐释。
大部分书籍是英文翻译过来的,要根据上下文的意思来确定这些专业名词之间的关系。
一些专业名词在开发环境中和书籍中的包含关系是对调的,容易使我们在理解上产生混淆,给我们的学习带来了一定的困难。
下面我将对数据分析中的一些专业名词,从开发环境和专业书籍两个方面做出阐释,希望能够对学习数据分析的人们提供一些帮助。
1.2、开发环境
开发环境为:SQL Server 2005或SQL Server 2008。
在数据分析中出现了大量的专业名词,它们在开发环境中按照包含与被包含的关系排列依次可以得到:数据仓库、数据源视图、多维数据集、度量值组、维度表、事实表、维度、度量值、层次结构、属性、键列值、细粒度、聚合。
其中事实表和维度表,键列值和属性是并列关系,聚合是数据分析的一种操作方式。
开发环境是一个树型结构,层次结构比较清晰,为了使学习者能对数据分析有一个系统的认识,我按照开发环境对这些专业名词做出排序。
下面我就按照这个顺序对这些名词进行阐释。
关键词:数据挖掘数据分析多维数据集度量值维度属性细粒度
2、专业名词阐释
2.1、数据仓库
通过对已有数据的加工而形成的数据库(对已有的数据通过整合操作,形成统一的格式),通常作为数据分析的数据源。
我们做凳子需要木头作为基本原料,数据仓库就是数据分析所需的基本原料。
2.2、数据源视图
数据仓库中包含大量的数据(通常用“海量”来形容数据仓库中所包含的数据量),数据分析是从不同的方面对数据进行观测,并不是每一个方面都需要数据仓库量中的所有数据。
数据源视图就是为了实现数据分析的灵活性,保证数据仓库中数据的安全性,节省数据分析的时间和所消耗的计算机资源,而被设计出来的。
数据源视图只是数据仓库的快照,本身不保存有数据和事务性数据库中的视图的性质相似,对数据源视图的所有操作,不改变数据仓库中的任何数据,就像照像时的照片和底片的关系一样。
2.3、多维数据集
2.3.1、概念
一个或多个度量值组以及它们相关的维度的集合。
2.3.2、阐释
多维数据集是把数据源视图中的表进一步抽取、组合而形成的。
一个数据源视图能够组合成多个多维数据集,一个多维数据集也可能由多个不同的数据源视图中的表抽取、组合而形成。
多维数据集在数据源视图的基础上进一步提高了数据分析的灵活性,节省了数据分析的时间和所消耗的计算机资源。
多维数据集是数据分析的中心和主体,数据分析所有环节都是围绕多维数据集进行的。
它就像在开发程序时最终生成的那个EXE文件或者整个应用程序的解决方案。
我们要做凳子时要得到凳子这个成品,唯一的区别在于我们每做一个凳子都要做腿、做面然后再组装,而
多维数据集更像一个全自动的生产线,只要把设备调试好只要能生产出第一个凳子,其它的只需要按一下按钮就完成了所有的工作。
一个多维数据集构建完成之后,当有新的数据进入数据仓库时,通过对开发环境的设置,能够在固定的时间(自动方式)或者重新部署一次(人工方式)对这个多维数据集的设定过的操作进行处理,我们再不用进行像聚合、求平均值等操作,就能得到我们想要的报表,这也是SQL Server 2005或SQL Server 2008开发环境与Excel 的最大不同(在Excel中新的数据进入时必须重新进行聚合、求平均值等操作才能得到我们想要的报表)。
在开发环境中,开发阶段需要频繁处理多维数据集,所以多使用ROLAP存储设置加快多维数据集的处理速度;在开发完成阶段由于多维数据集要作为报表服务的基础和支撑,所以最好使用MOLAP存储设置为报表服务提供更好的性能。
两者的主要区别是MOLAP存储设置是把所有的数据都存储在多维数据集中,而ROLAP存储设置还有一些数据还存储在关系数据库中没有被复制到多维数据集中。
我认为,多维数据集不仅仅只是一个或多个度量值组以及它们相关的维度的集合,而且包含了对度量值组以及它们相关的维度的所有具体操作,它是数据分析的一个成品。
2.4、度量值组
2.4.1、概念
单个事实表中明细数值的概念容器,附带一个或多个维度层次结构所有可能的聚合。
2.4.2、阐释
实际需求中从用户实际需求和数据分析时的客观要求两方面进行考虑,把多个事实表或事实表中的数值列人为的分成组的操作。
2.5、维度表
在生成数据仓库时就根据用户的需求已经把数据分为了两大类。
一类用于保存描述性信息的表就是维度表。
事实表中包含两部分,一部分保存与实事表相关联的主键列,一部分为
描述性信息列。
例如:每个产品的名称、颜色、类型、产地等。
还有一些信息虽然形式上是数据类型的,但实际上这些数据是一些限定性的数据例如:人的年龄;产品的尺寸、重量、生产日期、定单日期和发货日期等也存储在维度表中。
2.6、事实表
2.6.1、概念
保存度量值的详值或事实的表
2.6.2、阐释
在生成数据仓库时另一类用于保存数值性信息的表就是事实表。
事实表中包含两部分,一部分保存与维度表相关联的键列值列(一个事实表中有多个键列值列),一部分为数值信息列。
例如:每个产品的价格、网上的点击数量,还有聚合生成的产品的销量等。
在事实表中一些信息形式上是描述类型的例如:网上对产品或服务的评价如:优、良、中、差等,这些描述性信息是可以通过COUNT进行聚合的,所以被存储在了事实表中。
2.7、维度
2.7.1、概念
一个可以用来与其他维度进行交叉制表的独立的标题列
2.7.2、阐释
数据分析中的维度借用或者说迁移了物理中的维度这个名词,但是与物理中的维度的意义完全不同的。
物理中的维度有长、宽、高等,是一个事实上存在的物体的抽象,二维代表的是面,三维代表的是体,它们有着本质的区别。
数据分析中的维度由于数据库的限制,它在物理上只能是二维的(数据库中的表只有行和列组成)。
维度的增减并不改变被测量的对象(度量值不改变,度量值的改变只与是否有新的数据存储进数据仓库有关),它只是增加或者减少了一个独立拆分度量值的方式,并且一个“一”维多维数据集产生的报表与一个“四”维多维数据集产生的报表数值并没有什么不同(没有新的数据存储进数据仓库中的事实表),所
以“一“维多维数据集与”四“维多维数据集并没有本质上的区别。
数据分析的中的维度主要区别是我们在分析数据时看问题的角度或者说我们更关注从那个方面得到答案。
例如:我们对产品的销售状况,是从销售的地区这个角度来看,或者从购买者的年龄阶段或者学历层次,或者是本月与上月的销售状况进行对比这些角度来看;或者我们想把上面的所有销售状况做出一个综合的分析。
在SQL Server 2005和SQL Server 2008开发环境中的维度文件下的维度对应的是一个维度表,这个维度的名称在默认的情况下就是这个维度表的表名。
在专业书籍中维度代表的对象有些复杂,可能代表维度表中的独立的列(描述性信息列),也可能代表事实表或者事实表中的独立的列,甚至是整个多维数据集,还有的时候代表维度所包含的属性(在这种情况下维度和属性是相等的,这将在属性中介绍),这需要你根据书籍中上下文件的意思来判断维度所代表的对象。
2.8、度量值
2.8.1、概念
用来监视业务可以汇总的数值。
2.8.2、阐释
在SQL Server 2005或SQL Server 2008开发环境中的多维数据集中的度量值对应的是一个事实表,这个度量值的名称在默认的情况下就是这个事实表的表名。
在开发环境中事实表和度量值可以认为是等同的,所以度量值也可以分为两部分,一部分为与之相关的维表的键列值,一部分为数值信息列。
其中键列值在构建多维数据集时与维度表进行关联,不在度量值中显式出现,显式出现的是按维度拆分或者是聚合的直接对象--数值信息列。
在专业书籍中度量值用来代表事实表中的数值信息列。
2.9、层次结构
2.9.1、概念
单个维度中聚合级别。
2.9.2、阐释
在开发环境中,维度中的属性之间存在有包含关系,而这些属性按照包含与被包含的关系排列就形成了层次结构。
层次结构的聚合并不是对层次结构本身进行聚合(层次结构是维度的一部分,在数据分析中能够聚合的只能是度量值中的数值列),而是按照包含关系对度量值进行不同层次的聚合或拆分,即按照维度中的属性的大小关系把事实表中的行分成组,按照组把数值列进行聚合以便达到生成不同层次报表的目的。
例如:在地区维度(维度表)中,国家包含省,省包含市,市包含县或区等;在时间维度表中,年分为上半年和下半年,一个半年又分为两个季度,一个季度又被分成三个月等。
2.10、属性
2.10.1、概念
关于特定维度成员的信息。
2.10.2、阐释
属性实际上就是维度表中的列,属性名称在开发环境中默认的状况下是维度表中的列的列名。
在开发境中又把属性分为两大类:目标属性和源属性。
在开发环境中把维度文件下的维度称为目标属性,而把维度成员(维度表中的描述性信息列)称为源属性。
例如:产品维度也可以称之为产品的目标属性,而产品维度中所包含的重量、颜色、尺寸等列被称之为产品的源属性。
2.11、键列值
2.11.1、概念
事实表中能被相互替换的列。
2.11.2阐释
在数据分析中,由于只有使事实表与维度表相关联,才能从多个方面对事实表进行观测,
所以要把维度表的主键作为实事表中的副键,存储在实事表中(一个事实表中存在多个维度表的副键),而这些副键就是所谓的键列值。
例如:在产品维表中的许多行保存的是产品鼠标的信息,那么鼠标就可以与销售事实表相对应的副键值行相互替换。
键列值实际上不是列的替换,而是事件表中的副键值与维度表中的相对应具体名称之间的替换,实质上是行的替换。
2.12、细粒度
2.12.1、概念
又被称为粒度属性,它表示实事表中对应的最低粒度明细信息的维度属性。
2.12.2、阐释
细粒度实际就是与事件表相关联的维度表中的行。
维度表中的每一行只要它在事实表中存在与相对应的数值行,那么它就是一个细粒度。
例如:在产品维度表中存在一条产品的信息记录(维度表中的一行)所对应的在销售事实表中存在这个产品的单价、点击数量、评价等记录(事实表中的一行),那么在产品维度表中存在的这条产品的信息记录就是一个细粒度。
2.13、聚合
2.1
3.1 概念
度量值的汇总值。
2..1
3.2、阐释
聚合实际上就是把事实表中的数值列的每一行的数值进行相加,最后得到一个总数的操作过程
3.综述
数据分析实质上是把数据仓库中事实表内的数值列的每一行数据不断分组和组合的过程,这个过程是通过对多维数据集的操作实现的。
多维数据集先从维度方面对数值进行聚合或拆分(表的聚合或拆分), 再进一步按照属性进行聚合或拆分(列的聚合或拆分),在进行属性拆
分的时候又发现一些属性间有包含关系从而形成层次结构,又按层次结构进行聚合或拆分(行的分组的聚合或拆分),最后按细粒度拆分(行拆分),在这些不同等级的聚合和拆分中形成不同层次的报表,从中发现其中的关联,并以此为依据达到改进业务或提升效益的目的。
这也是数据分析的价值所在。
我希望,通过对这些专业名词的阐释,对开发环境中数据分析开发流程的梳理,在开发操作过程中专业名词所指向的实际对象,达到不被这些专业名词的表象所迷惑,以便降低学习数据分析的难度,减少学习时间,使人们对数据分析有一个系统的了解和认识。
参考文献
Reed Jacobson,Stacia Misner,顾小波(译) SQL Server 2005 分析服务从入门到精通,清华大学出版社,2007.11。