数据、元数据、主数据概念解释

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据、元数据、主数据概念解释元数据、主数据是数据治理的核心。

元数据、技术元数据、业务元数据、操作元数据、主数据、参考数据、事务数据、业务数据、维度、度量、指标等概念层出不穷,如何理解其中复杂的关系成为困扰很多数字化人的问题之一。

按照数据的记录、管理和分析三个用途,对这些数据名词进行归类如下:
一、记录类数据
1.事务数据
事务是数据库的处理数据的一个单元,可以理解为一次数据库CRUD的操作。

事务数据就是记录下数据库操作的系
统日志数据,以及特定业务场景中,专门记录的业务操作事务记录的数据,比如用于安全审计的系统登录日志。

2.业务数据
业务数据就是为了完成业务流程而存储的业务操作类数据。

就是业务系统的绝大多数表和数据。

3.日志数据
早期的日志数据是属于事务数据中的。

现在大数据时代,用户访问数据变得越来越重要,所以单独分离出来。

二、管理类数据
1.元数据
元数据又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。

通俗来讲,只要能够用来描述某个数据的,都可以认为是元数据。

举个例子,如果你把一部电视剧看做数据,那么你在电视剧里面获取到的信息,比如角色名、剧情、主题曲、感情线、导演、演员等等,都可以被看做是这部电视剧的元数据。

对于企业而言,元数据是跟企业所使用的物理数据、业务流程、数据结构等有关的信息,描述了数据(如数据库、数据模型)、概念(如业务流程、应用系统、技术架构)以及它们之间的关系。

同理,现在我告诉一个数字:175,你除了对175这个数字有比较确定的量化意义之外,也无法理解175具体代表了什么含义。

但是如果是这样描述一下呢?
这样是不是就很清楚了?175的意思是:2020年统计的全国成年男性平均身高,该值的合理阈值是80-260cm,数据
目前存在MySQL中,访问连接是XXXX,由国家统计局的张三在2020年1月1日创建,数据目前是公开的,很安全,质量经过多重确认无误的。

在描述175这个数据,用了哪些描述项呢?单位、指标、统计时间、统计范围、合理阈值、数据库、表、字段、接口、创建人、创建时间、数据权限、质量等级等等。

这些都是在描述175这个数据。

我们把描述175这个数据的其他数据称之为“元数据”。

当然,为了管理方便,我们同样还能将上述元数据进行归类:
与业务规则、流程相关的描述性数据,我们称之为业务元数据;
与存储、访问等技术底层的描述性数据,我们称之为技术元数据;
与数据操作相关的描述性数据,我们称之为操作元数据;
与数据管理相关的描述性数据,我们称之为管理元数据
元数据可以解决什么核心问题?元数据是为了准确的
描述我们拥有的所有数据。

其核心的目的是降低人与数据之间的沟通成本。

描述的越准确,我们使用数据的成本就越低。

2.主数据
主数据(Master Data)就是关于业务实体的数据。

主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。

对于CRM客户管理系统来说,用户就是主数据;对于银行来说,卡bin码、开户行、账号、理财产品等都是主数据;对于生产企业,BOM表是主数据;对于二手房平台,房源信息是主数据。

贝壳的楼盘字典就是典型的主数据,他们从2008年开始建设,持续了12年,投入了5、6亿。

所以总结一下,主数据一共有以下种类:
与人相关的:用户、客户、公民、病人、供应商、学生等;
与物相关的:实体产品、虚拟产品(理财产品)、生产资料(BOM表)等;
与场相关的:地址库、楼盘字典、POI信息等;
与规则相关的:财务的账套等。

在传统IT企业,甲方公司的主数据可以立一个千万级的项目。

国内也有很多公司专门做主数据这个行当。

主数据的核心思想是全局唯一的标准数据。

因此,主数据一般会完成以下工作:
确定核心业务环节识别主数据定义和维护主数据匹配规则(代码规则、ID Mapping)建立及发布数据标准主数据的后续维护及更新。

3.参考数据
参考数据是增加数据可读性、可维护性以及后续应用的重要数据。

参考数据是对数据的解释,针对一些数据范围和取值的数据解释,让人们容易读取相关的数据。

比如,在一些数据里“性别”的这个字段,很可能是1代表男性、2代表女性。

在许多企业中有这样的约定俗成,而更多的参考数据可能记录在开发人员和运营人员的大脑当中。

但问题是一旦这些人离开,系统里面的数据就成了堆没有注释的天书。

参考数据约等同于数据字典。

正是由于这些数据字典局仅限于个别系统而没有统一标准,从一个侧面间接造就了大量的数据孤岛。

企业为了进行更有效率的数据整合、数据共享和数据分析应用,开始尝试对参考数据进行企业或者部层面的整合和管理,利用参考数据集记录系统尝试为范围内的IT 系统中的数据库提供统的参考数据。

4.元数据与主数据的区别
元数据是关于数据的数据,当人们描述现实世界的现象
时,就会产生抽象信息,这些抽象信息便可以看作是元数据,元数据主要用来描述数据的上下文信息。

通俗的来讲,假若图书馆的每本书中的内容是数据的话,那么找到每本书的索引则是元数据,元数据之所以有其它方法无法比拟的优势,就在于它可以帮助人们更好的理解数据,发现和描述数据的来龙去脉,可以帮他们形成清晰直观的数据流图,元数据是数据管控的基本手段。

主数据则定义企业核心业务对象,如客户、产品、地址等,与交易流水信息不同,主数据一旦被记录到数据库中,需要经常对其进行维护,从而确保其时效性和准确性;主数据还包括关系数据,用以描述主数据之间的关系,如客户与产品的关系、产品与地域的关系、客户与客户的关系、产品与产品的关系等。

主数据跟元数据的关系,举个例子的话就像是一本书,主数据就是书里边的正文,实际有用的数据,元数据就是书的目录,是索引,方便你找到主数据的。

一般而言,企业中这三类数据与其它数据的数据量、质量需求,更新频率、数据生命周期的关系大致如下图:。

相关文档
最新文档