数据治理及数据仓库模型设计-02

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
元数据(meta data)信息
收集数据标准化的对象
表定义书 & 编码定义书标准元数据表定义书
编码定义书
标准 源信息
ERD & DB样本信息 书籍/报告书 & 人物采访
ERD
DB样本 信息
书籍 报告书
人物 采访
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
怎样定制标准单词——词素拆分
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
怎样定制标准单词——单词词典的制定
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
法律声明
【声明】本视频和幻灯片为炼数成金网络课程的教学资料
,所有资料只能在课程内使用,不得在课程以外范围散
通常情况下,单词英文缩写的使用次序: 国际英文惯例 > IT系统常用的英文缩写 > 项目中商定的英文缩写的规则
•同义词是指多个不同的单词、但是表达相同的业务含义。 •选定具有代表性的单词后将其定义为标准单词,以后在只使用标准单词,禁止使用其同义词。未 来新的建模过程中,申请的实体名(表中文名)、属性名(字段中文名)如果包含了同义词,那么标 准化审批环节,需要提示错误、并强制将同义词转换为标准单词——这个审批和检查环节,可以由 软件来进行。
词素拆分通常会在excel模板中进行。首先为参与工作的人员讲解如何判别词素,之后由工作人员分工操作、分别进行词素拆分。之后大
家分工的词素拆分成果,要把词素合并在一起整合、再讨论和确认。
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
怎样定制标准单词——单词的英文缩写商定,同义词选定
年 收入 金额
额的标准是 ‘金额’
分类词
修饰词
标准单词 标准单词
分类词(域)
标准单词
金额
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌

收入
DATAGURU专业数据分析社区

金额
数据标准化的实施流程
为了顺利地进行数据标准化,需要制定一个具体的数据标准化流程。
标准化对象选 定
制定详细的 执行计划 确定标准化原则 定义标准化指南 (命名规则等)
关于逆向收费式网络的详情,请看我们的培训网站
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
FAQ时间
DATAGURU专业数据分析网站
16
单词词典构建中的一个重要环节就是要进行词素分析。先选择要参考的基准词典后从左侧顺序的去掉一位后域基准表进行比较
后确定是否注册到单词词典中。
单词词典的构建
选择基准词典
基准词典
词素分析
词素分析
单词的定义及分类
同义词分组
构建标准单词词典
外勤 外部 ⋯ 员工 词典 ⋯ 编号 序号 编码 ⋯ 数量 率 ⋯ 日期 年月日 ⋯
数据标准化是对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则等的定义基准,并 且提供运维这套数据标准成果的科学流程。通过数据标准化可以防止用语的混乱使用,维持企业数据模型的一贯性, 确保数据的正确性及质量,并可以提高开发生产性和数据管理的一贯性和效率性。
实现企业数据标准化
提高数据品质、减少管理费用、提高数据治理效率
对业务用语、单词、域、编码 进行标准化
建立数据标准管理机构
定义数据标准化步骤
企业数据标准化
• 缺乏数据标准政策 • 业务单位或模块单位进行系统开发,可能会出 现子系统间定义的数据不能相互使用的问题 • 构建企业数据仓库等整合性数据库时加大了数 据含义的理解难度和是判断重复存储的难度 • 缺乏对企业数据标准和监控步骤的管理,从而
第1课 数据治理初步介绍,概念、意义、价值、包含内容、管理流程、管理组织架构。 第2课 数据标准化的概念介绍及重要性,项目的实施流程,包含的内容,以及量身定制企业级标准单词词典 的方法。 第3课 数据标准化中的标准域和用语词典的制作方法、实施流程、管理组织架构和责权分工、管理流程 第4课 数据模型管理的初步介绍,包括数据模型的概念、管理意义、实践中的管理办法以及各层模型中的映 射。 第5课 元数据管理、源代码的应用程序影响度分析、数据质量及数据治理系统的管理模块介绍
运维 难度
数据标准化在数据治理体系中的重要性
标准化是数据治理的重要基石,数据标准化的实施可以作为数据治理整体工作的起点。
数据架构政策构成
• DA 愿景 • DA 方向 • DA 目标
• DA 原则
• DA 框架
数据架构政策
数据架构管理体系 数据管理 数据 管理 组织 数据 管理 流程 数据结构
迁移指南 数据 标准化
安全指南 其他管理指南
数据建模 方法论
流程向导 产出物
数据架构 设计原则
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
数据标准化中的几个术语
词素
具有某种特定含义的最小单位单词 标准化工作时,将现行用语分解成最小单位意义,并确定标准单词 将具有词典意义的最小单位单词定义为标准单词 标准单词是业务用语的基本组成元素 指使用标准单词按照命名规则(修饰词+分类词)生成的所有标准项目名, 包括实体名、实体的属性名、表名、列名、域名等 表示实体或实体属性类型的标准单词 为能够从用语可以推测内部数据值类型的标准单词 将数据分为编码域、编号域、组域等,定义标准的数据类型(文字、数字、日 期等)和长度,以明确数据范围
播,违者将可能被追究法律和经济责任。
课程详情访问炼数成金培训网站
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
炼数成金逆向收费式网络课程
Dataguru(炼数成金)是专业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业 务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式 。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把 天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力 量。并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。我们的目标是:低 成本传播高价值知识,构架中国第一的网上知识流转阵地。
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
标准单词
标准用语
分类词
标准域
数据标准化的小例子
原属性名(标准化对象) 词素 标准单词对象 词素 词素
词素分析
年收入额


收入


标准域
标准用语
标准单词
金额
类型: 数字型 长度: 19,2
年收入金额
类型: 数字型 长度: 19,2
英文名和英文简写命名规则
英文名使用大写。英文简写中不包含空白或其他字符。 REMARK,CUSTOMS

单词的英文简写需要保持唯一性。
应为缩略词长度: 尽可能保持在4位、5位以内。 (固有名词及已经作为通用缩略词除外) ICBC(中国工商银行),RMB(人民币) IDENTIFY IDNT ID PASSWORD PSWR PWD or PW AMOUNT(金额) AMT YEAR and MONTH and DAY YMD
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
上一节课的问题
关于数据治理能否落地的问题—— 三个关键要素: 1、方法论; 2、人员(实施经验); 3、工具软件(自动化程度)。
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
什么是数据标准化?
序号 1 2 3 4 5 6 7 8 9
词素分析 外部员工编号 部员工编号 员工编号 工编号 编号 外部员工 部员工 员工 外部
分析结果 不存在 不存在 不存在 不存在 存在 不存在 不存在 存在 存在
考虑定义命名规则
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
怎样定制标准单词——词素拆分
数据治理及数据仓库模型设计 第2周
DATAGURU专业数据分析社区 数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
上一节课的问题
视频大小和时间长短问题; 同学们各种提问,建议集中到论坛版本上(/thread-478920-1-1.html) 课程内容安排——
数据标准化的起点——选定标准化范围和目标
标准化对象是指工程项目范围内使用的数据。进行数据标准化之前要收集需要进行数据标准化的对象,一般是从专业用语词典,表定义书,
编码定义书, ERD,DB Catalog,专业书籍,报道材料,人物访谈中收集。并且和客户商定最终产出物的形态,除了标准词典之外,是否 还要做所有老字段的标准化命名。
数据 统一
• 将相同含义的数据进行了不同名称的命名及管 理 • 相同名称的数据在各系统中以不同的含义使用 • 欠缺数据命名和数据定义的标准
存在 问题
数据 整合
及时 导致不能有效地管理数据 • 为了反映新需求时需要投入大量的时间了解数 DATAGURU 专业数据分析社区 • 各系统使用不同的数据长度或数据类型,因此 提供 据的含义从而不能及时地向用户提供所需信息 数据迁移时易出现错误 数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
单词标准化
域标准化
用语标准化
对数据模型 应用标准化
选择基准词典
分析数据类型
词素分析
域分类 及选定标准
定义域
判断用语的 遵守
单词的定义
用语定义
选定标准化对象
英文及缩写命名 同义词分组
定义域的 数据类型及长度
构建标准用语词 典
收集源数据
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
构建标准单词词 构建标准域词典 DATAGURU 专业数据分析社区 典
相关文档
最新文档