大数据模型构建平台介绍v1.0
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Event: 事件/活动(使用者)
数据模型建设方法论
概念模型(二)
• • • • 亚信面向数据数据分析核心主题的划分经过几省经验总结及参照集团规范等划分为用户、账务、业务量、用户 订购、集团客户、数据业务、专题、业务探索等 主题划分以及概念和逻辑模型基本适用于DWI、DWA层 主题划分主要从业务分析、业务考察规则、数据使用方便等角度整合业务信息 该部分主题独立划分在不适合或有更好的建议,也可以根据各省实际情况调整
Instance: 用户订购
主要包含用户与产品、策划及服务 的订购关系,满足满足实例级各种 业务分析。
.
Group: 集团客户
包括以集团的粒度,整合相关业 务维度、标签、指标等信息
Behaviour: 用户行为
主要以用户为粒度,在不同业 务中的使用情况进行汇总,满 足多业务维度下使用量分析。
The Matic : 专题
5
系统架构
方法论 功能架构 开发现状
6
7
系统架构
服 务 层 准 备 层
逻辑模型
概念模型
物理模型
数据调研
数据可视化 系统 管理
基 础 层
基础配置信息
数据层次配置 主题域配置 分表原则配置
基础配置信息
数据层次配置 主题域配置 分表原则配置
知识库 模板库
目录|CONTENTS
1 2
背景
定位 亮点
3 4
பைடு நூலகம்
Party Managment: 参与方管理
包括现在和未来希望可以维护其 资料的参与方,包括个人客户 (潜在)、集团客户、家庭客户、 SP等供应商、员工等等
Revenu: 收入
覆盖所有的收入源(预付费/后付 费,设备租赁,或者销售),销 售流程,预存,缴费和返还/调账 流程。以及由收入产生的账户、 账务、收入、欠费等等的信息。 。
数据层次划分说明
数据分类设计 数据分布调研 数据CRUD调研 基础概念模型 概念模型 逻辑模型
物理模型
DWA:主要存储应用类数据以及应用产品类相关数据,例如: 各类统一视图信息(使用维度建模技术),客户推荐等等的相关业务模型以及Glasory(维度建模技术) DWI:数据中心根据客户以及业务需求,拆分、整合信息数据,主要以主题内及相关业务指标、统计指标等业务规则 进行处理,包括拆分的账单数据、拆分的集团客户数据、产品数据等等,用户归属、同时包括处理后的信息数据等
DWD:按照八大主题规范,经过转换后,最完整的明细数据存储,同时数据把持唯一性和完整性,是数据中心最完 整、最明细的数据,基本遵循三范式规范,数据可以根据类型存储在不同的存储介质上。 ODS:操作型数据以及实时数据存储,主要存储来自M、B、O 以及互联网等等,经过简单数据处理的数据,数据存储时间短,主要 解决业务部门短时数据需求
编码 规范
•模式名规范 •表命名“见名知意” 原则 •表命名指示内容包 括
• • • • •
减少重复无 效计算
•业务口径固化 •统计口径固化 •规划70%以上的应 用都经过DWA层实 现,减少重复计算
Finance(Cost and Contribute):财务
是业务的财务透视,包括电信服务 提供商业务的所有成本,这个域与 所有其他的业务域相交,但是限制 自己是成本和赢利能力两个方面的 度量。 。
Provision and Activation:供应链
覆盖完整供应链的订单管理和安 装流程。包含了携号转网,故障 管理(与Customer Management共享)和SLA管理。 。
5
系统架构
方法论 功能架构 开发现状
6
7
方法论-建设步骤
数据分类设 计 数据分布调 研 数据CRUD 调研 基础概念 模型 概念模 型 逻辑 模型 物理模 型
• 数据CRUD模型定义了数据的所有权,规定了各系统对每一类数据 的操作权限(创建、读取、更新和删除)
• 数据分布设计的目的是需要对当前企业内部的系统分布及数据在各 个系统中的分布情况进行调研,掌握目前企业已经具有的数据 • 在数据分布调研过程中,不仅要关注当前系统的情况,还需要关注 系统演化的路线,及对数据分布造成的影响
设
第二,技术的领先性。它可以跟踪系统任何阶段的软件工具的部署和正确使用。 第三,行业模型的先进性、完整性、一致性、灵活性以及松散型 数据仓库模型设计是一种从旧有数据中,模型化得到的新的数据。那么如何才能从旧有数据中挖出这些新数据呢? 如何将各类数据融合在一起。其中所遇到的最主要的挑战将是如何用新的方法观察数据并且让业务人员比较容易 得到需要的数据。 对不同域的数据数据模型进行整合,形成跨企业统一的数据视图;例如:B\O\M域模型进行整合
模型要素标准化
构建行业指标库、维度库、规则库等,建立一套标准体 系
模型命名自动化
表、字段自动规范命名,字段词义解析,并能不断积累 完善
模型转换自动化
逻辑模型设计完成,依据指定模型层次、主题、平台 (DB2及Hadoop),自动生成物理模型
目录|CONTENTS
1 2
背景
定位 亮点
3 4
Service: 服务
包括产品、规格、策划、服务、 订购实例等电信和其他公司向外 出售的相关信息及服务能力
.
Marketing: 市场
Resouce : 资源
电信网络、终端、物品、地域 等等的资源信息
使用潜在客户与联系人的列表, 覆盖所有的忠诚度,营销活动 和促销流程,以及市场份额
参与方参与电信所有活动所产生的并 且希望保留记录信息,例如: tCDRs, 客户息,以及由此产生的日志、流服 务信水信息等等。
包含面向某类专题分析,相对 比较独立。如:交往圈、终端 换机、流失预警、批养卡等。
主要包含业务特征,业务探索分析等 处理结果。
Business Discovery : 业务探索
概念模型设计示例
数据分类设计 数据分布调研 数据CRUD调研
基础概念模型
概念模型
逻辑模型
物理模型
逻辑模型建设思路
数据分类设计 数据分布调研 数据CRUD调研 基础概念模型 概念模型
借助本次模型重构的契机,依据模型设计的全流程,推出大数据模型构 建平台(Big Data Modeling Platform,简称BDMP),旨在利用IT化的 手段,沉淀建模经验,提升工作效率,让模型构架更加专业、规范,后期管 控及维护更加方便快捷。BDMP将成为我们在模型建设中的一把“利刃”
目录|CONTENTS
B域数据
O域数据
M域数据
其他数据
物理模型设计原则以及设计重点
数据分类设计 数据分布调研 数据CRUD调研 基础概念模型 概念模型 逻辑模型
物理模型
确定数据架 构 向物理模型 转换 确定命名规 范 表结构 设计
已有企业规 范
•遵守CMCC-LDM •省公司有遵守的要 求 •在CMCC-LDM基础 上进行扩充分层存储、 分表等
1 2
背景
定位 亮点
3 4
5
系统架构
方法论 功能架构 开发现状
6
7
定位
平台定位 对内
提升模型建设效率; 沉淀模型设计经验
与DACP的关系
BDMP侧重于模型架构及设计阶段,DACP侧重于开发及维护; 模型开发及维护依然借助于DACP,与DACP形成模型全流程管理
BDMP 模型设计
User: 用户
包括实例用户、中高端用户、存 量用户、等等以用户为粒度的相 关资料及衍生信息。
Account: 账务
整合所有的收入源,销售,预存, 缴费和返还/调账。以及由收入产 生的账户、账务、收入、欠费等 信息整合 。
Data And Service: 数据业务
主要从数据业务的角度,包含业务 订购实例规模、使用情况以及业务 规则等信息进行整合。
• 对数据类型进行调研和划分,确认数据的大的分类
数据模型建设阶段
数据分类设计 数据分布调研 数据CRUD调研
基础概念模型
概念模型
逻辑模型
物理模型
概念模型
数据仓库的概念模型是联系主观与客观的桥梁,它是一个为一定的目标设计系统、
收集信息而服务的概念性工具,具体到计算机系统设计中,概念模型是客观世界到计 算机世界的一个中间层次。概念模型的作用就是信息世界的一种架构。因此,概念模 型的设计要求创建一种基于对象的,代表实际业务的模型。由于概念模型是面向业务 层面的模型,因此概念模型主要来源于业务和需求。 是一个高层次的数据模型 定义了重要的业务概念和彼此的关系
大数据模型构建平台 BDMP 方案介绍
BDX-SRD-Solution Support Dept. 2015-02
目录|CONTENTS
1 2
背景
定位 亮点
3 4
5
系统架构
方法论 功能架构 开发现状
6
7
背景
内部需求
模型设计及开发经验丰富,但
行业需求
通信行业BI系统进入瓶颈期,
大市场需求
亚信战略转型,放眼金融业、
对性能的评估在一个数据仓库之初也要充分考虑.最好DBA的参与。
物理模型建设思路
数据分类设计 数据分布调研 数据CRUD调研 基础概念模型 概念模型 逻辑模型
物理模型
物理模型设计:
• 根据已有模型版本,参考行业模型,形成标准的浙江物理模型 的版本 • 参照国际标准命名规范,在原有命名规范的基础上,形成浙江的 基本不变的模型主题、层次以及数据表的命名规范 • 根据不同平台的特点,形成不同特点平台的物理模型,例如 针对存储在云平台下的详单的物理模型,存储在云平台下 (NOSQL)平台下分光以及流量数据的物理模型,形成在MPP 下,适合MPP特点的物理数据表的物理模型 • 确认模型的层次为ODS、DWD、DWI、DWA,并对模型层 次进一步的细分,不断补析充和完善各层次模型,清晰化各 层次模型存储数据的数据特点
逻辑模型
物理模型
逻辑模型
逻辑模型来自拥有行业经验的概念模型,里面凝聚了许多
成功的经验,而且从规划上符合行业系统的长远发展,因 此逻辑模型应当从概念模型上相对平滑的过度过来。 逻辑建模是数据仓库实施中的重要一环,它能直接反映出 业务部门的需求,同时对系统的物理实施有着重要的指导 作用。从狭义的概念说,逻辑模型是否正确表达了业务规 则,也就是准确,但是随着人们对数据仓库认识的加深, 质量的含义不断延伸,现在对模型质量要求不仅仅单纯指单 纯的业务规则,还包括模型满足用户分析需求的程度,它 是一个包含丰富内涵、具有多维因素的综合性概念。 确定设计原则
数据调研 数据初始化
DACP 开发维护
开发管理 数据管理
对外
强化模型设计能力; 提升模型管控效率
概念模型设计
逻辑模型设计 物理模型设计
运行监控
维护管理 ……
目录|CONTENTS
1 2
背景
定位 亮点
3 4
5
系统架构
方法论 功能架构 开发现状
6
7
亮点
建模工具IT化
建模经验得到有效沉淀,有效提升工作效率
由核心的数据实体或其集合,以及实体间的业务关系组成
设计时可以采用实体建模法,来保证概念的完整性,以及减少概念的重复
数据模型建设方法论
概念模型(一)
• • • • • 概念模型的核心模型Level0层级以及其关系的设定 Level0级的核心是主题的划分以及主题之间的关系的确定 亚信面向数据管理核心主题的划分综合业界的八大主题划分,主要包括参与人、服务、资源、收入、财务等等 子主题的划分按照对业务系统(例如:Bss、Oss、MSS)的理解划分,例如:客户、集团、用户、账务等等 主题的划分以及概念和逻辑模型基本适用于DWD、主要从数据管理方便、数据可更好归类等角度考虑
缺乏有效载体,经验沉淀不足;
模型复制难度大,项目实施费 时费力; 项目实施往往加班加点,人力
指标杂乱,管理无序,效率低下,
亟需对数据仓库进行重构; 目前多省已表达出重构需求, 工程量随时可能放大
电商、政企等大市场。需求一旦
纷至沓来,我们是否做好了准备? 我们的“装备”是否先进?
资源复用率较低,工作效率不高
计
原
则
以尽可能小的业务单元进行底层数据的组织和存储,以满足数据仓库的灵活性。任何一个信息系统都具有整体性、 结构性、层次性、相对性、可变性,数据仓库的目标逻辑结构的设计同样要体现这些特征。
数据结构的设计保持松散 , 因为数据仓库在实现过程会有很多变数,需要不断的改动和调整结构等. 所以希望将 改动次数降到最低。
设 计 步 骤
确定模型的定位 细化各概念实体
进行模型验证、优化
逻辑模型设计原则
数据分类设计 数据分布调研 数据CRUD调研 基础概念模型 概念模型
逻辑模型
物理模型
数据仓库在设计之初要尽力保持它的领先地位 第一,体系结构的领先性。它使得项目在各个阶段转换时,数据仓库和它所支持的系统的物理以及逻辑架 构都具有持续性,不会发生改变。