通用语义层数据建模方法论 V1.0-public
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BO中的通用语义层实践中遇到了一系列的问题
可理解性差
语义层过于复杂,难以理解,尤其是新老人员交 替,沟通成本很高
可复用性差
语义层的设计成果不能在多个BI工具中使用,过于 依赖BI工具.重用程度不高
如何解决这些问题呢? 即 能够享有通用语义层带来 的价值,又能够规避这些
问题。
可扩展性差
语义层的扩展于与分拆影响较大,难以后期维护 ,为了降低影响范围,大多是在原来基础上,新 增其他功能,致其复杂度越来越高;
演讲人
备注
下次课程安排 下次课程安排
内容提纲
内容
第一部分:通用语义层概述
Ⅰ:回顾以往数据仓库模型设计思路 Ⅱ:什么是通用语义层 Ⅲ:通用语义层能解决什么问题 Ⅳ:通用语义层有哪些特点
第二部分:如何设计通用语义层 第三部分:项目案例说明 第四部分:实践课:虚拟场景下设计通用语义层 第五部分:附录:相关文档模板
<pk>
Customer Name SYB_NAME
Policy Number
SYB_LEGACY_ID
Policy Risk Grade SYB_CODE
Policy Start Date SYB_DATE
Policy End Date SYB_DATE
SIC Code
SYB_CLASSIFICATION
经过敏思苦想、群策群力,终于有了答案。。。。
敏思苦想
群策群力
使用ETL的方式,将BO中 的语义层搬到数据库中,
简化加工逻辑、 提供可扩展性和可复用性
豁然开朗
奔走相告
现在,我们来重新定义通用语义层
通用语义层模型设计基于业务(如保险)核心价值链上的核心业务对象和业 务事件,采用维度总线架构思想来构建;业务对象通常用维度实现,业务事 件通常用事实表实现,按照事实表的不同类型分为:累计快照事实表、周期 快照事实表、交易基础事实表。
Program Code
SYB_CLASSIFICATION
Class Code
SYB_CLASSIFICATION
ISO Class
SYB_CLASSIFICATION
Reinsurance Code SYB_CATEGORY
Coverage Code
SYB_CLASSIFICATION
IRPM Factor
Age Band
SYB_BAND
Hazardous Occupation Indicator SYB_IND百度文库CATOR
Hazardous Activity Indicator
SYB_INDICATOR
Poor Health Indicator
SYB_INDICATOR
Smoker classification
Automatic Indexation Indicator
SYB_INDICATOR
Automatic Premium Indexation Basis SYB_SHORTSTRING
Advice Given Indicator
SYB_INDICATOR
ParticpatingLInidfiecatoIrnsurance SPYrBo_INdDuICcATtOR
SYB_CLASSIFICATION
Policy Rating Category
SYB_CATEGORY
Policy Rating Category Description SYB_VERYLONGSTRING
Prefered rating indicator
SYB_INDICATOR
Occupation Class Code
LRiefeinIsnPPusooruallriinccayycnecTPeeIrnerPdmmoicilBuiacmtayonrFBdeaantdures ID
SSYYSSBBYY__BBBB__AAIIDNNNDDDICATOR
<pk>
Policy Assignment Indicator
SYB_INDICATOR
行业模型的精髓
ETL过程设计简单,代理主键的使用、更新与维护混 II 乱
整合层按照范式的要求进行存储,在计算集市时,非
III
常的不方便,效率低下,因此常将一些常见的维度信 息关联好,存储起来,集市计算时使用
数据集市一般根据应用来设计,集市表成“碎片”,且 指标多次重复计算,集市之间存在误差(可能因为维 IV 度、指标口径不明确、加工频度、刷新频度、脚本错 误等)
演讲人
备注
下次课程安排 下次课程安排
回顾数据仓库数据架构演变过程
1.0 实施方法
1.5 实施方法
个险
银保
电销
团险
财务接 口文件
个险
银保
电销
团险
财务接 口文件
缓冲层,(ODS) 个险、银保、团险、财务、电销等
数据集市(DM) 明细汇总表,高度汇总表
缓冲层,(ODS) 个险、银保、团险、
财务、电销等
整合层(DW) 统一建模
固定 报表
灵活 查询
多维 分析
管理驾驶舱
制式报告
动态报表
内容提纲
内容
第一部分:通用语义层概述
Ⅰ:回顾以往数据仓库模型设计思路 Ⅱ:什么是通用语义层 Ⅲ:通用语义层能解决什么问题 Ⅳ:通用语义层有哪些特点
第二部分:如何设计通用语义层 第三部分:项目案例说明 第四部分:实践课:虚拟场景下设计通用语义层 第五部分:附录:相关文档模板
演讲人
备注
下次课程安排 下次课程安排
通用语义层起源与BO
通用语义层(Common Semantic Layer),检称CSL, 最早起源与BO,目的在于 让业务用户能够通过自己的业务术语,自由安全的访问、分析以及分享信息的技术, 其特点是:
① 业务用户自主操作 ② 提高用户对于各种企业数据的操作体验 ③ 提供一致可信的数据,确保同一业务术语的引用能够贯穿整个企业 ④ 让所有的商务智能工具都可以使用(只能用于BO) ⑤ 让信息部门可以控制和确保信息访问的安全性
通用语义层模型的粒度尽可能保留到最细交易粒度(汇总处理除外),以保 持模型间的连通性,并能够最大程度、最快速地响应新需求;
以Sysbase 的IWS模型为指导思想,进行通用语义层设计
核心主题: Life Policy Event Life Claim Transactions
其他应用主题视图: Life Quotations & Proposals
访问复杂的企业数据
① 降低BI项目的投入成本,保护现有 IT数据投资
② 扩展现有的BI平台的安全模式 ③ 支持多数据源的语义层,提高服务
质量 ④ 支持完整BI项目生命周期,项目开
发、测试、投产 ⑤ 语义层与数据源的变化相同步 ⑥ 支持和扩展数据库的安全性 ⑦ 预定义的可重用的查询、参数、过
滤、计算、值列表等
数据集市(DM) 明细汇总表DM1,高度汇总表DM2
固定 报表
灵活 查询
多维 分析
特点:
① 源数据一般直接抽取到缓冲层,缓冲层逻辑上在细分为全
量区、增量区;
② 基于缓冲层(当时叫ODS层)加工数据集市,集市分为明
细汇总表、高粒度的汇总表;
③ 用户应用多集中在报表统计;
固定 报表
灵活 查询
多维 分析
管理驾驶舱
SYB_CODE
Impairment Rating Code
SYB_CODE
Drinker Indicator
<Undefined>
标准件标志
<Undefined>
Policy Life Cycle Status
Policy Life Cycle Status ID SYB_ID
<pk>
Status Name
Package: Life Policy Key Measures 保单各类指标汇总快照
Diagram: Life Policy Key Measures
Author: ADMIN
Date: 2004/2/11
Version: 4.0.276
Insurance Policy
Policy ID
SYB_ID
通用语义层数据模型建设思路
内容提纲
内容
第一部分:通用语义层概述
Ⅰ:回顾以往数据仓库模型设计思路 Ⅱ:什么是通用语义层 Ⅲ:通用语义层能解决什么问题 Ⅳ:通用语义层有哪些特点
第二部分:如何设计通用语义层 第三部分:项目案例说明 第四部分:实践课:虚拟场景下设计通用语义层 第五部分:附录:相关文档模板
通用语义层,将基础指标的计算、维度梳理 预处理,将多表关联处理成冗余的宽表,解 决实际问题;
② 提炼建模方法论,指导项目实际操作;少走
弯路。
缓冲层,(缓冲区、转换映射区、基础数据区) 通用语义层(存储明细数据、可多次复用的数
个险、银保、团险、财务、电销等
据,解决维度与指标一致性的问题)
数据集市(DM) 分主题汇总(考虑复用)、特定应用汇总
SYB_NUMERIC
All Entries Indicator SYB_INDICATOR
保单来源
<Undefined>
Column_16
<Undefined>
Life Policy Rating
Life Insurance Policy Rating ID
SYB_ID
<pk>
Gender
SYB_TYPE
通用语义层带来的价值
给业务用户带来的价值
给IT 用户带来的价值
① 简洁一致的用户体验,让业务用户 可以简便的访问企业内的数据;
② 减少企业的培训成本; ③ 保障业务用户始终使用可信的信息 ④ 业务用户自创式创建各种商务智能
的内容 ⑤ 可重用的查询、计算、参数、过滤
条件、值列表简化用户使用 ⑥ 为普通用户提供了一个简化的界面,
特点:
① 缓冲层与数据集市模型设计思路与以往类似; ② 整合层,参考了IBM的IIW、TD的FS_LDM模型,进行客户
化;或者据此设计公司内部的企业模型;
③ 用户应用多样化,充分利用BI工具分析功能; ④ 管理驾驶舱实际上是仪表盘+固定报表
项目实施过程中遇到的困难、困惑
项目困难、困惑
增量信息难以捕获,造成模型设计难以保存历史,造 I 成了模型设计有些“四不象”,实际上并没有学习到
Life Product Costs Key Measures
Life Underwriting Costs Key Measures
Life Claim Summary (实际上也是Key Measures )
IWS主题模型示例
Physical Data Model
Model: Insurance
SYB_NAME
Status Description
SYB_VERYLONGSTRING
All Entries Indicator
SYB_INDICATOR
Life Life Insurance Policy Properties
IPnosLluicraiyfnCecoevPIenroaligsceyuAPmrroaopuennrttcieBseanIDdPSSoYYBBli__cIBDyANFD e<pak>tures
Life New Business
关键度量主题:
IWS模型主题主要
Life Policy Key Measures Life Policy Costs Key Measures
分为事件表和度量 表
Life Agency Channel Key Measures
Life Agent Channel Key Measures
➢ 预计算处理:按照总线架构维度和事实表的要求,对事实表中的基础指标进行加 工计算,保证基础指标逻辑加工的“Golden Copy”,如保单事件、核保事件、 保全事件、查勘事件、理赔事件等;
➢ 汇总处理:针对共性的复杂指标,按照对应的维度进行提前聚合处理,以保证共 性复杂指标逻辑加工的“Golden Copy”,避免重复加工,提供数据一致性和响 应效率,如保单层面指标汇总,机构层面指标汇总,产品层面指标汇总,代理人 层面指标汇总,客户层面指标汇总等;
通用语义模型设计面向管理决策和经营分析,是公共维度和共性基础指标的 实现载体,支持80%以上的共性应用需求;
通用语义模型设计采用维度化的逆范式设计模式,通常采用以下策略:
➢ 预连接处理:按照总线架构维度和事实表的要求,将分散在多张相关实体表的数 据属性进行预连接操作,使相关的维度尽可能组织在特定的维表或者事实表,如 保单维、保单责任维、代理人维、客户维、赔案维等;
数据集市根据实际需要分为明细汇总表、轻粒度汇总
Ⅴ 表、高度汇总表,至于为何这么分,并没有讲出所以
然来
以往数据仓库类项目模型设计成果示例
当事人
事件
集市模型,这里甚至没有分层
困惑~!
协议
当前,数据仓库最佳实践之数据架构
2.0 实施方法
银保 电销
团险
财务接 口文件
个险
资产接 口文件
特点:
① 总结以往项目经验,规划出较为实用的一层,