数据分析与数据建模.doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据分析与数据建模
——信息资源规划(IRP)系列讲座之六
我们前面讲的信息资源规划“建立两种模型和一套标准”的工作,是分两个阶段完成的:第一阶段需求分析,第二阶段系统建模。上一讲介绍功能需求分析和建模,这一讲介绍数据需求分析和建模。
从用户视图开始的数据需求分析
我们讲过,用户视图(User View)是一些数据的集合,它反应了最终用户对数据实体的看法,包括单证、报表、账册和屏幕格式等。威廉·德雷尔(William Durell)主张基于用户视图做数据需求分析,认为所谓的“数据流”实际上就是用户视图的流动。采用这一思路进行数据需求分析,可大大简化传统的实体-关系(E-R)分析方法,有利于发挥业务分析员的知识经验。
用户视图的分析过程,就是调查研究和规范化表达用户视图的过程,包括掌握用户视图的标识、名称、流向等概要信息和用户视图的组成信息。例如,用户视图标识“D041309”是按一定的规则编码的,其名称是“材料申报单”,而其组成是:
序号数据项/元素名称数据项/元素定义
01 NY 年月
02 DWBM 单位编码
03 CLBM 材料编码
04 SL 数量
05 YTDM 用途代码
一个制造厂的人力资源、生产管理、物资采购、产品销售等职能域,一般都有几十个至几百个用户视图,一个制造厂的人力资源、生产管理、物资采购、产品销售等职能域,一般都有几十个至几百个用户视图,对它们进行如上例的分析和规范化表述,实际上是一次从未做过的、工作量较大的数据流梳理的基础工作,对全面把握信息需求有重要意义。尤其系统分析设计人员在业务人员提供所需的信息内容的基础上,按照数据结构规范化理论,对需要存储的用户视图结构做标准化的“范式”重新组织,可以直接为数据库的规划设计做好准备。
数据模型与IRM 基础标准
数据库设计是为了获得支持高效率存取的数据结构,在信息资源规划第二阶段展开数据建模工作,就是数据库设计最重要的前导性工作。
数据模型分为概念数据模型和逻辑数据模型。概念数据模型是由一系列概念数据库构成的。概念数据库(Conceptual Database)是最终用户对数据存储的看法,反映了用户的综合性信息需求。逻辑数据库(Logical Database)是系统分析设计人员的观点,是对概念数据库的进一步分解和细化,一个逻辑数据库是由一组规范化的基本表(Base Table)组成的。例如:人力资源管理中的“员工主题数据库”,其概念数据库可表达为:
员工(员工编号,员工姓名,出生日期,文化程度,简历,培训记录,……)
而其逻辑数据库的规范化表达为:
其中,“主键”是唯一确定一条记录的机制;基本表“员工基本信息”的一条记录会对应多条“员工简历”记录。
一个制造厂会有50个左右主题数据库,把它们列出来就是全域概念数据模型;而每个主题数据库会有几个到十几个基本表,所以,全域逻辑数据模型会有数百个基本表(按主题分为50个左右组)。如果按子系统划分,比如“人力资源子系统”,概念数据模型会有十个左右主题数据库,而基本表则有30-40个。
我们第三讲介绍的信息资源管理(IRM )基础标准中的前三个(数据元素标准、信息分类编码标准、用户视图标准)和这里讲的后两个标准(概念数据库标准、逻辑数据库标准),是紧密联系的。如上例,概念数据库和逻辑数据库基本表中的数据内容要遵循数据元素标准和信息分类编码标准;而用户视图标准为数据库标准建立提供了依据,同时也为数据库的使用提供了依据。
主键:员工代码 员工代码,姓名,出生日期,民族,家庭住址,电话,…… 主键:员工代码+起始日期 员工代码,起始日期,单位,…… 主键:员工代码+起始日期 员工代码,起始日期,培训内容,…… …… ……
数据模型的作用——数据环境重建
企业信息化建设处于从初级阶段向中高级阶段的转折时期,最严峻的挑战就是数据环境的改造和重建。因为,这之前企业的信息资源开发是处于无序状态的,各部门在开发或引进各种应用软件时,都是单打一地追求各自的功能实现,不会去按全局的观点做信息流分析和相互协调,不会去遵循统一的数据标准,大家都是按小农生产的模式“自采自用”各自的信息,所有“数据库”差不多都是按报表格式建立的。在这样混乱的数据环境中,根本无法实现信息的快捷流通,无法实现信息共享。
怎样改造低档次的数据环境,建立以主题数据库为主体的高档次数据环境呢?首先要建好数据模型,然后,以数据模型的基本表为标准,来逐一衡量已有数据存储的结构,找出具体的差距,看看哪些数据结构可以修改、补全,哪些数据结构不合理需要抛弃,还要增加哪些新的数据结构;随后,组织数据加载、更新,建立新的数据存储。
企业数据环境的改造和重建工作,是—项复杂艰巨的系统工程,需要科学的方法和精心的组织,并分期分批进行实施,一般需要3到5年的时间,最快也需要2到3年时间。下面是一集团企业数据环境改造重建的跨越式发展曲线与较缓慢进度曲线的对照图。
图. 主题数据库环境建设过程曲线
如果要使该企业多年来形成的混乱的数据环境能够在短时间内上档次,就需要跨越式发展,在头半年里完成的主题数据库建设任务占整个规划任务的一半以上。这是数据环境重建的“爬陡坡”时期。这段时期虽然困难很大,是一般没有数据库工作经验的人很难理解的,但如果企业领导和信息中心人员有了充分的认识和思想50% 25% 75%
准备,再加上“一把手”的支持及业务人员的紧密配合与积极参与,就能够顺利渡过这段时期。例如,山东海化集团的信息资源规划与数据环境重建的实践经验就证明了这点。该集团信息资源规划方案的全域数据模型由42个主题数据库、182个基本表组成,头半年要开发的四个子系统(综合查询、人力资源、生产管理、设备管理)所包括的主题数据库有22个,基本表112个,即占整个数据库开发实现工作的50%以上。
当前,有些企业、行业在进行“数据大集中”,有的在建立数据仓库应用。理论与实践都已证明:只有搞好信息资源规划,建立企业、行业的信息资源管理基础标准和数据模型,才能有效地搞好这种信息资源整合、建立高档次数据环境的工作。