数据仓库系统PPT课件
合集下载
数据仓库技术PPT课件( 25页)

像外行一样思考,像专家一样实践
2019/5/31
杭州斯凯网络科技有限公司
かなで たけお
金出 武雄
24
•
5、世上最美好的事是:我已经长大,父母还未老;我有能力报答,父母仍然健康。
•
6、没什么可怕的,大家都一样,在试探中不断前行。
•
7、时间就像一张网,你撒在哪里,你的收获就在哪里。纽扣第一颗就扣错了,可你扣到最后一颗才发现。有些事一开始就是错的,可只有到最后才不得不承认。
8
数据仓库的架构类型
2019/5/31
杭州斯凯网络科技有限公司
9
Oracle数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
10
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
11
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
12
2019/5/31
杭州斯凯网络科技有限公司
20
软件物理架构比较
软件物理架构主要特征区别就是行存储和列存 储。这个也是曾经很多厂商津津乐道的地方,根 据需求的不同,2种方式可以灵活采用。
大部分DB软件都是采用行存储,而列存储 的特征在于高效的单列值压缩,在选择列比较少 的时候需要io要求很低,速度很快,不过行存储 的DB目前在压缩效率上也在迅速提升,大部分需 求还是选择行数据进行观察,行存储也更加便于 表的按记录拆分进行并行化。
MapReduce 概念
MapReduce是一种编程模型(并不是google自己开发的 编程工具),用于大规模数据集(大于1TB)的并行运算。 概念"Map(映射)"和"Reduce(化简)",和他们的主要 思想,都是从函数式编程语言里借来的,还有从矢量编程 语言里借来的特性。他极大地方便了编程人员在不会分布 式并行编程的情况下,将自己的程序运行在分布式系统上。
数据仓库系统的设计与开发课件

3.1 数据仓库系统的设计与开发概述
建立一个数据仓库系统的参考步骤 数据仓库系统的生命周期 创建数据仓库系统的两种思维模式 数据仓库数据库的设计步骤
2024/7/24
数据仓库与数据挖掘
1
建立一个数据仓库系统的参考步骤
数据仓库系统的建立是一个复杂而漫长 的过程。涉及到: 源数据库系统 数据仓库对应的数据库系统 数据分析与报表工具 ……
利用星形图进行数据仓库的逻辑模 型设计
根据分析需求与信息包图制作星形图
时间
客户 销售分析
产品
广告
区域
2024/7/24
数据仓库与数据挖掘
20
根据分析需求与信息包图制作雪花图
2024/7/24
时间
客户 销售分析
产品
产品类 别
广告
数据仓库与数据挖掘
区域
雪花模型对星型模型的维度表进一步标准化,对星型 模型中的维度表进行了规范化处理。
在SQL Server 2005数据库环境中安 装数据仓库组件、示例和工具
利用示例数据仓库 (AdventureWorks DW)环境及帮 助系统学习
2024/7/24
数据仓库与数据挖掘
30
3.3 使用SQL Server 2005建立多维 数据模型
创建一个新的数据仓库分析项目 定义数据源 定义数据源视图 定义多维数据集 部署“销售分析示例”项目 浏览已部署的多维数据集 提高多维数据集的可用性和易用性
事实表的特征有:
数据仓库与数据挖掘
记录数量情况
维度表情况
23
事实表的类型与设计
事实是一种度量,所以事实表中的这种指标往往 需要具2有024数/7/值24 化和可加性的特征。即: 要考虑决策分析的需要(必要的数据) 要考虑系统运行的需要(派生的数据)
建立一个数据仓库系统的参考步骤 数据仓库系统的生命周期 创建数据仓库系统的两种思维模式 数据仓库数据库的设计步骤
2024/7/24
数据仓库与数据挖掘
1
建立一个数据仓库系统的参考步骤
数据仓库系统的建立是一个复杂而漫长 的过程。涉及到: 源数据库系统 数据仓库对应的数据库系统 数据分析与报表工具 ……
利用星形图进行数据仓库的逻辑模 型设计
根据分析需求与信息包图制作星形图
时间
客户 销售分析
产品
广告
区域
2024/7/24
数据仓库与数据挖掘
20
根据分析需求与信息包图制作雪花图
2024/7/24
时间
客户 销售分析
产品
产品类 别
广告
数据仓库与数据挖掘
区域
雪花模型对星型模型的维度表进一步标准化,对星型 模型中的维度表进行了规范化处理。
在SQL Server 2005数据库环境中安 装数据仓库组件、示例和工具
利用示例数据仓库 (AdventureWorks DW)环境及帮 助系统学习
2024/7/24
数据仓库与数据挖掘
30
3.3 使用SQL Server 2005建立多维 数据模型
创建一个新的数据仓库分析项目 定义数据源 定义数据源视图 定义多维数据集 部署“销售分析示例”项目 浏览已部署的多维数据集 提高多维数据集的可用性和易用性
事实表的特征有:
数据仓库与数据挖掘
记录数量情况
维度表情况
23
事实表的类型与设计
事实是一种度量,所以事实表中的这种指标往往 需要具2有024数/7/值24 化和可加性的特征。即: 要考虑决策分析的需要(必要的数据) 要考虑系统运行的需要(派生的数据)
数据仓库概述PPT(共 57张)

决策支持系统:需要花数小时甚至更长时 间的处理、需要遍历数据库中的大部分数据, 进行复杂的计算,需要消耗大量的系统资源。
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
数据仓库结构体系PPT课件

第17页/共23页
典型的蜘蛛网结构示意图
第18页/共23页
3.6 数据展示层
• 负责应用结果显示,也可称为数据前端处理。 • 数据仓库的数据展示有多种固定的图板。 • 数据展示可以通过联机方式表示,也可以通过Web方式表示。
第19页/共23页
参考文献
• 耿麒麟,赵太祥.多层次的数据仓库系统框架[J].中国科技信息,2010(2):89-89. • 张洪.基于数据仓库的决策支持系统[J].企业导报,2010(7):280-281. • 李兴国,金芳芳,于海峰.基于数据仓库的决策支持系统的体系结构[J].合肥工业大学学报,2003,8(26):678-
第10页/共23页
数据提取
数据后端处理流程图
数据源
数据清洗
数据转换
数据加载
数据仓库
数据刷新
数据提取、数据清洗、数据转换和数据加载构成 了后端处理4个连续环节,数据源中的数据经过4 个不同处理环节最终进入数据仓库中,构成了如 图所示的后端处理数据流程图。而数据刷新则是 另一个数据仓库入口点,它与数据提取并行作为 另一种入口点进入数据仓库。
第21页/共23页
第22页/共23页
感谢您的观看!
第23页/共23页
第5页/共23页
3 数据仓库体系结构
第6页/共23页
结构层次
• 数据源 • 数据后端处理 • 数据仓库及其管理 • 数据集市 • 数据仓库应用 • 数据展示
第7页/共23页
3.1 数据源层
• 数据源为数据仓库提供数据来源。 • 它是多种联机事务处理系统及外部文件。 • 一个数据仓库可以有多个数据源。 • 数据源一般是分布在网络中的各个结点,通过网络中的数据接口与数据仓库连接。
典型的蜘蛛网结构示意图
第18页/共23页
3.6 数据展示层
• 负责应用结果显示,也可称为数据前端处理。 • 数据仓库的数据展示有多种固定的图板。 • 数据展示可以通过联机方式表示,也可以通过Web方式表示。
第19页/共23页
参考文献
• 耿麒麟,赵太祥.多层次的数据仓库系统框架[J].中国科技信息,2010(2):89-89. • 张洪.基于数据仓库的决策支持系统[J].企业导报,2010(7):280-281. • 李兴国,金芳芳,于海峰.基于数据仓库的决策支持系统的体系结构[J].合肥工业大学学报,2003,8(26):678-
第10页/共23页
数据提取
数据后端处理流程图
数据源
数据清洗
数据转换
数据加载
数据仓库
数据刷新
数据提取、数据清洗、数据转换和数据加载构成 了后端处理4个连续环节,数据源中的数据经过4 个不同处理环节最终进入数据仓库中,构成了如 图所示的后端处理数据流程图。而数据刷新则是 另一个数据仓库入口点,它与数据提取并行作为 另一种入口点进入数据仓库。
第21页/共23页
第22页/共23页
感谢您的观看!
第23页/共23页
第5页/共23页
3 数据仓库体系结构
第6页/共23页
结构层次
• 数据源 • 数据后端处理 • 数据仓库及其管理 • 数据集市 • 数据仓库应用 • 数据展示
第7页/共23页
3.1 数据源层
• 数据源为数据仓库提供数据来源。 • 它是多种联机事务处理系统及外部文件。 • 一个数据仓库可以有多个数据源。 • 数据源一般是分布在网络中的各个结点,通过网络中的数据接口与数据仓库连接。
《数据仓库技术》课件

数据质量参差不齐
数据来源多样,数据质 量难以保证,需要进行
数据清洗和校验。
数据分析需求多变
不同部门和业务场景对 数据分析的需求各不相 同,需要灵活地调整数 据仓库架构和查询方式
。
应对策略
采用分布式存储和计算 技术,提高数据存储和 处理能力;建立数据质 量管理体系,确保数据 质量;提供灵活的数据 仓库架构和查询方式, 满足多变的分析需求。
大数据时代的挑战与机遇
挑战
随着大数据时代的来临,数据量呈爆 炸式增长,如何高效地存储、处理和 分析这些数据成为数据仓库面临的挑 战。
机遇
大数据时代为数据仓库技术的发展提 供了广阔的空间,通过技术创新和优 化,数据仓库能够更好地应对大数据 的挑战,为企业提供更有价值的数据 分析服务。
数据仓库技术的未来发展
云端部署
AI与数据仓库的结合
随着云计算技术的成熟,数据仓库将 逐渐向云端迁移,以提高可扩展性和 灵活性。
人工智能技术的不断发展将为数据仓 库带来更多智能化功能,如自动分类 、预测等。
实时分析
随着对数据实时性的需求增加,数据 仓库将加强实时分析功能,提高数据 处理速度。
数据仓库与其他技术的结合
数据仓库与大数据技术的结合
OLAP技术
多维数据分析
OLAP支持多维数据分析,这意味着用户 可以从多个角度和维度(如时间、地点、
产品类别等)来分析数据。
A OLAP技术概述
OLAP是一种用于分析大量数据的工 具和技术,它允许用户通过多维数 据分析来深入了解数据的不同方面 。
B
C
D
可视化工具
OLAP系统通常提供各种可视化工具,如 仪表盘、报表、图表等,以帮助用户更好 地理解数据和分析结果。
数据仓库ppt课件

精选编辑ppt
3
数据仓库——发展
数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提 出,主要功能是将组织透过资讯系统和联机事务处理(OLTP)经年累月 所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一 有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数 据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主 管资讯系统(EIS)之创建,帮助决策者能快速有效的从大量资料中,分 析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建 构商业智能(BI)。
精选编辑ppt
4
数据仓库——特征
1.数据仓库是面向主题的; 操作型数据库的数据组织面向事务处理任务,而数据仓库中的数
据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决 策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2.数据仓库是集成的;
数据仓库的数据有来自于分散的操作型数据,将所需数据从原来 的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据 仓库。 3.数据仓库是不可更新的;
元数据:是描述数据仓库内数据的结构和建立方法的数据。它为访问 数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中都有 什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户 通过他来了解和访问数据。
数据集市:是从数据仓库中独立出来的一部分数据,也可称为部门数 据或主题数据。在数据仓库的实施过程中往往可以从一个部门的数据 集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注 意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容, 这样在以后实施数据仓库时才不会造成大麻烦。
【精品】数据仓库及应用(数据仓库、数据模型、商务智能)PPT课件

Implement Time
> TB Months to years
< TB Months
Data Mart
Data Mart
Control: A department can completely control the data and processing that occurs inside a data mart. Cost: The cost of storage and processing is less, because the data mart’s machine is smaller than DW’s Customization: The data mart’s data is customized to suit the peculiar needs of the department.
Administration
Enterprise Data Warehouse
Enterprise data warehouses are funded on a corporate basis. Enterprise data warehouse covers the entire business (corporation), incorporating data from all operational systems. Information is extracted from the operational environment, cleansed, and transformed into a central, integrated enterprise-wide data warehouse environment, so that all the departments and other internal organizations of the corporation can benefit from a consistent, integrated source of decision support information.
> TB Months to years
< TB Months
Data Mart
Data Mart
Control: A department can completely control the data and processing that occurs inside a data mart. Cost: The cost of storage and processing is less, because the data mart’s machine is smaller than DW’s Customization: The data mart’s data is customized to suit the peculiar needs of the department.
Administration
Enterprise Data Warehouse
Enterprise data warehouses are funded on a corporate basis. Enterprise data warehouse covers the entire business (corporation), incorporating data from all operational systems. Information is extracted from the operational environment, cleansed, and transformed into a central, integrated enterprise-wide data warehouse environment, so that all the departments and other internal organizations of the corporation can benefit from a consistent, integrated source of decision support information.
数据仓库体系培训课件.pptx

数据存储·数据质量·元数据·安全
7
文思信息 版权所有,内部保密材料
BI环境内的数据架构
IT人员
高级分析人员 业务分析人员 决策用户
集市层
应用集市层 •面向应用的个性化定制。
指标库:规模指标、客户指标、盈利指标、风险指标等
汇总层
机构汇总 账户汇总
预连接/预处理 产品汇总
交易统计汇总
渠道汇总 客户汇总
管控平台
前端软件
前端软件
前端软件
前端软件
DM
信用卡 集市
DM
信贷集 市
DM
风险管 理集市
DM 。。。
ETL软件
ETL软件
ETL软件
ETL软件
SASB
YHT
CMS
PMS
。。。
4
文思信息 版权所有,内部保密材料
数据仓库典型体系架构(集中型-EDW)
前端软件(BIEE、Congnus、BO、Microstrategy)
4
应用用户、决策用户会访问特定应 用
……
业务人员通过设定业务检查规则来 3 明确模型可用性
业务部门人员多数需要常规报表供 日常呈报
…… 业务人员参考整合规则来验证业务 2 正确性
POWER USER通常需要访问第二层对 数据进行深入分析
……
1 审计/风险管理等需要未经加工的 业务原始数据
源数据质量检查规则、常规报告
EDW: •全部源系统的原始细节数据,不接 入派生和汇总数据。
ODS: •状态类数据保存当前最新数据 •日志类数据保存3个月 • 针对及其特殊的需要可以考虑 对数据保留一定时间段的历史
EDW: •一般最长在线保存7年。 •事件类数据在线保留时间会短 一些,13个月左右。
7
文思信息 版权所有,内部保密材料
BI环境内的数据架构
IT人员
高级分析人员 业务分析人员 决策用户
集市层
应用集市层 •面向应用的个性化定制。
指标库:规模指标、客户指标、盈利指标、风险指标等
汇总层
机构汇总 账户汇总
预连接/预处理 产品汇总
交易统计汇总
渠道汇总 客户汇总
管控平台
前端软件
前端软件
前端软件
前端软件
DM
信用卡 集市
DM
信贷集 市
DM
风险管 理集市
DM 。。。
ETL软件
ETL软件
ETL软件
ETL软件
SASB
YHT
CMS
PMS
。。。
4
文思信息 版权所有,内部保密材料
数据仓库典型体系架构(集中型-EDW)
前端软件(BIEE、Congnus、BO、Microstrategy)
4
应用用户、决策用户会访问特定应 用
……
业务人员通过设定业务检查规则来 3 明确模型可用性
业务部门人员多数需要常规报表供 日常呈报
…… 业务人员参考整合规则来验证业务 2 正确性
POWER USER通常需要访问第二层对 数据进行深入分析
……
1 审计/风险管理等需要未经加工的 业务原始数据
源数据质量检查规则、常规报告
EDW: •全部源系统的原始细节数据,不接 入派生和汇总数据。
ODS: •状态类数据保存当前最新数据 •日志类数据保存3个月 • 针对及其特殊的需要可以考虑 对数据保留一定时间段的历史
EDW: •一般最长在线保存7年。 •事件类数据在线保留时间会短 一些,13个月左右。
数据库系统ppt课件(完整版)pptx

20世纪60年代后期出现了一种新 型的数据管理技术——数据库技 术,它解决了数据的组织、存储 和管理问题,实现了数据的共享
和高效处理。
数据库系统组成与结构
数据库系统组成
数据库系统由数据库、数据库管理系统 (DBMS)、应用系统和用户构成。
VS
数据库系统结构
数据库系统的结构可以分为三级模式结构 ,包括外模式、模式和内模式。其中,模 式是数据库中全体数据的逻辑结构和特征 的描述,是所有用户的公共数据视图;外 模式是模式的子集,是用户与数据库的接 口;内模式是数据物理结构和存储方式的 描述,是数据在数据库内部的表示方式。
用户自定义完整性
根据业务需求,设置自定义的约束条件,如 字段值范围、格式等。
级联操作
在更新或删除记录时,自动更新或删除相关 联的数据,保持数据一致性。
并发操作带来问题及解决方法
丢失更新
两个事务同时更新同一数据,后提交的事务会覆盖先提交 的事务的更新结果。解决方法包括使用锁机制、时间戳等 。
脏读
一个事务读取了另一个未提交事务的修改数据,可能导致 数据不一致。解决方法包括使用隔离级别、锁机制等。
考虑系统的性能、稳定性 、可扩展性和易用性
确保系统具有良好的技术 支持和社区资源
05
数据库安全、完整性与并发控制
数据库安全性保护措施
用户身份鉴别
通过用户名/密码、数字证书等方式 验证用户身份,防止非法用户访问。
访问控制
根据用户角色和权限,限制对数据库 对象的访问和操作,确保数据不被越 权访问。
数据加密
未来发展趋势预测和挑战应对
多模数据管理
未来数据库将支持多种数据模型的管理 和访问,以满足不同应用的需求。
文档存储数据库
和高效处理。
数据库系统组成与结构
数据库系统组成
数据库系统由数据库、数据库管理系统 (DBMS)、应用系统和用户构成。
VS
数据库系统结构
数据库系统的结构可以分为三级模式结构 ,包括外模式、模式和内模式。其中,模 式是数据库中全体数据的逻辑结构和特征 的描述,是所有用户的公共数据视图;外 模式是模式的子集,是用户与数据库的接 口;内模式是数据物理结构和存储方式的 描述,是数据在数据库内部的表示方式。
用户自定义完整性
根据业务需求,设置自定义的约束条件,如 字段值范围、格式等。
级联操作
在更新或删除记录时,自动更新或删除相关 联的数据,保持数据一致性。
并发操作带来问题及解决方法
丢失更新
两个事务同时更新同一数据,后提交的事务会覆盖先提交 的事务的更新结果。解决方法包括使用锁机制、时间戳等 。
脏读
一个事务读取了另一个未提交事务的修改数据,可能导致 数据不一致。解决方法包括使用隔离级别、锁机制等。
考虑系统的性能、稳定性 、可扩展性和易用性
确保系统具有良好的技术 支持和社区资源
05
数据库安全、完整性与并发控制
数据库安全性保护措施
用户身份鉴别
通过用户名/密码、数字证书等方式 验证用户身份,防止非法用户访问。
访问控制
根据用户角色和权限,限制对数据库 对象的访问和操作,确保数据不被越 权访问。
数据加密
未来发展趋势预测和挑战应对
多模数据管理
未来数据库将支持多种数据模型的管理 和访问,以满足不同应用的需求。
文档存储数据库
数据仓库系统的设计及开发PPT课件

3
数据仓库建模人员所需的技能和能力
• 分析能力
见树又见林 模拟 论证
• 学习能力
抽象 综合
• 交流能力
组交互 演示 调查访谈
• 原型设计能力
• 企业体系架构
2020/4/27
版权所有:天津市易普际科技发展有限公司
4
数据仓库设计建模的要点和原则
建模原则 •选择创建什么模型对如何动手解决问题和如何解决
概念模型的设计是为逻辑模型的设计做准备,它没有统一的标准,主要根据设计 者的经验。
• 逻辑模型设计(Logical Data Modeling):
分别对概念模型的各个主题域进行细化,根据业务定义、分类和规则,定义其中的实体并描 述实体之间的关系,并产生实体关系图(ERD),然后遵照规范化思想在实体关系的基础上明 确各个实体的属性。实体产生于中国移动开展的业务、服务及其涉及的对象(如客户、帐户、 员工、机构、资源),实体间的对应、约束关系则来自于各业务过程中的规则。可以说,这
• 物理建模,生成物理模型,主要解决,逻辑模型针对不同 关系型数据库的物理化以及性能等一些具体的技术问题。
2020/4/27
版权所有:天津市易普际科技发展有限公司
7
思考
•需求建模与业务建模
•需求建模与业务建模谁先谁后?
•软件开发过程是否应该是:业务调研,业务建模 (业务分析),(业务模型分析)需求调研(这时,已 经有一部分需求可从业务模型中获得), 需求建模, 需求分析……
• 心得体会: • 看到背后的商业需求,你会发现模型原来非常稳定 • 不需要急于知道所有的细节性的需求,只要了解比较重要的20%的需求
2020/4/27
版权所有:天津市易普际科技发展有限公司
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-
12
目前存在问题
迄今为止,人们对数据仓库系统做的更多的是某个具体技术论述,相对很 少有对整个系统结构进行论述,对企业集团的数据仓库系统的论述更未见 报道。
针对企业集团数据仓库系统,我们认为目前存在下述问题急需解决:
(1)如何设计面向企业集团的数据仓库系统体系结构?
(2)如何实施企业集团ETL?
(3)如何开发企业集团数据仓库?
-
6
研究的背景及意义
然而,一个独立的数据仓库是没有实际意义的,必须将 联机分析处理(On-Line Analysis Processing,OLAP)、 数据挖掘(Data Mining, DM)、决策支持等技术结合起 来,才具有强大的生命力,而数据仓库系统正好就是这 些相关技术的组合。
本课题针对企业集团研究数据仓库系统的若干关键技术, 其意义在于:给出一个完整的企业集团数据仓库系统体 系结构,并且针对每一组成部分提出高效、可用的实现 技术和开发方法,从而使得数据仓库的理论得到发展, 并且为企业集团在数据海洋中迅速发现、集成有用的信 息(知识)提供支持。
LOGO
企业集团数据仓库系统关键技术
宋旭东 软件学院
-
1
主要内容
1. 绪论
2. 数据仓库系统基本概念
3. 企业集团ETL技术
4. 企业集团数据仓库技术
5. 企业集团联机分析处理技术
6. 企业集团数据挖掘技术
7. 企业集团决策支持技术
8. 总结
-
2
1 绪论
➢课题的研究背景和意义 ➢课题的国内外现状 ➢目前存在的问题 ➢本文研究的主要工作
随着企业集团信息化进程的不断深入,企业面临问题: ➢数据的过度冗余而导致“数据过剩”现象. ➢缺乏基于海量数据的知识发现,导致“信息贫乏”现象。
-
5
研究的背景及意义
如何从浩瀚的数据海洋中迅速、准确无误地提取企业集 团经营管理所需的有价值的信息,挖掘出隐含在内的大 量规律,是决策者的当务之急!
解决问题的关键是:要建立一个全局化的、综合的信息 集成平台,将这种行之有效的机制称为数据仓库(Data Warehouse,DW)。
-
7
课题的国内外研究现状
1993年Inmon首次提出了数据仓库概念 :“是一个面向 主题的、集成的、随时间变化的、非易失性的数据集合, 用以支持管理层的决策过程” 。 目前,众多专家学者对数据仓库面临的主要问题做了广 泛而又深入地讨论,主要包括:
➢数据仓库体系结构
➢数据仓库建模与设计
➢数据仓库操作问题
(4)如何设计并实现企业集团联机分析处理?
(5)如何实施企业集团数据挖掘?
(6)如何完成企业集团决策支持服务?
-
13
2 数据仓库系统基本概念
➢数据仓库系统定义 ➢统一视图模型基本概念 ➢数据仓库系统体系结构 ➢数据仓库系统相关技术概述
-
14
数据仓库系统定义
数据仓库系统定义(用下面的一个组合公式表示):
SAS公司推出的Enterprise Miner、微软公司推出的SQL Sever、 SPSS 公 司 的 Clementine 、 Sybase 公 司 的 Warehouse Workbench、ORACLE公司的Oracle Warehouse Builder等。
-
11
课题的国内外研究现状
பைடு நூலகம்
国内对数据仓库及其相关技术的研究稍晚,但进展较快。
期刊:《IEEE 知识与数据工程汇刊》(TKDE),《ACM数据库
系统汇刊》(TODS),《ACM杂志》(JACM),《信息系
统》,《VLDB杂志》,《数据与知识工程》,《智能信息系
统国际杂志》(JIIIS),《知识与信息系统》(KAIS)和《决
策支持系统》等 。
-
9
课题的国内外研究现状
国内对数据仓库及其相关技术的研究稍晚,但进展较快。国 内的中科院、清华大学、北京大学 、中国人民大学、北方 交通大学 、国防科技大学、东南大学 、浙江大学 、复旦 大学 、吉林大学 、东北大学 、哈尔滨工业大学 、四川大 学、华中科技大学、上海交通大学 、大连理工大学 、南京 航空航天大学、重庆大学、南京理工大学、山东大学 。
-
3
研究的背景及意义
在知识经济时代,企业更多关注如何提高自身的竞争力?
➢ 从现代管理技术的角度,集团化运营已成为企业提升 自身竞争力的必然趋势,许多同行业企业进行了资产 重组,组建了企业集团。
➢ 从信息技术的角度,人们开始把企业信息化作为改善 企业管理业务活动,建立现代企业制度的重要手段。
-
4
研究的背景及意义
DWS = ETL + DW + OLAP + DM + DS
➢新应用与新环境下的数据仓库构建
-
8
课题的国内外研究现状
会议:“ ACM数据仓库和联机分析国际会议” 、 “数据仓库与 知识发现国际会议” 、 “ACM-SIGMOD数据管理国际会议” ( SIGMOD ) , “ 超 大 型 数 据 库 国 际 会 议 ” ( VLDB ) , “ ACM SIGACT-SIGMOD-SIGART 数 据 库 原 理 研 讨 会 ” (PODS),“数据工程国际会议”(ICDE),“扩展数据库 技 术 国 际 会 议 ” ( EDBT ) , “ 数 据 库 理 论 国 际 会 议 ” (ICDT),“信息与知识管理国际会议”(CIKM),“数据 库与专家系统应用国际会议”(DEXA),和“数据库系统高 级应用国际研讨会”(DASFAA)。
➢中国科学院史忠植教授等人提出MSMiner平台 。
➢复旦大学的朱扬勇教授建立了国内著名的“数据挖掘讨论 组”网站() 。
➢四川大学的唐常杰教授,华中科技大学的冯玉才教授中国 人民大学的王珊教授、孟小峰教授和杜小勇教授,复旦大 学的施伯乐教授,国防科技大学的陈文伟教授,哈尔滨工 业大学李建中教授和刘大昕教授,东北大学的于戈教授在 数据挖掘和数据仓库方面都做了许多有益的尝试。
-
10
课题的国内外研究现状
数据仓库界最知名的R.Kimbal博士提出了数据仓库业务维度生命 周期开发方法和数据仓库的总线结构。
加拿大Simon Fraser 大学智能数据库系统研究实验室开发的多任 务知识发现系统-DBMiner 。
IBM 公司Almaden 研究中心开发的多任务KDD 系统QUEST 。