(管理信息系统)MIS-6e 第06章 数据库和数据仓库技术 ok
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
竞争统计 数据仓库 顾客分类、信誉度平均
按年和季度求平均值 销售市场数据库
图6-15
销售额数据库
顾客数据库
数据仓库源于业务数据库
6.4.2 联机分析处理
• 联机分析处理(On-Line Analytical Processing, OLAP):主要是对大量多维数据的动态综合、分 析和归纳。 • OLAP中的一个主要操作是“多维分析”,即通 过对信息的多种可能的观察形式进行快速、稳定 、一致和交互性的存取,允许管理决策人员对数 据进行深入分析。
字符 ↓ 字段 ↓ 文件 ↓ 数据库 ↓ 数据仓库
信息 使用者
图6-2 信息的物理组织与逻辑组织
图6-4
逻辑数据元素之间的关系
1顺序文件组织
记录1 记录2 记录3 记录4 记录2
图6-5 磁盘顺序文件
2 索引文件
(a) 记录地址 A B C D E F G 学号 870701 870705 870707 870712 870721 870724 870736 (b) 记录地址 A B C D E F G 学号 870712 870724 870707 870701 870736 870721 870705 姓名 周╳ 王╳ 赵╳ 张╳ 黄╳ 陈╳ 李╳ 姓名 张╳ 李╳ 赵╳ 周╳ 陈╳ 王╳ 黄╳ 索引顺序文件 数学 68 95 77 85 62 82 75 物理 74 87 83 81 64 88 74 Basic 72 92 84 88 61 92 77 索引 主关键字(学号) 870701 870705 870707 870712 870721 870724 870736 索引 Basic 88 92 84 72 77 61 92 主关键字(学号) 870701 870705 870707 870712 870721 870724 870736 记录地址 D G C A F B E 记录地址 A B C D E F G
组织(事物及其联系) 实体及其联系(概念模型)
事物类(总体) 事物(对象、个体)
特征(性质)
实体集 实体
属性
文件 记录
数据项
数据库设计步骤
1. 对现实世界进行需求分析
① ② ③ 了解组织机构情况,为分析信息流做准备; 了解各部门业务情况,调查各部门输入和使用的数据,及处理数 据的方式与算法; 确定数据库的信息组成及计算机系统应实现的功能。
非索引顺序文件 数学 85 82 77 68 75 62 95 物理 81 88 83 74 74 64 87
3 链表文件
记录地址 DT入口→A NW入口→B C D E F EA入口→G H I J NE入口→K L 职工号 1111 1121 1981 2014 2084 2918 3001 3101 3241 3358 3861 3871 姓名 部门编号 DT NW DT DT NW NW EA DT EA DT NE NE 部门指南 C E D H F ∧ I J ∧ ∧ L ∧ 工作年限 -
大数据
• “大数据”是需要新处理模式才能具有更强的决 策力、洞察发现力和流程优化能力的海量、高增 长率和多样化的信息资产。-Gartner • 大数据技术的战略意义不在于掌握庞大的数据信 息,而在于对这些含有意义的数据进行专业化处 理。换言之,如果把大数据比作一种产业,那么 这种产业实现盈利的关键,在于提高对数据的“ 加工能力”,通过“加工”实现数据的“增值” 。
类型
• 公有云 • 私有云 • 混合云
应用
• • • • 云物联 云安全 云存储 云游戏
问题
• • • • • 数据隐私问题 数据安全性 用户的使用习惯 网络传输问题 缺乏统一的技术标准
大数据与云计算
从技术上看,大数据与云计算的关系就像一枚硬币的 正反面一样密不可分。大数据必然无法用单பைடு நூலகம்的计 算机进行处理,必须采用分布式计算架构。它的特色 在于对海量数据的挖掘,但它必须依托云计算的分布 式处理、分布式数据库、云存储和虚拟化技术。
架构
产品形态
• 运行在平台级机构之上,通过对持续性海量增加 的多结构类型数据,进行快速计算产生策略,结 合使用者的经验认知产生价值,形成商业闭环。 • 各种吐槽、舆论、谣言。 • 微博热议:马航事件后,你还会去马来西亚旅游 吗?
用大数据教你如何快速写出汪峰风 格的歌?
数据源:9张专辑, 117首歌曲
2. 建立信息世界中E-R(概念)模型
① ②
① ②
建立分E-R图; 综合分E-R图,产生总E-R图。
E-R图中每个实体,都相应地转换为一个关系 将联系转换成一个关系
3. 从E-R图导出计算机世界的关系数据模型
数据库设计案例 某学院“教学管理”数据库模型
1. 2. 3. 4. 5. 设计“系和教师关系”的分E-R图 设计“学生和课程关系”的分E-R图 设计“教师与课程关系”的分E-R图 将上述三个分综合,建立学院教学管理总E-R图 将学院“教学管理E-R图”所描述的信息(概念 )世界中的概念模型转化为计算机上由关系型 DBMS支持的关系数据模型。
政协委员陈建国建言:借势大数据 建构社会信用体系
第6章 数据库和数据仓库技术
6.1 6.2 6.3 6.4 企业数据处理方式 文件组织 数据库系统 数据仓库和商业智能
6.1 企业数据处理方式
• 以联机事务处理形式处理信息 • 以联机分析处理形式处理信息,并利用信息进行 决策 • 在信息应用过程中管理信息
增加一条新 的生产线
更该产品单价 扩大顾客的 信誉范围 顾客数 据库
服务形式
• IaaS (Infrastructure-as-a- Service) 通过 Internet可以获得完善的计算机基础设施服务。 • PaaS (Platform-as-a- Service) 将软件研发的平 台作为一种服务,以SaaS的模式提交给用户。 SaaS:软件即服务 • SaaS(Software-as-a- Service) 向提供商租用基 于Web的软件,来管理企业经营活动。
图6-7 银行数据库处理系统 图6-6 银行文件处理系统
6.3.2 数据库管理信息系统
图6-8 DBMS的主要功能
6.3.3 数据库模型与数据库组织结构
图6-9
数据模型
图6-10 数据库的三级体系结构
6.3.4 数据库设计
信息的转换
图6-11 三个不同的世界
6.3.4 数据库设计
表6-7 三个不同世界术语对照表 客观世界 信息世界 数据世界 数据库(数据模型)
有没有汪老师的感觉?
圆周率3.1415926,对应的词语就是:坚强,路, 飞,自由,雨,埋,迷惘。 稍微链接和润色一下: 坚强的孩子, 依然前行在路上, 张开翅膀飞向自由, 让雨水埋葬他的迷惘。
有没有汪老师的感觉?
• 比如某人的生日19820307:自由,桥,再见, 迷惘,生命,死,孤独,鸟 润色一下: 站在通向自由的桥上, 再见了,迷惘的生命, 犹如死亡般的孤独, 将不再桎梏这只小鸟。
辅关键字
指针表
2014 2918
3101
3358
2084
2918
2084 3241
2918 3358
3101 3871
3861
6.3数据库系统 6.3.1 数据库处理
信息需求与文件、程序的关系 信息需求 文件 应用程序
职工工薪
教育背景 工薪增加和提高
工薪文件
职工技能文件 个人情况变动文件
工薪程序
技能管理程序 个人情况变动程序
系。
教学管理总E-R图
图6-13
“教学管理”E-R图
6.3.5 数据库技术的发展趋势
• 数据管理方式:集中式 • 数据模型:关系数据库 对象数据库 中央数据库
主机
分布式 多媒体数据库、面向
中央数据库
主机
远程CPU
. . .
远程CPU
远程CPU
. . .
远程CPU
A 远程局部数据 库A
B 远程局部数据 库B
▫ ▫ ▫ ▫ 分类(Classification) 聚类(Clustering) 关联规则发现(Association Rule Discovery) 时序模式发现(Sequential Pattern Discovery)
6.4.4 商业智能
• 商业智能(Business Intelligence)是指通过对数 据的收集、管理、分析以及转化,使数据成为可 用的信息,并在企业中共享传递,从而帮助企业 获得必要的洞察力和理解力,更好地辅助决策和 指导行动。
特点
• Volume(大量)从TB级别,跃升到PB级别 • Velocity(高速)1秒定律、Apache Hadoop 群集 、SQL Server、Excel或Office 365可视化展示 • Variety(多样)网络日志、视频、图片、地理位 置信息…… • Value(价值)价值密度低,商业价值高
年份 顾客分类 信誉度
• 切片和切块 (Slice and Dice)
北区
• 钻取(Drill)
• 旋转(Rotate)/ 转轴(Pivot)
西南区 东南区 东区 西区 生产 生产 生产 生产 线1 线2 线3 线4
图6-16 多维视图示例
6.4.3 数据挖掘
• 数据挖掘(Data Mining)是从大量数据中自动发 现隐藏的有用知识的过程,是从大量数据中挖掘 “宝藏”的过程。
补充1:云计算
• 云计算是通过网络提供可伸缩的廉价的分布式计 算能力。-著云台团队 • 云计算是一种按使用量付费的模式,这种模式提 供可用的、便捷的、按需的网络访问, 进入可配 置的计算资源共享池(资源包括网络,服务器, 存储,应用软件,服务),这些资源能够被快速 提供,只需投入很少的管理工作,或与服务供应 商进行很少的交互。-美国国家标准与技术研究院
▫ 将“教师”设为一个实体,该实体具有以下属性: 教师编号、教师姓名、专业特长。其中教师编号是 主关键字。
教师编号
教师姓名
专业特长
教
师
• 学院聘请教师后,分配到各系。
系
▫ 一个系有多个教师;一个教师只能属于 一个系。“教师”实体与“系”实体之 间发生一对多(1:M)的“分配”联
1 分 配 m
教 师
A 复制数据库A
B 复制数据库B
(a) 图6-14
(b) 分布式数据库的结构形式
6.4 数据仓库和商业智能
6.4.1 数据仓库
• 数据仓库之父W.H.Inmon :“数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、非易失的(Non-Volatile)、随 时间变化的(Time Variant)的数据集合,用于支持管理决策”。
部门代码 (辅关键字符) DT NW
链表长度 (记录个数) 5 3
链头指针 (入口地址) A B
部门代码 (辅关键字符) EA NE
链表长度 (记录个数) 2 2
链头指针 (入口地址) G K
4 倒排文件
辅关键字值 部门编号 DT NW EA NE 工作年限N N≤5 5<N≤10 15<N≤20 N>20 透支现额% 0 100 200 1111 1121 1981 2014 3001 1111 3101 3001 1981 2014 3861 3871 1111 1121 3001 3861 1981 2084 3241 3871 指针
更改顾客 收入水平 个人信息数据库
产品数 据库
OLTP 信息被用于 -------------------------- 决策处理 ---------------------------OLAP 数据仓库 数据库的一种特定形 式,它仅支持决策处理
上个月有多少产品的销 售额超过10000美元
如果库存以10%速度 下降,那么新的库存 担负的成本是什么?
设计“系和教师关系”的分E-R图
• 该学院下设四个系:管理工程系、会计系、市场 营销系和信息管理系。每个系有一个系主任主管 该系工作。
▫ 将“系”设为一个实体,该实体具有以下属性:系 代号、系名称、系主任姓名、办公地点、电话。其 中系代号是主关键字
系代号 系名称 系主任 办公地点 电 话
系
• 该学院聘请了一定数量的专职教师。
顾客能变向接受 高价位产品吗?
图6-1
联机事务处理与联机分析处理
6.2文件组织 6.2.1 文件——数据库的基础
6.2.2 数据的物理组织和逻辑组织
存储介质 光盘 硬盘 软盘 物理组织 存储单位 比特(0,1) ↓ 字节 → ↓ 字 技术界面 逻辑组织
数据库 数据库管理系统 → 数据仓库 数据仓库管理系统
按年和季度求平均值 销售市场数据库
图6-15
销售额数据库
顾客数据库
数据仓库源于业务数据库
6.4.2 联机分析处理
• 联机分析处理(On-Line Analytical Processing, OLAP):主要是对大量多维数据的动态综合、分 析和归纳。 • OLAP中的一个主要操作是“多维分析”,即通 过对信息的多种可能的观察形式进行快速、稳定 、一致和交互性的存取,允许管理决策人员对数 据进行深入分析。
字符 ↓ 字段 ↓ 文件 ↓ 数据库 ↓ 数据仓库
信息 使用者
图6-2 信息的物理组织与逻辑组织
图6-4
逻辑数据元素之间的关系
1顺序文件组织
记录1 记录2 记录3 记录4 记录2
图6-5 磁盘顺序文件
2 索引文件
(a) 记录地址 A B C D E F G 学号 870701 870705 870707 870712 870721 870724 870736 (b) 记录地址 A B C D E F G 学号 870712 870724 870707 870701 870736 870721 870705 姓名 周╳ 王╳ 赵╳ 张╳ 黄╳ 陈╳ 李╳ 姓名 张╳ 李╳ 赵╳ 周╳ 陈╳ 王╳ 黄╳ 索引顺序文件 数学 68 95 77 85 62 82 75 物理 74 87 83 81 64 88 74 Basic 72 92 84 88 61 92 77 索引 主关键字(学号) 870701 870705 870707 870712 870721 870724 870736 索引 Basic 88 92 84 72 77 61 92 主关键字(学号) 870701 870705 870707 870712 870721 870724 870736 记录地址 D G C A F B E 记录地址 A B C D E F G
组织(事物及其联系) 实体及其联系(概念模型)
事物类(总体) 事物(对象、个体)
特征(性质)
实体集 实体
属性
文件 记录
数据项
数据库设计步骤
1. 对现实世界进行需求分析
① ② ③ 了解组织机构情况,为分析信息流做准备; 了解各部门业务情况,调查各部门输入和使用的数据,及处理数 据的方式与算法; 确定数据库的信息组成及计算机系统应实现的功能。
非索引顺序文件 数学 85 82 77 68 75 62 95 物理 81 88 83 74 74 64 87
3 链表文件
记录地址 DT入口→A NW入口→B C D E F EA入口→G H I J NE入口→K L 职工号 1111 1121 1981 2014 2084 2918 3001 3101 3241 3358 3861 3871 姓名 部门编号 DT NW DT DT NW NW EA DT EA DT NE NE 部门指南 C E D H F ∧ I J ∧ ∧ L ∧ 工作年限 -
大数据
• “大数据”是需要新处理模式才能具有更强的决 策力、洞察发现力和流程优化能力的海量、高增 长率和多样化的信息资产。-Gartner • 大数据技术的战略意义不在于掌握庞大的数据信 息,而在于对这些含有意义的数据进行专业化处 理。换言之,如果把大数据比作一种产业,那么 这种产业实现盈利的关键,在于提高对数据的“ 加工能力”,通过“加工”实现数据的“增值” 。
类型
• 公有云 • 私有云 • 混合云
应用
• • • • 云物联 云安全 云存储 云游戏
问题
• • • • • 数据隐私问题 数据安全性 用户的使用习惯 网络传输问题 缺乏统一的技术标准
大数据与云计算
从技术上看,大数据与云计算的关系就像一枚硬币的 正反面一样密不可分。大数据必然无法用单பைடு நூலகம்的计 算机进行处理,必须采用分布式计算架构。它的特色 在于对海量数据的挖掘,但它必须依托云计算的分布 式处理、分布式数据库、云存储和虚拟化技术。
架构
产品形态
• 运行在平台级机构之上,通过对持续性海量增加 的多结构类型数据,进行快速计算产生策略,结 合使用者的经验认知产生价值,形成商业闭环。 • 各种吐槽、舆论、谣言。 • 微博热议:马航事件后,你还会去马来西亚旅游 吗?
用大数据教你如何快速写出汪峰风 格的歌?
数据源:9张专辑, 117首歌曲
2. 建立信息世界中E-R(概念)模型
① ②
① ②
建立分E-R图; 综合分E-R图,产生总E-R图。
E-R图中每个实体,都相应地转换为一个关系 将联系转换成一个关系
3. 从E-R图导出计算机世界的关系数据模型
数据库设计案例 某学院“教学管理”数据库模型
1. 2. 3. 4. 5. 设计“系和教师关系”的分E-R图 设计“学生和课程关系”的分E-R图 设计“教师与课程关系”的分E-R图 将上述三个分综合,建立学院教学管理总E-R图 将学院“教学管理E-R图”所描述的信息(概念 )世界中的概念模型转化为计算机上由关系型 DBMS支持的关系数据模型。
政协委员陈建国建言:借势大数据 建构社会信用体系
第6章 数据库和数据仓库技术
6.1 6.2 6.3 6.4 企业数据处理方式 文件组织 数据库系统 数据仓库和商业智能
6.1 企业数据处理方式
• 以联机事务处理形式处理信息 • 以联机分析处理形式处理信息,并利用信息进行 决策 • 在信息应用过程中管理信息
增加一条新 的生产线
更该产品单价 扩大顾客的 信誉范围 顾客数 据库
服务形式
• IaaS (Infrastructure-as-a- Service) 通过 Internet可以获得完善的计算机基础设施服务。 • PaaS (Platform-as-a- Service) 将软件研发的平 台作为一种服务,以SaaS的模式提交给用户。 SaaS:软件即服务 • SaaS(Software-as-a- Service) 向提供商租用基 于Web的软件,来管理企业经营活动。
图6-7 银行数据库处理系统 图6-6 银行文件处理系统
6.3.2 数据库管理信息系统
图6-8 DBMS的主要功能
6.3.3 数据库模型与数据库组织结构
图6-9
数据模型
图6-10 数据库的三级体系结构
6.3.4 数据库设计
信息的转换
图6-11 三个不同的世界
6.3.4 数据库设计
表6-7 三个不同世界术语对照表 客观世界 信息世界 数据世界 数据库(数据模型)
有没有汪老师的感觉?
圆周率3.1415926,对应的词语就是:坚强,路, 飞,自由,雨,埋,迷惘。 稍微链接和润色一下: 坚强的孩子, 依然前行在路上, 张开翅膀飞向自由, 让雨水埋葬他的迷惘。
有没有汪老师的感觉?
• 比如某人的生日19820307:自由,桥,再见, 迷惘,生命,死,孤独,鸟 润色一下: 站在通向自由的桥上, 再见了,迷惘的生命, 犹如死亡般的孤独, 将不再桎梏这只小鸟。
辅关键字
指针表
2014 2918
3101
3358
2084
2918
2084 3241
2918 3358
3101 3871
3861
6.3数据库系统 6.3.1 数据库处理
信息需求与文件、程序的关系 信息需求 文件 应用程序
职工工薪
教育背景 工薪增加和提高
工薪文件
职工技能文件 个人情况变动文件
工薪程序
技能管理程序 个人情况变动程序
系。
教学管理总E-R图
图6-13
“教学管理”E-R图
6.3.5 数据库技术的发展趋势
• 数据管理方式:集中式 • 数据模型:关系数据库 对象数据库 中央数据库
主机
分布式 多媒体数据库、面向
中央数据库
主机
远程CPU
. . .
远程CPU
远程CPU
. . .
远程CPU
A 远程局部数据 库A
B 远程局部数据 库B
▫ ▫ ▫ ▫ 分类(Classification) 聚类(Clustering) 关联规则发现(Association Rule Discovery) 时序模式发现(Sequential Pattern Discovery)
6.4.4 商业智能
• 商业智能(Business Intelligence)是指通过对数 据的收集、管理、分析以及转化,使数据成为可 用的信息,并在企业中共享传递,从而帮助企业 获得必要的洞察力和理解力,更好地辅助决策和 指导行动。
特点
• Volume(大量)从TB级别,跃升到PB级别 • Velocity(高速)1秒定律、Apache Hadoop 群集 、SQL Server、Excel或Office 365可视化展示 • Variety(多样)网络日志、视频、图片、地理位 置信息…… • Value(价值)价值密度低,商业价值高
年份 顾客分类 信誉度
• 切片和切块 (Slice and Dice)
北区
• 钻取(Drill)
• 旋转(Rotate)/ 转轴(Pivot)
西南区 东南区 东区 西区 生产 生产 生产 生产 线1 线2 线3 线4
图6-16 多维视图示例
6.4.3 数据挖掘
• 数据挖掘(Data Mining)是从大量数据中自动发 现隐藏的有用知识的过程,是从大量数据中挖掘 “宝藏”的过程。
补充1:云计算
• 云计算是通过网络提供可伸缩的廉价的分布式计 算能力。-著云台团队 • 云计算是一种按使用量付费的模式,这种模式提 供可用的、便捷的、按需的网络访问, 进入可配 置的计算资源共享池(资源包括网络,服务器, 存储,应用软件,服务),这些资源能够被快速 提供,只需投入很少的管理工作,或与服务供应 商进行很少的交互。-美国国家标准与技术研究院
▫ 将“教师”设为一个实体,该实体具有以下属性: 教师编号、教师姓名、专业特长。其中教师编号是 主关键字。
教师编号
教师姓名
专业特长
教
师
• 学院聘请教师后,分配到各系。
系
▫ 一个系有多个教师;一个教师只能属于 一个系。“教师”实体与“系”实体之 间发生一对多(1:M)的“分配”联
1 分 配 m
教 师
A 复制数据库A
B 复制数据库B
(a) 图6-14
(b) 分布式数据库的结构形式
6.4 数据仓库和商业智能
6.4.1 数据仓库
• 数据仓库之父W.H.Inmon :“数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、非易失的(Non-Volatile)、随 时间变化的(Time Variant)的数据集合,用于支持管理决策”。
部门代码 (辅关键字符) DT NW
链表长度 (记录个数) 5 3
链头指针 (入口地址) A B
部门代码 (辅关键字符) EA NE
链表长度 (记录个数) 2 2
链头指针 (入口地址) G K
4 倒排文件
辅关键字值 部门编号 DT NW EA NE 工作年限N N≤5 5<N≤10 15<N≤20 N>20 透支现额% 0 100 200 1111 1121 1981 2014 3001 1111 3101 3001 1981 2014 3861 3871 1111 1121 3001 3861 1981 2084 3241 3871 指针
更改顾客 收入水平 个人信息数据库
产品数 据库
OLTP 信息被用于 -------------------------- 决策处理 ---------------------------OLAP 数据仓库 数据库的一种特定形 式,它仅支持决策处理
上个月有多少产品的销 售额超过10000美元
如果库存以10%速度 下降,那么新的库存 担负的成本是什么?
设计“系和教师关系”的分E-R图
• 该学院下设四个系:管理工程系、会计系、市场 营销系和信息管理系。每个系有一个系主任主管 该系工作。
▫ 将“系”设为一个实体,该实体具有以下属性:系 代号、系名称、系主任姓名、办公地点、电话。其 中系代号是主关键字
系代号 系名称 系主任 办公地点 电 话
系
• 该学院聘请了一定数量的专职教师。
顾客能变向接受 高价位产品吗?
图6-1
联机事务处理与联机分析处理
6.2文件组织 6.2.1 文件——数据库的基础
6.2.2 数据的物理组织和逻辑组织
存储介质 光盘 硬盘 软盘 物理组织 存储单位 比特(0,1) ↓ 字节 → ↓ 字 技术界面 逻辑组织
数据库 数据库管理系统 → 数据仓库 数据仓库管理系统