现代数据库技术复习大纲

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

现代数据库技术复习大纲
一、名词解释
数据仓库、基于Web的数据仓库、OLAP、数据挖掘、模式和知识、可信计算基、强制访问控制MAC、对象请求代理、OMG组织
数据仓库:数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集。

在数据仓库的基础上有两类分析工具，一类是做分析型工作的OLAP，另一类是做预测型工作的数据挖掘。

基于W eb的数据仓库：将Web技术与数据仓库相结合，既能弥补单纯数据仓库的缺陷，又将能有效地扩展数据仓库的应用范围。

而把它们应用于大规模制定生产模式，不仅能满足大规模定制生产模式下快速灵活实现产品多样化与定制化的要求，也将最大程度地集成Web技术与数据仓库的优势。

OLAP：OLAP专门为数据分析操作提供分析数据模型和直接提供分析数据。

OLAP是一种数据分析技术，能完成基于某种数据存储结构的数据分析功能，并具有快速性、可分析性、多维性、信息性等特点。

数据挖掘：数据挖掘就是对数据库中蕴涵的、未知的、非平凡的、有潜在应用价值的模式（规则）的提取。

模式和知识:
模式（pattern）：用高级语言表示的表达一定逻辑含义的信息。

知识（discovered knowledge）：满足用户兴趣度和置信度的模式。

可信计算基：TCB计算机系统内保护装置的总体，包括硬件、软件和负责执行安全策略的组合体。

强制访问控制(MAC)：计算机信息系统TCB对所有主体及其所控制的客体实施强制访问控制。

敏感标记：表示主/客体安全级别并描述客体数据敏感性的一组信息。

TCB把敏感标记作为强制访问控制决策的依据。

（同下）
对象请求代理（ORB）：ORB负责接受客户端的请求并寻找该对象的实现，激活对象实现部分以接受该访问请求，并发送该请求所需的数据。

客户端的调用接口完全独立于该对象的物理位置、所使用的实现语言和该对象的任何调用特征。

OMG组织：OMG组织采用的是一个抽象的对象模型，强调对对象的概念化描述及其组织，而不涉及到具体细节。

二、简述数据仓库的四大特色。

1面向主题：
数据仓库是面向分析、决策人员的主观要求的。

数据仓库中的主题有时会因用户主观要求的变化而变化。

2、集成的
需要对来自多个数据源的数据进行集成，这样的集成并不是从其他数据源中直接得到数据，而是要经过统一与综合。

统一：消除不一致的现象
综合：对原有数据进行综合和计算
数据在从操作型环境向数据仓库环境转移的同时进行集成。

3、不可更新的
数据仓库中的数据主要供企业决策分析之用，执行的主要是查询操作，一般情况下不执行修改操作。

但这也不等于数据仓库中的数据不需要更新操作。

在需要进行新的分析决策时，可
能需要进行更新操作，而数据仓库中一些过时的数据也可以通过删除操作丢掉。

4、随时间不断变化
数据仓库中的数据要随时间的变化而不断变化。

这种变化表现在三个方面：
不断增加新的数据内容
不断删除旧的数据内容
更新与时间有关的综合数据
三、简述数据仓库的设计原则和设计步骤。

设计原则：
1、面向主题的原则
数据仓库的组织设计必须以用户决策的需求来确定，即以用户决策的主观需求确定设计目标。

2、原型法原则
采用原型化方法来进行数据仓库的开发是比较合适的，即从构建系统的基本框架着手，不断丰富与完善系统。

数据仓库的设计是一个逐步求精的过程，用户的需求是在设计过程中不断细化明确的。

3、数据驱动原则
数据仓库的数据必须是从已有的数据源中抽取出来，是已存在的数据或对已经存在的数据进行加工处理而获得。

数据仓库的设计是一个循环反复的过程，在每一个循环中大致可分为以下几个步骤：
1、概念模型的设计
概念模型设计所要完成的工作是：
a. 确定系统边界
要做的决策有哪些？
决策者感兴趣的是什么问题？
这些问题需要什么样的信息？
要得到这些信息需要哪些信息源？
b. 确定主要的主题
确定系统所包含的主题，然后对每个主题的内容进行较明确的描述，包括：
确定主题及其属性信息：描述每个属性的取值情况，固定不变、半固定还是经常变化。

确定主题的公共码键
主题间的关系：主体间的关系及其属性
设计好上述三个方面的内容后，就可以形成一张E-R图，表示数据仓库的概念模型。

c. OLAP设计
根据用户的分析处理要求，设计系统所采用的OLAP数据模型。

2、逻辑模型的设计
本阶段的任务是对每个当前要装载的主要的逻辑实现进行定义，并将相关内容纪录在数据仓库的元数据中，包括：
适当的粒度划分
合理的数据分割策略
适当的表划分
定义合适的数据来源
3、物理模型设计
该阶段的任务是确定数据仓库中数据的存储结构，确定索引策略，确定数据存放位置，确定存储分配。

4、数据仓库的生成
根据数据仓库元数据中的定义信息，利用相关的数据抽取工具抽取生成数据仓库中的数据，并将其加载到数据仓库中去，统计生成OLAP数据。

在这一阶段，可能也要设计和编制一些数据抽取程序。

5、数据仓库的运行和维护
四、简要说明数据仓库中的数据刷新技术。

（不确定）
数据仓库中的数据主要供企业决策分析之用，执行的主要是查询操作，一般情况下不执行修改操作。

但这也不等于数据仓库中的数据不需要更新操作。

在需要进行新的分析决策时，可能需要进行更新操作，而数据仓库中一些过时的数据也可以通过删除操作丢掉。

数据仓库中的数据要随时间的变化而不断变化。

这种变化表现在三个方面：不断增加新的数据内容
不断删除旧的数据内容
更新与时间有关的综合数据
必须考虑数据库中每一数据项的时间和历史问题。

数据已存在了多长时间?你需要为哪些数据项保留其变化的历史记录?是需要版本控制系统吗?你必须考虑变化，因为数据库会改变。

你必须允许修改数据源、用户需要和数据模型的变化。

五、OLAP和OLTP的区别和联系是什么？OLAP与DM的区别和联系
OLTP OLAP
原始的细节性的数据导出的综合性数据
当前数据历史数据
可更新不可更新
一次处理的数据量小一次处理的数据量大
面向应用，事务驱动面向分析，分析驱动
面向操作人员面向决策人员，支持管
理需要
六、什么是星形模型？什么是雪花型模型？给一个例子以及在关系数据库中实现的模
型。

星形模型：比如：销售额（商品、商店、日期）
雪花模型：商品的某一维也可以是一个星形模型，比如：商品（类别，供应商，顾客）
以星形模型：销售额（商品，商店，日期）的实现为例，可以用关系数据库中的四张表来实
现该模型：
事实表：销售（商品标识、商店标识、日期标识、销售额）
维表1：商品（商品标识、类别、大类别）
维表2：商店（商店标识、市、省、国、洲）
维表3：时间（时间标识、日期、月份、年份）
七、数据仓库的结构和各部分的功能。

目前，数据仓库系统一般采用下面三种体系结构：
1 集中式数据仓库
在单个物理数据库中存储用来查询和分析的综合数据
2 分布式数据仓库
各数据成分分散在多个不同的物理数据库中。

3 虚拟数据仓库
形式上类似于分布式数据库，但本质不同。

在中心站点上存放的不是各站点的具体数据，而是描述这些数据的指针。

一个数据仓库系统有四个组成部分：
1、数据源
2、数据仓库
数据仓库有两种形式：
数据仓库：针对整个企业的一个全局数据仓库
数据集市（Data Mart）：针对企业内部某一部门的局部数据库
数据仓库在概念上虽然不同于数据库，但其实现一般用传统的数据库作适当的改造。

3、联机分析处理
数据仓库只是实现了数据集成，但真正的数据分析还有一些特殊的要求，即
分析角度
分析层次
统计型数据
4、工具和界面
在数据仓库的基础上还需要有一些分析和表示的工具：
分析工具
归纳工具
表示工具（界面）
八、什么是数据立方体？给出一个数据立方体的例子，并各举一例说明什么是切片操
作，什么是切块操作。

数据立方体：存放物化视图的三维数据模型称为数据立方体。

数据立方体方法
预先做好某种经常需要用到但花费较高的统计、求和等集成计算，并将统计结果放在多维数据库中。

常用的归纳方法：
数据概括（Roll_up）：将属性值提高到较高层次
数据细化（Drill_down）：将属性值降低一些层次
切片（Slice）：在多维数组的某一维上选定一维成员的动作称为切片。

其作用是舍弃一些观察角度，便于人们对数据的集中观察。

切块（Dice）：在多维数组的某一维上选定某一区间的维成员的动作称为切块。

切块可以看成是若干切片的叠加。

九、数据抽取的方法主要有哪些？
数据仓库的数据来源于多个数据源。

包括大型关系数据库、对象数据库、桌面数据库、各种非格式文件等。

这些数据可能分布在各种不同的数据操作平台上，并通过网络分布在不同的物理位置。

数据仓库的数据源可以是递归的。

在这些数据源中，所有用户所感兴趣的数据都可以通过数据抽取软件，进行统一与综合，把他们抽取到数据仓库中去。

数据抽取软件的功能包括两个方面：对原始数据的抽取以生成数据仓库中的数据，以及根据原始数据的变化情况对数据仓库数据的刷新操作。

在数据仓库层次结构中，数据抽取工作占非常重要的地位，它必须屏蔽底层数据的结构复杂性和物理位置的复杂性，同时还要实现对数据仓库中数据的自动刷新，要对数据仓库的元数据和数据进行维护。

考虑不同数据源的数据格式和物理位置的复杂性，不同的数据源需要采用不同的数据抽取方式。

十、简述数据挖掘的基本过程。

数据挖掘基本步骤包括:
1.定义商业问题
2.建立数据挖掘模型
3.分析数据
4.准备数据
5.建立模型
6.评价模型
7.实施
十一、数据挖掘的知识的形式有哪些？
通过数据挖掘技术可以发现的知识形式
普化知识（Summarization）
关联规则（Association Rule）
分类规则（Classification）
聚类分析（Clustering）
预测分析（Predication）
十二、给出下列主要的几种数据挖掘方法的基本思想：
特征规则、关联规则
特征规则：是一种常见的知识形式，它用于描述一类数据对象的普遍特征，是普化知识的一种。

特征规则的数据挖掘方法有两类：面向属性归约方法和数据立方体方法。

面向属性归约方法：该方法通过对属性值间概念的层次结构进行归约，以获得相关数据的概括性知识，通常又称为普化知识。

数据立方体方法：预先做好某种经常需要用到但花费较高的统计、求和等集成计算，并将统计结果放在多维数据库中。

关联规则：用于表示OLTP数据库中诸多事务中项集之间的关联程度。

关联规则发现问题的实质是在OLTP数据库中寻找满足用户给定的最小支持和最小置信度的规则
十三、给出ODBC接口的设计思想及其运行方式。

ODBC接口提供了最大限度的相互可操作性：一个应用程序可以通过一组通用的代码访问不同的数据库管理系统。

其实现思想如下：
十四、JDBC的体系结构是什么？
JDBC的体系结构包含四个组件：
1、JDBC应用程序
负责用户与用户接口之间的交互操作，以及调用JDBC的对象方法以给出SQL语句并提取结果。

2、JDBC驱动程序管理器
为应用程序加载和调用驱动程序
3、JDBC驱动程序
执行JDBC对象方法调用，发送SQL请求给指定的数据源，并将结果返回给应用程序。

4、数据源
数据源由数据集和与其相关联的环境组成，主要指各数据库厂商的数据库系统。

十五、CORBA的基本结构及其设计思想。

（？）
一、CORBA的对象模型
OMG组织采用的是一个抽象的对象模型，强调对对象的概念化描述及其组织，而不涉及到具体细节。

二、对象请求代理(ORB)的结构
ORB负责接受客户端的请求并寻找该对象的实现，激活对象实现部分以接受该访问请求，
并发送该请求所需的数据。

客户端的调用接口完全独立于该对象的物理位置、所使用的实现语言和该对象的任何调用特征。

CORBA的网络结构
十六、画图说明对象请求代理的结构。

Dynamic ORB Dynamic
对象请求代理的结构
十七、简要叙述数据安全模型中的10个基本概念。

1. 可信计算基（Trusted Computer Base）TCB
计算机系统内保护装置的总体，包括硬件、软件和负责执行安全策略的组合体。

2. 主体、客体
客体：信息的载体（数据及其载体）
主体：引起信息在客体之间流动的人、进程或设备等，即客体的访问者。

主客体分离：是所有安全系统的一个抽象模型。

3. 身份鉴别
TCB初始执行时，首先要求用户标识自己的身份，并用保护机制来鉴别用户的身份。

4. 自主访问控制(DAC)
计算机信息系统TCB定义和控制系统中命名用户对命名系统的访问。

实施机制：访问矩阵
实施方式：允许命名用户以用户和用户组的身份规定并控制客体的共享
实施目的：阻止非授权用户读取敏感信息
特点：有用户自己决定数据的存取权限，并可以进行授权的传递与回收，适合于单机方式下的访问控制。

5. 数据的完整性
计算机信息系统可通过TCB自主完整性策略，阻止非授权用户修改或破坏敏感信息6. 审计
跟踪记录用户对数据的访问操作，可根据审计结果给出报警信息。

7. 强制访问控制（MAC）
计算机信息系统TCB对所有主体及其所控制的客体实施强制访问控制。

敏感标记：表示主/客体安全级别并描述客体数据敏感性的一组信息。

TCB把敏感标记作为强制访问控制决策的依据。

访问原则：
向下读：
向上写：
8. 隐蔽通道
公开通道：正规的、受自主/强制访问控制的访问通道。

隐蔽通道：非正规的访问。

主体通过隐蔽通道对客体的访问操作不受TCB的控制。

9. 安全模型形式化
用数学形式对数据安全模型的安全策略作形式化的描述、验证与证明，形成严格的形式化体系。

10. 访问监控器
前述的安全策略须有一个网络中的实体来完成，即访问监控器。

访问监控器是一个独立的、最小的、自主机构，用来监控主体和实体之间授权访问关系。

十八、给出计算机信息系统安全保护等级划分准则。

计算机系统安全保护能力的五个等级，即：
第一级：用户自主保护级；
本级的计算机信息系统可信计算基通过隔离用户与数据，使用户具备自主安全保护的能力。

它具有多种形式的控制能力，对用户实施访问控制，即为用户提供可行的手段，保护用户和用户组信息，避免其他用户对数据的非法读写和破坏。

第二级：系统审计保护级；
与用户自主保护级相比，本级计算机信息系统可信计算基实施了粒度更细的自主访问控
制，它通过登陆规程、审计安全性相关事件和隔离资源，使用户对自己的行为负责第三级：安全标记保护级；
本级的计算机信息系统可信计算基具有系统审计保护级所有功能。

此外，还提供有关安全策略模型、数据标记以及主体对客体强制访问控制的非形式化描述，具有准确地标记输出信息的能力，消除通过测试发现的任何错误。

第四级：结构化保护级；
本级的计算机信息系统可信计算基建立于一个明确定义的形式化安全策略模型之上，它要求将第三级系统中的自主和强制访问控制扩展到所有主体与客体。

此外，还要考虑隐蔽通道。

第五级：访问验证保护级。

本级的计算机信息系统可信计算基满足访问监控器的要求。

访问监控器仲裁主体对客体的全部访问。

访问控制器本身是抗篡改的，必须足够小，能够分析和测试。

本标准适用计算机信息系统安全保护技术能力等级的划分。

计算机信息系统安全保护能力随着安全保护等级的增高，逐渐增强。

十九、什么是强制访问控制？其实现方式是什么？
强制访问控制，是指由系统(通过专门设置的系统安全员)对用户所创建的对象进行统一的强制性控制，按照规定的规则决定哪些用户可以对哪些对象进行什么样操作系统类型的访问，即使是创建者用户，在创建一个对象后，也可能无权访问该对象。

TCB对所有主体及其所控制的客体（进程、文件、段、设备、表、视图）实施强制访问。

为这些主体及客体指定敏感标记，这些标记是等级分类（安全级别）和非等级分类（范畴）的组合，它们是实施强制访问控制的依据。

二十、以一个你所熟悉的数据库系统为例，给出哪些需要保护的主体与客体。