数据库与数据挖掘阶段考试试题及答案

合集下载

数据挖掘考试题及答案

数据挖掘考试题及答案### 数据挖掘考试题及答案#### 一、选择题（每题2分，共20分）1. 数据挖掘的目的是发现数据中的：- A. 错误- B. 模式- C. 异常- D. 趋势答案：B2. 以下哪项不是数据挖掘的常用算法：- A. 决策树- B. 聚类分析- C. 线性回归- D. 神经网络答案：C3. 关联规则挖掘中，Apriori算法用于发现：- A. 频繁项集- B. 异常值- C. 趋势- D. 聚类答案：A4. K-means算法是一种：- A. 分类算法- B. 聚类算法- C. 预测算法- D. 关联规则挖掘算法答案：B5. 以下哪个指标用于评估分类模型的性能：- A. 准确率- B. 召回率- C. F1分数- D. 所有以上答案：D#### 二、简答题（每题10分，共30分）1. 描述数据挖掘中的“过拟合”现象，并给出避免过拟合的策略。

答案：过拟合是指模型对训练数据拟合得过于完美，以至于失去了泛化能力。

避免过拟合的策略包括：使用交叉验证、正则化技术、减少模型复杂度、获取更多的训练数据等。

2. 解释什么是“数据清洗”以及它在数据挖掘中的重要性。

答案：数据清洗是指从原始数据中识别并纠正（或删除）错误、重复或不完整的数据的过程。

它在数据挖掘中至关重要，因为脏数据会导致分析结果不准确，影响最终的决策。

3. 描述“特征选择”在数据挖掘中的作用。

答案：特征选择是数据挖掘中用来降低数据维度、提高模型性能和减少计算成本的过程。

通过选择最有信息量的特征，可以去除冗余或无关的特征，从而提高模型的准确性和效率。

#### 三、应用题（每题25分，共50分）1. 假设你正在分析一个电子商务网站的用户购买行为，描述你将如何使用数据挖掘技术来识别潜在的营销机会。

答案：首先，我会使用聚类分析来识别不同的用户群体。

然后，通过关联规则挖掘来发现不同用户群体的购买模式。

接着，利用分类算法来预测用户可能感兴趣的产品。

数据库数据挖掘与分析考试试卷

数据库数据挖掘与分析考试试卷（答案见尾页）一、选择题1. 数据挖掘的主要目的是什么？A. 提取数据库中的数据B. 分析数据库中的数据以发现隐藏的模式和关联C. 存储和管理数据库中的数据D. 传输数据库中的数据2. 在数据挖掘中，以下哪个过程是用来发现数据项之间的有趣关系和关联的？A. 数据清理B. 数据集成C. 数据转换D. 数据挖掘3. 数据挖掘任务通常不包括以下哪项？A.分类B.聚类C.回归D. 数据库优化4. 关联规则学习是数据挖掘中的一个重要技术，它主要关注什么？A. 发现数据集中不同项之间的因果关系B. 发现数据集中频繁出现的模式和关联C. 建立数据模型以预测未来趋势D. 优化数据库查询性能5. 在聚类分析中，以下哪个选项不是常用的距离度量方法？A. 曼哈顿距离B. 欧氏距离C. 切比雪夫距离D. 余弦相似度6. 数据挖掘中经常使用哪种图表来展示聚类结果？A. 条形图B. 饼图C. 网络图D. 散点图7. 在数据挖掘中，以下哪个算法主要用于发现连续数值型数据中的异常值或离群点？A. K-均值算法B. DBSCANC. 谱聚类算法D. 决策树算法8. 数据挖掘中，以下哪个步骤不是数据预处理的一部分？A. 数据清洗B. 数据集成C. 数据转换D. 数据降维9. 在建立数据挖掘模型时，以下哪个步骤不是特征选择的一部分？A. 特征提取B. 特征选择C. 特征验证D. 特征排序10. 数据挖掘中，以下哪个工具不是常用的数据挖掘工具？A. SQLB. ExcelC. PythonD. R二、问答题2. 什么是SQL语言？请列举几种常见的SQL语句。

3. 什么是数据库的完整性约束？请举例说明。

4. 什么是数据库的设计原则？请列举几个常用的设计原则。

5. 什么是数据库的范式？请简要解释第一范式和第二范式。

6. 什么是数据库索引？请简述索引的作用和分类。

7. 什么是数据库的事务处理？请简述事务的定义和特性。

数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程，以下哪项不是数据挖掘的主要任务？A. 预测B. 分类C. 聚类D. 数据可视化答案：D2. 以下哪种技术不属于数据挖掘的常用方法？A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案：D3. 数据挖掘中，以下哪项技术常用于分类和预测？A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案：D4. 在数据挖掘中，以下哪个概念表示数据集中的属性？A. 数据项B. 数据记录C. 数据属性D. 数据集答案：C5. 数据挖掘中，以下哪个算法用于求解关联规则？A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案：A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。

答案：有价值7. 在数据挖掘中，分类任务分为有监督学习和______学习。

答案：无监督8. 决策树是一种用于分类和预测的树形结构，其核心思想是______。

答案：递归划分9. 关联规则挖掘中，支持度表示某个项集在数据集中的出现频率，置信度表示______。

答案：包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中，聚类分析是将数据集划分为若干个______的子集。

答案：相似三、判断题11. 数据挖掘只关注大量数据中的异常值。

（）答案：错误12. 数据挖掘是数据仓库的一部分。

（）答案：正确13. 决策树算法适用于处理连续属性的分类问题。

（）答案：错误14. 数据挖掘中的聚类分析是无监督学习任务。

（）答案：正确15. 关联规则挖掘中，支持度越高，关联规则越可靠。

（）答案：错误四、简答题16. 简述数据挖掘的主要任务。

答案：数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。

17. 简述决策树算法的基本原理。

答案：决策树算法是一种自顶向下的递归划分方法。

它通过选择具有最高信息增益的属性进行划分，将数据集划分为若干个子集，直到满足停止条件。

数据仓库与数据挖掘考试试题

一、填空题（15分）1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。

2.元数据是描述数据仓库内数据的结构和建立方法的数据。

根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。

3.OLAP技术多维分析过程中，多维分析操作包括切片、切块、钻取、旋转等。

4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构，其中企业级数据仓库是中心，源数据系统和数据集市在输入和输出范围的两端。

5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库，也叫运营数据存储。

二、多项选择题（10分）6.在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ）A 分类B 关联C 估值D 预言7.数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ）A 数据抽取B 数据转换C 数据加载D 数据稽核8.数据分类的评价准则包括（ ABCD ）A 精确度B 查全率和查准率C F-MeasureD 几何均值9.层次聚类方法包括（ BC ）A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法10.贝叶斯网络由两部分组成，分别是（ A D ）A 网络结构B 先验概率C 后验概率D 条件概率表三、计算题（30分）11.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定sup min=40%，conf min=40%，使用Apriori算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。

（15分）解：（1）由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1，计算其支持度，取出支持度小于sup min的项集，形成1-频繁集L1，如下表所示：(2)组合连接L1中的各项目，产生2-候选集C2，计算其支持度，取出支持度小于sup min的项集，形成2-频繁集L2，如下表所示：至此，所有频繁集都被找到，算法结束，所以，confidence（{面包}→{花生酱}）=（4/5）/（3/5）=4/3> conf minconfidence（{ 花生酱}→{面包}）=（3/5）/（4/5）=3/4> conf min所以，关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

数据仓库和数据挖掘试题答案南京理工研究生

数据仓库及数据挖掘I.选择题，为每个问题选择最适宜的答案(10×2%＝20%)1.数据仓库上的业务处理称作＿B＿。

A.联机事务处理B.联机分析处理C.联机输入处理D.联机查询处理2.在自然演化体系构造中，关于导致数据缺乏可信性的原因的说法哪个不正确？DA.数据无时基B.抽取程序的算法有差异C.抽取的层次不同D.缺乏集成性3.下面哪项关于OLTP及OLAP访问特点的说法是不正确的。

AA.OLTP和OLAP对于响应时间的要求都高B.OLTP访问频率高，OLAP访问频率低C.OLAP访问大量的历史，执行大量统计操作D.OLTP数据处理具有并发性4.下面关于数据仓库中数据的说法错误的选项是？A.数据越详细，粒度越小，层次级别就越高。

B.在估计直接存储设备数时，如数据超过1000万行必须强制采取双重粒度级。

C.数据仓库大局部分析是针对被压缩的、存取效率高的轻度级数据进展的。

D.数据分割便于数据的重构、重组和恢复，以提高创立索引和顺序扫描的效率。

5.下面关于数据仓库的数据存储方式的说法哪个是不正确的？FE.虚拟存储方式中，数据仓库的数据仍然在源数据中。

F.星型模式下的维表标准化的，而雪花模式下的不需要标准化G.在查询效率方面，星型模式效率更高H.在事实星座模式中有多个事实表，且它们共享一样的维表6.下面关于星型模型的说法哪个是不正确的？I.有一个包含大量数据的事实表J.有一组小的附属表，称为维表，每维一个。

K.事实表的每个字段都是事实度量字段L.事实中每条元组都含有指向各个维表的外键和一些相应的度量数据。

7.下面关于数据仓库的数据追加的说法哪个是不正确的？CA.时标法需要为记录数据增加一个时间标志。

B.前后映像文件方法需要扫描整个数据库，占用较多资源，对性能有较大影响C.DELTA不需要扫描整个数据库，效率较高，应用普遍D.日志文件法也不需要扫描整个数据库，是固有机制。

8.假设收入属性的最小及最大分别是10000和90000，现在想把当前值30000映射到区间[0,1],假设采用最大－最小数据标准方法，计算结果是多少？B9.下面关于维的概念哪个是不正确的？ CA.维是人们观察数据的特定角度。

北京大学《数据仓库与数据挖掘》试题答案整理

《数据仓库与数据挖掘》试题与答案整理2013级智能系高飙1.名词解释5x4（1）主题主题（Subject）：宏观分析领域所涉及的分析对象。

是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念，每一个主题基本对应一个宏观的分析领域。

面向主题的数据组织方式：在较高的层次上对分析对象的数据的一个完整、一致的描述。

（2）事实（P联机分析）事实是数值度量的；存储一个多维数据，表达期望分析的主题（目的、感兴趣的事情、事件或者指标等）；具有一定的粒度，粒度的大小与维层次相关；一个事实中通常包含一个或者多个度量一个事实的两个组件：数字型指标、聚集函数（3）数据归约（P数据预处理）在可能获得相同或相似结果的前提下，对数据的容量进行有效的缩减数据归约的方法：1数据立方体聚集：聚集操作作用于立方体中的数据2减少数据维度（维归约）：可以检测并删除不相关、弱相关或者冗余的属性或维3数据压缩：使用编码机制压缩数据集4数值压缩：用替代的、较小的数据表示替换或估计数据5数据离散化以及概念层次的建立：属性的原始值用区间值或较高层的概念予以替换（4）兴趣度（P数据挖掘）一个数据挖掘系统的挖掘结果可能会产生成千上万个模式，但是并不是所有的模式都有意义。

兴趣度度量用于将不感兴趣的模式从知识中分开。

他们可以用于指导挖掘过程，或在挖掘之后，评估发现的模式。

不同类型的数据需要不同的兴趣度量。

兴趣度的度量：一个模式是否感兴趣，取决于它是否容易被用户所理解，是否有效可信，是否潜在有用，是否新颖等兴趣度的度量:客观的度量: 从模式的角度出发，基于模式结构的某些统计的结果，如：支持度（support）、置信度（confidence）等。

主观的度量:从用户的角度出发，对模式的信任程度，如：新颖性、可操作性等。

（5）数据分区（片）（P数据仓库设计）把逻辑上统一的数据分割成较小的、可以独立管理的物理单元（分片）进行存储。

可按时间、按地区、按业务类型进行数据分片（6）数据挖掘数据挖掘是识别数据中有效的、新颖的、潜在有用的和最终可被理解的模式（Pattern）的非平凡过程。

数据挖掘测试题及答案

数据挖掘测试题及答案一、选择题1. 数据挖掘的目的是：A. 数据清洗B. 数据转换C. 模式发现D. 数据存储答案：C2. 以下哪项不是数据挖掘的常用算法？A. 决策树B. 聚类分析C. 线性回归D. 关联规则答案：C二、填空题1. 数据挖掘中的_________是指在大量数据中发现的有意义的模式。

答案：知识2. 一种常用的数据挖掘技术是_________，它用于发现数据中隐藏的分组。

答案：聚类三、简答题1. 简述数据挖掘与数据分析的区别。

答案：数据挖掘是一种自动或半自动的过程，旨在从大量数据中发现模式和知识。

数据分析通常涉及更具体的查询和问题，使用统计方法来理解数据。

2. 描述什么是关联规则挖掘，并给出一个例子。

答案：关联规则挖掘是一种用于发现变量之间有趣关系的技术，特别是变量之间的频繁模式、关联或相关性。

例如，在市场篮子分析中，关联规则挖掘可以用来发现顾客购买行为中的模式，如“购买面包的顾客中有80%也购买了牛奶”。

四、计算题1. 给定以下数据集，计算支持度和置信度：| 事务ID | 购买的商品 |||-|| 1 | A, B || 2 | A, C || 3 | B, C || 4 | A, B, C || 5 | B, D |(1) 计算项集{A}的支持度。

(2) 计算规则A => B的置信度。

答案：(1) 项集{A}的支持度为4/5，因为A出现在4个事务中。

(2) 规则A => B的置信度为3/4，因为A和B同时出现在3个事务中，而A出现在4个事务中。

五、论述题1. 论述数据挖掘在电子商务中的应用，并给出至少两个具体的例子。

答案：数据挖掘在电子商务中的应用非常广泛，包括：- 客户细分：通过数据挖掘技术，商家可以识别不同的客户群体，为每个群体提供定制化的服务或产品。

- 推荐系统：利用关联规则挖掘，电商平台可以推荐用户可能感兴趣的商品，提高用户满意度和购买率。

- 欺诈检测：通过分析交易模式，数据挖掘可以帮助识别异常行为，预防信用卡欺诈等风险。

数据挖掘测试题及答案

数据挖掘测试题及答案一、单项选择题（每题2分，共10题，共20分）1. 数据挖掘中，用于发现数据集中的关联规则的算法是：A. K-meansB. AprioriC. Naive BayesD. Decision Tree答案：B2. 以下哪个选项不是数据挖掘的步骤之一：A. 数据预处理B. 数据探索C. 数据收集D. 数据分析答案：C3. 在分类问题中，以下哪个算法属于监督学习：A. 聚类B. 决策树C. 关联规则D. 异常检测答案：B4. 数据挖掘中，用于发现数据集中的频繁项集的算法是：A. K-meansB. AprioriC. Naive BayesD. Decision Tree5. 在数据挖掘中，以下哪个选项不是数据预处理的步骤：A. 数据清洗B. 数据集成C. 数据变换D. 数据分类答案：D6. 以下哪个算法主要用于聚类问题：A. K-meansB. AprioriC. Naive BayesD. Decision Tree答案：A7. 在数据挖掘中，以下哪个选项不是数据挖掘的应用领域：A. 市场分析B. 医疗诊断C. 社交网络分析D. 视频游戏开发答案：D8. 以下哪个算法主要用于异常检测：A. K-meansB. AprioriC. Naive BayesD. One-Class SVM答案：D9. 在数据挖掘中，以下哪个选项不是数据挖掘的输出结果：B. 规则C. 趋势D. 软件答案：D10. 以下哪个算法主要用于分类问题：A. K-meansB. AprioriC. Naive BayesD. Decision Tree答案：D二、多项选择题（每题3分，共5题，共15分）1. 数据挖掘中，以下哪些算法可以用于分类问题：A. K-meansB. Decision TreeC. Naive BayesD. Logistic Regression答案：BCD2. 在数据挖掘中，以下哪些步骤属于数据预处理：A. 数据清洗B. 数据集成C. 数据变换D. 数据分类答案：ABC3. 以下哪些算法可以用于聚类问题：A. K-meansB. AprioriC. Hierarchical ClusteringD. DBSCAN答案：ACD4. 在数据挖掘中，以下哪些步骤属于数据探索：A. 数据可视化B. 数据摘要C. 数据分类D. 数据变换答案：AB5. 以下哪些算法可以用于异常检测：A. K-meansB. One-Class SVMC. Isolation ForestD. Apriori答案：BC三、简答题（每题5分，共3题，共15分）1. 简述数据挖掘中关联规则挖掘的主要步骤。

数据仓库与数据挖掘,DBMS题库考试大纲和答案

确定索引策略——B树索引位图索引等确定数据存放位置 ——磁带磁盘等确定存储分配优化 ◆数据仓库生成通过专用的数据抽取工具或者通过自行编程实现数据抽取、转换和装载。 ◆数据仓库运行与维护建立DSS应用，使用数据仓库理解需求，调整和完善系统，维护数据仓库。 17．简要说明异常点挖掘有哪些方法？
问答题： 1．操作型数据和分析型数据的主要区别是什么？
面向分析，分析驱动面向应用，事务驱动面向决策人员，支持管理需要面向操作人员，支持日常操作用户数量相对较少用户数量大响应时间合理对响应时间要求高一次处理的数据量大一次处理的数据量小周期性更新经常更新历史数据当前数据综合性数据
18．什么是数据驱动的系统设计方法？ 19．简述采用决策树方法进行分类的过程。决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较，并根据不同的属性值从该结点向下分支，叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则，整个决策树就对应着一组析取表达式规则。 20．请简述采用神经元网络进行分类的过程。人类大脑的思维分为抽象（逻辑）思维、形象（直观）思维和灵感（顿悟）思维三种基本方式。逻辑性的思维是指根据逻辑规则进行推理的过程；它先将信息化成概念，并用符号表示，然后，根据符号运算按串行模式进行逻辑推理；这一过程可以写成串行的指令，让计算机执行。然而，直观性的思维是将分布式存储的信息综合起来，结果是忽然间产生想法或解决问题的办法． 13．
案。序列模式分析：发现在时间序列上，一个项目集之后的项目集是什么，即找到时间上连续的事件。广义索引也是为了提高数据仓库中数据访问速度而采用的一种索引技术。主要是处理一些最值问题。星型模型：是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统，为用户提供分析服务对象。核心是事实表，围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来，各个维度表都连接到中央事实表。 OLAP中的维和维层次维是人们观察数据的特定角度；维的层次是维在不同细节程度的描述雪片模型是对星型模型的扩展，每一个维度都可以向外连接到多个详细类别表。雪花模型对星型模型的维度表进一步标准化，对星型模型中的维度表进行了规范化处理。关联分析适合于从关系中挖掘知识。包含关联发现、序列模式发现和类似的时序发现等。

数据仓库与数据挖掘考试试题

数据仓库与数据挖掘考试试题
1. 简答题
a) 数据仓库的定义是什么？
b) 数据挖掘的基本任务有哪些？
c) 数据清洗在数据挖掘中的作用是什么？
2. 选择题
请从以下选项中选择正确答案：
a) 数据仓库的主要特点是：
A. 面向主题
B. 面向过程
C. 面向对象
D. 面向细节
b) 数据挖掘的主要方法包括：
A. 分类
B. 聚类
C. 关联分析
D. 回归分析
c) 数据清洗的过程包括：
A. 数据标准化
B. 数据去重
C. 数据缺失值处理
D. 数据转换
3. 算法题
使用Apriori算法来进行关联规则挖掘，假设有以下购物篮数据集：{牛奶，面包，尿布}
{可乐，面包，尿布}
{牛奶，可乐，尿布}
{牛奶，面包，可乐}
请按照步骤描述如何使用Apriori算法来找出频繁项集和关联规则。

4. 应用题
某电商网站的用户行为数据包括用户ID、商品ID、购买时间等字段，试设计一个数据挖掘任务，根据历史数据预测用户未来可能购买
的商品。

请描述具体的数据处理流程和算法选择，以及如何评估模型
的准确性。

5. 论述题
数据仓库和数据挖掘在实际应用中的价值和意义是什么？结合具体案例或行业来说明，并探讨未来数据仓库和数据挖掘的发展方向。

以上为数据仓库与数据挖掘考试试题的内容，希望您认真针对每个问题进行回答，考试时间为2小时，请自行安排时间和注意事项，祝您考试顺利！。

数据仓库与数据挖掘技术-试题答案

数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理？数据预处理主要包括哪些工作（需要对数据进行哪些方面预处理）?（1）现实世界的数据是杂乱的，数据多了什么问题会出现。

数据库极易受到噪音数据(包含错误或孤立点）、遗漏数据（有些感兴趣的属性缺少属性值或仅包含聚集数据）和不一致数据（在编码或者命名上存在差异）的侵扰，因为数据库太大，常常多达几G或更多。

进行数据预处理，提高数据质量，从而提高挖掘结果质量。

（2）数据预处理主要包括：数据清理：去除数据中的噪音、纠正不一致；数据集成：将数据由多个源合并成一致的数据存储，如数据仓库或数据方；数据交换：规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性；数据归约：通过聚集、删除冗余特征或聚类等方法来压缩数据。

数据离散化：属于数据归约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要。

2. 什么叫有监督学习？什么叫无监督学习？）是通过发现数据属性和类别属性之间的关联模式，并通监督学习（Supervised learning或归纳过利用这些模式来预测未知数据实例的类别属性。

监督学习又称为分类Classification。

学习Inductive Learning无监督学习（Unsupervised learning）即聚类技术。

在一些应用中，数据的类别属性是缺失的，用户希望通过浏览数据来发现其的某些内在结构。

聚类就是发现这种内在结构的技术。

3.什么是数据仓库的星形模式？它与雪花模式有何不同？雪花模式与星形模式不同在于：雪花模式的维表可能是规范化形式，以便减少冗余。

这种表易于维护，并节省存储空间，因为当维结构作为列包含在内时，大维表可能非常大。

然而，与巨大的事实表相比，这种空间的节省可以忽略。

此外，由于执行查询更多的连接操作，雪花结构可能降低浏览的性能。

这样系统的性能可能受影响。

因此，在数据仓库设计中，雪花模式不如星形模式流行。

二、写出伪代码三答：（1）所有频繁项集为：[E,K,O] [K,M] [K,Y] (2) 关联规则:[O]->[E,K] 1.0[E,O] -> [K] 1.0[K,O] -> [E] 1.01.0[M] -> [K][Y] -> [K] 1.0答：a)决策树表示一种树型结构，它由它的分来对该类型对象依靠属性进行分类。

数据库与数据挖掘_南京邮电大学中国大学mooc课后章节答案期末考试题库2023年

数据库与数据挖掘_南京邮电大学中国大学mooc课后章节答案期末考试题库2023年1.在通常情况下，下面的关系中不可以作为关系数据库的关系的是（）参考答案:R4（学号，姓名，简历）2.以下是大数据存储面临的挑战（）参考答案:应用问题_管理问题_系统问题3.数据挖掘常用的算法有（）参考答案:特征分析_分类_聚类_决策树归纳4.分布式系统可以同时满足CAP原则参考答案:错误5.大数据的特征包括（）参考答案:容量大_速度快_多样性_价值高6.以下不是Spark 四大组件的有（）参考答案:Spark R_pyspark7.关于L1和L2正则化，下面说法对的是 ( )参考答案:L2正则化标识各个参数的平方的和的开方值_L1范数会值得权值稀疏8.小明参加某公司的大数据竞赛，他的成绩在大赛排行榜上原本居于前二十，后来他保持特征不变，对原来的模型做了1天的调参，将自己的模型在自己本地测试集上的准确率提升了5%，然后他信心满满地将新模型的预测结果更新到了大赛官网上，结果懊恼地发现自己的新模型在大赛官方的测试集上准确率反而下降了。

（）参考答案:可能发生过拟合了_应该利用交叉验证判断是否过拟合9.以下哪些算法是推荐系统常用算法（）参考答案:内容过滤_协同过滤10.以下哪些算法是文本处理中常用模型（）参考答案:tf-idf_word2vec_词向量11.下面算法中能够使用核函数的算法是（）参考答案:K-means_SVM12.下面关于贝叶斯分类器的描述哪些是对的？ ( )参考答案:对缺失数据不敏感_假设属性之间相互独立13.评价警察抓小偷，描述警察抓的人中有多少个是小偷的标准( )参考答案:Precesion14.数据预处理指在主要的处理后对数据进行处理（）参考答案:错误15.只要有数据，就必然存在安全与隐私的问题（）参考答案:正确16.Hadoop 核心模块包括HDFS, MapReduce, Spark （）参考答案:错误17.数据挖掘的步骤是数据采集，数据转换，建立模型，分析评估（）参考答案:正确18.假定用于分析的数据包含属性age。

大数据与数据挖掘考试题_《大数据时代下的数据挖掘》试题及答案

⼤数据与数据挖掘考试题_《⼤数据时代下的数据挖掘》试题及答案 -A.地址 C.情绪B.⾏为 D.来源70) 通过数据收集和展⽰数据背后的( D ),运⽤丰富的、具有互动性的可视化⼿段,数据新闻学成为新闻学作为⼀门新的分⽀进⼊主流媒体,即⽤数据报道新闻。

A.数据收集 C.真相B.数据挖掘D. 关联与模式71) CRISP-DM 模型中Evaluation表⽰对建⽴的模型进⾏评估,重点具体考虑得出的结果是否符合( C )的商业⽬的。

A.第⼆步 C.第⼀步B.第三步 D.最后⼀步72) 发现关联规则的算法通常要经过以下三个步骤：连接数据,作数据准备；给定最⼩⽀持度和( D ),利⽤数据挖掘⼯具提供的算法发现关联规则；可视化显⽰、理解、评估关联规则 A. 最⼩兴趣度 C. 最⼤⽀持度B. 最⼩置信度 D. 最⼩可信度73) 规则I->j,“有可能”,等于所有包含I的购物篮中同时包含J的购物篮的⽐例,为( B )。

A. 置信度 C. 兴趣度B.可信度D. ⽀持度74) 如果⼀个匹配中,任何⼀个节点都不同时是两条或多条边的端点,也称作( C )A. 极⼤匹配 C完美匹配B.⼆分匹配 D.极⼩匹配75) 只要具有适当的政策推动,⼤数据的使⽤将成为未来提⾼竞争⼒、⽣产⼒、创新能⼒以及( D )的关键要素。

A.提⾼消费B.提⾼GDPC.提⾼⽣活⽔平D. 创造消费者盈余76) 个性化推荐系统是建⽴在海量数据挖掘基础上的⼀种⾼级商务智能平台,以帮助( D )为其顾客购物提供完全个性化的决策⽀持和信息服务。

A.公司B.各单位C.跨国企业D. 电⼦商务⽹站77) 云计算是对( D )技术的发展与运⽤A.并⾏计算B.⽹格计算C.分布式计算D.三个选项都是78) ( B )是Google提出的⽤于处理海量数据的并⾏编程模式和⼤规模数据集的并⾏运算的软件架构。

A.GFSB.MapReduceC.ChubbyD.BitTable79) 在Bigtable中，( A )主要⽤来存储⼦表数据以及⼀些⽇志⽂件A. GFSB. ChubbyC.SSTableD.MapReduce⼆、判断题(共40题)1) 分类是预测数据对象的离散类别，预测是⽤于数据对象的连续取值。

数据仓库与数据挖掘,DBMS题库考试大纲和答案.

11．数据仓库的设计方法与操作型环境中系统设计采用的系统生命周期法有什么不同？12．举例说明多维分析操作（切片、切块、旋转）的含义是什么？切片和切块(slice and dice)在多维数组的某一维选定一个维成员的动作称为切片。

在多维数组的某一维上选定某一区间的维成员的动作称为切块旋转是改变一个报告或页面显示的维方向,以用户容易理解的角度来观察数据13．数据挖掘的步骤是什么？确定挖掘对象，准备数据，建立模型，数据挖掘，结果分析，知识应用阶段14．简要说明数据仓库环境中元数据的内容。

元数据（Meta Data）——“关于数据的数据”，是指在数据仓库建设过程中产生的有关数据源定义、目标定义、转换规则等关键数据，是定义数据仓库对象的数据。

如传统数据库中的数据字典就是一种元数据。

15．企业的数据库体系化环境的四个层次是什么？它们之间的关系是什么？数据库的体系化环境,是在一个企业或组织内部，由各面向应用的OLTP数据库及各级面向主题的数据仓库所组成的完整的数据环境四层体系化环境:操作型环境——OLTP,全局级——数据仓库,部门级——局部仓库,个人级——个人仓库，用于启发式的分析16．简要说明数据仓库设计的步骤。

数据仓库的设计可以分为以下几个步骤：◆明确主题◆概念模型设计所要完成的工作：界定系统边界,确定主要的主题域及其内容◆技术准备工作这一阶段的工作包括：技术评估，技术环境准备。

形成技术评估报告、软硬件配置方案、系统(软、硬件)总体设计方案。

◆逻辑模型设计进行的工作主要：分析主题域，确定当前要装载的主题确定粒度层次划分确定数据分割策略关系模式定义◆物理模型设计这一步所做的工作：确定数据的存储结构 ---RAID技术确定索引策略——B树索引位图索引等确定数据存放位置——磁带磁盘等确定存储分配优化◆数据仓库生成通过专用的数据抽取工具或者通过自行编程实现数据抽取、转换和装载。

◆数据仓库运行与维护建立DSS应用，使用数据仓库理解需求，调整和完善系统，维护数据仓库。

数据仓库与数据挖掘试题

《数据仓库与数据挖掘试题》一、判断题(每小题1分，计30分，答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。

（X）2.数据库的查询不是指对记录级数据的查询，而是指对分析要求的查询。

（X）3.关系数据库是二维数据（平面），多维数据库是空间立体数据。

（v）4.数据进入数据仓库之前，必须经过加工与集成。

（V）5.OLAP使用的是当前数据；OLTP使用的是历史数据。

（V）6.对数据仓库操作不明确，操作数据量少。

（X）7.数据集市实现难度超过数据仓库。

（X）8.OLAP使用的数据经常更新；OLTP使用的数据不更新，但周期性刷新。

（X）9.数据集市可升级到完整的数据仓库。

（V）10.数据库中存放的数据基本上是保存当前综合数据。

（X）11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。

（V）12.OLAP支持复杂的决策分析操作，侧重对分析人员和高层管理人员的决策支持。

（V）13.OLTP的事务处理量大，处理内容比较简单但重复率高。

（V）14.数据仓库的用户有两类：信息使用者和探索者。

（V）15.对数据库的操作比较明确，操作数据量大。

（X）16.数据库用于事务处理，数据仓库用于决策分析。

（V）17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。

（V）18.OLAP一次处理的数据量大；OLTP一次性处理的数据量小。

（V）19.OLTP每次操作的数据量不大且多为当前的数据。

（V ）20.数据仓库系统由数据仓库（DW）、仓库管理和分析工具三部分组成。

（V）21.随着业务的变化,数据仓库中的数据会随时更新。

（X）22.数据集市的规模比数据仓库更大。

（X）23.数据集市具有更详细的、预先存储在数据仓库的数据。

（V）24.不同维值的组合及其对应的度量值构成了不同的查询和分析。

（V）25.OLAP使用细节性数据，OLTP使用综合性数据。

（X）26.数据集市由企业管理和维护。

数据库与数据挖掘阶段考试试题及答案

一、名词解释（5个，10分）1、数据库：长期储存在计算机内的、有组织的、可共享的数据集合。

2、数据库系统：数据库系统是指在计算机系统中引入数据库后的系统构成，一般由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员构成。

3、数据库管理系统：位于用户与操作系统之间的一层数据管理软件，用于科学地组织和存储数据、高效地获取和维护数据。

4、视图：从一个或几个基本表导出的表，它与基本表不同，是一个虚表，数据库中只存放视图的定义，而不存放视图对应的数据。

5、实体：现实世界中客观存在并能相互区别的事物。

6、模式是数据库中全体数据的逻辑结构和特征的描述，是所有用户的公共数据视图。

7、实体完整性：关系R的所有元组在主码上的值必须唯一，并且在主码的任何属性上都不能取空值。

二、单选题（30个，30分）1、SQL中，下列涉及空值的操作，不正确的是（C）。

A. AGE IS NULLB. AGE IS NOT NULLC. AGE = NULLD. NOT (AGE IS NULL)2、数据库管理系统是一个(A )。

(A) 软件系统(B) 硬件系统(C)软硬件结合的系统(D) 数据集合3.数据模型是（A ）数据特征的抽象。

(A)计算机世界(B)现实世界(C) 模型空间(D) 概念世界4、关系模式R为3NF, 则R不存在( D )。

(A) 部分依赖(B) 传递依赖(C)非主属性对码的传递依赖(D) 主属性对码的传递依赖5、关系R的实体完整性控制是指( A )。

（A）主键非空（B）主键唯一（C）主键非空且唯一（D）主键非空或唯一6、实体联系模型属于（ D ）。

A. 层次模型B. 网状模型C. 关系模型 D 概念模型7、在一个关系中，任意两个元组的值（ C ）。

A. 可以全同B. 必须全同C. 不能全同D. 以上都不是8、关系R和S进行自然连接时，要求R和S含有一个或多个公共（ B ）A. 行B. 属性C. 记录D.元组9、SQL是（ C ）的缩写。

数据挖掘考试题及答案

数据挖掘考试题及答案一、单项选择题（每题2分，共20分）1. 数据挖掘的主要任务不包括以下哪一项？A. 分类B. 聚类C. 预测D. 数据清洗答案：D2. 以下哪个算法不是用于分类的？A. 决策树B. 支持向量机C. K-meansD. 神经网络答案：C3. 在数据挖掘中，关联规则挖掘主要用于发现以下哪种类型的模式？A. 序列模式B. 分类模式C. 频繁项集D. 聚类模式答案：C4. 以下哪个指标不是用于评估分类模型性能的？A. 准确率B. 召回率C. F1分数D. 马氏距离答案：D5. 在数据挖掘中，以下哪个算法是用于聚类的？A. K-meansB. 逻辑回归C. 随机森林D. 支持向量机答案：A6. 以下哪个选项不是数据挖掘过程中的步骤？A. 数据预处理B. 模式发现C. 结果评估D. 数据存储答案：D7. 在数据挖掘中，异常检测的主要目的是识别以下哪种类型的数据？A. 频繁出现的模式B. 罕见的模式C. 预测未来的数据D. 聚类的数据答案：B8. 以下哪个选项不是数据挖掘中常用的数据预处理技术？A. 数据清洗B. 数据集成C. 数据变换D. 数据压缩答案：D9. 在数据挖掘中，以下哪个算法是用于特征选择的？A. 主成分分析B. 线性判别分析C. 支持向量机D. 决策树答案：D10. 以下哪个选项不是数据挖掘中常用的数据表示方法？A. 决策树B. 向量空间模型C. 邻接矩阵D. 频率分布表答案：D二、多项选择题（每题3分，共15分）11. 数据挖掘中常用的聚类算法包括哪些？A. K-meansB. 层次聚类C. DBSCAND. 支持向量机答案：A、B、C12. 在数据挖掘中，以下哪些是关联规则挖掘的典型应用场景？A. 市场篮分析B. 异常检测C. 推荐系统D. 社交网络分析答案：A、C13. 数据挖掘中，以下哪些是分类模型评估的常用指标？A. 准确率B. 召回率C. ROC曲线D. 马氏距离答案：A、B、C14. 在数据挖掘中，以下哪些是特征工程的步骤？A. 特征选择B. 特征提取C. 特征变换D. 数据清洗答案：A、B、C15. 数据挖掘中，以下哪些是数据预处理的常见任务？A. 缺失值处理B. 异常值检测C. 数据规范化D. 数据压缩答案：A、B、C三、简答题（每题10分，共30分）16. 请简述数据挖掘中分类和聚类的主要区别。

数据仓库与数据挖掘技术考试试题汇总

33. ID3 算法主要存在的缺点有：
46. 数据从集结区加载到数据仓库中的主要方法？
1 ID3 算法在选择根结点和各内部结点中的分枝
1 SQL 命令；
属性时，使用信息增益作为评价标准。信息增益的缺点是
2 由 DW 供应商或第三方提供专门的加载工具；
倾向于选择取值较多的属性，在有些情况下这类属性可能
3 由 DW 管理员编写自定义程序。
不会提供太多有价值的信息。
47. 数据库、TPS、MIS 属于面向业务操作的数据资源管
2 ID3 算法只能对描述属性为离散型属性的数据
理。
集构造决策树。
48. 面向决策分析的数据资源管理包括数据仓库以及与
34. 数据字典是数据库中各类数据描述的集合，通常包括
之紧密相关的 DSS。
的数据量很大；数据仓库软硬件要求很高。
也即频繁 k-项集为空。
9. ETL 过程的主要步骤可以概括为：
14. 调和数据是存储在企业级数据仓库和操作型数据存
1 决定数据仓库中需要的所有的目标数据；
储中的数据。
2 决定所有的数据源，包括内部和外部的数据源； 15. SQL Server SSAS 提供了所有业务数据的同意整合
8 为所有的数据装载编写规程；
18. 分类器设计阶段包含划分数据集、分类器构造、分
9 维度表的抽取、转换和装载；
类器测试。
10 事实表的抽取、转换和装载。
19. 数据处理通常分成两大类：联机事务处理和联机分析
10. 数据分割的好处有：
处理。
1 对当前细节数据进行分割的总体目的就是把数 20. ROLAP 是基于关系数据库的 OLAP 实现，而 MOLAP
31. 常见的聚类算法可以分为基于划分的聚类算法，基于转换规则和数据刷新规则及安全（用户授权和存取控制）。

数据仓库与数据挖掘试题

《数据仓库与数据挖掘试题》一、判断题(每小题1分，计30分，答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。

（X）2.数据库的查询不是指对记录级数据的查询，而是指对分析要求的查询。

（X）3.关系数据库是二维数据（平面），多维数据库是空间立体数据。

（v）4.数据进入数据仓库之前，必须经过加工与集成。

（V）5.OLAP使用的是当前数据；OLTP使用的是历史数据。

（V）6.对数据仓库操作不明确，操作数据量少。

（X）7.数据集市实现难度超过数据仓库。

（X）8.OLAP使用的数据经常更新；OLTP使用的数据不更新，但周期性刷新。

（X）9.数据集市可升级到完整的数据仓库。

（V）10.数据库中存放的数据基本上是保存当前综合数据。

（X）11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。

（V）12.OLAP支持复杂的决策分析操作，侧重对分析人员和高层管理人员的决策支持。

（V）13.OLTP的事务处理量大，处理内容比较简单但重复率高。

（V）14.数据仓库的用户有两类：信息使用者和探索者。

（V）15.对数据库的操作比较明确，操作数据量大。

（X）16.数据库用于事务处理，数据仓库用于决策分析。

（V）17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。

（V）18.OLAP一次处理的数据量大；OLTP一次性处理的数据量小。

（V）19.OLTP每次操作的数据量不大且多为当前的数据。

（V ）20.数据仓库系统由数据仓库（DW）、仓库管理和分析工具三部分组成。

（V）21.随着业务的变化,数据仓库中的数据会随时更新。

（X）22.数据集市的规模比数据仓库更大。

（X）23.数据集市具有更详细的、预先存储在数据仓库的数据。

（V）24.不同维值的组合及其对应的度量值构成了不同的查询和分析。

（V）25.OLAP使用细节性数据，OLTP使用综合性数据。

（X）26.数据集市由企业管理和维护。

数据库与数据挖掘智慧树知到答案章节测试2023年南京邮电大学

第一章测试1.下列属于关系模型的性质的是()A:不同列的列名可以相同B:分量必须取原子值C:行列的顺序可以任意交换D:列是同质的答案:BCD2.根据实体完整性规则，下列说法正确的是()A:非主键字段也必须非空B:主键可以无意义C:主键非空D:主键可以取空值答案:C3.下列做法最有可能违背用户定义完整性的是()A:日期数据出现2月30日B:姓名数据出现叶良辰C:百分制考试数据出现99D:时间数据出现0:00答案:A4.以下操作应用场景主要是获取两个集合的相对补集的是(）A:笛卡尔积B:交操作C:并操作D:差操作答案:D5.从关系R中选择出若干属性组成新的关系属于(）A:连接操作B:除运算C:选择操作D:投影操作答案:A6.ER图中菱形表示的是(）A:联系B:属性C:运算D:实体答案:A7.系统中的成绩联系属于（）A:联系B:一对多关系C:一元联系D:多对多关系答案:AD8.下列说法错误的是(）A:AP原则系统不容忍时间延迟B: CA原则系统扩展性较弱C:CP原则系统通用性不高答案:A9.分布式系统可以同时满足CAP原则A:错B:对答案:A10.下列不属于关系型数据库局限性的是（）A:数据格式不完备B:大数据场景下的I/O较高C:无法存储数据结构D:表结构扩展不方便答案:A第二章测试1.Hive中删除管理表不会删除表所指向的数据文件A:对B:错答案:B2.Hive会在数据读取时进行数据类型验证A:对B:错答案:A3.Hive在strict(严格)模式下查询分区表时，WHERE子句必须要加上分区过滤。

A:对B:错答案:A4.下列语句可以显示数据库test中的表名的包括()A:USE test;SHOW TABLES;B:SHOW test.TABLES;C:SHOW TABLES IN test;答案:AC5.Hive可以向视图(VIEW)中导入数据。

A:对B:错答案:B6.若分区表test包含的分区字段为(a,b),如何查看分区a=1下的所有分区()A:SELECT PARTITIONS FROM test PARTITION(a=1);B:SHOW PARTITIONS test PARTITION(a=1);C:SELECT b FROM test WHERE a=1;答案:B7.以下命令可以查询date_records中约会成功匹配(match=1)次数的是()A:SELECT sum(id) FROM date_records WHERE match=1;B:SELECT sum(match) FROM date_records;C:SELECT match FROM date_records WHERE match=1;D:SELECT count(*) FROM date_records WHERE match=1;答案:BD8.Hive使用右外连接(RIGHT OUTER JOIN)来连接两张表进行查询时，JOIN操作符右边的表如果没有符合ON后面连接条件的记录时，右边表指定选择的列的值将不会显示。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、名词解释（5个，10分）1、数据库：长期储存在计算机内的、有组织的、可共享的数据集合。

3、数据库管理系统：位于用户与操作系统之间的一层数据管理软件，用于科学地组织和存储数据、高效地获取和维护数据。

4、视图：从一个或几个基本表导出的表，它与基本表不同，是一个虚表，数据库中只存放视图的定义，而不存放视图对应的数据。

5、实体：现实世界中客观存在并能相互区别的事物。

6、模式是数据库中全体数据的逻辑结构和特征的描述，是所有用户的公共数据视图。

7、实体完整性：关系R的所有元组在主码上的值必须唯一，并且在主码的任何属性上都不能取空值。

二、单选题（30个，30分）1、SQL中，下列涉及空值的操作，不正确的是（C）。

A. AGE IS NULLB. AGE IS NOT NULLC. AGE = NULLD. NOT (AGE IS NULL)2、数据库管理系统是一个(A )。

(A) 软件系统(B) 硬件系统(C)软硬件结合的系统(D) 数据集合3.数据模型是（A ）数据特征的抽象。

(A)计算机世界(B)现实世界(C) 模型空间(D) 概念世界4、关系模式R为3NF, 则R不存在( D )。

(A) 部分依赖(B) 传递依赖(C)非主属性对码的传递依赖(D) 主属性对码的传递依赖5、关系R的实体完整性控制是指( A )。

（A）主键非空（B）主键唯一（C）主键非空且唯一（D）主键非空或唯一6、实体联系模型属于（ D ）。

A. 层次模型B. 网状模型C. 关系模型 D 概念模型7、在一个关系中，任意两个元组的值（ C ）。

A. Standard Query LanguageB. Select Query LanguageC. Structured Query LanguageD. 以上都不是10、在关系中的各元组的（ B ）。

A.顺序不能任意排列,一定要按照输入的顺序排列B.顺序可以任意排列C.顺序一定要按照关键字段值的顺序排列D.排列顺序不同,统计处理的结果就可能不同。

11、SQL中创建基本表应使用（ C ）语句。

A.CREATE VIEWB.CREATE DATABASEC.CREATE TABLED.CREATE FORM12、与WHERE 年龄 BETWEEN 32 AND 45 语句等价的子句是（ D ）。

A. WHERE年龄 >32 AND年龄<45B. WHERE年龄>=32 AND年龄<45C. WHERE年龄>32 AND年龄<=45D. WHERE年龄>=32 AND年龄<=4513、公司中有多个部门和多名职员，每个职员只能属于一个部门，一个部门可以有多名职员，职员与部门的联系类型是（ C ）。

A. m : nB. 1 : nC. n : 1D. 1 : 114、在数据库的三级模式结构中，内模式有（ A ）。

A．1个 B．2个 C．三个 D．任意多个15、下述那一条不属于概念模型应具备的性质（ D ）。

A．有丰富的语义表达能力 B．易于交流和理解C．易于变动 D．在计算机中实现的效率高16、用二维表结构表示实体以及实体间联系的数据模型称为（ C ）。

A．网状模型 B．层次模型 C．关系模型 D．面向对象模型17、使用CREATE VIEW语句建立的是（ C ）。

A.数抿库B.表C.视图D.索引18、一个学生可以同时借阅多本图书，一本图书只能借给一个学生，学生和图书之间的联系为（ B ）的联系。

A.一对一B.一对多C.多对多D.多对一19、SQL语句的一次查询结果是（ D ）。

A. 数据项B. 记录C. 元组D. 表20、下列哪个是单目运算（ C ）。

A. 差B. 并C. 投影D. 除法21、采用SQL查询语言对关系进行查询操作，若要求查询结果中不能出现重复元组，可在SELECT子句后增加保留字（ A ）。

A. DISTINCTB. UNIQUEC. NOT NULLD. SINGLE22、数据的存储结构与数据逻辑结构之间的独立性称为数据的（ A ）。

A. 物理独立性B. 结构独立性C. 逻辑独立性D. 分布独立性23、关系模式的任何属性（ A ）。

A. 不可再分B. 可再分C. 命名在该关系模式中可以不唯一D. 以上都不是24、数据模型的三要素是（ D ）。

A. 外模式、模式、内模式B.关系模型、层次模型、网状模型C. 实体、联系、属性D. 数据结构、数据操作、完整性约束25、数据库管理系统能实现对数据库中数据的查询、插入、修改和删除，这类功能称为（C）。

A. 数据定义功能B.数据管理功能C. 数据操纵功能D.数据控制功能26、在SQL语句中，对输出结果进行排序的语句是（ B ）。

A. GROUP BYB. ORDER BYC. WHERED. HAVING27、消除了部分函数依赖的1NF的关系模式必定是（ B ）。

A. 1NFB. 2NFC. 3NFD. 4NF28、从表中删除记录的SQL语句是（ B ）。

A. INSERTB. DELETEC. UPDATED. DROP29、关系模型的数据结构是（ D ）。

A. 树B. 图C. 表D. 二维表30、数据库系统与文件系统的主要区别是（ B ）。

A. 数据库系统复杂，而文件系统简单B. 文件系统不能解决数据冗余和数据独立性问题，而数据库系统可以解决C. 文件系统只能管理程序文件，而数据库系统能够管理各种类型的文件D. 文件系统管理的数据量较少，而数据库系统可以管理庞大的数据量三、填空题（20个空，20分）1、数据库管理员利用（ Grant ）语句将对某类数据的操作权限赋于用户；用（ revoke ）语句收回用户对某类数据的操作权限。

2、数据管理技术经历了人工管理、文件系统和数据库系统三个阶段。

3、二元实体之间的联系可抽象为三类，它们是1：1、1:n和m:n（或者写一对一、一对多、多对多）。

4、关系代数中，从关系中取出所需属性组成新关系的操作称为投影。

5、构造E-R模型的三个基本要素是实体、属性、联系。

6、在SQL中视图是由基本表或视图产生的虚表，不能存放数据，只能存储视图的定义。

7、关系数据库规范化是为解决关系数据库中插入异常、删除异常、更新异常和数据冗余问题而引入的。

8、数据库模式体系结构中提供了两个映像功能，即外模式／模式和模式／内模式映像。

9、关系模式的规范化是指一个低一级范式的关系模式，通过模式分解可以转换为若干个高一级范式的关系模式。

10、最著名、最为常用的概念模型是_ER模型_。

11、关系数据模型由关系数据结构、关系操作和关系完整性约束三部分组成。

四、简答题（4个，20分）1、试述视图的作用？答：（1）视图能够简化用户的操作；（2）视图使用户能以多种角度看待同一数据；（3）视图对重构数据库提供了一定程度的逻辑独立性；（4）视图能够对机密数据提供安全保护；（5）适当的利用视图可以更清晰的表达查询。

2、数据库管理系统的主要功能。

答：（1）数据定义功能；（2）数据操纵功能；（3）数据库的事务管理和运行管理；（4）数据组织、存储和管理；（5）数据库的建立和维护功能；（6）其他功能。

3、数据库管理员的职责是什么？答：（1）决定数据库中的信息内容和数据的逻辑结构；（2）决定数据库的存储结构和存取策略；（3）定义数据的安全性要求和完整性约束条件；（4）数据库系统的日常维护；（5）重组和重构数据库。

4、什么叫数据与程序的物理独立性？什么叫数据与程序的逻辑独立性？为什么数据库系统具有数据与程序的独立性？答：数据与程序的逻辑独立性：指用户的应用程序与数据库的逻辑结构是相互独立的，即数据的逻辑结构改变了，用户程序也可以不变。

数据与程序的物理独立性：用户的应用程序与存储在磁盘上的数据库中数据是相互独立的，即数据的物理存储改变时用户的应用程序不用改变。

数据库管理系统在三级模式之间提供的两层映像保证了数据库系统中的数据能够具有较高的逻辑独立性和物理独立性。

5、SQL的基本特点。

(1) 综合统一； (2) 高度非过程化； (3) 面向集合的操作方式；(4) 以同一种语法结构提供两种使用方法；(5) 语言简洁，易学易用。

五、操作题（1个小题，20分）1、设某商业集团数据库中有三个实体集。

一是“商品”实体集，属性有商品号、商品名、规格、单价等；二是“商店”实体集，属性有商店号、商店名、地址等；三是“供应商”实体集，属性有供应商编号、供应商名、地址等。

供应商与商品间存在“供应”联系，每个供应商可供应多种商品，每种商品可向多个供应商订购，供应商供应每种商品有月供应量；商店与商品间存在“销售”联系，每个商店可销售多种商品，每种商品可在多个商店销售，商店销售商品有月计划数。

试画出ER图，并在图上注明属性、联系的类型。

再转换成关系模式集，并指出每个关系模式的主键和外键。

这个ER图转换的关系模式如下：商品（商品号，商品名，规格，单价）供应商（供应商编号，供应商名，地址）商店（商店号，商店名，地址）供应（商品号，供应商编号，月供应量）销售（商品号，商店号，月计划数）备注：自己指出每个关系模式的主键和外键。

这部分就靠你们自己啦。