数据仓库复习题
数据库复习题及答案
数据库复习题及答案一、选择题1. 数据库管理系统(DBMS)的主要功能是什么?A. 存储数据B. 管理数据C. 提供数据访问接口D. 所有以上选项答案:D2. 关系数据库中的“关系”指的是什么?A. 数据库文件B. 数据表C. 数据表之间的关系D. 数据库的物理存储答案:C3. SQL语言中的“SELECT”语句用于执行什么操作?A. 插入数据B. 更新数据C. 查询数据D. 删除数据答案:C4. 在数据库中,主键的作用是什么?A. 唯一标识表中的每条记录B. 存储数据C. 用于排序D. 用于数据加密答案:A5. 事务的ACID属性包括哪些?A. 原子性、一致性、隔离性、持久性B. 原子性、一致性、完整性、持久性C. 原子性、隔离性、完整性、持久性D. 原子性、一致性、隔离性、安全性答案:A二、简答题1. 简述数据库的三级模式结构。
答案:数据库的三级模式结构包括外模式、概念模式和内模式。
外模式是用户视图,是用户与数据库交互的接口;概念模式是数据库的全局逻辑结构,描述了数据的逻辑组织;内模式是数据库的物理存储结构,描述了数据在存储介质上的存储方式。
2. 解释什么是范式以及数据库规范化的目的。
答案:范式是数据库设计中用来减少数据冗余和提高数据一致性的标准。
数据库规范化的目的是确保数据库结构的合理性,通过分解数据表来消除数据的重复存储,从而提高数据的一致性和完整性。
三、应用题1. 假设有一个学生信息数据库,包含学生表(Student),课程表(Course),选课表(Enrollment)。
学生表包含学号(StudentID),姓名(Name),年龄(Age);课程表包含课程ID(CourseID),课程名称(CourseName),学分(Credits);选课表包含学号(StudentID),课程ID(CourseID),成绩(Grade)。
请编写SQL 语句,查询所有选修了“数据库原理”课程的学生姓名及其成绩。
数据库题库含参考答案
数据库题库含参考答案一、单选题(共98题,每题1分,共98分)1.在数据库应用系统生命周期模型中,规划与分析阶段的输出结果不包括()。
A、项目计划书B、需求规范说明书C、可行性分析报告D、系统范围与边界正确答案:B2.下列哪些属性不适合建立索引?()。
A、经常岀现在GROUP BY子句中的属性B、经常参与连接操作的属性C、经常出现在WHERE子句中的属性D、经常需要进行更新操作的属性正确答案:D3.下列属于数据仓库特点的是()。
A、一次处理的数据量小B、综合性和提炼性数据C、面向操作人员,支持日常操作D、重复性的、可预测的处理正确答案:B4.下述哪一个SQL语句用于实现数据存取的安全机制()。
A、COMMITB、ROLLBACKC、GRANTD、CREATE TABLE正确答案:C5.有教师表(教师号,姓名,职称.所在系)和授课表(教师号,课程号,授课学年,授课时数),同一门课程可由多个教师讲授,同一个教师也可讲授多门课程,査询从未被“教授”讲授过的课程的课程号,正确的语句是()。
A、SELECT课程号FROM授课表a JOIN教师表bON a 教师号=b.教师号WHERE职称!='教授'B、SELECT课程号FROM授课表a RIGHTOUTTER JOIN教师表bONa.教师号=b.教师号C、SELECT课程号FROM授课表WHERE课程号NOT IN (SELECT课程号FROM授课表a JOIN授课表b ON a 教师号=b.教师号WHERE职称!='教授')D、SELECT课程号FROM授课表WHERE课程号IN (SELECT课程号FROM授课表a JOIN授课表b ON a 教师号=b.教师号WHERE职称!=,教授,)正确答案:D6.下列有关范式的叙述中正确的是()。
A、如果关系模式RG 1NF,且R中主属性完全函数依赖于码,则R是2NFB、如果关系模式RG3NF, X、YCU,若X—Y,则R是BCNFC、如果关系模式ReBCNF,若X一一Y (Y4X)是平凡的多值依赖,则R 是4NFD、—个关系模式如果属于4NF,则一定属于BCNF;反之不成立正确答案:D7.下列说法正确的是( )。
数据库复习题(答案整理版)
数据库复习题(答案整理版)⼀、选择题1.数据库系统与⽂件系统的主要区别是 B 。
A数据库系统复杂,⽽⽂件系统简单;B⽂件系统不能解决数据冗余和数据独⽴性问题,⽽数据库系统可以解决;C⽂件系统只能管理程序⽂件,⽽数据库系统可以管理各类⽂件;D⽂件系统管理的数据量较少,⽽数据库系统可以管理庞⼤的数据量。
2.同⼀个关系模型的任意两个元组值 A 。
A不能全同; B可以全同; C必须全同; D以上都不是。
3.授权编译系统和合法性检查机制⼀起组成了A⼦系统。
A安全性; B完整性; C并发控制; D恢复。
4.事务的ACID性质中,关于原⼦性(atomicity)的描述正确的是C。
A. 指数据库的内容不出现⽭盾的状态。
B. 若事务正常结束,即使发⽣故障,更新结果也不会从数据库中消失。
C. 事务中的所有操作要么都执⾏,要么都不执⾏。
D. 若多个事务同时进⾏,与顺序实现的处理结果是⼀致的。
5.如果事务T获得了数据项Q上的排它锁,则T对Q C。
A. 只能读不能写B. 只能写不能读C. 既可读⼜可写D. 不能读不能写6.为了防⽌⼀个⽤户的⼯作不适当地影响另⼀个⽤户,应该采取C。
A 完整性控制B 安全性控制C 并发控制D 访问控制7.SQL语⾔中,删除⼀个表的命令是B。
A DELETEB DROPC CLEARD REMORE8.SQL语⾔中,删除记录的命令是A。
A DELETEB DROPC CLEARD REMORE9.设有⼀个关系:DEPT(DNO,DNAME),如果要找出倒数第三个字母为W,并且⾄少包含4个字母的DNAME,则查询条件⼦句应写成WHERE DNAME LIKEB 。
A ‘_ _ W _ %’B ‘_ % W _ _’C ‘_ W _ _’D ‘_ W _ %’10.学⽣表(XS.DBF)的表结构为:学号(XH,C,8),姓名(XM,C,8),性别(XB,C,2)班级(BJ,C,6),⽤Insert 命令向XS表添加⼀条新记录,记录内容为: XH XM XB BJ 99220101 王凌男992201下列命令中正确的是 __A__。
数据仓库-期末考试复习题
数据仓库-期末考试复习题复思考题(重点)一、单项选择题1)一般信息管理中,采用哪种方式的概念模型最多A。
ce模型B.实体-关系模型C.02O模型D.B/S模型(2)在关系表中,下列哪种属性不能承担主列关键字(Key)?A.身份证号B.银行卡号C.加密电文D.企业标识码(3)数据仓库的生命周期中,不包含下列哪个阶段?A.规划分析阶段B.设计实施阶段C.使用维护阶段D.反馈提升阶段(4)多维切片是指:A.在多个维度上观察全员操作B.多个成员的操作片段C.旋转数据集的部分维度D.在线分析或联机分析(5)一般信息管理中,采用哪种方式的分布式物理模型最多A。
ce模型 B.实体-关系模型C.02O模型D.B/S模型(6)在关系表中,下列哪种属性可以成为外键(Key)?A.客户信用程度B.银行卡行号C.加密的身份证号D.实体商户地址(7)数据仓库的生命周期中,不包含下列哪个阶段排在第三阶段?A.规划分析阶段 B.设计实施阶段 C.使用维护阶段D.反馈提升阶段(8)多维报表是指:A.在多个维度上观察全员操作B.分歧维度花式分歧叠加展示C.旋转数据集的部分维度D.在线阐发或联机阐发(9)数据表的多维索引的感化是:A.使数据表更节省存储空间B.加快数据存储速率C.表格花式美观大方C.加快数据查找效率10)de布局中的MAP职能是?A.钻取B.汇聚C.分发D.结晶11)下列哪种客户需求能够直接成为数据堆栈的多维报表?A.客户销售业绩清单B.客户根本名册C.客户关系图表D.客户反馈信息(12)数据堆栈开辟强调哪种主体特征?A.信息安全性B.业务流程C.操作事务性D.数据实时性(13)数据仓库与数据库系统相比,更加提倡:A.空间换时间B.数据范式更严格C.冗余度更小C.更加适用于分布式结构(14)透视表属于OLAP中的哪种能力范畴?A.存储本领B.展示本领C.稳定性本领D.安全性本领(15)OLAP的系统布局分为:A.胖客户端系统和瘦客户端系统B。
数据库期末考试复习题及答案-填空简答
(本大题共9小题,每空1分,共10分)请在每小题的空格中填上正确答案。
错填、不填均无分。
1. 关系数据模型由关系数据结构、关系操作和关系完整性约束三部分组成。
2. 一般情况下,当对关系R和S使用自然连接时,要求R和S含有一个或多个共有的属性3. 在Student表的Sname列上建立一个唯一索引的SQL语句为:CREATE UNIQUE INDEX Stusname ON student(Sname)4. SELECT语句查询条件中的谓词“!=ALL”与运算符 NOT IN 等价5. 关系模式R(A,B,C,D)中,存在函数依赖关系{A→B,A→C,A→D,(B,C)→A},则侯选码是 A和(B,C) ,R∈ AB NF。
6. 分E-R图之间的冲突主要有属性冲突、命名冲突、结构冲突三种。
7. 事物是DBMS的基本单位,是用户定义的一个数据库操作序列。
8. 存在一个等待事务集{T0,T1,…,T n},其中T0正等待被T1锁住的数据项,T1正等待被T2锁住的数据项,T n-1正等待被T n锁住的数据项,且T n正等待被T0锁住的数据项,这种情形称为死锁。
9. 可串行性是并发事务正确性的准则。
三、简答题(第1、3题3分,第2题4分,共10分)1.试述关系模型的参照完整性规则?答:参照完整性规则:若属性(或属性组)F是基本关系R的外码,它与基本关系S的主码Ks相对应(基本关系R和S不一定是不同的关系),则对于R中每个元组在F上的值必须为:取空值(F的每个属性值均为空值)或者等于S中某个元组的主码值。
2.试述视图的作用?(1)视图能够简化用户的操作。
(1分)(2)视图使用户能以多种角度看待同一数据。
(1分)(3)视图对重构数据库提供了一定程度的逻辑独立性。
(1分)(4)视图能够对机密数据提供安全保护。
(1分)3. 登记日志文件时必须遵循什么原则?登记日志文件时必须遵循两条原则:(1)登记的次序严格按并发事务执行的时间次序。
数据仓库复习题
第一章概述1.数据挖掘的定义?(书P2,PPT_P8)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14)关系数据库、数据仓库、事务数据库、高级数据等3.数据挖掘的常用方法?(P4、PPT_P29)聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书P2-3,PPT_P17-19)确定业务对象、数据准备、数据挖掘、结果分析与知识同化。
5.数据挖掘与数据仓库的关系(联系和区别)?书P6-7,PPT_P45-46联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数据源2,数据仓库韦数据挖掘提供了新的支持平台。
3,数据仓库为更好地使用数据挖掘工具提供了方便4,数据挖掘对数据仓库提供了更好的决策支持。
5,数据挖掘对数据仓库的数据组织提出了更高的要求6,数据挖掘还为数据仓库提供了广泛的技术支持区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。
~~数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
第二章数据仓库1.数据仓库的定义数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。
2.数据仓库数据的四大基本特征:面向主题的、集成的、不可更新的、随时间变化的。
3.数据仓库体系结构有三个独立的数据层次:信息获取层、信息存储层、信息传递层。
4.粒度的定义?它对数据仓库有什么影响?(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。
(2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。
数据仓库试题
数据仓库试题一、选择题1. 数据仓库是一种用于存储、管理和分析大量数据的系统,其特点是()a) 存储海量数据b) 支持多维分析c) 支持实时查询d) 执行事务处理2. 下列哪项不是数据仓库的核心组件?a) 数据提取和转换(ETL)工具b) 数据集市c) 数据库管理系统d) 数据挖掘工具3. 数据仓库的建设过程中,以下哪项工作应该放在最后进行?a) 数据提取和清洗b) 数据建模c) 数据存储和加载d) 数据分析4. 在数据仓库中,维度模型和事实模型分别用于描述的是()a) 数据之间的关系b) 数据的粒度c) 数据的来源d) 数据的格式5. 下列哪个是数据仓库的主要目标之一?a) 实时交互式数据查询b) 高效的事务处理c) 存储大量数据d) 实现负载均衡二、填空题6. 数据仓库的架构通常包括三层,分别是()、()和()层。
7. 数据仓库的难点之一是数据的(),因为数据来自多个不同的系统和部门。
8. 数据仓库的存储技术包括()和()两种常见的方式。
9. 数据仓库建设过程中,将源数据转换为适合分析的数据称为()。
10. 数据仓库的数据分析可以采用多种方法,其中()分析是一种常见的方法。
三、简答题11. 数据仓库与传统的关系型数据库有何区别?12. 数据仓库的优势是什么?它在实际应用中有哪些场景?13. 数据仓库建设过程中的ETL过程是什么意思?它的作用是什么?14. 数据仓库中,维度模型和事实模型各自是如何描述数据的?15. 请简要说明数据仓库的架构和主要组件。
四、解答题16. 数据仓库的设计和建设步骤有哪些?请结合实际案例进行说明。
17. 请解释数据仓库中的数据清洗操作,并举例说明其重要性。
18. 请描述数据仓库的存储技术中,列式存储和行式存储的特点,并比较它们的优缺点。
五、实操题19. 假设你是某公司的数据分析员,请你根据实际需求,设计一个适合该公司业务的数据仓库架构,并简要说明其关键组件和数据流程。
数据库复习题及答案
数据库复习题及答案数据库复习题及答案数据库是计算机科学中非常重要的一个领域,它是用来存储、管理和组织数据的软件系统。
在数据库的学习过程中,复习题是非常重要的一部分,通过做复习题可以帮助我们巩固知识,提高理解能力。
本文将为大家提供一些数据库复习题及答案,希望对大家的学习有所帮助。
一、选择题1. 数据库的主要特点是:A. 数据共享B. 数据独立性C. 数据冗余D. 数据安全性答案:B. 数据独立性2. 下列哪个是数据库管理系统(DBMS)的功能?A. 数据的存储和管理B. 数据的输入和输出C. 数据的处理和分析D. 数据的传输和通信答案:A. 数据的存储和管理3. 下列哪个不是数据库的三级模式?A. 外模式B. 内模式C. 中模式D. 概念模式答案:C. 中模式4. 数据库的完整性约束包括以下哪些?A. 实体完整性B. 参照完整性C. 用户完整性D. 操作完整性答案:A. 实体完整性、B. 参照完整性、D. 操作完整性5. 下列哪个不是关系数据库的基本操作?A. 查询B. 插入C. 删除D. 修改答案:D. 修改二、填空题1. 数据库中,用来描述数据之间联系的概念是__________。
答案:关系2. 数据库中,用来表示数据的逻辑结构的概念是__________。
答案:模式3. 数据库中,用来表示数据的物理存储结构的概念是__________。
答案:存储结构4. 数据库中,用来表示数据的基本单位的概念是__________。
答案:记录5. 数据库中,用来表示数据属性的概念是__________。
答案:字段三、简答题1. 请简要介绍关系数据库的特点和优势。
答:关系数据库的特点包括数据的结构化、数据的共享性、数据的独立性和数据的安全性。
关系数据库的优势包括数据的一致性、数据的完整性、数据的可靠性和数据的可扩展性。
关系数据库通过使用关系模型来组织和管理数据,可以更好地满足用户的需求,提高数据的处理效率和数据的可靠性。
数据库系统原理复习题(含答案)
数据库系统原理复习题(含答案)数据库系统原理复习题(含答案)第1章一、选择题1.数据库(DB)、数据库系统(DBS)和数据库管理系统(DBMS)之间的关系是(A)。
A.DBS包括DB和DBMSB.DBMS包括DB和DBSC.DB包括DBS和DBMSD.DBS就是DB,也就是DBMS2.概念模型是现实世界的第一层抽象,这一类模型中最著名的模型是(D)。
A.层次模型B.关系模型C.网状模型D.实体-联系模型3.目前,数据库管理系统最常用的逻辑数据模型是(C)。
A.网状模型B.层次模型C.关系模型D.面向对象模型4.下列四项中,不属于数据库系统特点的是(C)。
A.数据共享B.数据完整性C.数据冗余度高D.数据独立性高5.数据模型的三个要素分别是(B)。
A.实体完整性、参照完整性、用户自定义完整性B.数据结构、数据操作、数据完整性约束条件C.插入数据、修改数据、删除数据D.外模式、模式、内模式6.数据库三级结构从内到外的3个层次依次为(B)。
A.外模式、模式、内模式B.内模式、模式、外模式C.模式、外模式、内模式D.内模式、外模式、模式7.下列关于数据库系统的正确叙述是(A):A.数据库系统减少了数据冗余B.数据库系统避免了一切冗余C.数据库系统中数据的一致性是指数据类型的一致D.数据库系统比文件系统能管理更多的数据8.数据的逻辑独立性是指(B)。
A.外模式改变时保持应用程序不变B.模式改变时保持外模式不变C.内模式改变时保持模式不变D.数据改变时保持应用程序不变9.数据的物理独立性是指(C)。
A.外模式改变时保持应用程序不变B.模式改变时保持外模式不变C.内模式改变时保持模式不变D.数据改变时保持应用程序不变10.公司有多个部门和多名职员,每个职员只能属于一个部门,一个部门可以有多名职员,从部门到职员的联系类型是(D)。
A.多对多B.一对一C.多对一D.一对多11.储蓄所有多个储户,储户在多个储蓄所之间存款,储户与储蓄所之间是(C)。
数据库总复习题库及解析
第1章练习题一、单项选择题1.在数据管理技术的发展过程中,经历了人工管理阶段、文件系统阶段和数据库系统阶段。
在这几个阶段中,数据独立性最高的是______阶段。
AA. 数据库系统B. 文件系统C. 人工管理D. 数据项管理2.数据库系统与文件系统的主要区别是______。
BA. 数据库系统复杂,而文件系统简单B. 文件系统不能解决数据冗余和数据独立性问题,而数据库系统可以解决C. 文件系统只能管理程序文件,而数据库系统能够管理各种类型的文件D. 文件系统管理的数据量较少,而数据库系统可以管理庞大的数据量3.数据库的概念模型独立于______。
AA. 具体的机器和DBMSB. E-R图C. 信息世界D. 现实世界4.由计算机、OS、DBMS、DB、应用程序及用户等组成的一个整体叫做______。
BA. 文件系统B. DBSC. 软件系统D. 数据库管理系统5.下述特征不是数据库的基本特点是______。
AA. 数据非结构化B. 数据独立性C. 数据冗余小,易扩充D. 统一管理和控制6.数据库具有_____、最小冗余度和较高的程序与数据独立性。
BA. 程序结构化B. 数据结构化C. 程序标准化D. 数据模块化7.在数据库中,下列说法______是不正确的。
AA. 数据库避免了一切数据的重复B. 若系统是完全可以控制的,则系统可确保更新时的一致性C. 数据库中的数据可以共享D. 数据库减少了数据冗余8.______是存储在计算机内有结构的数据的集合。
BA. DBSB. DBC. DBMSD. 数据结构9.在DB中存储的是______。
CA. 数据B. 数据模型C. 数据以及数据之间的联系D. 信息10.DB中,数据的物理独立性是指______。
CA. DB与DBMS的相互独立B. 用户程序与DBMS的相互独立C. 用户的应用程序与存储在磁盘上DB中的数据是相互独立的D. 应用程序与DB中数据的逻辑结构相互独立11.在数据库技术中,为了提高数据库的逻辑独立性和物理独立性,数据库的结构被分成用户级、______和存储级三个层次。
数据库复习题及部分答案.
数据库复习题答案一、选择题1. 在数据库设计中,将E-R图转换为关系模式的过程属于( C )。
A.需求分析阶段B.概念设计阶段C.逻辑设计阶段D.物理设计阶段2.一辆汽车由多个零部件组成,且相同的零部件可适用于不同型号的汽车,则汽车实体集与零部件实体集之间的联系是( D )A. 1:1B. 1:MC. M:1D. M:N3. 若对于实体集A中的每个实体,实体集B中有n(n>1)与之联系;对以实体集B中的每个实体,实体集A中只有1个实体与之联系,则实体集A和实体集B之间的联系的联系基数是( B )。
A.1:1 B.1:n C. m:n D. n:14. 在数据库中,产生数据不一致的根本原因是( C )。
A.数据存储量太大B.没有严格保护数据C.未对数据进行完整性控制D.数据冗余5. 如果关系模式R上有函数依赖AB→C和A→C,则R中存在(B)。
A.完全函数依赖B.部分函数依赖C.传递函数依赖D.多值依赖6. SQL语言是一种( B )的语言,易学习和使用。
A.过程化B.非过程化C.格式化D.导航式7.设有事务T1和T2,其并发操作顺序如下图所示,该并发操作带来的问题是(A)A.丢失更新B.读“脏数据”C.事务不能提交D.不能重复读8. 设有事务T1和T2,其并发操作顺序如下图所示。
该并发操作带来的问题是(C).A. 丢失更新B. 不一致C. 读“脏数据”D. 写错误8.设有关系R(书号,书名),如果要检索第3个字母为M,且至少包含4个字母的书名,则SQL查询语句中WHERE子句的条件表达式应写成:书名LIKE( C )A. '_ _ M _'B. '_ _ M%'C. '_ _ M _ %'D. '_%M_ _'9. 设关系模式R(A,B,C,D,E),及R下成立的函数依赖集F={A→BC,C→D,BC→E,E→A},则分解为R1(ABCE),R2(CD)满足( C )。
A.具有无损连接性、保持函数依赖B.不具有无损连接性、保持函数依赖C.具有无损连接性、不保持函数依赖D.不具有无损连接性、不保持函数依赖10.事务的ACID性质中,关于原子性(atomicity)的描述正确的是( C )A. 指数据库的内容不出现矛盾的状态。
(完整版)数据库试题库(有答案)
复习题一、填空题:1、三类经典的数据模型是_________、_________和_________。
其中,________目前应用最广泛。
2、_________模型是面向信息世界的,它是按用户的观点对数据和信息建模;________模型是面向计算机世界的,它是按计算机系统的观点对数据建摸。
3、关系模型的实体完整性是指______________________________。
在关系模型中,候选码是指_______________________,全码是指_________________________。
4、设Ei 为关系代数表达式,根据关系代数等价变换规则,(E1×E2)×E3 ≡ __________,若选择条件F只涉及E1中的属性,则σF(E1×E2)≡____________。
5、数据依赖是关系中属性间的相互关联,最重要的数据依赖有两种,即_____依赖和多值依赖。
6、在关系规范化过程中,将1NF转化为2NF,要消除______________________,若一个关系模式R∈2NF,并且消除了非主属性对码的传递依赖,则R∈__NF。
7、数据库的保护措施有________控制、_________控制、_________控制和数据库恢复等。
8、事务是并发控制的基本单位,事务的四个性质是_______性、_______性、_______性和________性。
9、并发控制的主要方法是封锁,封锁的类型有两种,即________锁和_______锁。
10、故障恢复的基本手段有____________和_________________。
11、DBMS的中文全称是___________。
12、数据管理的发展经历了人工管理阶段、_________阶段和________阶段。
13、数据库系统的三级模式分别是___________,___________和_________。
数据仓库复习资料
一、选择题第一章:商务智能基本概念1.商务智能在企业管理中所发挥的作用主要体现在(B)等方面。
P4A.创造B.理解 C.分析 D.挖掘2.数据仓库则是商务智能的(A),使建立于数据仓库基础之上的商务智能可以更专注于商务信息的提取和商务知识的发现。
A.数据基础 B.文件汇集 C.分析基础 D.支持框架3.企业的数据空间由于历史原因会构成一个错综复杂的数据“蜘蛛网”,数据“蜘蛛网”的存在导致了企业决策的(D)。
P7A.一致 B.正确 C.混乱D.错误4.与数据库相比较,数据仓库内的数据是(D)。
P8A.动态变化的 B.随时更新的C.基本维持不变的 D.静态的、历史的5.数据仓库的基本功能包含(A),数据筛选、清理,清理后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。
P17A.数据抽取 B.数据选择 C.数据更新 D.数据添加6.由于数据仓库要分析事务的发展趋势,因此在将数据加载到数据仓库之前必须完成数据的(C)设置,是数据具有时间属性。
P20A.时间排序 B.年月日 C.时间戳 D.时分秒7.选择数据挖掘工具时,一半需要参照的评价标准有:模式种类的数量、解决复杂问题的能力、(A)、数据获取能力等。
P36A.操作性能 B.数据处理速度 C.数据传输速度 D.模式的类型8.数据挖掘过程中的挖掘模型构建是指挖掘目标,(A)。
P40A.设计挖掘算法模型 B.选择一个合适的挖掘算法C.对挖掘算法进行评价 D.对挖掘模式的类型进行评价9.由于数据仓库主要用于对管理决策提供支持,因此其响应时间(C)。
A.必须在数秒内完成 B.限定在毫秒级C.可能长达数小时 D.可能长达数年10.目前的商务智能体系架构主要有比尔·恩门的信息工厂、扎克曼的企业架构、美国数据仓库研究院的商务智能架构和加特纳公司的商务智能框架等。
但是这些架构均包含了商务分析、(D)、数据挖掘和数据仓库4部分。
P5A.DM B.DW C.OLTP D.OLAP第二章:数据仓库开发模型1.概念世界中的整体对应到计算机世界中的(B)。
数据仓库复习题
1.数据仓库的概念:数据仓库是一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。
数据仓库包含粒度化的企业数据。
数据仓库是体系结构化的核心;是决策支持系统处理的基础,是数据可重用性和一致性的基础。
2.粒度的概念:粒度指的是数据仓库中数据单元的细节程度或综合程度的级别。
细节程度越高,粒度级别就越低,查询范围越广泛;相反,细节程度越低,粒度级别就越高,查询范围越少。
3.操作型环境与数据仓库环境的硬件利用模式:操作型处理中有多个波峰和波谷,但总的来说,存在相对静态的且可预测稳定的硬件利用模式;数据仓库环境中利用的是二元模式。
要么利用全部硬件,要么根本不用硬件。
4.自然演化式体系结构化环境的四个层次:操作层、原子/数据仓库层、部门层、个体层。
其各个职能是:数据操作层只保存原始数据并且服务于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存放;数据的部门层几乎只存放导出数据;数据个体层中完成大多数启发式分析。
5.自然演化式体系结构化环境的核心即两种基本数据:原始数据和导出数据6.数据仓库开发生命周期:数据仓库开发生命周期是CLDS(常称为“螺旋式”开发方法)。
CLDS是由数据开始,得到数据后,将数据集成。
然后,检验数据存在什么偏差。
之后,针对数据写程序,分析程序的执行结果,最后,系统需求才得到理解。
一旦系统需求得到理解,就需要对系统的设计进行调整,然后针对不同的数据集开始新的开发周期。
7.自然演化式体系结构的问题的描述及原因:自然演化式体系结构的问题有:数据可信性、生产率问题、无法将数据转化为信息、方法的变迁、体系结构化环境、体系结构化环境中的数据集成、用户是谁。
其原因是:数据无时间基准、数据算法上的差异、抽取的多层次问题、外部数据问题、无公共起始数据源。
8.数据仓库的结构的阐述:数据仓库环境中数据存在着不同的细节级:早期细节级(通常是存储在备用海量存储器上)、当前细节级、轻度综合数据级(数据集市级)以及高度综合数据级。
数据仓库_精品文档
一、选择题1、数据仓库是随时间变化的,下面的描述不正确的是:A、数据仓库随时间变化不断增加新的数据内容。
B、捕捉到的新数据会覆盖原来的快照。
C、数据仓库随时间变化不断删去旧的数据内容。
D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合。
答案: B2、关于基本数据的元数据是指:A、基本元数据包括与数据源、数据仓库、数据集市和应用程序等结构相关的信息。
B、基本元数据包括与企业相关的管理方面的数据和信息。
C、基本元数据包括日志文件和建立执行处理的时序调度信息。
D、基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息。
答案: A3、下面有关数据粒度的描述不正确的是:A、粒度是指数据仓库小数据单元的详细程度和级别。
B、数据越详细,粒度就越小,级别也就越高。
C、数据综合度越高,粒度就越大,级别也就越高。
D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。
答案: B4、有关数据仓库的开发特点,不正确的描述是:A、数据仓库开发要从数据出发。
B、数据仓库使用的需求在开发出去就要明确。
C、数据仓库的开发是一个不断循环的过程,是启发式的开发。
D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据的分析和处理更灵活,且没有固定的模式。
答案: B5、RAID技术具有容错能力,能够满足对存储能力、性能和可靠性不断提高的要求。
其实,实现原理是将数据写入多张磁盘中,如果—张磁盘发生故障,就从其他存放冗余数据的磁盘上访问数据。
有关RAID不同级别的描述不正确的是:A、在RAID 0这一级别上,数据记录通过在多组驱动器的扇区上交错地分布着实现,没有奇偶校验,不提供任何冗余。
B、RAID 1称为镜像。
在这一级别上,数据被冗余地写入成对的驱动器中,可以独立地从每个驱动器提取该数据。
这种方法没有什么缺点,是备份时候经常用到的技术。
C、RAID 3数据记录在成组驱动器上,位交错,只有一个驱动器仍有奇偶校验信息。
数据库基础知识试题(含答案)
数据库基础知识试题部门____________ 姓名__________ 日期_________ 得分__________一、不定项选择题(每题1.5分,共30分)1.DELETE语句用来删除表中的数据,一次可以删除( )。
DA .一行 B.多行 C.一行和多行 D.多行2.数据库文件中主数据文件扩展名和次数据库文件扩展名分别为( )。
CA. .mdf .ldfB. .ldf .mdfC. .mdf .ndfD. .ndf .mdf3.视图是从一个或多个表中或视图中导出的()。
AA 表B 查询C 报表D 数据4.下列运算符中表示任意字符的是( )。
BA. *B. %C. LIKED._5.()是SQL Server中最重要的管理工具。
AA.企业管理器 B.查询分析器 C.服务管理器 D.事件探察器6.()不是用来查询、添加、修改和删除数据库中数据的语句。
DA、SELECTB、INSERTC、UPDATED、DROP7.在oracle中下列哪个表名是不允许的()。
DA、abc$B、abcC、abc_D、_abc8.使用SQL命令将教师表teacher中工资salary字段的值增加500,应该使用的命令是()。
DA、Replace salary with salary+500B、Update teacher salary with salary+500C、Update set salary with salary+500D、Update teacher set salary=salary+5009.表的两种相关约束是()。
CA、主键和索引B、外键和索引C、主键和外键D、内键和外键10.ORACLE数据库物理结构包括()。
ABCA、数据文件B、日志文件C、控制文件D、临时文件11.在Oracle中,一个用户拥有的所有数据库对象统称为()。
CA、数据库B、模式C、表空间D、实例12.在Oracle中,可用于提取日期时间类型特定部分(如年、月、日、时、分、秒)的函数有()。
数据仓库复习题
数据仓库复习题1.数据仓库的概念:数据仓库是一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。
数据仓库包含粒度化的企业数据。
数据仓库是体系结构化的核心;是决策支持系统处理的基础,是数据可重用性和一致性的基础。
2.粒度的概念:粒度指的是数据仓库中数据单元的细节程度或综合程度的级别。
细节程度越高,粒度级别就越低,查询范围越广泛;相反,细节程度越低,粒度级别就越高,查询范围越少。
3.操作型环境与数据仓库环境的硬件利用模式:操作型处理中有多个波峰和波谷,但总的来说,存在相对静态的且可预测稳定的硬件利用模式;数据仓库环境中利用的是二元模式。
要么利用全部硬件,要么根本不用硬件。
4.自然演化式体系结构化环境的四个层次:操作层、原子/数据仓库层、部门层、个体层。
其各个职能是:数据操作层只保存原始数据并且服务于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存放;数据的部门层几乎只存放导出数据;数据个体层中完成大多数启发式分析。
5.自然演化式体系结构化环境的核心即两种基本数据:原始数据和导出数据6.数据仓库开发生命周期:数据仓库开发生命周期是CLDS(常称为“螺旋式”开发方法)。
CLDS是由数据开始,得到数据后,将数据集成。
然后,检验数据存在什么偏差。
之后,针对数据写程序,分析程序的执行结果,最后,系统需求才得到理解。
一旦系统需求得到理解,就需要对系统的设计进行调整,然后针对不同的数据集开始新的开发周期。
7.自然演化式体系结构的问题的描述及原因:自然演化式体系结构的问题有:数据可信性、生产率问题、无法将数据转化为信息、方法的变迁、体系结构化环境、体系结构化环境中的数据集成、用户是谁。
其原因是:数据无时间基准、数据算法上的差异、抽取的多层次问题、外部数据问题、无公共起始数据源。
8.数据仓库的结构的阐述:数据仓库环境中数据存在着不同的细节级:早期细节级(通常是存储在备用海量存储器上)、当前细节级、轻度综合数据级(数据集市级)以及高度综合数据级。
数据库复习试题含答案
一、单选题1、数据库管理系统的工作不包括(C )?A.为定义的数据库提供操作系统B.数据备份C.为已定义的数据库进行管理D.定义数据库2、下面关于数据库系统的正确叙述是( B)?A.数据库系统避免了数据冗余B.数据库系统减少了数据冗余C.数据库系统中数据的一致性是指数据类型一致D.数据库系统比文件系统能管理更多的数据3、下面的数据库产品中,由甲骨文公司开发的是?BA.SQL ServerB.OracleC.AccessD.DB24、在数据管理技术的发展过程中,经历了人工管理阶段、文件系统阶段和数据库系统阶段。
在这几个阶段中,数据独立性最高的是(A )阶段。
A.数据库系统B.文件系统C.人工管理D.数据项管理5、数据库系统包括_____、软件、硬件和人员?A.数据库B.数据库管理系统C.数据模型D.软件工具6、在学校,每个学生可选修多门课程,每门课程可为多名学生选修,学生与课程之间的联系类型是(D) ?A.一对多B.一对一C.多对一D.多对多7、以下关于实体的描述中,错误的是( B)。
A.实体是指现实世界中存在的一切事物B.实体靠联系来描述C.实体所具有的性质统称为属性D.实体和属性是信息世界表示概念的两个不同单位8、反映现实世界中实体及实体间联系的信息模型是( D)?A.关系模型B.层次模型C.网状模型D.E-R模型9、若用如下的SQL语句创建了一个表SC: CREATE TABLE SC (S# CHAR(6) NOT NULL,C# CHAR(3) NOT NULL,SCORE INTEGER,NOTE CHAR(20));向SC表插入如下行时,哪行可以被插入。
()A.('201009','111','60',必修)B.('200823','101',NULL,NULL)C.(NULL,'103','80','选修')D.('201132',NULL,'86','')10、SQL语言是(B )的语言,容易学习。
数据库运维复习资料2
复习题一、单选题1.数据库系统的核心是(C)。
A.数据库B.数据库管理员C.数据库管理系统D.计算机软硬件系统2.数据库(DB)、数据库系统(DBS)和数据库管理系统(DBMS)三者之间的关系是(A)。
A.DBS包括DB和DBMSB.DBMS包括DB和DBSC.DB包括DBS和DBMSD.DBS包括DB,也就是DBMS3. 文件管理方式中,数据处于一种(C)的状态。
A. 集中B. 集体化C. 分散D. 链接4.以下不属于数据库特点的是(B)。
A.数据共享B.数据冗余度高C.数据完整性高D.数据独立性高5. 对数据库特征的描述不准确的是(D)。
A. 数据具有独立性B. 数据结构化C. 数据集中控制D. 数据没有冗余6.要保证数据库的数据独立性,需要修改的是(C)。
A. 模式与外模式B. 模式与内模式C. 三级模式之间的两层映射D. 三层模式7. 数据库的三级模式结构之间存在着两级映像,使得数据库系统具有较高的(B)。
A. 事务并发性B. 数据独立性C. 数据可靠性D. 数据重用性8. 一般地,一个数据库系统的外模式(D)。
A.只能有一个 B.最多只能有一个C.至多两个 D.可以有多个9. 以下不属于数据库必须提供的数据控制功能的是(B)。
A.安全性 B.可移植性C.完整性 D.并发控制10. 以下哪个不属于数据库完整性的范围(C)。
A.外键约束B.主键约束C.数据加密 D.数据类型11.关于MySQL数据库的MyISAM存储引擎描述正确的是(B)A. 表锁、全文索引和不支持事务B. 不缓存数据文件,只缓存索引文件C. 含有系统表空间文件D. 每个MyISAM在磁盘上存储成三个文件,文件名都和表名不同,扩展名不同12.MySQL数据库中,关于Memory存储引擎与InnoDB和MyISAM不同的是(D)A. 不需要创建Memory表B. 锁机制为表锁C. 不支持外键和事务处理D. 将表中数据存放在内存中13.MySQL数据库中,关于作为临时存放查询的中间结果集的存储引擎描述正确的是(C)A. 始终使用Memory作为临时存放查询的中间结果集B. 默认使用InnoDB作为临时存放查询的中间结果集C. 如果中间结果集含有TEXT或BLOB列的类型字段,则MySQL数据库会将其转换到MyISAM存储引擎表而存放到磁盘中。
最新数据仓库期末试卷
《数据仓库》考试试题姓名陆志鹏得分一、(15分)请解释“数据孤岛”的含义,为什么会引起“数据孤岛”现象,有哪些解决办法?答:数据孤岛可以认为是"数据的污染".之所以产生数据孤岛这样的情况,有这么几个原因:1、对于一些大中企业,数据可能分散于各个分支机构,汇总速度慢、决策速度慢,缺乏实时性管理;数据分散且缺乏标准化,形成信息孤岛;公司与公司之间、部门与部门之间,数据缺乏标准化、有价值资料无法充分利用,信息化系统不具备数据整合功能,对决策支持能力不强。
2、信息部门建设的相对滞后,如果信息部门不能尽快满足业务对数据处理的要求,那业务部门就可能独自开发业务系统,这种情况现在还是普遍存在.3、缺少企业内信息化建设的战略和标准,如果不能做到信息系统建设的统一,由不同部门,不同公司来建设的话,必须有一个标准能够使得日后的互通比较容易实现。
解决数据孤岛的办法:企业数据集成,使用数据仓库。
二、(15分)数据仓库与数据库系统有什么关系?答:数据库一般存储在线交易数据,数据库主要是处理实时性的任务,是面向事务的,因此是做OLTP(联机处理)方面的工作。
数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,数据仓库研究和解决从数据库中获取信息的问题。
数据仓库是面向主题,集成,随时间变化,数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识,一般和数据挖掘结合在一起用于管理者决策,对一段时期内集聚的数据做分析,因此是OLAP(联机分析处理)方面的工作。
数据库是数据仓库的基础。
三、(15分)什么是元数据?元数据在数据仓库中有什么作用?怎样建立元数据才能更好地发挥其作用?对元数据怎么管理?答:1. 元数据就是“关于数据的数据”,是描述数据仓库内数据的结构和建立方法的数据。
在数据仓库中,元数据可对数据仓库中的各种数据进行详细的描述和说明,说明每个数据的上下文关系,是每个数据具有符合现实的真实含义,是最终用户了解这些数据之间的关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章概述1.数据挖掘的定义?(书P2,PPT_P8)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14)关系数据库、数据仓库、事务数据库、高级数据等3.数据挖掘的常用方法?(P4、PPT_P29)聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书P2-3,PPT_P17-19)确定业务对象、数据准备、数据挖掘、结果分析与知识同化。
5.数据挖掘与数据仓库的关系(联系和区别)?书P6-7,PPT_P45-46联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数据源2,数据仓库韦数据挖掘提供了新的支持平台。
3,数据仓库为更好地使用数据挖掘工具提供了方便4,数据挖掘对数据仓库提供了更好的决策支持。
5,数据挖掘对数据仓库的数据组织提出了更高的要求6,数据挖掘还为数据仓库提供了广泛的技术支持区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。
~~数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
第二章数据仓库1.数据仓库的定义数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。
2.数据仓库数据的四大基本特征:面向主题的、集成的、不可更新的、随时间变化的。
3.数据仓库体系结构有三个独立的数据层次:信息获取层、信息存储层、信息传递层。
4.粒度的定义?它对数据仓库有什么影响?(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。
(2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。
5.在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。
6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。
7.数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型8.数据仓库设计步骤(1)概念模型设计(2)技术准备工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库的生成(6)数据仓库的使用和维护9.数据装入时,并不是一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。
10.建立数据仓库的步骤并不是一成不变的,但最终应该满足用户的分析需求。
第三章联机分析处理技术1.联机事务处理与联机分析处理的区别?联机事务处理(OLTP)作为数据管理手段,主要用于事务处理,但它对分析处理一直不能令人满意。
联机分析处理(OLAP)是决策支持系统的有机组成部分,利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析结果返回给决策分析人员。
2.OLAP的主要特征快速性、可分析性、多维性、信息性。
3.钻取Drill/Roll up,Drill down改变维的层次,变换分析的粒度。
分向上钻取和向下钻取。
向上钻取:在某一维上将低层次的细节数据概括到高层的汇总数据,或者减少维数。
向下钻取:从汇总数据深入到细节数据进行观察或增加新维。
4.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
5.OLAP根据其数据存储格式可分为三类:关系OLAP(ROLAP)、多维OLAP(MOLAP)和混合OLAP(HOLAP)。
6.雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。
7.OLAP的衡量标准(1)透明性准则:——OLAP在体系结构中的位置和数据源对用户是透明的。
(2)动态的稀疏矩阵处理准则:——对任意给定的稀疏矩阵,存在且仅存在一个最优的物理视图。
(3)维的等同性准则:——每一数据维在数据结构和操作能力上都是等同的。
第四章数据预处理1.数据预处理的方法——数据清洗、数据集成、数据变换、数据规约等。
2.分箱方法——统一权重、统一区间、最小熵、用户自定义区间。
3.数据平滑处理方法——按平均值、按边界值、按中值4.数据规范化定义?规范化的常用方法有哪些?(1)将数据按比例缩放,使之落入一个特定的区域,如[0,1],称为规范化/标准化。
(2)常用方法:最小-最大规范化、零-均值规范化、小数定标规范化。
5.数据规约从大数据集中得到其规约表示——小数据集规约的目的是减少原始数据量;可以在小数据集上得到与原始数据相同的挖掘结果。
6. 下面是一个超市某种商品连续24个月的销售数据(百元):21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17使用统一权重、统一区间和自定义区间方法对数据分箱,并对分箱后的数据采用平均值、边界值或中值等方法进行平滑。
解:15,16,16,17,17,18,19,20,20,20,21,21,21,22,22,23,23,23,2,24,25,26,26,27统一权重:设权重为6,表示每箱6个记录,分四箱:箱1: 15,16,16,17,17,18箱2:19,20,20,20,21,21箱3: 21,22,22,23,23,23箱4: 24,24,25,26,26,27边界:箱1: 15,15,15,18,18,18箱2:19,19,19,21,21,21箱3: 21,21,21,23,23,23箱4: 24,24,24,27,27,27统一区间:每个箱子宽度为(27-15)/4=3,区间[15,18)、[18,21)、[21,24)、[24,27):箱1: 15,16,16,17,17箱2:18,19,20,20,20箱3: 21,21,21,22,22,23,23,23箱4: 24,24,25,26,26,27中值:箱1: 16,16,16,16,16箱2:20,20,20,20,20箱3: 22,22,22,22,22,22,22,22箱4: 25.5, 25.5, 25.5, 25.5, 25.5, 25.5第五章关联规则方法1.关联规则挖掘的任务?找到事务数据库D中支持度和置信度分别满足用户指定的最小支持度min_sup和最小置信度min_con的规则。
2.关联规则挖掘问题分哪两个步骤?(1)找出D中所有的频繁项集;(2)从频繁项集中产生关联规则。
3.Apriori性质:频繁项集的所有非空子集也都必须是频繁的;这是频繁项集的先验知识;可以减少候选频繁项集的数量。
4.负边界:负边界中的项集是非频繁的,但每个项集的所有子集都是频繁的。
5.数据库如下图所示,如果设定最小支持度s=40%,置信度c=70%,计算该数据库中的频繁项集和负边界,以及由频繁项集产生的规则。
频繁项集:L1,L2,L3,即{i1}、{i2}、{i3}、{i5}、{i1,i3}、{i2,i3}、{i2,i5}、{i,i5}、{i2,i3,i5}。
负边界:{i1,i2},{i1,i5}。
第六章决策树方法1.决策树的基本概念:适用于离散值属性、连续值属性;采用自项向下的规约方法产生一个类似于流程图的树结构;在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝。
2.决策树的优点进行分类器设计时,决策树分类方法所需时间相对较少;决策树的分类模型是树型结构,简单直观,比较符合人类的理解方式;可以讲决策树中到达每个叶节点的路径转换为IF—THEN形式的分类规则,这种形式更有利于理解。
3.决策树剪枝决策树剪枝过程试图检测和去掉多余的分枝,以提高对未知类标号的数据进行分类时的准确性。
第八章人工神经网络方法1.神经网络直所以能胜任一些复杂的工作,是因为它有学习的能力。
2.具有较好的泛华能力是神经网络设计的评价指标之一。
3.BP神经网络的拓扑结构分为多个层次:输入层、隐含层、输出层。
4.神经网络进行学习实际上就是学习其连接的权值。
5.BP神经网络学习过程由信号的正向传播与误差的反响传播两个过程组成。
6.在线训练:每处理一个训练实例,就更新一次权重。
7.离线训练:把所有训练实例都处理一遍之后,再更新权重。
8.利用梯度下降法更新权重易于陷入局部极小值,从而无法得到最优解。
9.BP神经网络的优点和缺点(1)BP神经网络的优点:◆抗噪性能好;◆既能处理连续数据,也能处理类别型数据;◆在多个领域有成功应用;◆既适合有监督学习,也适合无监督学习;◆具有较好的泛化能力;◆具有较好的逼近非线性映射的能力;◆具有较好的容错性。
(2)BP神经网络的缺点:◆缺乏可解释性;◆可能无法找到优解;◆可能存在过学习问题(overfitting);◆收敛速度慢。
第九章聚类分析1.聚类分析定义把一个给定的数据对象集合分成不同的簇;在同一个簇(或类)中,对象之间具有相似性;不同簇(或类)的对象之间具有较高的相宜性。
2.聚类分析方法通常分为哪些方法?基于划分方法;基于层次的方法;基于密度的方法;基于网格的方法;谱聚类方法3.数据挖掘技术对聚类分析的要求有哪几个方面?(1)可伸缩性(适用于增长的大数据集);(2)处理不同类型属性的能力(支持多种类型属性的数据集);(3)发现任意形状聚类的能力(除了球形聚类外,能划分出任意形状聚类);(4)减小对先验知识和用户自定义参数的依赖性;(5)处理噪声数据的能力(对孤立点、缺失值。
错误数据等噪声数据的抗干扰性);(6)可解释性和实用性(降维,可视化显示)。
4.K平均方法与K中心点方法比较(1)当存在噪声和离群点时,K中心点方法比K均值方法更加鲁棒。
(2)K中心点方法的执行代价比K平均方法要高。
(3)两种方法都要用户指定簇的数目K。
5.聚类分析中最常用的距离有欧几里得距离,曼哈坦距离、明可夫斯基距离等。
6.基于划分的聚类算法有K中心点方法和K平均方法等单选题举例1.决策树中不包含以下哪种结点(C)A.根结点B.内部结点C.外部结点D.叶结点2.某超市研究销售记录数据后发现,买啤酒的人很大概率也会买尿布,这种属于数据挖掘的哪类问题?(A)A.关联规则发现B.聚类C.分类D.自然语言处理3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘4.当不知道数据所带标签(类别)时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A.分类B.聚类C.关联分析D.决策树分析5.什么是KDD?(A)A.数据挖掘与知识发现B.领域知识发现C.文档知识发现D.动态知识发现判断题举例1.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。