大数据仓库与大数据挖掘技术复习资料
12《数据仓库与数据挖掘》复习题
《数据仓库与数据挖掘》复习大纲三、简答题(5×6分=30分)四、分析计算题(3×10分=30分)考试范围:第一讲数据挖掘概述考点:1、数据挖掘、知识发现(KDD)基本概念;2、数据挖掘的过程;3、数据挖掘过技术的三个主要部分。
复习参考题:一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。
(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理。
(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习。
(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘。
(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据。
二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:BA、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?DA、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析。
A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能。
A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析。
A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B)。
A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )。
A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题1、何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。
数据仓库与数据挖掘期末综合复习
数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。
数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据挖掘考试复习资料
数据挖掘考试复习资料一、名词解释1、数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策.2、聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。
在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘:文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP:又称联机分析处理,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
定义1:OLAP是针对特定问题的联机数据访问和分析。
通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。
定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
)7、概念描述:就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化:提供给定数据汇集的简洁汇总比较:提供两个或多个数据汇集的比较描述8、信息熵:在信息论中,熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。
信息熵也称信源熵、平均自信息量。
二、简答题1、数据仓库和传统数据库的区别和联系是什么?(1)区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。
数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。
数据挖掘与数据仓库复习资料
数据挖掘与数据仓库复习资料2010—04—07 16:511数据仓库与数据挖掘的关系大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘.数据挖掘过程中所需要的数据处理与分析工具完全可以在数据仓库的数据处理与数据分析工具中找到,数据仓库中的OLAP完全可以为数据挖掘提供有关的数据操作支持数据挖掘技术在数据仓库中的应用,正好弥补了数据仓库只能提供大量数据,而无法进行深度信息分析的缺陷。
2数据仓库与传统数据库长期共存首先,企业内数据库与数据仓库将长期共存。
其次,数据库是数据仓库的基础。
第三,在技术实现方面,数据库与数据仓库几乎没有差别。
第四,不要脱离企业的实际,盲目地、片面地、甚至是赶时髦地去实施数据仓库.第五,数据仓库在能够为企业带来利益的同时,在支持企业信息决策中也存在一些局限性。
总之,不要过分夸大数据仓库与传统数据库的差异,不要过分夸大数据仓库系统的作用、贬低数据库系统的作用。
数据库与数据仓库将长期共存下去。
3挖掘与信息的关系4弥补传统数据库不足传统数据库的主要任务是进行事务处理,它所关注的是事务处理的及时性、完整性与正确性,而在数据的分析处理方面,则存在着诸多的不足,主要体现在缺乏集成性、主题不明确等几个方面.1.集成性的缺乏首先,业务数据库系统的条块与部门分割,导致数据分布的分散化与无序化.其次,业务数据库缺乏统一的定义与规划,导致数据定义存在歧义。
2.主题不明确3.分析处理效率低5数据仓库的特点和主题特点:数据仓库是面向主题的数据仓库是集成的数据仓库是稳定的数据仓库是随时间变化的数据仓库的数据量很大数据仓库软硬件要求较高6体系结构(三个层次)数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库.系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。
单一数据仓库结构将所有的主题都集中到一个大型数据库中的体系结构.数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。
2011121数据仓库与数据挖掘技术复习题纲_显示
数据仓库与数据挖掘技术期末复习纲要2011-2012(1)一、掌握以下基本概念:1.数据挖掘:就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。
2.数据仓库:英文名称:Data W arehouse,可简写为DW或DWH。
定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
数据仓库是决策支持系统(DSS)和联机分析应用数据源的结构化数据环境。
数据仓库研究和解决从数据库中获取信息的问题。
数据仓库的四大关键特征:面向主题性、数据集成性、数据的时变性和数据的非易失性。
3.商业智能英文名称:Business Intelligence,简写为BI。
定义:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。
商业智能系统是一个学习型系统,能自动适应商务不断变化的要求。
4.决策支持系统英文名称:decision support system ,简称DSS定义:是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。
DSS主要是基于数据仓库,联机数据分析和数据挖掘技术的应用。
5. 主题: (Subject)主题是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。
主题域的特征:独立性,完备性6. 数据集市:小型的,面向部门或工作组级别的数据仓库。
7. 数据仓库的元数据:关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。
8. ETL (Extraction-Transformation-Loading):数据抽取(Extract),数据转换(Transform),数据装载(Load)。
数据仓库与数据挖掘复习提纲
数据仓库与数据挖掘复习提纲-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII数据库应用技术(数据仓库与数据挖掘复习提纲)说明:考试形式:闭卷考试题型:填空、选择、判断、名词解释、简答题、综合题。
(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)另外:本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。
一:名词解释数据仓库、数据挖掘、OLAP、ODS(操作数据存储)二.简答题1.试述数据仓库系统与数据库系统的区别与相似之处。
2.试述数据仓库设计的步骤以及每一步所完成的工作。
3.OLAP与OLTP的区别有哪些?它们适合于运行在同一个服务器上吗为什么4.在数据挖掘前,为什么要对数据进行预处理,数据预处理的有哪些主要的处理方法?5.在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
6.什么是数据仓库中的元数据,元数据包含哪些内容其重要性体现在哪些方面7.试述ODS在“DB-ODS-DW”体系结构中的作用。
8.请解释OLAP中维、维层次与维成员的概念,并举例说明。
9. 数据仓库中的数据是数据库中数据的简单堆积吗它有哪些常用的数据组织方式10.数据仓库和数据集市的区别是什么数据仓库的体系环境具有什么特点有哪些建立数据仓库体系化环境的方法它们各有何优劣11.数据仓库的设计包括哪些内容?12.在内容和使用者方面,数据仓库环境中的元数据与操作型环境中的元数据有何异同?13.为了提高数据仓库的性能,可以在哪些方面作一些努力在各个方面分别采用什么样的技术这些技术易于实现吗14.OLAP提供哪些基本操作?15.OLAP服务器有哪些实现方法它们的优劣是什么16.为什么不能依靠传统的业务处理系统进行决策分析17.自然演化体系结构中存在的问题?18.试述建立多维数据库的过程。
19.数据挖掘的主要方法。
数据仓库与数据挖掘复习资料
1.数据仓库的概念和特点p11定义:一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员作出决策。
特性:面向主题的、集成的、非易失的、随时间不断变化的。
1、面向主题的:数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体,是从整体的、全局的角度来衡量这些主题在企业中的作用。
2、集成的:数据仓库必须将不一致的数据进行有效的集成,使之在数据仓库中有一致性的表示形式。
一致性问题只是集成所包含的一部分工作,另外还需要根据主题进行有效的数据组织。
3、非易失性:一旦操作型数据进入数据仓库,只要数据未超过数据仓库的数据存储期限,通常不对数据进行更新操作,而只进行查询操作。
即不进行一般意义上的更新,而且与操作型数据相比,更新频率要低得多,对时间的要求更为宽松。
4、随时间不断变化的(数据因时而变的特点)《与操作型数据比较的,书上14页》:(1)数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。
操作型环境一般60-90天,数据仓库5-10年。
一个数据仓库的大小一般都是在100GB以上通常,数据仓库系统应该包含下列程序:(1)抽取数据与加载数据(2)整理并转换数据(采用一种数据仓库适用的数据格式)(3)备份与备存数据(4)管理所有查询(即将查询导向适当的数据源)数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。
数据仓库的键码结构总是包含某时间元素。
2.数据仓库中的关键概念14外部数据源:就是从系统外部获取的同分析主题相关的数据。
数据抽取:是数据仓库按分析的主题从业务数据库抽取相关数据的过程。
现有的数据仓库产品几乎都提供关系型数据接口,提供抽取引擎以从关系型数据中抽取数据。
数据清洗:从多个业务系统中获取数据时,必须进行必要的数据清洗,从而得到准确的数据。
所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除,以免影响DSS决策的正确性。
(15页有例子)数据转换:各种数据库产品所提供的数据类型可能不同,需要将不同格式的数据转换成统一的数据格式,称为数据转换。
数据仓库和数据挖掘期末重点
数据仓库(Data Warehouse,DW)和数据挖掘(Data Mining,DM)是决策支持的两项重要技术,它们的共同特点是都需要利用大量的数据资源,并从数据资源中提取信息和知识。
一1.联机事务处理(On Line Transaction Processing, OLTP)是在网络的环境下面向交易的事物处理,利用计算机网络技术,以快速的事物响应和频繁的数据修改为特征,使用户利用数据库能快速的处理具体的业务。
其特征是用户的数据可以迅速的传到计算中心进行处理,并在很短的时间内给出处理的结果。
最大特点是实时的处理用户输入及时得到回答。
2.数据创库元数据(metadata)被定义为关于数据的数据,在数据仓库中是描述数据仓库中的数据及其环境的数据。
元数据在数据仓库中不仅定义了数据仓库有什么,还指名了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则的说明,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的,如数据的修改,跟踪,抽取,综合以及使用等,元数据遍及数据仓库的方方面面,它已成为整个数据仓库的核心。
3.数据仓库的定义:数据仓库是面向主题的,集成的,稳定的,不同时间的信息集合,用于支持经营管理中决策制定过程。
特点:数据仓库是面向主题的;数据仓库是集成的;数据仓库是稳定的;数据仓库是随时间变化的;数据仓库中的数据量是很大的;数据仓库的软硬件要求都很高;4.数据仓库与数据挖掘的区别:数据仓库是在数据库的基础上发展而来的,它将大量的数据库信息按决策需求进行重新组织,以数据仓库的形式进行存储,它将为用户提供辅助决策的随机查询,综合信息以及随时间变化的趋势分析信息等。
数据挖掘是一种存储技术,它的数据存储量是一般数据库的100倍,它包含大量的历史数据,当前数据,当前的详细数据以及综合数据。
它能适应于不同用户对不同决策需要的数据和信息。
数据挖掘是从人工智能机器学习中发展起来的。
数据仓库和数据挖掘技术复习提纲
数据仓库和数据挖掘技术复习提纲一.数据仓库导论1.数据仓库的定义及其基本特征。
2.数据仓库与传统数据库的区别。
.综述建设数据仓库的必要性。
二.数据仓库的体系结构1.数据仓库系统的结构及各部分的主要功能。
2.数据仓库的结构及各部分的主要功能。
3.简述星型模型的结构特征。
.综述元数据的定义及作用。
三.数据仓库设计1.简述数据仓库开发的生命周期。
2.简述数据仓库的技术体系结构及各模块的功能。
3.数据仓库高层建摸与中间层建摸的区别和联系。
4.在数据仓库物理建摸时,如何提高的性能。
5.什么是粒度,进行粒度设计的基本方法是什么。
.综述数据仓库开发的步骤及各步骤之间的联系。
四.数据仓库管理技术1.什么是休眠数据,产生休眠数据的原因是什么。
2.综述邻线存储方案的基本思想及实现方法。
3.简述元数据的管理方法和使用方法。
4.数据仓库增量式更新的主要技术是什么.防止数据仓库中数据急剧增长的主要方法是什么五.联机分析处理1.的定义及主要特征。
2.图示与的关系。
3.举例说明什么是的切片、切块、下钻操作。
4.和的主要区别是什么。
5.和(多维数据库)的区别是什么。
6.分析的基本步骤。
.什么是,它有什么意义。
六.数据挖掘技术1.什么是数据挖掘,它与传统分析方法的主要区别是什么。
2.数据挖掘有那些主要方法。
3.什么是关联规则?举例说明。
4.简述关联规则的支持度,可信度的定义,并举例说明。
5.简述算法的基本思想。
6.设有交易数据库如图所示。
若最小支持度计数阈值为,最小可信度计数阈值为,试按算法求出<> 频繁项集<> 关联规则<> 根据你的理解,说明这些关联规则的意义,并指出使用那一条规则,公司可能赢利。
数据仓库与挖掘复习资料
数据仓库与挖掘复习资料一、第一章1、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
2、数据处理通常分成两大类:联机事务处理和联机分析处理。
3、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
12、简述数据仓库4种体系结构的异同点及其适用性。
(1)两层架构。
(2)独立型的数据集市。
采用这种体系结构的优点是其方便性,可快速启动,这个数据仓库架构可通过一系列的小项目来实现。
(3)依赖型数据集市和操作型数据存储。
优势是它们可以处理各个用户群的需求,甚至是探索性数据仓库的需求。
(4)逻辑型数据集市和实时数据仓库。
是建立数据仓库的一种较佳方法,特别是在硬件性能不断提高,成本不断下降的条件下。
14、请列出3种数据仓库产品,并说明其优缺点。
答:1、IBM公司提供了一套基于可视化数据仓库的商业智能BI解决方案。
2、Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discover两个部分。
3、Microsoft 将OLAP功能集成到SQL Server数据库中,其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个部分。
二、什么是数据挖掘?(p4)数据挖掘就是从从大量数据数据中提取或“挖掘”知识,又被称为数据库中的知识发现。
三、数据仓库与传统的数据库有何区别?(1)数据库是面向事务的设计,数据仓库是面向主题设计的。
(2)数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
(3)数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计时有意引入冗余,采用反范式的方式来设计。
数据仓库与数据挖掘复习大全
数据仓库与数据挖掘复习⼤全数据仓库与数据挖掘复习⼤全湖北⽂理学院湖北襄阳王茂林1.某超市研究销售纪录数据后发现,买啤酒的⼈很⼤概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. ⾃然语⾔处理2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A)(a)警察抓⼩偷,描述警察抓的⼈中有多少个是⼩偷的标准。
(b)描述有多少⽐例的⼩偷给警察抓了的标准。
A. Precision, RecallB. Recall, PrecisionC. Precision, ROCD. Recall, ROC分类是⼀种重要的数据挖掘算法。
分类的⽬的是构造⼀个分类函数或分类模型(即分类器),通过分类器将数据对象映射到某⼀个给定的类别中。
分类器的主要评价指标有准确率(Precision)、召回率(Recall)、F b-score、ROC、AOC等。
准确率(Precision) 和召回率(Recall)是信息检索领域两个最基本的指标。
准确率也称为查准率,召回率也称为查全率。
它们的定义如下:Precision=系统检索到的相关⽂件数量/系统检索到的⽂件总数量Recall=系统检索到的相关⽂件数量/系统所有相关⽂件数量F b-score是准确率和召回率的调和平均:F b=[(1+b2)*P*R]/(b2*P+R),⽐较常⽤的是F1。
在信息检索中,准确率和召回率是互相影响的,虽然两者都⾼是⼀种期望的理想情况,然⽽实际中常常是准确率⾼、召回率就低,或者召回率低、但准确率⾼。
所以在实际中常常需要根据具体情况做出取舍,例如对⼀般搜索的情况是在保证召回率的情况下提升准确率,⽽如果是疾病监测、反垃圾邮件等,则是在保证准确率的条件下,提升召回率。
但有时候,需要兼顾两者,那么就可以⽤F-score指标。
在信息检索中,准确率和召回率是互相影响的,虽然两者都⾼是⼀种期望的理想情况,然⽽实际中常常是准确率⾼、召回率就低,或者召回率低、但准确率⾼。
数据仓库与挖掘期末考试知识点复习
数据挖掘知识点(考点)复习第6章的知识点 1.哪些学科和数据挖掘有密切联系?(P68数据挖掘关系图)2.数据挖掘的定义(P69)数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
第7章的知识点1.数据挖掘步骤(P74)确定目标、数据准备、数据挖掘、结果分析2.数据选择的内容(包括哪两部分)(P75)属性选择和数据抽样3.数据清理的方法(P75) 了解小规模数据、大数据集的清理方法。
小规模数据:人工清理大数据集:自动清理(测定→识别→ 纠正)4.常见的模式有哪些(P78)尤其是分类、回归、聚类模式之间的分析比较。
① 分类模式(用于离散值)② 回归模式(用于连续值)③ 聚类模式④ 关联模式⑤序列模式即将数据间的关联性事件发生的顺序联系起来。
⑥时间序列模式根据数据随时间变化的趋势预测将来的值。
5.模式的精确度(P79)训练和测试模式需将数据分成哪两部分以及各自用途?模式准确性的测试方法及其比较。
训练和测试模式需将数据分成:一是训练数据,主要用于模式训练;另一个是测试数据,主要用于模式测试。
模式准确性的测试方法:封闭测试:测试集即训练模式的训练数据。
可测试模式的稳定性,但无法验证其推广能力。
开放测试:测试模式的数据是模式先前未见的数据。
可以很好地度量模式的准确度。
6.数据预处理的任务有哪些?(P83-89)数据清理、数据集成和转换7.空缺值的处理方法(P83-84)忽略该条记录(不很有效)、手工填补遗漏值(可行性差)、利用缺省值填补遗漏值(不推荐)数据库理论 数据仓库数据统计 机器学习 人工智能 数据挖掘利用均值填补遗漏、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值(较常用)8.分箱技术(P84-86) 分箱之前要做的工作?P84 分箱之前需要对记录按目标属性值的大小进行排序(1)要求能描述出常见的分箱方法和数据平滑方法(简答)。
数据仓库与数据挖掘学习要点附答案
数据仓库与数据挖掘学习要点第一章 引言1、数据挖掘的概念,即什么是数据挖掘?数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。
2、数据挖掘的过程。
数据输入数据清理规范化特征选择维缩减模式发现关联&相关分类聚类异常分析…………模式评估模式选择模式解释模式可视化3、数据挖掘的功能是什么?即可以挖掘到什么类型的模式。
1)概念描述: 特征和区分 2)频繁模式,关联 3)分类和预测 4)聚类分析 5)离群点分析 6)趋势和演变分析4、数据挖掘模式是要挖掘有趣的模式。
什么是有趣模式,为什么要挖掘有趣的模式? 有趣模式:易于被人理解的, 在某种程度上在新的或测试数据上是有效的, 潜在有用的, 新颖的, 或验证了用户希望证实的某种假设 模式兴趣度度量,无论是客观的还是主观的,都可以用来指导发现过程5、关系数据库、数据仓库、数据挖掘构成一个怎样的层次,在功能上它们之间有什么样的关系?多种挖掘功能的集成、耦合第二章 数据预处理1、 为什么要预处理数据?现实世界中的数据是脏的:1)不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据2)噪音: 包含错误或孤立点3)不一致: 编码或名字存在差异2、 数据预处理包括那些方面?数据清理——填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致 数据集成——多个数据库, 数据立方体, 或文件的集成数据变换——规范化和聚集数据归约——得到数据的归约表示, 它小得多, 但产生相同或类似的分析结果:维度规约、数值规约、数据压缩数据离散化和概念分层3、数据清理的概念,数据清理包括那些方面?数据清理——填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致数据清理包括缺失值、噪声数据、不一致性、偏差检测和数据交换4、数据集成和变换的概念。
数据集成——多个数据库, 数据立方体, 或文件的集成数据变换——规范化和聚集5、数据规约的概念,数据规约包括那些方面?数据归约——得到数据的归约表示, 它小得多, 但产生相同或类似的分析结果:维度规约、数值规约、数据压缩数据规约包括数据立方体聚集、维度规约、数据压缩、数值规约、离散化和产生概念分层6、什么是数据离散化?什么是概念分层?数据离散化——把连续属性的区域分成区间概念分层——递归离散化属性,产生属性值分层/多分辨率划分第三章数据仓库与OLAP技术1、数据仓库的概念数据仓库是面向主题的, 集成的, 时变的, 和非易失的数据集合, 支持管理决策过程2、为什么需要数据仓库?数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,目的是OLAP: 复杂的OLAP 查询, 多维视图, 统一.文档收集自网络,仅用于个人学3、什么是数据立方体?数据立方体将数据建模, 并允许由多个维进行观察4、掌握数据立方体各种操作:上卷、下钻、切块、切片。
数据仓库与数据挖掘复习资料
概念
• “清洗”就是将错误的、不一致的数据在进 入数据仓库之前予以更正或删除,以免影 响DSS决策的正确性。
• 元数据:是用来描述数据的数据。它描述 和定位数据组件、它们的起源及它们在数 据仓库进程中的活动;关于数据和操作的 相关描述(输入、计算和输出)。元数据可用 文件存在元数据库中。
Data Warehouse
Selection
Data Cleaning Data Integration
Databases
A5
预处理:对数据列的基本处理
– 对于数据挖掘十分重要的一些特例的分布情况:
• 只有一种值的列
– 缺乏任何信息内容,忽略。
– 例如:1. null,no,0
–
2. 如建立一个模型预测新泽西州的汽车客户损失率,关
星型结构和雪花型结构
• 星型结构
–通过将事实表和维表进行连接,我们就可以得 到“星型结构”(Star-Scheme)。
雪花型结构
• 实际应用需求并不像标准星型结构描述的那么简 单,当问题涉及的维度很多时,事实表中的条目 数将迅速增长。
• 假定原来的事实表条目数为m,增加一个具有n个 条目的维表,通常,事实表的条目数将变成mn条, 这样事实表所占用的存储空间将迅速增大。
• Cluster analysis 聚类分析
– Class label类标记 is unknown: Group data to form new classes, e.g., cluster houses to find distribution patterns
数据仓库与数据挖掘学习要点 及答案
数据仓库与数据挖掘学习要点及答案数据仓库与数据挖掘学习要点及答案数据仓库与数据挖掘是现代信息技术领域中非常重要的概念和技术。
数据仓库是指将各种数据源中的数据进行整合、清洗、转换和存储,以便后续的分析和决策支持。
数据挖掘则是从大量的数据中发现隐藏的模式、规律和关联性,以提供有价值的信息和知识。
以下是关于数据仓库与数据挖掘学习的要点及答案:一、数据仓库基础知识1. 数据仓库的定义和特点:数据仓库是一个面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持决策支持系统的分析和查询需求。
2. 数据仓库的架构:包括数据源层、数据清洗层、数据集成层、数据存储层和数据展示层等组成部分。
3. 数据仓库的建模方法:维度建模和实体关系建模是常用的数据仓库建模方法。
二、数据仓库的设计与实施1. 数据需求分析:根据用户的需求和业务场景,确定数据仓库的主题和维度,并进行数据需求分析。
2. 数据抽取和清洗:从各个数据源中抽取数据,并进行数据清洗、转换和集成,以确保数据的质量和一致性。
3. 数据存储和管理:选择合适的数据存储技术,如关系型数据库、列式数据库或分布式文件系统等,进行数据的存储和管理。
4. 数据展示和查询:设计合适的报表、仪表盘和查询界面,以便用户能够方便地进行数据分析和查询。
三、数据挖掘的基本概念1. 数据挖掘的定义和目标:数据挖掘是从大量的数据中自动发现有用的模式、规律和关联性,以提供有价值的信息和知识。
2. 数据挖掘的任务:包括分类、聚类、关联规则挖掘、异常检测和预测等任务。
3. 数据挖掘的过程:包括数据预处理、特征选择、模型构建、模型评估和模型应用等步骤。
四、数据挖掘的常用算法和技术1. 分类算法:包括决策树、朴素贝叶斯、支持向量机等算法,用于将数据进行分类。
2. 聚类算法:包括K均值聚类、层次聚类、密度聚类等算法,用于将数据进行聚类。
3. 关联规则挖掘:用于发现数据中的频繁项集和关联规则,以揭示数据之间的关联性。
数据仓库与数据挖掘复习资料
数据仓库与数据挖掘简答题资料1.数据库与数据仓库的本质差别?《第一章》答:a.数据库是用于事务处理,数据仓库用于决策分析;b.数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;c.数据仓库的数据是大量数据库的集成;d.对数据库的操作比较明确,操作数据量少。
对数据仓库操作不明确,操作数据量大。
e.数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面相分析且支持决策。
2.联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么?《第三章》联机分析处理简单定义:即OLAP是共享多维信息的快速分析。
体现了4个特征:a.快速性:用户对OLAP的快速反应能力有很高的要求。
b.可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
c.多维性:多维性是OLAP的特点,系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。
d.信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统都应能及时获得信息,并且管理大容量信息。
3.数据仓库两类用户有什么本质的不同?《第五章》数据仓库的用户有两类:信息使用者和探索者。
信息使用者是使用数据仓库的大量用户,信息使用者以一种可预测、重复性的方式使用数据仓库。
探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。
探索者查看海量详细数据,而概括数据则会妨碍探索者的数据分析。
探索者经常查看历史数据,且查看时间比使用者长的多。
探索者的任务是寻找公司数据内隐含的价值并且根据过去的事件努力预测未来决策的结果。
探索者是典型的数据挖掘者。
4.信息论的基本原理是什么?《第七章》一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。
信息论把通信过程看做是在随机干扰的环境中传递信息的过程。
数据仓库与数据挖掘复习.doc
复习资料%1.名词解释1.数据仓J车:数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。
它是单个数据存储,出于分析性报告和决策支持的目的而创建。
为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。
2.螺旋式周期性开发方法:针对未来航空电了系统而临的挑战和航空电了系统设计的特点,提出了基于原型仿真的航空电子系统螺旋式开发方法3 .数据仓库元数据:在数据仓库中,无数据是描述数据仓库数据的结构和建立方法的数据。
4数据才努掘:是数据库知识发现中的一个步骤。
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等方法来实现目标。
5.数据集市:一种更小、更集中的数据仓库。
原始数据从数据仓库流入不同的部门以支持这些部门的定制化使用。
这些部门级的数据库就称为数据集市。
迎合了专业用户群体的特殊需求。
二、简答题1.为什么不能依靠传统的业务处理系统进行决策分析?传统业务系统数据量少,不能用来做出正确的预测,是针对口常事务处理而设计的,因此不能支持短时间内大量数据的分析和计算;传统业务系统数据杂乱,可能存在大量的坏数据以及异常数据,会影响决策分析的正确性。
如果在传统业务系统中进行决策分析,那么必然会影响到系统的使用2.数据粒度,数据粒度划分策略数据仓库中数据的细化和综合程度。
划分为:详细数据、轻度总结、高度总结三级。
原则:细化程度越高,粒度越小;细化程度越低,粒度越大。
3 .数据仓库的体系结构数据源、数据存储和管理、OLAP服务器以及前端工具与应用四个部分4. MOLAP和ROLAP在OLAP的数据存储特点MOLAP基本数据和聚合数据存放于多维数据集中,ROLAP基本数据和聚合数据均存放在RDBMS之中5 .请列出常见的现代数据挖掘技术知识发现技术、规则型挖掘技术、神经网络型挖掘技术、遗传算法型挖掘技术、粗糙型挖掘技术、决策树型挖掘技术、三、简述美联规则挖掘算法Apriori的算法思想并说明如何利用Apriori性质生成频繁项集。
数据仓库与数据挖掘技术复习资料
数据仓库与数据挖掘技术复习资料数据仓库与数据挖掘技术复习资料⼀、单项选择题1.数据挖掘技术包括三个主要的部分( C )A.数据、模型、技术 B.算法、技术、领域知识C.数据、建模能⼒、算法与技术 D.建模能⼒、算法与技术、领域知识2.关于基本数据的元数据是指: ( D )A.基本元数据与数据源,数据仓库,数据集市和应⽤程序等结构相关的信息;B.基本元数据包括与企业相关的管理⽅⾯的数据和信息;C.基本元数据包括⽇志⽂件和简历执⾏处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理⽅⾯的信息。
3.关于OLAP和OLTP的说法,下列不正确的是: ( A)A.OLAP事务量⼤,但事务内容⽐较简单且重复率⾼B.OLAP的最终数据来源与OLTP不⼀样C.OLTP⾯对的是决策⼈员和⾼层管理⼈员D.OLTP以应⽤为核⼼,是应⽤驱动的4.将原始数据进⾏集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下⾯哪种不属于数据预处理的⽅法? ( D )A.变量代换B.离散化C. 聚集D. 估计遗漏值6.在ID3 算法中信息增益是指( D )A.信息的溢出程度B.信息的增加效益C.熵增加的程度最⼤D.熵减少的程度最⼤7.以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8.以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.⼦树可能在决策树中重复多次C.决策树算法对于噪声的⼲扰⾮常敏感D.寻找最佳决策树是NP完全问题9.假设收⼊属性的最⼩与最⼤分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采⽤最⼤-最⼩数据规范⽅法,计算结果是( A )A. 0.25B. 0.375C.0.125D. 0.510.在抽样⽅法中,当合适的样本容量很难确定时,可以使⽤的抽样⽅法是:( D )A.有放回的简单随机抽样B.⽆放回的简单随机抽样C.分层抽样D.渐进抽样11.当不知道数据所带标签时,可以使⽤哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12.设X={1,2,3}是频繁项集,则可由X产⽣( C )个关联规则。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库与数据挖掘技术复习资料一、单项选择题1.数据挖掘技术包括三个主要的部分( C )A.数据、模型、技术 B.算法、技术、领域知识C.数据、建模能力、算法与技术 D.建模能力、算法与技术、领域知识2.关于基本数据的元数据是指: ( D )A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。
3.关于OLAP和OLTP的说法,下列不正确的是: ( A)A.OLAP事务量大,但事务内容比较简单且重复率高B.OLAP的最终数据来源与OLTP不一样C.OLTP面对的是决策人员和高层管理人员D.OLTP以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 聚集D. 估计遗漏值6.在ID3 算法中信息增益是指( D )A.信息的溢出程度B.信息的增加效益C.熵增加的程度最大D.熵减少的程度最大7.以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8.以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻找最佳决策树是NP完全问题9.假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375C.0.125D. 0.510.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12.设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则。
A.4B.5C.6D.713.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。
A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法14.只有非零值才重要的二元属性被称作:( C )A.计数属性B.离散属性C.非对称的二元属性D.对称属性15.在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。
A.曼哈顿距离B.平方欧几里德距离C.余弦距离D.Bregman散度16.下面关于数据粒度的描述不正确的是: ( C )A. 粒度是指数据仓库小数据单元的详细程度和级别B. 数据越详细,粒度就越小,级别也就越高C. 数据综合度越高,粒度也就越大,级别也就越高D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量17.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( B )A.聚类B.关联规则发现C.分类D.自然语言处理18.OLAP技术的核心是: ( D )A.在线性B.对用户的快速响应C. 互操作性D.多维分析19.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 聚集D.估计遗漏值20.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。
等深划分时,15在第几个箱子内? ( B )A.第一个B.第二个C.第三个D.第四个 21. 上题中,等宽划分时(宽度为50),15又在哪个箱子里? ( A )A.第一个B.第二个C.第三个D.第四个 22. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: ( B )A.1bitB.2.6bitC.3.2bitD.3.8bit 23. 假设属性income 的最大最小值分别是12000元和98000元。
利用最大最小规范化的方法将属性的值映射到0至1的范围内。
对属性income 的73600元将被转化为:( D )A.0.821B.1.224C.1.458D.0.716 24. 假定用于分析的数据包含属性age 。
数据元组中age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为:( A )A. 18.3B. 22.6C. 26.8D.27.925.给定两个对象,分别用元组(22,1,42,10)和(20,0,36,8)表示,则这两个对象之间的曼哈坦距离为:( )A.5B.11C.2.92D.2.24 26. 概念分层图是( B )图。
A.无向无环B.有向无环C.有向有环D.无向有环 27. 假设A 为事件“产品合格”,B 为“机器工作正常”,现给出以下概率:机器工作正常,生产产品合格的概率为P(A|B)=0.95;机器不正常工作时,生产产品合格的概率为)|(B A P =0.1;机器正常工作的概率,即P(B)=0.9。
已知生产了一个不合格品,机器不正常工作的概率,即)|(A B P 是( )。
A.0.90 B.0.333 C.0.667 D.0.05二、填空题1.数据仓库是面向主题的、( 集成的 )、( 具有特性的 )、稳定的数据集合,用以支持经营管理中的决策制定过程。
2.OLAP 的基本多维分析操作有(聚类 )、切片、切块以及( 旋转 )等。
3.多维数据集通常采用 ( 星型 )或雪花型架构,以( 事实 )为中心,连接多个( 维表 )。
4.空缺值数据的处理方法主要有使用默认值、(属性平均值)、(同类样本平均值)和预测最可能的值等。
5.平均互信息等于(信息)熵减(条件)熵,表示不确定性的消除。
6.神经网络的学习方式有3种:(监督学习)、(非监督学习)和再励学习(强化学习)。
7.聚类分析的数据通常可分为区间标度变量、二元变量、(标称变量)、(比例标度变量)、序数型以及混合类型等。
8.数据立方体是数据的多维建模和表示,由维和事实组成。
维就是涉及的(属性)、而事实是一个具体的(数据)。
9.数据预处理的主要内容(方法)包括(数据清洗)、(数据变换)、(数据集成)和数据归约等。
10.关联规则的经典算法包括( Apriori)算法和(FP_Growth)算法,其中( FP_Growth )算法的效率更高。
11.非线性回归的模型有:直接换元法、(间接代换法)和(非线性型)三种。
12.人工神经网络的特点和优势主要表现在具有(自学习)功能、具有(联系存储)功能和具有高速寻找优化解的能力三个方面。
13.ID3算法只能对描述属性为(离散)型属性的数据集构造决策树。
14.按照对应的数据类型,Web挖掘可分为内容挖掘、()和()。
15.BP神经网络由(输入)、(输出)以及一或多个隐含结点组成。
三、判断题1. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
( 对 )2. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。
(错)3.数据仓库中间层OLAP服务器只能采用关系型OLAP。
(错)4. 特征提取技术并不依赖于特定的领域。
(错)5.定量属性可以是整数值或者是连续值。
(对)6. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。
(错)7.贝叶斯法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
( 错) 8. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。
(错)。
9. 如果规则不满足置信度阈值,则形成的规则一定也不满足置信度阈值,其中是X的子集。
(对)10.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。
( 对)11.如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。
(对)12. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。
(错)13. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
( 对 )14.离散属性总是具有有限个值。
(错)15. 用于分类的离散化方法之间的根本区别在于是否使用类信息。
(对)16. 特征提取技术并不依赖于特定的领域。
(错)17.定量属性可以是整数值或者是连续值。
(对)18. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。
(错)19. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
(错)20. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。
(对)21. 具有较高的支持度的项集具有较高的置信度。
(错)22. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。
(错)23. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。
( 对) 四、简答题1.设某事务项集构成如表1所示,填空完成粗体字部分支持度和置信度的计算,保留1位小数。
表12. 写出非对称二元变量相异度计算公式(即jaccard 系数),并计算表2中各对象间的相异度。
表2解:Jaccard 系数公式可描述为非对称二元相异度=取值不同的同位属性数/(单个元素的属性位数-同取0的位数)。
sr q sr j i d +++=),(,其中r 表示对象i 取值为1,对象j 取值为0;s 表示对象i 取0值,对象j 取1值,q 表示对象i 和j 同取1值。
33.03110210)21(==+++=OBJ OBJ d ,14422022)31(==+++=OBJ OBJ d ,15523023)32(==+++=OBJ OBJ d ,3.给定两个对象,分别用元组(22,1,42,10)和(20,0,36,8)表示(a)计算两个对象之间的欧几里德的距离; (b)计算两个对象之间的曼哈坦距离; (c)计算两个对象间的明考斯基距离,q =3。