《数据挖掘》A卷
数据挖掘(练习)考试答案
数据挖掘(练习)1、(单选,4分)以下哪项不属于知识发现的过程?( )A、数据清理B、数据挖掘C、知识可视化表达D、数据测试答案:D2、(单选,4分)以下哪些不属于数据挖掘的内容?()A、分类B、聚类C、离群点检测D、递归分析答案:D3、(单选,4分)以下哪个不是常见的属性类型?()A、A.标称属性B、数值属性C、高维属性D、序数属性答案:C4、(单选,4分)以下哪个度量属于数据散度的描述?()A、均值B、中位数C、标准差D、众数答案:C5、(单选,4分)以下哪个度量不属于数据中心趋势度描述?(D )A、A.均值B、中位数C、众数D、四分位数答案:D6、(单选,4分)对数据进行数据清理、集成、变换、规约是数据挖掘哪个步骤的任务?( )A、频繁模式挖掘B、分类和预测C、数据预处理D、噪声检测答案:C7、(单选,4分)聚类分析是数据挖掘的一种重要技术,以下哪个算法不属于聚类算法?( )A、K-MeansB、DBSCANC、SVMD、EM 答案:C8、(单选,4分)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案:C9、(单选,4分)当不知道数据所带标签时. 可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A、分类B、聚类C、关联分析D、隐马尔可夫链答案:B10、(单选,4分)在构造决策树时,以下哪种不是选择属性的度量的方法?( )A、信息增益B、信息增益率C、基尼指数D、距离答案:D11、(单选,4分)知识发现流程最核心的步骤是什么?( )A、数据挖掘B、数据预处理C、模式评估D、知识表示答案:A12、(单选,4分)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘答案:C13、(单选,4分)以下哪个度量属于数据中心性的描述?()A、均值B、极差C、众数D、标准差答案:A14、(单选,4分)类分析是数据挖掘的一种重要技术,以下哪个算法不属于聚类算法?( )A、K-MeansB、DBSCANC、KNND、EM 答案:C15、(单选,4分)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( ) A、关联规则发现B、聚类C、分类D、自然语言处理答案:A16、(单选,4分)以下哪些算法是分类算法?( ) A、DBSCAN B、C4.5 C、K-Mean D、EM 答案:B17、(单选,4分)K-means算法的缺点不包括?( ) A、K必须是事先给定的B、选择初始聚类中心C、对于“噪声”和孤立点数据是敏感的D、可伸缩、高效答案:D18、(单选,4分)机器学习中,下面哪些方法不可以避免分类中的过拟合问题?()A、增加样本数量B、增加模型复杂度C、去除噪声D、正则化答案:B19、(单选,4分)下面那个不属于知识发现过程。
数据挖掘考试题库及答案
数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。
答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。
答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。
答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。
答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。
答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。
()答案:错误12. 数据挖掘是数据仓库的一部分。
()答案:正确13. 决策树算法适用于处理连续属性的分类问题。
()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。
()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。
()答案:错误四、简答题16. 简述数据挖掘的主要任务。
答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。
17. 简述决策树算法的基本原理。
答案:决策树算法是一种自顶向下的递归划分方法。
它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。
数据挖掘知识竞赛题库及答案
数据挖掘知识竞赛题库及答案一、选择题1. 数据挖掘的目的是从大量的数据中发现有价值的信息和知识。
以下哪个不是数据挖掘的主要任务?A. 分类B. 聚类C. 预测D. 图像识别答案:D2. 在数据挖掘过程中,特征工程是指什么?A. 选择与目标变量相关的特征B. 对特征进行标准化处理C. 特征降维D. 以上都是答案:D3. K-近邻算法是一种基于什么的分类方法?A. 决策树B. 支持向量机C. 神经网络D. 实例匹配答案:D4. 在数据挖掘中,什么是衡量分类器性能的主要指标?A. 准确率B. 召回率C. F1值D. AUC值答案:D5. 在关联规则挖掘中,最小支持度是指什么?A. 出现在至少一半的事务中的项集B. 出现在至少一定比例的事务中的项集C. 出现在至少一个事务中的项集D. 出现在至少多数事务中的项集答案:B6. 以下哪种技术不属于聚类分析?A. K-均值B. 层次聚类C. 密度聚类D. 决策树聚类答案:D7. 在时间序列分析中,什么是时间序列的前向扩散?A. 过去的信息对当前信息的影响B. 当前的信息对过去信息的影响C. 未来的信息对当前信息的影响D. 当前的信息对未来信息的影响答案:C8. 在数据挖掘中,什么是基于模型的预测方法?A. 利用已有数据建立模型,对新数据进行预测B. 直接对原始数据进行预测C. 利用专家经验进行预测D. 利用机器学习算法进行预测答案:A9. 在数据挖掘中,什么是维度归一化?A. 将特征值缩放到一个固定范围B. 减少特征的数量C. 特征选择D. 特征提取答案:A10. 在数据挖掘中,什么是过拟合?A. 模型在训练集上的性能很好,但在测试集上的性能较差B. 模型在训练集上的性能较差,但在测试集上的性能很好C. 模型在训练集和测试集上的性能都很好D. 模型在训练集和测试集上的性能都较差答案:A二、填空题1. 数据挖掘的主要任务包括分类、聚类、预测和__________。
数据挖掘测试题及答案
数据挖掘测试题及答案一、选择题1. 数据挖掘的目的是:A. 数据清洗B. 数据转换C. 模式发现D. 数据存储答案:C2. 以下哪项不是数据挖掘的常用算法?A. 决策树B. 聚类分析C. 线性回归D. 关联规则答案:C二、填空题1. 数据挖掘中的_________是指在大量数据中发现的有意义的模式。
答案:知识2. 一种常用的数据挖掘技术是_________,它用于发现数据中隐藏的分组。
答案:聚类三、简答题1. 简述数据挖掘与数据分析的区别。
答案:数据挖掘是一种自动或半自动的过程,旨在从大量数据中发现模式和知识。
数据分析通常涉及更具体的查询和问题,使用统计方法来理解数据。
2. 描述什么是关联规则挖掘,并给出一个例子。
答案:关联规则挖掘是一种用于发现变量之间有趣关系的技术,特别是变量之间的频繁模式、关联或相关性。
例如,在市场篮子分析中,关联规则挖掘可以用来发现顾客购买行为中的模式,如“购买面包的顾客中有80%也购买了牛奶”。
四、计算题1. 给定以下数据集,计算支持度和置信度:| 事务ID | 购买的商品 |||-|| 1 | A, B || 2 | A, C || 3 | B, C || 4 | A, B, C || 5 | B, D |(1) 计算项集{A}的支持度。
(2) 计算规则A => B的置信度。
答案:(1) 项集{A}的支持度为4/5,因为A出现在4个事务中。
(2) 规则A => B的置信度为3/4,因为A和B同时出现在3个事务中,而A出现在4个事务中。
五、论述题1. 论述数据挖掘在电子商务中的应用,并给出至少两个具体的例子。
答案:数据挖掘在电子商务中的应用非常广泛,包括:- 客户细分:通过数据挖掘技术,商家可以识别不同的客户群体,为每个群体提供定制化的服务或产品。
- 推荐系统:利用关联规则挖掘,电商平台可以推荐用户可能感兴趣的商品,提高用户满意度和购买率。
- 欺诈检测:通过分析交易模式,数据挖掘可以帮助识别异常行为,预防信用卡欺诈等风险。
数据挖掘测试题及答案
数据挖掘测试题及答案一、单项选择题(每题2分,共10题,共20分)1. 数据挖掘中,用于发现数据集中的关联规则的算法是:A. K-meansB. AprioriC. Naive BayesD. Decision Tree答案:B2. 以下哪个选项不是数据挖掘的步骤之一:A. 数据预处理B. 数据探索C. 数据收集D. 数据分析答案:C3. 在分类问题中,以下哪个算法属于监督学习:A. 聚类B. 决策树C. 关联规则D. 异常检测答案:B4. 数据挖掘中,用于发现数据集中的频繁项集的算法是:A. K-meansB. AprioriC. Naive BayesD. Decision Tree5. 在数据挖掘中,以下哪个选项不是数据预处理的步骤:A. 数据清洗B. 数据集成C. 数据变换D. 数据分类答案:D6. 以下哪个算法主要用于聚类问题:A. K-meansB. AprioriC. Naive BayesD. Decision Tree答案:A7. 在数据挖掘中,以下哪个选项不是数据挖掘的应用领域:A. 市场分析B. 医疗诊断C. 社交网络分析D. 视频游戏开发答案:D8. 以下哪个算法主要用于异常检测:A. K-meansB. AprioriC. Naive BayesD. One-Class SVM答案:D9. 在数据挖掘中,以下哪个选项不是数据挖掘的输出结果:B. 规则C. 趋势D. 软件答案:D10. 以下哪个算法主要用于分类问题:A. K-meansB. AprioriC. Naive BayesD. Decision Tree答案:D二、多项选择题(每题3分,共5题,共15分)1. 数据挖掘中,以下哪些算法可以用于分类问题:A. K-meansB. Decision TreeC. Naive BayesD. Logistic Regression答案:BCD2. 在数据挖掘中,以下哪些步骤属于数据预处理:A. 数据清洗B. 数据集成C. 数据变换D. 数据分类答案:ABC3. 以下哪些算法可以用于聚类问题:A. K-meansB. AprioriC. Hierarchical ClusteringD. DBSCAN答案:ACD4. 在数据挖掘中,以下哪些步骤属于数据探索:A. 数据可视化B. 数据摘要C. 数据分类D. 数据变换答案:AB5. 以下哪些算法可以用于异常检测:A. K-meansB. One-Class SVMC. Isolation ForestD. Apriori答案:BC三、简答题(每题5分,共3题,共15分)1. 简述数据挖掘中关联规则挖掘的主要步骤。
数据挖掘考试和答案
数据挖掘考试和答案一、单项选择题(每题2分,共20分)1. 数据挖掘的主要任务不包括以下哪一项?A. 分类B. 聚类C. 预测D. 数据清洗答案:D2. 以下哪个算法不是用于分类的?A. 决策树B. 支持向量机C. K-均值D. 神经网络答案:C3. 在数据挖掘中,以下哪个概念与“异常检测”相对应?A. 频繁模式挖掘B. 聚类C. 关联规则学习D. 异常检测答案:D4. 以下哪个算法是用于聚类的?A. Apriori算法B. K-最近邻算法C. 逻辑回归D. 随机森林答案:B5. 在关联规则学习中,以下哪个指标用于衡量规则的置信度?A. 支持度B. 置信度C. 增益D. 覆盖度答案:B6. 数据挖掘中的“过拟合”是指模型:A. 过于复杂,无法泛化到新数据B. 过于简单,无法捕捉数据的复杂性C. 训练时间过长D. 计算成本过高答案:A7. 在时间序列分析中,ARIMA模型的全称是什么?A. 自回归积分滑动平均模型B. 自回归移动平均模型C. 自回归积分滑动平均模型D. 自回归条件异方差模型答案:A8. 以下哪个是监督学习算法?A. K-均值聚类B. 决策树C. 主成分分析D. Apriori算法答案:B9. 在数据挖掘中,以下哪个概念与“特征选择”相对应?A. 特征提取B. 特征工程C. 降维D. 数据清洗答案:C10. 以下哪个算法是用于降维的?A. 线性回归B. 主成分分析C. 逻辑回归D. 支持向量机答案:B二、多项选择题(每题3分,共15分)11. 数据挖掘中的“关联规则学习”可以应用于以下哪些场景?A. 市场篮分析B. 异常检测C. 推荐系统D. 聚类分析答案:A, C12. 以下哪些是数据挖掘中常用的距离度量?A. 欧氏距离B. 曼哈顿距离C. 余弦相似度D. 杰卡德相似系数答案:A, B, C, D13. 在数据挖掘中,以下哪些是常用的聚类算法?A. K-均值B. DBSCANC. 层次聚类D. 支持向量机答案:A, B, C14. 以下哪些是数据挖掘中的特征选择方法?A. 过滤方法B. 包装方法C. 嵌入方法D. 随机森林答案:A, B, C15. 在数据挖掘中,以下哪些是模型评估指标?A. 准确率B. 召回率C. F1分数D. 均方误差答案:A, B, C, D三、填空题(每题2分,共20分)16. 数据挖掘中的________是指通过分析数据来发现数据中未知的、有价值的信息和知识的过程。
大学数据挖掘期末考试题
第 - 1 - 页 共 3 页数据挖掘试卷课程代码: C0204413 课程: 数据挖掘A 卷一、判断题(每题1分,10分)1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法.( )2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘.( )3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
( )4. 当两个点之间的邻近度取它们之间距离的平方时,Ward 方法与组平均非常相似。
( )5. DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。
( )6. 属性的性质不必与用来度量他的值的性质相同。
( )7. 全链对噪声点和离群点很敏感。
( )8. 对于非对称的属性,只有非零值才是重要的。
( ) 9. K 均值可以很好的处理不同密度的数据。
( ) 10. 单链技术擅长处理椭圆形状的簇.( )二、选择题(每题2分,30分)1。
当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A 。
分类 B.聚类 C.关联分析 D 。
主成分分析2。
( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
A 。
MIN(单链) B 。
MAX (全链) C 。
组平均 D 。
Ward 方法 3.数据挖掘的经典案例“啤酒与尿布试验"最主要是应用了( )数据挖掘方法。
A 分类B 预测C 关联规则分析D 聚类 4.关于K 均值和DBSCAN 的比较,以下说法不正确的是( )A 。
K 均值丢弃被它识别为噪声的对象,而DBSCAN 一般聚类所有对象。
B 。
K 均值使用簇的基于原型的概念,DBSCAN 使用基于密度的概念。
C 。
K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇D 。
K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN 会合并有重叠的簇 5.下列关于Ward's Method 说法错误的是:( ) A 。
数据挖掘及应用考试试题及答案
数据挖掘及应用考试试题及答案一、选择题(每题2分,共20分)1. 以下哪项不属于数据挖掘的主要任务?A. 分类B. 聚类C. 关联规则挖掘D. 数据清洗答案:D2. 数据挖掘中,以下哪项技术不属于关联规则挖掘的方法?A. Apriori算法B. FP-growth算法C. ID3算法D. 决策树算法答案:C3. 以下哪个算法不属于聚类算法?A. K-means算法B. DBSCAN算法C. Apriori算法D. 层次聚类算法答案:C4. 数据挖掘中,以下哪个属性类型不适合进行关联规则挖掘?A. 连续型属性B. 离散型属性C. 二进制属性D. 有序属性答案:A5. 数据挖掘中,以下哪个评估指标用于衡量分类模型的性能?A. 准确率B. 精确度C. 召回率D. 所有以上选项答案:D二、填空题(每题3分,共30分)6. 数据挖掘的目的是从大量数据中挖掘出有价值的________和________。
答案:知识;模式7. 数据挖掘的主要任务包括分类、聚类、关联规则挖掘和________。
答案:预测分析8. Apriori算法中,最小支持度(min_support)和最小置信度(min_confidence)是两个重要的参数,它们分别用于控制________和________。
答案:频繁项集;强规则9. 在K-means聚类算法中,聚类结果的好坏取决于________和________。
答案:初始聚类中心;迭代次数10. 数据挖掘中,决策树算法的构建过程主要包括________、________和________三个步骤。
答案:选择最佳分割属性;生成子节点;剪枝三、判断题(每题2分,共20分)11. 数据挖掘是数据库技术的一个延伸,它的目的是从大量数据中提取有价值的信息。
()答案:√12. 数据挖掘过程中,数据清洗是必不可少的步骤,用于提高数据质量。
()答案:√13. 数据挖掘中,分类和聚类是两个不同的任务,分类需要训练集,而聚类不需要。
数据挖掘期末试卷
数据挖掘期末试卷一、简答题(共5题,每题10分)1.数据挖掘的定义和目标是什么?2.数据预处理的步骤有哪些?请详细描述。
3.请简述交叉验证在数据挖掘中的作用。
4.请解释什么是聚类分析,并举例说明其在实际应用中的作用。
5.请解释关联规则挖掘的概念,并说明其在市场篮子分析中的应用。
二、计算题(共2题,每题20分)1.假设有一个包含100个数据样本的数据集D,其中80个样本属于类别A,20个样本属于类别B。
现给定一个新的数据样本x,请根据给定的数据集D和数据样本x,使用K近邻算法来确定x的类别,并说明你的推理过程。
2.给定一个包含1000个样本的数据集D,每个样本包含5个特征。
现在希望通过主成分分析(PCA)来对数据集进行降维处理。
请根据给定的数据集D,使用PCA算法来完成降维处理,并说明你的推理过程。
三、编程题(共1题,40分)对于给定的数据集D,其中包含1000个数据样本,每个样本包含5个特征。
请编写Python代码来实现基于K均值算法的聚类分析,并对数据集D进行聚类。
请在代码注释中详细描述你的算法实现过程,并附带代码运行结果截图。
四、应用题(共1题,20分)假设你是一家电商平台的数据分析师,现在希望通过关联规则挖掘来分析用户的购物行为。
请根据给定的购物篮数据集,使用关联规则挖掘算法来发现频繁项集和关联规则,并解释你的挖掘结果。
五、思考题(共1题,10分)数据挖掘技术在当今社会的各个领域中起到了重要的作用。
请从你所了解的领域中选择一个,并说明数据挖掘在该领域中的应用场景和作用。
同时,对于这个领域中可能出现的挑战和问题,你认为采用数据挖掘技术能够解决哪些问题,又有哪些限制?以上为《数据挖掘期末试卷》的题目列表,包括了简答题、计算题、编程题、应用题和思考题。
希望能够通过这些题目来测试学生对于数据挖掘知识的理解和应用能力。
祝大家成功完成试卷!。
数据挖掘考试题及答案
数据挖掘考试题及答案一、单项选择题(每题2分,共20分)1. 数据挖掘的主要任务不包括以下哪一项?A. 分类B. 聚类C. 预测D. 数据清洗答案:D2. 以下哪个算法是用于分类的?A. K-meansB. AprioriC. ID3D. PageRank答案:C3. 在数据挖掘中,哪个指标用于衡量分类模型的性能?A. 准确率B. 召回率C. F1分数D. 所有以上答案:D4. 决策树算法中,哪个算法是基于信息增益来构建树的?A. ID3B. C4.5C. CARTD. CHAID答案:A5. 以下哪个算法是用于关联规则挖掘的?A. K-meansB. AprioriC. ID3D. KNN答案:B6. 在数据挖掘中,哪个算法是用于异常检测的?A. K-meansB. DBSCANC. Isolation ForestD. Naive Bayes答案:C7. 以下哪个算法是用于特征选择的?A. PCAB. AprioriC. ID3D. K-means答案:A8. 在数据挖掘中,哪个算法是用于神经网络的?A. K-meansB. AprioriC. BackpropagationD. ID3答案:C9. 以下哪个算法是用于聚类的?A. K-meansB. AprioriC. ID3D. KNN答案:A10. 在数据挖掘中,哪个算法是用于时间序列预测的?A. ARIMAB. AprioriC. ID3D. K-means答案:A二、多项选择题(每题3分,共15分)11. 数据挖掘中的预处理步骤可能包括哪些?A. 数据清洗B. 数据集成C. 数据转换D. 数据降维E. 特征提取答案:ABCDE12. 以下哪些是数据挖掘中常用的聚类算法?A. K-meansB. DBSCANC. Hierarchical ClusteringD. AprioriE. Mean Shift答案:ABCE13. 在数据挖掘中,哪些是常用的分类算法?A. Naive BayesB. Decision TreesC. Support Vector MachinesD. Neural NetworksE. Apriori答案:ABCD14. 以下哪些是数据挖掘中常用的评估指标?A. 准确率B. 召回率C. F1分数D. ROC曲线E. AUC值答案:ABCDE15. 在数据挖掘中,哪些是异常检测算法?A. Isolation ForestB. One-Class SVMC. Local Outlier FactorD. K-meansE. DBSCAN答案:ABC三、填空题(每题2分,共20分)16. 数据挖掘中的________是指从大量数据中提取或推导出有价值信息的过程。
《数据挖掘与数据分析(财会)》试卷A及答案
大学试卷学年第 1 学期;课号课程名称数据挖掘与数据分析(A卷; ,闭卷);适用班级(或年级、专业)(每位考生需要答题纸(8k)2 张、草稿纸(16k)1 张)一、选择题(20分, 2分*10题)1.数据挖掘基本任务不包括()A.分类与预测B.聚类分析C.关联规则D.战略分析2.聚类分析通常要求()A.类别内数据“差异性”尽可能小,类别间“差异性”尽可能小B.类别内数据“差异性”尽可能大,类别间“差异性”尽可能大C.类别内数据“差异性”尽可能小,类别间“差异性”尽可能大D.类别内数据“差异性”尽可能大,类别间“差异性”尽可能小3.数据挖掘建模过程不包括()A.数据取样、探索、预处理B.模式发现C.数据建模及模型评估D.数据存储空间4.数据标准化主要目的是()A.消除指标之间的量纲和大小不一的影响B.完全消除数据之间的差异C.有利于节省数据计算时间D.有利于减少数据计算存储空间5.数据规约包括()A.属性规约和数值规约B.属性规约和变量规约C.数值规约和变量规约D.属性规约与数值压缩6.关联分析主要任务包括()A.支持度分析B.关联规则的产生C.模式分析D.结构挖掘7.()表示分类模型中正确分类的样本数与样本总数的比值A.准确度(Accuracy)B.精确度(Precision)C.支持度D.置信度8.聚类算法不包括哪类()A.基于划分的方法B.基于层次的方法C.基于密度的方法D.基于智能的方法9.项集A、B同时发生的概率称为关联规则的()A.支持度B.置信度C. 可信度D.提升度10.离群点检测方法不包括()A.基于统计B.基于控制模型C.基于聚类D.基于邻近度二、判断题(20分,2分*10题,正确标记√,错误标记×)1. 数据挖掘基本任务包括利用分类与预测、聚类、关联规则等方法。
()2. Numpy包正确的安装命令如下:pip python install numpy。
()3.相关性分析是数据特征分析方法。
2015数据挖掘技术试卷A卷-参考答案.pdf
2014~ 2015学年第二学期期末考试数据挖掘技术试卷(A 卷)参考答案使用班级1250411/12/13/14 答题时间_120分钟_一、填空题(共10空, 每空1分,共10分)1.数据挖掘的任务:分类、聚类、回归、关联分析、离群点监测、演化分析、序列模式。
2.数据集的三个重要特性:_维度、稀疏性、分辨率。
二、判断题(共10小题,每小题1分,共10分)判断下列3~7小题的描述是否正确?3.ID3算法不仅可以处理离散属性,还可以处理连续属性。
( F )4.决策树方法通常用于关联规则挖掘。
( F )5.先验原理可以表述为,一个频繁项集的任一子集也应该是频繁的。
( T )6.Clementine 是IBM 公司的专业级数据挖掘软件。
( T )7.具有较高的支持度的项集具有较高的置信度。
( F )判断下列8~12小题的描述是否属于数据挖掘任务?8.利用历史数据预测公司将来的股价。
(T )9.监测病人心率的异常变化。
( F )10.监测地震活动的地震波。
( F )11.提取声波的频率。
( F )12.根据顾客喜好摆放商品位置。
(T )三、简答题(6个小题,每小题5分,共30分)13. 什么是信息熵?答:信息熵(entropy)是用来度量一个属性的信息量(1分)。
假定S 为训练集,S 的目标属性C 具有m 个可能的类标号值,C={C1,C2,…,Cm},假定训练集S 中,Ci 在所有样本中出现的频率为(i=1,2,3,…,m),则该训练集S 所包含的信息熵定义为:(3分)熵越小表示样本对目标属性的分布越纯,反之熵越大表示样本对目标属性分布越混乱。
(1分)14.什么是文本挖掘?答:文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。
(2分)对其进行深入的研究可以极大地提高人们从海量文本数据中提取信息的能力,具有很高的商业价值。
(1分)包括分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等内容。
数据挖掘考试题库——2024年整理
1.何谓数据挖掘?它有哪些方面的功能?从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。
相关的名称有知识发现、数据分析、数据融合、决策支持等。
数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。
2.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。
按粒度组织数据的方式主要有:1简单堆积结构2轮转综合结构3简单直接结构4连续结构3.简述数据仓库设计的三级模型及其基本内容。
概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。
逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。
物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。
在物理数据模型设计时主要考虑的因素有:I/O存取时间、空间利用率和维护代价等。
提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。
4.在数据挖掘之前为什么要对原始数据进行预处理?原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。
为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。
5.简述数据预处理方法和内容。
1数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。
2数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。
数据挖掘考试题及答案
数据挖掘考试题及答案一、单项选择题(每题2分,共20分)1. 数据挖掘的主要任务不包括以下哪一项?A. 分类B. 聚类C. 预测D. 数据清洗答案:D2. 以下哪个算法不是用于分类的?A. 决策树B. 支持向量机C. K-meansD. 神经网络答案:C3. 在数据挖掘中,关联规则挖掘主要用于发现以下哪种类型的模式?A. 序列模式B. 分类模式C. 频繁项集D. 聚类模式答案:C4. 以下哪个指标不是用于评估分类模型性能的?A. 准确率B. 召回率C. F1分数D. 马氏距离答案:D5. 在数据挖掘中,以下哪个算法是用于聚类的?A. K-meansB. 逻辑回归C. 随机森林D. 支持向量机答案:A6. 以下哪个选项不是数据挖掘过程中的步骤?A. 数据预处理B. 模式发现C. 结果评估D. 数据存储答案:D7. 在数据挖掘中,异常检测的主要目的是识别以下哪种类型的数据?A. 频繁出现的模式B. 罕见的模式C. 预测未来的数据D. 聚类的数据答案:B8. 以下哪个选项不是数据挖掘中常用的数据预处理技术?A. 数据清洗B. 数据集成C. 数据变换D. 数据压缩答案:D9. 在数据挖掘中,以下哪个算法是用于特征选择的?A. 主成分分析B. 线性判别分析C. 支持向量机D. 决策树答案:D10. 以下哪个选项不是数据挖掘中常用的数据表示方法?A. 决策树B. 向量空间模型C. 邻接矩阵D. 频率分布表答案:D二、多项选择题(每题3分,共15分)11. 数据挖掘中常用的聚类算法包括哪些?A. K-meansB. 层次聚类C. DBSCAND. 支持向量机答案:A、B、C12. 在数据挖掘中,以下哪些是关联规则挖掘的典型应用场景?A. 市场篮分析B. 异常检测C. 推荐系统D. 社交网络分析答案:A、C13. 数据挖掘中,以下哪些是分类模型评估的常用指标?A. 准确率B. 召回率C. ROC曲线D. 马氏距离答案:A、B、C14. 在数据挖掘中,以下哪些是特征工程的步骤?A. 特征选择B. 特征提取C. 特征变换D. 数据清洗答案:A、B、C15. 数据挖掘中,以下哪些是数据预处理的常见任务?A. 缺失值处理B. 异常值检测C. 数据规范化D. 数据压缩答案:A、B、C三、简答题(每题10分,共30分)16. 请简述数据挖掘中分类和聚类的主要区别。
数据挖掘试题AB卷及参考答案
数据挖掘试题AB卷及参考答案课程名称: 数据挖掘(A卷) 考试时间: 姓名: 班级: 学号: 一、名词解释(每题5分,共20分)1、数据挖掘2、聚类3、关联规则4、分类二、数据挖掘方法应用题(每空20分,共60分)1、表一是痛风疾病病人的一些临床数据,现准备采用关联规则的挖掘方法对这些数据进行挖掘,请计算“发作部位”属性中各个值的“支持度”、“可信度”,并简要说明各个规则的意义。
表一痛风疾病病人临床数据序号性别年龄发作疼痛发病发作血尿诊断部位情况时间部位酸测结果皮色定1 男小于趾关频繁不定黯红高是50岁节2 男大于趾关频繁不定黯红极高是50岁节3 男大于指关不频不定偏红偏高是50岁节繁4 男大于指关频繁不定黯红高是50岁节5 男小于指关频繁不定黯红极高是50岁节6 男大于指关频繁不定黯红极高是50岁节7 男大于多关不频夜间正常偏高是50岁节繁加重8 男小于多关频繁夜间黯红高是50岁节加重9 男小于指关频繁不定正常高是50岁节10 男小于多关频繁不定正常高是50岁节11 男小于指关频繁不定黯红极高是50岁节12 男小于趾关不频不定正常高是50岁节繁2、表二是部分基因表达数据,请用K-Means方法对数据进行聚类分析,聚类分析时只需要考虑t0、t0.5、t2三项,将数据聚成二个类,且只需要计算一次质心即可。
质心计算公式如下:1centroid, m,X,inX,C ii欧几里德距离计算机公式如下:2dd(Xi,Xj),( )1/2 (x,x),ikjkk1,误差平方和计算机公式为:k2 J,|X,m|,,ei,,iXC1i表二基因表达数据2014.00 7.00 t0 t0.5 t2overcast 64 65 TRUE yesrainy 71 91 TRUE norainy 75 80 FALSE yessunny 75 70 TRUE yesovercast 72 90 TRUE yes3、表三是天气情况和外出运动情况的数据表,现准备使用ID3对数据进行挖掘分析,请用该算法对数据进行计算,并画出数据所对应的决策树(只给出第一次分类所对应的决策树)。
《数据挖掘》A卷
一、填空题:(每题6分, 共30分)1. 数据挖掘的主要问题包括:。
2. 数据挖掘的性能问题包括:。
3. 数据挖掘的分类方法有。
4. 数据挖掘的聚类方法有。
5.数据挖掘的基本步骤是。
二、问答题: (每题6分,共30分)1.对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。
2.数据仓库和数据库有何不同?它们有那些相似之处?3.在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
4. 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法。
5.为什么说强关联规则不一定都是有趣的,举例说明。
三、证明题(10分)1.证明频繁集的所有非空子集必须也是频繁的。
2.Apriori的一种变形将事务数据库D中的事务划分为个不重叠的部分。
证明在D中是频繁的任何项集至少在D中的一个部分中是频繁的。
四、算法分析与扩展(15分)1 .描述判定树算法的思想。
2.写出比较易懂的算法伪代码3.指出算法的不足之处,应该从哪些方面增强算法的功能和性能。
五、计算题(15分)给定两个对象,分别用元组(22,1,42,10),(20,0,36,8)表示。
1.计算两个对象之间的欧几里德距离;2.计算两个对象之间的蔓哈坦距离;3.给定年龄变量的如下度量值18,22,25,42,28,43,33,35,56,28计算age的平均绝对偏差。
一、填空题:(每题6分, 共30分)1.数据挖掘是一个多学科领域,这些学科包括:数据库系统、统计学、机器学习、可视化、信息科学。
2.数据挖掘的功能有特征化和区分、关联分析、分类和预测、聚类分析、孤立点分析、演变分析。
3.数据挖掘的分类方法有判定树算法,贝叶斯方法,神经网络,K-最近邻分类,基于案例的推理,遗传算法,粗糙集方法,模糊集方法等。
4.数据挖掘的聚类方法有划分方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法。
数据挖掘试题及答案
数据挖掘试题及答案### 数据挖掘试题及答案#### 一、选择题1. 数据挖掘的最终目标是什么?- A. 数据清洗- B. 数据集成- C. 数据分析- D. 发现知识答案:D2. 以下哪个算法不属于聚类算法?- A. K-means- B. DBSCAN- C. Apriori- D. Hierarchical Clustering答案:C3. 在数据挖掘中,关联规则挖掘主要用于发现什么? - A. 异常值- B. 频繁项集- C. 趋势- D. 聚类答案:B4. 决策树算法中的剪枝操作是为了解决什么问题?- A. 过拟合- B. 欠拟合- C. 数据不平衡- D. 特征选择答案:A5. 以下哪个是时间序列分析的常用方法?- A. 逻辑回归- B. 线性回归- C. ARIMA模型- D. 支持向量机答案:C#### 二、简答题1. 简述数据挖掘中的分类和聚类的区别。
答案:分类是监督学习过程,它使用标记的训练数据来预测数据的类别。
聚类是无监督学习过程,它将数据分组,使得同一组内的数据点相似度较高,不同组之间的数据点相似度较低。
2. 解释什么是异常检测,并给出一个实际应用的例子。
答案:异常检测是一种识别数据集中异常或不寻常模式的方法。
它通常用于识别欺诈行为、网络安全问题或机械故障。
例如,在信用卡交易中,异常检测可以用来识别潜在的欺诈行为。
3. 描述决策树的工作原理。
答案:决策树通过一系列的问题(通常是二元问题)来对数据进行分类。
从根节点开始,数据被分割成不同的子集,然后每个子集继续被分割,直到达到叶节点,叶节点代表最终的分类结果。
#### 三、应用题1. 给定一组客户数据,包括年龄、收入和购买历史。
使用数据挖掘技术来识别哪些客户更有可能购买新产品。
答案:可以使用决策树或逻辑回归等分类算法来分析客户数据,识别影响购买行为的关键特征。
通过训练模型,可以预测哪些客户更有可能购买新产品。
2. 描述如何使用关联规则挖掘来发现超市中商品的购买模式。
《数据挖掘技术》试卷A 2012 白专升本
得分
评卷人
五、分类与预测(本题15分)。
给定数据集同上,即
TID A B C D E
T1 1 0 0 1 1
T2 1 0 1 0 0
T3 0 1 0 0 1
T4 1 1 1 0 1
T5 10000
T6 0 0 1 0 1
T7 1 1 0 1 1
T8 0 1 1 1 0
采用朴素贝叶斯方法预测新对象(0,0,0,1)的类别。E为分类属性。
得分
评卷人
六、分类与预测(本题15分)。
给定数据集同上,即
TID A B C D E
T1 1 0 0 1 1
T2 1 0 1 0 0
T3 0 1 0 0 1
T4 1 1 1 0 1
T5 10000
T6 0 0 1 0 1
T7 1 1 0 1 1
T8 0 1 1 1 0
采用K-NN算法预测新对象(0,0,0,1)的类别,假设K=3,距离公式采用欧氏距离公式。要求详细写出每次计算过程。E为分类属性。
TID A B C D E
T1 1 0 0 1 1
T2 1 0 1 0 0
T3 0 1 0 0 1
T4 1 1 1 0 1
T5 10000
T6 0 0 1 0 1
T7 1 1 0 1 1
T8 0 1 1 1 0
采用K-均值方法将它们分为k=2组,随机指派均值: K1={T7},K2={T8)},距离公式采用曼哈坦距离公式。要求写出每次迭代过程。
TIDA BC D E
T1100 1 1
T2 10100
T30100 1
T41110 1
T510000
T6 0 0 1 0 1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、填空题:(每题6分, 共30分)1. 数据挖掘的主要问题包括:。
2. 数据挖掘的性能问题包括:。
3. 数据挖掘的分类方法有。
4. 数据挖掘的聚类方法有。
5.数据挖掘的基本步骤是。
二、问答题: (每题6分,共30分)1.对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。
2.数据仓库和数据库有何不同?它们有那些相似之处?3.在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
4. 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法。
5.为什么说强关联规则不一定都是有趣的,举例说明。
三、证明题(10分)1.证明频繁集的所有非空子集必须也是频繁的。
2.Apriori的一种变形将事务数据库D中的事务划分为个不重叠的部分。
证明在D中是频繁的任何项集至少在D中的一个部分中是频繁的。
四、算法分析与扩展(15分)1 .描述判定树算法的思想。
2.写出比较易懂的算法伪代码3.指出算法的不足之处,应该从哪些方面增强算法的功能和性能。
五、计算题(15分)给定两个对象,分别用元组(22,1,42,10),(20,0,36,8)表示。
1.计算两个对象之间的欧几里德距离;2.计算两个对象之间的蔓哈坦距离;3.给定年龄变量的如下度量值18,22,25,42,28,43,33,35,56,28计算age的平均绝对偏差。
一、填空题:(每题6分, 共30分)1.数据挖掘是一个多学科领域,这些学科包括:数据库系统、统计学、机器学习、可视化、信息科学。
2.数据挖掘的功能有特征化和区分、关联分析、分类和预测、聚类分析、孤立点分析、演变分析。
3.数据挖掘的分类方法有判定树算法,贝叶斯方法,神经网络,K-最近邻分类,基于案例的推理,遗传算法,粗糙集方法,模糊集方法等。
4.数据挖掘的聚类方法有划分方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法。
5.多媒体数据挖掘主要有多媒体数据相似性搜索、多媒体数据多维分析、多媒体数据的分类与预测分析多媒体数据的关联规则挖掘。
二、问答题: (每题6分,共30分)1.数据仓库和数据库有何不同?它们有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据.它用表组织数据,采用ER数据模型。
它们都为数据挖掘提供了源数据,都是数据的组合.2. 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法。
答:因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,开销很大。
而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理,另外,还支持复杂的多维查询。
当异种数据源上的数据格式一致或者转换比较容易,并且所要求的查询比较简单,不需要复杂的多维查询时,查询驱动方法可能更受欢迎。
3. 多维数据模型上的OLAP操作有那些?答:上卷,下钻,切片,切快,旋转4.在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的方法。
答:1)忽略元组 2)人工填写空缺值 3)使用一个全局常量填充空缺值4)使用属性的平均值填充空缺值 5)使用与给定元组属同一类的所有样本的平均值 6)使用最可能的值填充空缺值其中,方法3到6使数据倾斜,填入的值可能不正确。
不过,方法6是最常用的方法5.简略比较雪花模式、事实星座、星型网查询模型概念,用例子解释你的观点星型模式:最常见的模型范例,其中数据仓库包括一个答的包含大批数据和不含冗余的中心标(事实表),一组小的属性表。
这种模式图很像星星爆发,维表围绕中心表显示在射线上。
三、证明题(每题5分,共10分)1. 证明频繁集的所有非空子集必须也是频繁的。
反证法。
根据定义,如果项集I满足最小支持度阈值sup min_,则I 不是频繁的,即sup min_)(<I p 。
如果项A 添加到I ,则结果项集间(即A I ⋃)不可能比I 更频繁出现。
因此,A I ⋃也不是频繁的,即P (A I ⋃)<min_sup 。
矛盾。
2. 给定频繁项集l 和l 的子集s ,证明规则“)(s l s '-⇒'”的置信度不可能大于“)(s l s -⇒”的置信度。
其中,s '是s 的子集。
根据定义,规则B A ⇒的置信度为:)(/)(A n B A n conf ⋃= )(A n 表示项集A 出现的次数 规则)(s l s '-⇒'的置信度为:)(/)()(/))((s n l n s n s l s n conf '=''-⋃'=规则)(s l s -⇒的置信度同理可得:)(/)(s n l n conf =,又因为s '是s 的子集,)()(s n s n >',所以规则“)(s l s '-⇒'”的置信度不可能大于“)(s l s -⇒”的置信度四、算法分析与扩展(15分) 1 .描述判定树算法的思想。
树以代表训练样本的单个节点开始(步骤1)如果样本都在同一个类,则该节点成为树叶,并用该类标记(步骤2和3)否则,算法使用称为信息增益的基于滴的度量作为启发信息,选择能够最好地将样本分类的属性(步骤6)。
该属性成为该节点的“测试”或“判定”属性(步骤7)。
在算法的这个版本中,所有的属性都是分类的,即取离散值的。
连续值的属性必须离散化。
对测试属性的每个已知的值,创建一个分枝,并据此划分样本(步骤8-10)。
算法使用同样的过程,递归地形成每个划分上的样本判定树。
一旦一个属性出现在一个节点上,就不必考虑该节点的任何后代上(步骤13)。
递归划分步骤仅当下列条件之一成立时停止:(a )给定节点的所有样本属于同一类(步骤2和3)。
(b))没有剩余属性可以用来进一步划分样本(步骤4)。
在此情况下,使用多数表决(步骤5)。
这涉及将给定的节点转换成树叶,并用samples 中的多数所在的类标记它。
换 一种方式,可以存放节点样本的类分布。
(c)分枝testattribute =a ;没有样本(步骤11)。
在这种情况下,以samPles 中的多数类创建一个树叶(步骤12)。
2.写出比较易懂的算法伪代码 伪码:算法:GenerateAecisionjree 由给定的训练数据产生一棵判定树。
输入:训练样本samples ,由离散值属性表示;候选属性的集合attributMlist 。
输出:一棵判定树。
方法:O)创建节点N;(2)if samples都在同一个类C then(3)返回N作为叶节点,以类C标记(4)If attributlist为空 then(5)返回N作为叶节点,标记为samples中最普通的类;//多数表决(6)选择attribute_list中具有最高信息增益的属性test_attribute;(7)标记节点 N为lest_attribute ;(8)for each test_attribute 中的已知值ai(9)由节点N长出一个条件为test_attribute=ai的分支(10)设S是Samples中test_attribute = ai 的样本的集合(11)if si为空 then(12)加上一个树叶,标记为samples中的最普通的类(13)else 加上一个由Fenerate_decision_tree返回的节点3.指出算法的不足之处,应该从哪些方面增强算法的功能和性能。
信息增益度量有倾斜,它倾向于适合具有许多值的属性。
不能、处理空缺值,此算法还可能面对碎片,重复和复制的问题。
对追加样本的学习不方便,算法的可伸缩性不强等。
五、计算题(15分)给定两个对象,分别用元组(22,1,42,10),(20,0,36,8)表示。
4.计算两个对象之间的欧几里德距离;5.计算两个对象之间的蔓哈坦距离;6.计算两个对象之间的明考斯基距离,q=3。
距离公式:欧几里德距离公式:曼哈坦距离公式:明考斯基距离公式:二、问答题:1.对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。
2.数据仓库和数据库有何不同?它们有那些相似之处?3.在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
4. 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法。
5.为什么说强关联规则不一定都是有趣的,举例说明。
三、证明题1.证明频繁集的所有非空子集必须也是频繁的。
2.Apriori的一种变形将事务数据库D中的事务划分为个不重叠的部分。
证明在D中是频繁的任何项集至少在D中的一个部分中是频繁的。
四、算法分析与扩展1 .描述判定树算法的思想。
2.写出比较易懂的算法伪代码3.指出算法的不足之处,应该从哪些方面增强算法的功能和性能。
五、计算题给定两个对象,分别用元组(22,1,42,10),(20,0,36,8)表示。
1.计算两个对象之间的欧几里德距离;2.计算两个对象之间的蔓哈坦距离;一、选择题1. 企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是( B )。
A 数据越多越好B 尽可能多的适合的数据C得分集数据是建模集数据的一部分D 以上三条都正确2. 数据挖掘算法以( D )形式来组织数据。
A 行 B列 C 记录 D 表格3. 企业成功实施数据挖掘,需要以下( B )知识或技术A 预先的规划B 对商业文体的理解C综合商业知识和技能 D 都需要4.有关数据集市的说法正确的是( B )A.是大型的、针对特定目标且建设成本较低的一种数据仓库B .实施不同的数据集市时,同一含义的字段定义一定要相同C .独立的数据集市是根据中央数据仓库派生出来的D .非独立的数据集市是根据操作数据形成的5.在超市所从事的信息中介活动中,哪项属于挖掘序列模式 ( B ) A. 针对匿名客户,记录其购买某种商品时,与该商品有关的优惠 B. 针对注册客户,分析他们的购买,向他们设定下次可能购买的优惠规则 C. 针对所有客户,对其货蓝子里的商品进行分析D. 针对注册客户,进行客户分类,确定重要客户以及服务对策6. 如果对简单线性回归模型进行显著性检验的结果是不能拒绝H 0,这就意味着:(D) A 该模型有应用价值 B 该模型无应用价值 C 该模型求错了D X 与Y 之间毫无关系7. 进行回归分析时,需要对回归分析结果进行检验,对回归系数显著性进行检验时,使用(AB )统计量 A tB FC D.W.D 以上都不是8. 在利用D.W.检验回归自相关性时,下列叙述正确的是( D ) A 当..2D W ≥时,如果..L DWd <,i u 存在正自相关 B ..2D W ≤时,如果..U DWd >,认i u 存在负自相关C 当..2D W >时, 如果.4.L DW d -<,认为i u 存在负自相关;如果.4.U DW d ->,认为i u 存在正自相关D 当D.W.值在2左右时,模型不存在一阶自相关 9.下列说法错误的是(D ) A {}Importance(,)1A B =,则A 和B 是独立的项,它表示对产品A 的购买和产品B 的购买是两个独立的事件 B {}Importance(,)1A B <,则A 和B 是负相关的,它表示如果一个顾客购买A ,则他也购买B 的可能性不大C Importance()0A B ⇒=,则A 和B 没有任何关联D Importance()0A B ⇒>,表示当A 为真时,B 的概率会下降10.下列说法正确的是( B ) A EM 聚类属于硬聚类 B k-means 属于分割聚类 C k-means 属于软聚类 D EM 聚类属于层次聚类 二、填空题1. 数据挖掘的三大支柱分别是 (数据挖掘技术与算法)(无所不在的数据)( 建立有效的预测模型)2. 数据仓库的优点是(数据仓库是从一个点上观察整个企业,而不是许多小定义的“地下仓库”的拼凑集合)和 (数据挖掘记录的是最令人感兴趣的详细的数据 )3. 在利用SQL SERVER 2005进行数据挖掘时,数据挖掘的任务中,( 时序分析 )可以没有输入4.根据下表资料完成表中指标的计算并回答问题。