桂电《商务智能与数据挖掘》简答题答案

合集下载

数据挖掘考试题及答案

数据挖掘考试题及答案

数据挖掘考试题及答案### 数据挖掘考试题及答案#### 一、选择题(每题2分,共20分)1. 数据挖掘的目的是发现数据中的:- A. 错误- B. 模式- C. 异常- D. 趋势答案:B2. 以下哪项不是数据挖掘的常用算法:- A. 决策树- B. 聚类分析- C. 线性回归- D. 神经网络答案:C3. 关联规则挖掘中,Apriori算法用于发现:- A. 频繁项集- B. 异常值- C. 趋势- D. 聚类答案:A4. K-means算法是一种:- A. 分类算法- B. 聚类算法- C. 预测算法- D. 关联规则挖掘算法答案:B5. 以下哪个指标用于评估分类模型的性能:- A. 准确率- B. 召回率- C. F1分数- D. 所有以上答案:D#### 二、简答题(每题10分,共30分)1. 描述数据挖掘中的“过拟合”现象,并给出避免过拟合的策略。

答案:过拟合是指模型对训练数据拟合得过于完美,以至于失去了泛化能力。

避免过拟合的策略包括:使用交叉验证、正则化技术、减少模型复杂度、获取更多的训练数据等。

2. 解释什么是“数据清洗”以及它在数据挖掘中的重要性。

答案:数据清洗是指从原始数据中识别并纠正(或删除)错误、重复或不完整的数据的过程。

它在数据挖掘中至关重要,因为脏数据会导致分析结果不准确,影响最终的决策。

3. 描述“特征选择”在数据挖掘中的作用。

答案:特征选择是数据挖掘中用来降低数据维度、提高模型性能和减少计算成本的过程。

通过选择最有信息量的特征,可以去除冗余或无关的特征,从而提高模型的准确性和效率。

#### 三、应用题(每题25分,共50分)1. 假设你正在分析一个电子商务网站的用户购买行为,描述你将如何使用数据挖掘技术来识别潜在的营销机会。

答案:首先,我会使用聚类分析来识别不同的用户群体。

然后,通过关联规则挖掘来发现不同用户群体的购买模式。

接着,利用分类算法来预测用户可能感兴趣的产品。

数据挖掘试题及答案

数据挖掘试题及答案

数据挖掘试题及答案数据挖掘是一门利用数据分析技术从大量的数据集中发现规律、模式和知识的过程。

它对我们理解和利用数据提供了有力的支持,被广泛应用于商业、科学研究等领域。

下面是一些常见的数据挖掘试题及其答案。

试题一:什么是数据挖掘?答案:数据挖掘是指利用计算机技术和统计学方法,从大规模数据集中发现隐藏在其中的有价值的信息和知识的过程。

它包括数据预处理、特征选择、模型构建以及模式识别和知识发现等步骤。

试题二:数据挖掘的主要任务有哪些?答案:数据挖掘的主要任务包括分类、聚类、关联规则挖掘和异常检测等。

分类是指将数据集中的样本划分到不同的类别中;聚类是将数据集划分为若干个相似的组;关联规则挖掘是找出数据中项之间的关联关系;异常检测是识别与正常模式不符的数据。

试题三:数据挖掘中常用的算法有哪些?答案:数据挖掘中常用的算法包括决策树、聚类算法、关联规则算法和神经网络等。

决策树算法通过对数据集进行划分,构建一棵树形结构用于分类;聚类算法根据相似度将数据集分为不同的簇;关联规则算法用于发现数据集中项之间的关联关系;神经网络模拟人脑的神经元网络结构,用于数据分类和预测。

试题四:数据挖掘的应用场景有哪些?答案:数据挖掘的应用场景非常广泛。

在商业领域,它可以帮助企业进行市场分析、客户关系管理和产品推荐等;在科学研究中,它能够帮助科学家从大量的实验数据中发现新的知识和规律;在医疗领域,它可以辅助医生进行疾病诊断和治疗方案选择等。

试题五:数据挖掘存在的挑战有哪些?答案:数据挖掘存在一些挑战,包括数据质量不高、维度灾难、算法性能和可解释性等方面。

数据质量不高可能导致挖掘结果不准确;维度灾难是指当数据特征数量很多时,算法的计算复杂度急剧增加;算法性能要求高,对大规模数据集的挖掘需要高效的算法;可解释性是指挖掘结果是否易于被理解和解释。

以上是一些常见的数据挖掘试题及其答案。

通过理解和掌握数据挖掘的基本概念、任务、算法和应用场景,可以帮助我们更好地运用数据挖掘技术,从海量数据中提取有价值的信息和知识,为决策和创新提供支持。

数据挖掘试题参考答案

数据挖掘试题参考答案

大学课程《数据挖掘》试题参考答案范围:∙ 1.什么是数据挖掘?它与传统数据分析有什么区别?定义:数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

区别:(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。

即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。

在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。

也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。

因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。

∙ 2.请根据CRISP-DM(Cross Industry Standard Process for Data Mining)模型,描述数据挖掘包含哪些步骤?CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多,原有的数据库技术已满足不了应用的需要,人们希望从这些媒体数据中得到一些高层的概念和模式,找出蕴涵于其中的有价值的知识。

数据挖掘习题答案

数据挖掘习题答案

数据挖掘习题答案数据挖掘习题答案数据挖掘作为一门重要的技术和方法,广泛应用于各个领域。

在学习数据挖掘的过程中,习题是不可或缺的一部分。

通过解答习题,我们可以更好地理解和掌握数据挖掘的原理和应用。

以下是一些常见的数据挖掘习题及其答案,供大家参考。

一、选择题1. 数据挖掘的目标是什么?A. 发现隐藏在大数据中的模式和关联B. 提供数据存储和管理的解决方案C. 分析数据的趋势和变化D. 优化数据的存储和传输速度答案:A. 发现隐藏在大数据中的模式和关联2. 下列哪个不是数据挖掘的主要任务?A. 分类B. 聚类C. 回归D. 排序答案:D. 排序3. 数据挖掘的过程包括以下几个步骤,哪个是第一步?A. 数据清洗B. 数据集成C. 数据转换D. 数据选择答案:B. 数据集成4. 下列哪个不是数据挖掘中常用的算法?A. 决策树B. 支持向量机C. 朴素贝叶斯D. 深度学习答案:D. 深度学习5. 下列哪个不是数据挖掘的应用领域?A. 金融B. 医疗C. 娱乐D. 政治答案:D. 政治二、填空题1. 数据挖掘是从大量数据中发现________和________。

答案:模式,关联2. 数据挖掘的主要任务包括分类、聚类、回归和________。

答案:预测3. 数据挖掘的过程包括数据集成、数据清洗、数据转换和________。

答案:模式识别4. 决策树是一种常用的________算法。

答案:分类5. 数据挖掘可以应用于金融、医疗、娱乐等多个________。

答案:领域三、简答题1. 请简要介绍数据挖掘的主要任务和应用领域。

答:数据挖掘的主要任务包括分类、聚类、回归和预测。

分类是将数据集划分为不同的类别,聚类是将数据集中相似的样本归为一类,回归是根据已有的数据预测未知数据的值,预测是根据已有的数据预测未来的趋势和变化。

数据挖掘的应用领域非常广泛,包括金融、医疗、娱乐等。

在金融领域,数据挖掘可以用于信用评估、风险管理等方面;在医疗领域,数据挖掘可以用于疾病诊断、药物研发等方面;在娱乐领域,数据挖掘可以用于推荐系统、用户行为分析等方面。

数据挖掘考试题库及答案

数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。

答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。

答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。

答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。

答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。

答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。

()答案:错误12. 数据挖掘是数据仓库的一部分。

()答案:正确13. 决策树算法适用于处理连续属性的分类问题。

()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。

()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。

()答案:错误四、简答题16. 简述数据挖掘的主要任务。

答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。

17. 简述决策树算法的基本原理。

答案:决策树算法是一种自顶向下的递归划分方法。

它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。

商务智能与数据挖掘课程考试开放考核试题及规范

商务智能与数据挖掘课程考试开放考核试题及规范

商务智能与数据挖掘课程考试开放考核试题一、简答题(每题30分,9选根据学号以9为周期依次选题)1、结合实例描述数据挖掘的流程及各个部分需要处理的内容?2、什么是数据探索?结合实例描述数据探索的方法?3、什么是数据清洗,结合实例介绍数据清洗的方法?4、为什么要进行数据集成?结合实例描述数据规范化的过程(注意分析数据规范化前后的效果)5、逻辑回归的原理是什么,结合实例描述逻辑回归的实现过程?(注意需给出逻辑回归的最后输出结果)6、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤7、什么是决策树?决策树的主要算法有哪些,通过实例详细描述其中一种算法的实现过程。

8、介绍关联规则模型及相关算法有哪些,通过实例详细描述其中一个算法的实现过程。

9、简单介绍人工神经网络的发展史,并通过实例说明BP神经网络的实现过程。

二、综合分析建模题(70分,五选一完成,学号尾数为1和6选第一题,尾号为2和7选择第二题,尾号为3和8选第三题,尾号为4和9选第四题,尾号为5和0选第五题)试题一商品零售购物篮分析n匕曰冃艮:现代商品种类繁多,顾客往往会由于需要购买的商品众多而变得疲于选择,且顾客并不会因为商品选择丰富而选择购买更多的商品。

繁杂的选购过程往往会给顾客疲惫的购物体验。

对于某些商品,顾客会选择同时购买,如面包与牛奶、薯片与可乐等,当面包与牛奶或者薯片与可乐分布在商场的两侧,且距离十分遥远时.,顾客购买的欲望就会减少,在时间紧迫的情况下顾客甚至会放弃购买某些计划购买的商品。

相反,把牛奶与面包摆放在相邻的位置,既给顾客提供便利,提升购物体验,乂提高顾客购买的概率,达到了促箱的目的。

许多商场以打折方式作为主要促销手段,以更少的利润为代价获得更高的箱量。

打折往往会使顾客增加原计划购买商品的数量,对于原计划不打算购买且不必要的商品,打折的吸引力远远不足。

而正确的商品摆放却能提醒顾客购买某些必需品,其至吸引他们购买感兴趣的商品。

(完整word版)数据挖掘题目及答案

(完整word版)数据挖掘题目及答案

(完整word版)数据挖掘题⽬及答案⼀、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么?数据仓库是⼀个⾯向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,⽤于⽀持管理决策。

特点:1、⾯向主题操作型数据库的数据组织⾯向事务处理任务,各个业务系统之间各⾃分离,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织的。

2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加⼯、汇总和整理得到的,必须消除源数据中的不⼀致性,以保证数据仓库内的信息是关于整个企业的⼀致的全局信息。

3、相对稳定的数据仓库的数据主要供企业决策分析之⽤,⼀旦某个数据进⼊数据仓库以后,⼀般情况下将被长期保留,也就是数据仓库中⼀般有⼤量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

4、反映历史变化数据仓库中的数据通常包含历史信息,系统记录了企业从过去某⼀时点(如开始应⽤数据仓库的时点)到⽬前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

所谓基于数据库的知识发现(KDD)是指从⼤量数据中提取有效的、新颖的、潜在有⽤的、最终可被理解的模式的⾮平凡过程。

数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可⽤的信息⼆、数据库有4笔交易。

设minsup=60%,minconf=80%。

TID DATE ITEMS_BOUGHTT100 3/5/2009 {A, C, S, L}T200 3/5/2009 {D, A, C, E, B}T300 4/5/2010 {A, B, C}T400 4/5/2010 {C, A, B, E}使⽤Apriori算法找出频繁项集,列出所有关联规则。

解:已知最⼩⽀持度为60%,最⼩置信度为80%1)第⼀步,对事务数据库进⾏⼀次扫描,计算出D中所包含的每个项⽬出现的次数,⽣成候选1-项集的集合C1。

《商务智能》复习题及答案

《商务智能》复习题及答案

《商务智能》复习题及答案1、把数据报表从一年展开成四个季度的操作是(C )A、上卷B、旋转C、下钻D、切片2、在多维数据集中,对某一个维度上的数据进行选择一维成员,其他维度没有变化的操作是( D)A、切块B、旋转C、下钻D、切片3、一个多维数组表示为:(维1,维2,维3,维4,变量),这是一个(B )维结构。

A、3B、4C、5D、64、一次购买行为的发起需要有:购买者、商家、商品、购买时间、供应商和订单金额。

如果设计星型模型,请问有几个维度(C )A、3B、4C、5D、65、在进行ETL时,应该在(C )里进行。

A、ODSB、数据仓库C、数据准备区D、源数据6、(多选题)此大数据带来的变革有(ABD ).A、思维变革B、商业变革C、购物变革D、管理变革7、自然演化式体系结构的问题有(ACD )。

(多选)A、数据可信性B、无法进行数据处理C、生产率问题D、无法将数据转化为信息8、数据立方体是指(C ).A、三维数据集B、三维以上的数据集C、三维和三维以上的数据集D、四维数据集'9、戈登·未尔提出在今后的十几年里,半导体处理器的性能,比如容量、计算速度和复杂程度,每(D )左右可以翻一番。

A、1个月B、6个月C、12个月D、18个月10、大数据时代的核心价值是(B)A.数据收集B.数据分析C.数据挖掘D.数据可视化11、大数据的来源包括( ABCD).A.互联网数据B.传感器数据C.实时数据D.探测数据11、好友的QQ突然发来一个网站链接要求投票,最合理的做法是( C)A.因为是其好反信总,直接打开使接投票B.不参与任何投票C.可能是好友aq被盗,可能是恶意筑接。

先通过予机跟朋友确认链技按无异常,考虑是否投票D.把好友加入黑名单12、关于大数据特点,错误的是(C )A、数据量大B、数据类型多C.数据价值密度高D.数据处理速度快13、Hadop是基于(B )语言的数据分析框架。

A. C++B. JavaC. RD. C#14.Maphedue的主导思想是(C )A.集成化B.一体化C.分而治之D.综合化15.下列与大数据密切相关的技术是(B)A.蓝牙B.云计算C.博穿论D.WiFi16.大数据的数据类型包括结构化数据、非结构化数据和(A ).A.半结构化数据B.无结构化数据C.关系数据库数D.文本数据和WEe数报17.数据仓库中的数据(ABCD )A.集成的B.可以变化的C.面向主题的D.不易丢失的18.数据仓库是随着时间变化的。

商务智能习题答案

商务智能习题答案

商务智能习题答案商务智能习题答案商务智能(Business Intelligence,简称BI)是一种通过收集、分析和处理大量数据来辅助企业决策的技术和方法。

在当今信息化的时代,商务智能已经成为企业管理的重要工具之一。

下面将针对商务智能的一些习题进行解答,帮助读者更好地理解和应用商务智能。

1. 商务智能的基本概念是什么?商务智能是指通过从海量数据中提取有价值的信息,帮助企业管理者做出准确决策的一种技术和方法。

它包括数据仓库、数据挖掘、数据分析等多个方面的内容,旨在帮助企业发现潜在的商机,优化业务流程,提高经营效益。

2. 商务智能的主要应用领域有哪些?商务智能的应用领域非常广泛,包括但不限于以下几个方面:- 销售和市场营销:通过对销售数据的分析,帮助企业了解市场需求、产品销售情况,提供决策支持,制定更有效的营销策略。

- 客户关系管理:通过分析客户数据,了解客户的喜好和需求,提供个性化的服务和产品,增强客户满意度和忠诚度。

- 供应链管理:通过对供应链数据的分析,帮助企业优化供应链流程,提高供应链效率,降低成本。

- 财务管理:通过对财务数据的分析,帮助企业了解财务状况,进行财务预测和风险评估,提供决策依据。

- 人力资源管理:通过对人力资源数据的分析,帮助企业进行人力资源规划、员工绩效评估和人才管理,提高人力资源管理效果。

3. 商务智能的实施过程包括哪些步骤?商务智能的实施过程一般包括以下几个步骤:- 需求分析:明确企业的需求和目标,确定需要分析的数据和指标。

- 数据采集和清洗:收集和整理各种数据源的数据,进行数据清洗和预处理,确保数据的准确性和完整性。

- 数据仓库建设:设计和构建数据仓库,将数据存储在统一的数据库中,以便进行后续的分析和挖掘。

- 数据分析和挖掘:使用商务智能工具和技术对数据进行分析和挖掘,提取有价值的信息和模式。

- 报告和可视化:将分析结果以报表、图表等形式呈现,便于管理者理解和使用。

数据挖掘复习题和答案

数据挖掘复习题和答案

考虑表中二元分类问題的训练样木集表4 - 8练习3的数据集1. 整个训练样本集关于类属性的嫡是多少2. 关于这些训练集中al, a2的信息增益是多少3. 对于连续属性a3,计算所有可能的划分的信息增益。

4. 根据信息增益,al, a2, a3哪个是罠佳划分5. *6. 根据分类错误率,al, a2哪具最佳7.根掩ini 指标,al, a2哪个最佳答1 •EXamPIeS for COmPUting EntrOPyEntrOPy =- 0 IOg 0-I10gl=-0-0=0(5/6)P(C2) = 5/6EntrOPy = - (1/6) Iog 2 (1/6)- Iog 2 (5/6) = 0. 65P(CI)=-4/9 log (4/9) - 5/9 log(5/9)二・答2:SP1itting BaSecI On INFO.・・• InfOrmatiOn Gain:GAIN . . - En trOPy (P) --En tropy (I)Parent Node, P is SPIit into k PartrtiOns; ni is number Of records in PartitiOn i一 MeaSUreS RedUCtiOn in EntrOPy achieved because Ofthe SPIit • ChOOSe the SPlit that achieves most reduction (maximizes GAIN) 一 USed in ID3 and C4.5一 DiSadVantage: TendS to Prefer SPlitS that result in large nUmber Of Partiti0ns, each being Small but PUre ・(估计不考)P(C2) = 4/6EntrOPy = 一(2/6) log? (2/6)- (4/6) Iog 2 (4/6) = 0.92P(C1)=P(+)二 4/9 and P( -) = 5/9FQr attribute Q i 5 the COrreSPOllding CoulltS and PrObabilitieS are:5十 ■T 3 1 F14The entropy for a y isTherefoTe r the information gain for A x is 0. 9911 — 0.7GIG 二 0. 2294.FOr attribute Q2, the COrreSPOnding COlnltS and Probabilities are:d*2+一T2 3F22Tile entropy for Q 2 is計一 (2/5) lDg 2 (2/5) - (3/5)lDg 2 (3/5)+-(2/4) log : (2/4)-(2/4) log : (2/4) = 0. 9839.TIIerefbre £ the information gain for is 0,9911 —b 0.9839 二 0,0072,答3:-(3/4)lDg2(3/4)-(l/4) log :-(l/5)lDg2(l/5) 一 (4/5) lag :COntinUOUS Attributes: COmPUting Gini Index...FOr efficient COmPUtation: for each attribute, 一SOrtthe attribute On ValUeS一Linearly SCan these values, each time UPdating the COUnt matrix and COmPUting gini index一ChOOSe the SP1it POSitiOn that has the IeaSt gini index一5/6 二 1/6FOr attr ibute a : error rate = 2/9. FOr attr ibute a : error rate = 4/9.Therefore, according to error rate, produces the best SPI it.a -3 ClaSS label SPlIt Point EntrOPy InfO GaLirl1. 0 I-2.0 0. 8484 0. 14273. 0 一 3.5 0. 9885 0. 00264. 0+4.5 0. 918i 0. 0728 El io g55 0. 9839 0. 0072 6. 0 —・ 6. 5 0. 9728 0.0183 7.0 7. 0+7. 50. 888&0.1022EXamPIeS for COmPUting ErrOrCl O C26P(C1) = 0/6 = 0P(C2) = 6/6Errors 1 一max (0, 1) = 1 - 1Cl 1 C2 5P(C1) = 1/6 P(C2) = 5/6Error = 1 — max (1/6, 5/6) = 1Cl 2 C24P(C1) = 2/6 P(C2) = 4/6Error = 1 — max (2/6, 4/6) = 1ErrOr(J^ I- max P(J \ t)答6:-4/6 = 1/3答 4: ACCOrding to information gain, "produces the best SPI it ・ 答 5:Binary Attributes: COmPUting G1NI IndeX• SPIitS into two PartitiOnS • EffeCt Of Weighing Partitions:Gini (NI)=1 _(5/7)2 _(2/7)2 =0・ 408 Gini (N2)=1 - (1/5)2-(4/5)2 =0. 32I"Tan t Steinbach KUmarIntrOdUVfcnto DataMininaFor attribute a u the gini index isA s 1 一 (3/4)2 — (1/4)2 +-1一 aj JFOr attribute «2・ the gini index isR 4 r;1-(2/5)-(3/5)2 + c 1 - (2/4)2 _ (2/4)2 = o. 488&.SinCe the gini index for a f is smaller, it PrOduCeS the bet ter split.考虑如下二元分类问题的数据集一 Larger 2nd PUrer PartitiOnS are SOUght for.Pare ntClmir*JTT J=0«00■NI N2CI 5 1 C224Gini=0. 333Gini (Children) 二 7/12*0. 408 + 5/12*0. 32 =0. 3714/18/200434片(1/5)2 _ (4/5)2 =o-a444.3二元分类问题不纯性度量之间的比较1.计算信息增益,决罠树归纳算法会选用哪个属性ThG COntingenCy tables aft.er SPIitting On attributes A and B arc:The OVerall entropy before SPIitting is:Eorig 二—0.4 log 0.4 — O.Glog 0. C 二 0. 9710The information gain after SPIitting On A is :EJ 二-IlOgf-IIogl 二 0=23. 3()10 - n—IOg m m Sg _ 0A 二 Eg - 7/WE,=T -3/ lOV^F 二 0. 2813 IThe information gain after SPIitting Orl B is:33 IIEB 二T 二-T 1° g T — T 1° g[ = 0-8113 J 5 EP=F = ----- IOg ——————log —二 0. 6500Z\ = E^g - 4/ 10Eg - 6/10EBJ = (),2565Therefbre ・ attribute A Will bo ChoSCTI to SPlit the node.2. 计算gini 指标,决策树归纳会用哪个属性The OVerall gini before SPlitting is:Gon : ~ 1 - 0. 4~ - 0. 6"二 0. 48Th€? gain in gini after SPIitting On A is:GB 二T 二 I-Q):-Q)2 二0.3750 6〃 二】二(I) 〃(I) 〃27784 二 G“ig — 4/10GB==T — 6/10GBJ = 0. 1633Therefore, attribute B Will be ChOSeII to SPIit t ・he node ・这个答案没问题The gainA=T A=F4 0 33B=T B=F3 1 15EA=P =3.从图4T3可以看出炳和gini 指标在[0」都是单调递增,而[门之间单调递减。

数据挖掘-题库带答案

数据挖掘-题库带答案

数据挖掘-题库带答案数据挖掘-题库带答案1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡()答案:正确2、决策将日益基于数据和分析而作出,而并非基于经验和直觉()答案:错误解析:决策将日益基于数据和分析而作出,而并非基于经验和直觉3、2011年被许多国外媒体和专家称为“大数据元年”()答案:错误解析:2013年被许多国外媒体和专家称为“大数据元年”4、我国网民数量居世界之首,每天产生的数据量也位于世界前列()答案:正确5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。

()答案:错误解析:商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。

6、数据整合、处理、校验在目前已经统称为 EL()答案:错误解析:数据整合、处理、校验在目前已经统称为 ETL7、大数据时代的主要特征()A、数据量大B、类型繁多C、价值密度低D、速度快时效高答案: ABCD8、下列哪项不是大数据时代的热门技术()A、数据整合B、数据预处理C、数据可视化D、 SQL答案: D9、()是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。

A、预测B、分析C、预测分析D、分析预测答案: C10、大数据发展的前提?答案:解析:硬件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终端的普及,电子商务、社交网络、电子地图等的全面应用,物联网的兴起11、调研、分析大数据发展的现状与应用领域。

?答案:解析:略12、大数据时代的主要特征?答案:解析:数据量大(Volume)第一个特征是数据量大。

大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

类型繁多(Variety)第二个特征是数据类型繁多。

包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

价值密度低(Value)第三个特征是数据价值密度相对较低。

数据挖掘参考答案

数据挖掘参考答案

数据挖掘参考答案数据挖掘参考答案随着信息时代的到来,大数据成为了各个领域的热门话题。

数据的爆炸式增长给人们带来了巨大的挑战,同时也带来了无限的机遇。

在这个背景下,数据挖掘作为一种重要的数据分析方法,被广泛应用于商业、科学、医疗等领域。

本文将从数据挖掘的定义、应用领域和技术方法等方面进行探讨。

首先,我们来了解一下数据挖掘的定义。

数据挖掘是一种通过从大量数据中发现隐藏模式和知识的过程。

它涉及到多个学科领域,包括统计学、机器学习、人工智能等。

数据挖掘的目标是通过分析数据,找出其中的规律和趋势,以便做出预测和决策。

数据挖掘的应用领域非常广泛。

在商业领域,数据挖掘可以用于市场营销、客户关系管理、风险管理等方面。

例如,通过分析用户的购买记录和行为模式,企业可以预测用户的需求,优化产品推荐,提高销售额。

在科学研究中,数据挖掘可以用于发现新的科学规律和模型。

例如,通过分析天文观测数据,科学家可以发现新的星系和行星。

在医疗领域,数据挖掘可以用于疾病诊断、药物研发等方面。

例如,通过分析大量的医疗数据,医生可以预测患者的疾病风险,制定个性化的治疗方案。

数据挖掘的技术方法也非常多样。

其中最常用的方法包括聚类分析、分类分析、关联规则挖掘和预测分析等。

聚类分析是将数据分成若干个类别,使得同一类别内的数据相似度较高,不同类别之间的数据相似度较低。

分类分析是根据已有的数据集,建立一个分类模型,用于对新的数据进行分类。

关联规则挖掘是发现数据中的相关性和关联关系。

预测分析是通过分析历史数据,预测未来的趋势和结果。

除了上述常用的技术方法,还有一些新兴的数据挖掘技术值得关注。

例如,深度学习是一种基于神经网络的机器学习方法,可以用于处理大规模的非结构化数据。

自然语言处理是一种将自然语言转化为计算机可处理形式的技术,可以用于处理文本数据。

图挖掘是一种挖掘图数据中的模式和知识的方法,可以用于社交网络分析、网络安全等领域。

然而,数据挖掘也面临着一些挑战和问题。

数据挖掘常见面试题与参考答案简析

数据挖掘常见面试题与参考答案简析

数据挖掘常见⾯试题与参考答案简析机器学习⽅⾯:1、⽀撑平⾯-和⽀持向量交互的平⾯,分割平⾯---⽀持平⾯中间⾯也就是最优分类平⾯2、SVM不是定义损失,⽽是定义⽀持向量之间的距离⽬标函数3、正则化参数对⽀持向量数的影响1、LR的形式:h(x)=g(f(x)) 其中x为原数据,f(x)为线性/⾮线性回归得到的值,也叫判定边界 g()为Sigmod函数,最终h(x)输出的范围为(0,1)LR对样本分布敏感LR是loss最优化求出的 NB是跳过统计Loss最优,直接得出权重的 NB⽐LR多了⼀个条件独⽴假设 LR属于判别模型 NB是⽣成模型两者都可以处理⾮线性的问题;LR和SVM最初都是针对⼆分类问题的,SVM最⼤化间隔平⾯,LR极⼤似然估计,SVM只能输出类别,不能输出概率,两者LOSS function 不同,LR的可解释性更强,SVM⾃带有约束的正则化LR只能⽤于处理⼆分类,⽽Sigmod对于所有的输⼊,得到的输出接近0或者 1Sigmod存在的问题,梯度消失、他的输出不是关于原点对称的导致收敛速度⾮常慢,计算⾮常耗时间Tanh激活桉树存在的问题:梯度消失,计算耗时,但是其输出的是中⼼对称的Relu:其输出不关于原点对称:反向传播时,输⼊的神经元⼩于0时,会有梯度消失问题,当x=0是,该点的梯度不存在(没有定义) Relu问题:权重初始化不当,出事学习率设置的⾮常⼤SVM对偶问题的获得⽅法:将原问题的⽬标函数L和约束条件构造拉格朗⽇函数,再对L中原参数和lambda、miu分别求导,并且三种导数都等于0;再将等于0的三个导数带⼊原⽬标函数中,即可获得对偶问题的⽬标函数关系:原问题的最⼤值相对于对偶问题的最⼩值KKT条件是思考如何把约束优化转化为⽆约束优化à进⽽求约束条件的极值点决策树对训练属性有很好的分类能⼒;但对位置的测试数据未必有好的分类能⼒,泛化能⼒弱,即发⽣过拟合防⽌过拟合的⽅法:剪枝(把⼀些相关的属性归为⼀个⼤类,减少决策树的分叉);随机森林L1正则化可以实现稀疏(即截断),使训练得到的权重为0;l1正则会产⽣稀疏解,正则化就是对loss进⾏惩罚(加了正则化项之后,使loss不可能为0,lambda越⼤惩罚越⼤-->lambda较⼩时,约束⼩,可能仍存在过拟合;太⼤时,使loss值集中于正则化的值上)正则化使⽤⽅法:L1/L2/L1+L2如果是离线的话,L1正则可以有稀疏解,batch⼤点应该也有帮助,在线的解决思路有ftrl,rds,robots,还有阿⾥的mlr。

《数据挖掘》试题与答案

《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。

知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。

2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。

例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。

2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。

若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。

3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。

由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。

假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。

数据挖掘习题及解答-完美版

数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx(1)计算整个数据集的Gini指标值。

(2)计算属性性别的Gini指标值(3)计算使用多路划分属性车型的Gini指标值(4)计算使用多路划分属性衬衣尺码的Gini指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?(3)=26/160=0.1625]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。

2. ((1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。

(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

(3)将每个顾客ID作为一个购物篮,重复(1)。

应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。

(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。

(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。

(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。

(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。

3. (20分)以下是多元回归分析的部分R输出结果。

> ls1=lm(y~x1+x2)> anova(ls1)Df Sum Sq Mean Sq F value Pr(>F)x1 1 10021.2 10021.2 62.038 0.0001007 ***x2 1 4030.9 4030.9 24.954 0.0015735 **Residuals 7 1130.7 161.5> ls2<-lm(y~x2+x1)> anova(ls2)Df Sum Sq Mean Sq F value Pr(>F)x2 1 3363.4 3363.4 20.822 0.002595 **x1 1 10688.7 10688.7 66.170 8.193e-05 ***Residuals 7 1130.7 161.5(1)用F检验来检验以下假设(α = 0.05)H0: β1 = 0H a: β1≠ 0计算检验统计量;是否拒绝零假设,为什么?(2)用F检验来检验以下假设(α = 0.05)H0: β2 = 0H a: β2≠ 0计算检验统计量;是否拒绝零假设,为什么?(3)用F检验来检验以下假设(α = 0.05)H0: β1 = β2 = 0H a: β1和β2 并不都等于零计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F(2,7)=4.74,p<0.05,所以可以拒绝原假设,即得到不等于0。

《商务智能》复习题及答案

《商务智能》复习题及答案

《商务智能》复习题及答案1、把数据报表从一年展开成四个季度的操作是(C )A、上卷B、旋转C、下钻D、切片2、在多维数据集中,对某一个维度上的数据进行选择一维成员,其他维度没有变化的操作是( D)A、切块B、旋转C、下钻D、切片3、一个多维数组表示为:(维1,维2,维3,维4,变量),这是一个(B )维结构。

A、3B、4C、5D、64、一次购买行为的发起需要有:购买者、商家、商品、购买时间、供应商和订单金额。

如果设计星型模型,请问有几个维度(C )A、3B、4C、5D、65、在进行ETL时,应该在(C )里进行。

A、ODSB、数据仓库C、数据准备区D、源数据6、(多选题)此大数据带来的变革有(ABD ).A、思维变革B、商业变革C、购物变革D、管理变革7、自然演化式体系结构的问题有(ACD )。

(多选)A、数据可信性B、无法进行数据处理C、生产率问题D、无法将数据转化为信息8、数据立方体是指(C ).A、三维数据集B、三维以上的数据集C、三维和三维以上的数据集D、四维数据集'9、戈登·未尔提出在今后的十几年里,半导体处理器的性能,比如容量、计算速度和复杂程度,每(D )左右可以翻一番。

A、1个月B、6个月C、12个月D、18个月10、大数据时代的核心价值是(B)A.数据收集B.数据分析C.数据挖掘D.数据可视化11、大数据的来源包括( ABCD).A.互联网数据B.传感器数据C.实时数据D.探测数据11、好友的QQ突然发来一个网站链接要求投票,最合理的做法是( C)A.因为是其好反信总,直接打开使接投票B.不参与任何投票C.可能是好友aq被盗,可能是恶意筑接。

先通过予机跟朋友确认链技按无异常,考虑是否投票D.把好友加入黑名单12、关于大数据特点,错误的是(C )A、数据量大B、数据类型多C.数据价值密度高D.数据处理速度快13、Hadop是基于(B )语言的数据分析框架。

A. C++B. JavaC. RD. C#14.Maphedue的主导思想是(C )A.集成化B.一体化C.分而治之D.综合化15.下列与大数据密切相关的技术是(B)A.蓝牙B.云计算C.博穿论D.WiFi16.大数据的数据类型包括结构化数据、非结构化数据和(A ).A.半结构化数据B.无结构化数据C.关系数据库数D.文本数据和WEe数报17.数据仓库中的数据(ABCD )A.集成的B.可以变化的C.面向主题的D.不易丢失的18.数据仓库是随着时间变化的。

数据挖掘习题参考答案

数据挖掘习题参考答案

数据挖掘习题参考答案数据挖掘习题参考答案数据挖掘作为一门热门的学科,已经在各个领域得到广泛应用。

它的目标是从大量的数据中发现有用的信息,并且用这些信息来解决实际问题。

为了帮助读者更好地理解数据挖掘的概念和技术,本文将提供一些数据挖掘习题的参考答案,希望能够对读者有所帮助。

习题一:什么是数据挖掘?它有哪些应用领域?答案:数据挖掘是指从大量的数据中发现有用的信息,并且用这些信息来解决实际问题的过程。

它可以帮助我们发现数据中的模式、规律和趋势,从而提供决策支持和预测能力。

数据挖掘的应用领域非常广泛,包括但不限于市场营销、金融风险管理、医疗诊断、社交网络分析等。

习题二:数据挖掘的主要任务有哪些?答案:数据挖掘的主要任务包括分类、聚类、关联规则挖掘和异常检测。

分类是指根据已有的数据样本来预测新的数据样本所属的类别。

聚类是指将数据样本分成几个不同的组,使得同一组内的数据样本相似度较高,而不同组之间的相似度较低。

关联规则挖掘是指发现数据中的关联关系,例如购物篮分析中的“如果购买了商品A,则更有可能购买商品B”。

异常检测是指发现与其他样本不同的数据点,可能是潜在的异常或异常行为。

习题三:数据挖掘的过程有哪些步骤?答案:数据挖掘的过程通常包括问题定义、数据收集、数据预处理、特征选择和转换、模型选择和建立、模型评估和模型应用等步骤。

首先,我们需要明确问题的定义,确定我们需要从数据中挖掘出什么样的信息。

然后,我们收集相关的数据,并对数据进行预处理,包括数据清洗、数据集成、数据变换和数据规约等。

接下来,我们选择合适的特征,并进行特征转换,以便于模型的建立和分析。

在模型选择和建立阶段,我们选择合适的数据挖掘算法,并进行模型的训练和优化。

最后,我们评估模型的性能,并将模型应用于实际问题中。

习题四:数据挖掘中常用的算法有哪些?答案:数据挖掘中常用的算法包括决策树、朴素贝叶斯、支持向量机、神经网络、聚类算法(如K-means算法和DBSCAN算法)、关联规则挖掘算法(如Apriori算法)等。

《商务智能》考试复习内容-(含答案)

《商务智能》考试复习内容-(含答案)

《商务智能》考试复习内容-(含答案)闭卷考试,时间120分钟,五种题型:选择题(10分)、判断题(10分)、名词解释题(30分)、简答题(30分)、论述题(20分)第1章商务智能基本知识(1)商务智能的概念、价值、驱动⼒。

概念:商务智能是企业利⽤现代信息技术收集、管理和分析结构化和⾮结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策⽔平,采取有效的商务⾏动,完善各种商务流程,提升各⽅⾯商务绩效,增强综合竞争⼒的智慧和能⼒-王茁专著《三位⼀体的商务智能》.商务智能解决⽅案远远不只是数据和技术的组合,帮助⽤户获得正确的数据,发现它的价值,并共享价值。

价值:() .⽀持各级决策基于事实和商业管理的(科学)的预测当前和未来的业务情况下获得历史业务数据的智能分析。

恰当准确客观及时驱动⼒:在商务智能背后有⼀些商业驱动⼒,例如:增加收⼊,减少费⽤和更有效地竞争的需求。

管理和模拟当前商业环境复杂性的需求。

减少费⽤和利⽤已有公司业务信息的需求。

(2)商务智能系统的功能、主要⼯具。

功能:在商务智能背后有⼀些商业驱动⼒,例如:增加收⼊,减少费⽤和更有效地竞争的需求。

管理和模拟当前商业环境复杂性的需求。

减少费⽤和利⽤已有公司业务信息的需求。

主要⼯具:第2章商务智能核⼼技术(1)商务智能系统的架构如何?(2)什么是数据仓库?数据仓库⽤来保存从多个数据库或其它信息源选取的数据, 并为上层应⽤提供统⼀⽤户接⼝,完成数据查询和分析。

⽀持整个企业范围的主要业务来建⽴的,主要特点是,包含⼤量⾯向整个企业的综合信息及导出信息。

数据仓库是作为服务基础的分析型,⽤来存放⼤容量的只读数据,为制定决策提供所需要的信息。

数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、⾯向主题及不可更新的数据集合。

以1992年W H 出版《》为标志,数据仓库发展速度很快。

W H 被誉为数据仓库之⽗。

W H 对数据仓库所下的定义:数据仓库是⾯向主题的、集成的、稳定的、随时间变化的数据集合,⽤以⽀持管理决策的过程。

数据挖掘考试题及答案

数据挖掘考试题及答案

数据挖掘考试题及答案一、单项选择题(每题2分,共20分)1. 数据挖掘的主要任务不包括以下哪一项?A. 分类B. 聚类C. 预测D. 数据清洗答案:D2. 以下哪个算法不是用于分类的?A. 决策树B. 支持向量机C. K-meansD. 神经网络答案:C3. 在数据挖掘中,关联规则挖掘主要用于发现以下哪种类型的模式?A. 频繁项集B. 异常检测C. 聚类D. 预测答案:A4. 以下哪个指标用于评估分类模型的性能?A. 准确率B. 召回率C. F1分数D. 以上都是答案:D5. 在数据挖掘中,过拟合是指模型:A. 过于复杂,无法泛化到新数据B. 过于简单,无法捕捉数据的复杂性C. 无法处理缺失值D. 无法处理异常值答案:A6. 以下哪个算法是用于异常检测的?A. AprioriB. K-meansC. DBSCAND. ID3答案:C7. 在数据挖掘中,哪个步骤是用于减少数据集中的噪声和不相关特征?A. 数据预处理B. 数据探索C. 数据转换D. 数据整合答案:A8. 以下哪个是时间序列分析中常用的模型?A. 线性回归B. ARIMAC. 决策树D. 神经网络答案:B9. 在数据挖掘中,哪个算法是用于处理高维数据的?A. 主成分分析(PCA)B. 线性回归C. 逻辑回归D. 随机森林答案:A10. 以下哪个是文本挖掘中常用的技术?A. 词袋模型B. 决策树C. 聚类分析D. 以上都是答案:D二、多项选择题(每题3分,共15分)11. 数据挖掘过程中可能涉及的步骤包括哪些?A. 数据清洗B. 数据转换C. 数据探索D. 模型训练答案:ABCD12. 以下哪些是数据挖掘中常用的数据预处理技术?A. 缺失值处理B. 特征选择C. 特征缩放D. 数据离散化答案:ABCD13. 在数据挖掘中,哪些因素可能导致模型过拟合?A. 训练数据量过少B. 模型过于复杂C. 训练数据噪声过多D. 训练数据不具代表性答案:ABCD14. 以下哪些是评估聚类算法性能的指标?A. 轮廓系数B. 戴维斯-邦丁指数C. 兰德指数D. 互信息答案:ABCD15. 在数据挖掘中,哪些是常用的特征工程方法?A. 特征选择B. 特征提取C. 特征构造D. 特征降维答案:ABCD三、简答题(每题10分,共30分)16. 简述数据挖掘中的“挖掘”过程通常包括哪些步骤。

数据挖掘与商务智能复习资料

数据挖掘与商务智能复习资料

1、联机分析处理(on line analytical processing ,OLAP)从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。

2、数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。

3、数据仓库的特点:(1)数据仓库是面向主题的(2)数据仓库的整合性(3)数据仓库数据的集成性(4)数据仓库的稳定性(5)数据仓库的长期性(6)数据仓库是随时间变化的(7)数据仓库的数据量很大(8)数据仓库软、硬件要求较高4、数据库与数据仓库的关系:5、数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。

为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。

数据集市的两种架构:(1)、从属数据集市:它的数据直接来自于中央数据仓库。

一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高查询的反应速度。

(2)独立数据集市:它的数据直接来源于各生产系统。

许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成独立数据集市,用来解决个别部门比较迫切的决策问题。

6、数据挖掘是在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。

7、数据挖掘与OLAP的差异:(1)、OLAP是决策支持领域的一部分。

OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。

(2)、数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、分析一下基于软件即服务使用模使得商务智能系统不必过多的依赖于企业的IT部门和IT资源,减轻了企业的人力、财力的压力,降低了管理维护基础设施和软件的人力成本,也降低了企业部署商务智能的风险,有利于商务智能在企业的各个部门的推广使用,促进企业商业模式的变革,提高企业核心竞争力。
5.信息性指的是系统处理大量数据、提供用户所需信息的能力。
P121
1、简述可视化技术与商务智能的关系。
答:
可视化技术是将抽象的数据表示为视觉图像的技术,作为商务智能的基础技术和表现之一,辅助商务智能的发现,使数据或知识的表示更加清晰、明了;而商务智能的其他技术为它提供数据存储、数据预处理、数据分析等的能力。二者相互交融、互相促进。
P138
2、借助商务智能进行关系营销的主要目的和方法有哪些?
答:
1.主要目的:培养客户忠诚性,提高客户满意度,维护良好的沟通渠道,有效开发客户生命周期内的价值,在客户所处的各个阶段,借助商务智能技术,可以进行有效的关系营销活动,以达到顾客满意,企业获利的双赢状态。
2.方法:使用操作型系统及外部系统、数据仓库、数据集市存储客户数据;使用OLAP、分类、聚类、数值预测、关联分析、时间序列分析对数据进行处理。
2.缺点:①安全问题,涉及数据的丢失以及敏感数据的泄露等;②网络延迟或中断,由于计算资源是通过互联网等网络提供的,比起局域网肯定存在网络的延迟,如果网络中断,则无法访问服务;③对服务提供商的依赖,如果服务提供商停止服务,则用户无法得到服务;④集成问题,服务提供商提供的软件、业其他系统进行集成等。
2、商务智能可视化有什么作用?
答:
1.通过将数据可视化,便于发现隐藏在数据之间的关系、可以使信息的交流更加清楚、有效;
2.可视化也是一种知识发现的手段,通过将数据以合适的形式展现给用户,通过人的视觉处理能力有时可以发现计算机发现不了的模式。
P138
1、商务智能的典型应用领域有哪些?
答:
商务智能的应用也深入各行各业,在零售、金融、电信、保险,制造等领域的市场管理,风险管理及生产管理等方面均有成功的应用。
P165
1、常用的开源数据挖掘软件有哪些?
答:
1.RapidMiner(该工具是用Java语言编写的,通过基于模板的框架提供先进的分析技术。该款工具最大的好处就是,用户无需写任何代码。它是作为一个服务提供,而不是一款本地软件。)
2.WEKA(WEKA支持多种标准数据挖掘任务,包括数据预处理、收集、分类、回归分析、可视化和特征选取。)
3.R-Programming(它主要是由C语言和FORTRAN语言编写的,并且很多模块都是由R编写的,这是一款针对编程语言和软件环境进行统计计算和制图的免费软件。R语言被广泛应用于数据挖掘,以及开发统计软件和数据分析中。)
4.Orange(它是一个基于Python语言,功能强大的开源工具,并且对初学者和专家级的大神均适用。)
答:
1.通过收集客户的行为数据,可以发现用户的兴趣偏好,为其提供个性化服务,提高客户满意度,增加企业利润。但这些数据被善意利用的同时也可能泄露用户隐私;
2.用户在网上查询、浏览、购物、交友、分享信息,用户的一举一动几乎都被记录下来,其中包含了用户的很多隐私信息;
3.GPS技术的使用,用户的位置、移动信息也被记录下来。
5.KNIME(数据处理主要有三个部分:提取、转换和加载。 而这三者KNIME都可以做到。 KNIME为您提供了一个图形化的用户界面,以便对数据节点进行处理。)
6.NLTK(NLTK提供了一个语言处理工具,包括数据挖掘、机器学习、数据抓取、情感分析等各种语言处理任务。)
P188
1、列举商务智能应用中可能涉及的隐私保护问题。
《商务智能与数据挖掘》简答题部分答案
--《商务智能与方法应用》(刘红岩编著)
P9
1、什么是商务智能?
答:
商务智能指用现代数据仓库技术、联机分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。
4、商务智能系统的主要组成要素有哪些?
答:
一个商务智能系统通常包含6个主要组成部分:数据源、数据仓库、在线分析处理、数据探查、数据挖掘以及业务绩效管理。
3.优化上,数据仓库侧重于处理和探索海量数据,数据集市则侧重于快速的访问和分析。
(2)联系:数据集市是数据仓库的一种特殊形式,一般情况下数据集市从属于某个数据仓库,但二者又均以资料导向型设计、不属于任何一个OLTP系统
P110
1、OLAP有哪些特点?
答:OLAP的特点有:快速(Fast)、分析性能(Analysis)、共享性(Shared)、多维性(Multidimensional)、信息性(Information),简称FASMI。即:
在线分析处理(OLAP)是数据库系统的主要应用,提供数据的多维分析以支持决策过程。
OLTP和OLAP二者的不同之处有:面向的用户;功能的作用;数据库中存储的数据;数据库设计(包括数据库的数据处理方式、使用方式、执行单元、性能指标、事务特性)。
P103
3、构建数据仓库系统的主要阶段?
答:
数据库项目的开发可以分为6个阶段:项目规划、需求分析、概念设计、ETL设计、逻辑和物理设计、实现与培训。
1.项目规划阶段主要目的是了解总体需求,界定项目实施的范围,评估项目的必要行和可行性,撰写数据仓库项目的规划文档。
2.需求分析阶段,可进一步详细了解需求,确定分析主题以及相关的维度和度量, 了解已有信息系统的功能、结构和模型,确定数据仓库中应该包含的数据,以及相关的数据来源,撰写需求分析说明书。
3.概念设计阶段,可利用概念模型描述数据仓库包含的主要及其关系。
1.快速性指的是系统能够在大约5s内响应用户的请求,最长不超过20s。
2.分析性能指的是系统能够以直观的形式提供灵活的统计分析功能,便于用户操作,允许用户自己定义运算方式。
3.共享性指的是支持多用户并发访问系统,具有可靠的安全性。
4.多维性是OLAP最关键的一个特性,它指的是系统必须提供数据的多维视图以及维度内的层次聚集功能。
P15
2、商务智能系统成功的关键因素有哪些?
答:
商务智能系统成功的关键因素主要有5个:业务驱动、高层支持、业务人员和IT人员的合作、循序渐进、培训。
4、OLTP和OLAP分别代表什么?比较二者之间的不同之处。
答:
在线事务处理(OLTP),是数据库管理系统的主要功能,用于完成企业内部各个部门的日常业务操作。
4.ETL设计阶段,包括数据抽取、转换和加载设计三部分。
5.逻辑和物理设计阶段,用于设计数据仓库的逻辑模型和物理模型。
6.实现与培训阶段,包括数据仓库系统的实现和用户使用的培训。
4、简要说明数据仓库和数据集市的区别和联系。
答:
(1)区别:
1.应用范围上,数据仓库一般为企业级;数据集市一般为部门级。
2.存储内容上,数据仓库包含企业经营过程中所有详细数据;数据集市一般只包含特定范围的详细数据和适度聚合的数据。
相关文档
最新文档