决策树习题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
习题
[1]商务智能产生的原因是什么?
[2]怎么认识商务智能?
[3]商务智能对企业有什么价值?
[4]举例说明商务智能在保险、证券、银行、电信、制造、零售和物流等行业的应用。
[5]讨论商务智能与ERP、CRM和SCM等业务管理系统的关系。
[6]商务智能系统包括哪些部分?分别有什么功能?
[7]结合具体的商务智能项目,说明商务智能系统的组成。
[8]讨论数据集成对商务智能项目的重要性。
[9]阅读下面的案例,分析产生问题的原因并给出对策。
一位新上任的大型国企老总曾经表达过这样的困惑。当他向下属提出,希望查看近十年企业的生产和运营数据时,他手边得到了各种各样不同的数据报表。这些数据报表大致可以分成两种类型:一种是两年前,即ERP上线之前的,这是一些简单、杂乱而又枯燥的数据。另一种是有了ERP以后的,数据变得清楚而有条理,但仍然有来自ERP、CRM、SCM以及计费业务等不同应用的数据和各种分析报告。在仔细查看这些报表之后,这位国企老总惊讶地发现,不同的系统可以得出截然相反的两种结论。例如某一产品,它的动态成本反映在ERP系统和CRM、SCM系统中相差很大,如果引用ERP和CRM里面的数据,它就是一款很成功、销量很好的产品,但在SCM中,它的采购和物流成本过高,导致了这款看起来很成功的产品实际上是一笔赔钱的买卖。更让他难以理解的是,正是由于这些来自不同系统的数据不够准确或不一致,给企业的前任领导提交了相当多顾此失彼的分析报告,导致了许多市场决策上的混乱和失误。在花费了大量时间和精力之后,这位国企老总困惑了:究竟哪些数据才是真实的?为什么对同一件事不同的系统会得到截然不同的结果?
[10]讨论数据仓库与操作型数据库、数据集市的区别。
[11]如何认识数据仓库的几个特点?这些特点与企业管理决策有什么关系?
[12]什么是元数据?元数据有什么用处?
[13]讨论ETL的过程,其中数据质量对这个过程有什么影响?
[14]什么是操作数据存储(ODS)?为什么使用ODS?
[15]数据仓库有哪些模型?举例说明。
[16]举例说明数据挖掘查询语言(DMQL)的应用。
[17]以销售主题为例,给出数据仓库的概念模型和逻辑模型,并用DB2或Microsoft SQL Server2000 Analysis Services(以上版本)实现。
[18]什么是在线分析处理(OLAP)?OLAP有哪些特点?
[19]OLAP和OLTP有什么区别?怎么理解OLAP是假设驱动型的分析方法?
[20]OLAP有哪些操作?请结合实例,利用IBM DB2 OLAP Server或Microsoft SQL Server 2000 Analysis Services(以上版本)讨论。
[21]OLAP有哪几种类型?它们有什么区别?
[22]结合实例,讨论OLAP操作语言的应用。
[23]数据挖掘是怎么产生的?
[24]数据挖掘有哪些步骤?以电信运营商的顾客细分为例,分析每一步骤关键的问题。
[25]作为一种数据挖掘方法和展示工具,举例说明可视化技术的应用。
[26]举例说明数据挖掘在银行、保险、电信、零售或政府管理中的应用。
[27]数据预处理在数据挖掘过程中有什么用处?常见的预处理方法有哪些?请举例说明。
[28]聚类算法的实质是什么?常用的几种聚类算法各适用什么场合?请举例说明某种聚类
算法的应用。
[29]分别取k=2和3,利用k-means聚类算法对以下的点聚类:(2,1),(1,2),(2,2),(3,2),(2,3),(3,3),(2,4),(3,5),(4,4),(5,3),并讨论k值以及初始聚类中心对聚类结果的影响。
[30]分类问题的实质是什么?有哪些常用的方法?
[31]表1是购买汽车的顾客分类训练样本集。假设顾客的属性集家庭经济状况、信用级别和月收入之间条件独立,则对于某顾客(测试样本),已知其属性集X=<一般,优秀,12K>,利用朴素贝叶斯分类器计算这位顾客购买汽车的概率。
表1 购买汽车的顾客训练样本集
[32]决策树算法的实质是什么?以机器学习数据库中splice数据集为例,回答下面问题:
(1)分别计算信息增益和gini指数,哪个属性选择为决策树根结点的分枝属性?
(2)使用ID3算法构造决策树。
注:splice数据集下载地址:/ml/datasets/
[33]连续属性如何离散化?请用ID3算法或C4.5算法举例说明。
[34]决策树算法的过拟合问题如何解决?
[35]结合实例,应用CART、C4.5算法挖掘决策树,并与ID3算法比较结果。
[36]支持向量机的基本思想是什么?请举例说明支持向量机的应用。
[37]讨论BP神经网络处理分类问题的原理,并举例说明此网络的应用。
[38]考虑表2中的一维数据集,分别根据1最近邻、3最近邻、5最近邻和8最近邻,使用多数表决投票对数据点5.0分类,讨论k最近邻分类中k的取值对分类结果的影响(表中“+”和“-”表示类别)。
[39]关联规则挖掘的基本思想是什么?
[40]对于表3所示的数据集,假设最小支持数和最小臵信度分别为2和65%,考虑下面问题:
(1)画出该数据集的项集格,判断每个结点是否为频繁项集。
(2)分别把Apriori算法和FP增长算法挖掘表中数据集,提取所有的强关联规则。
表3 购物篮事务
[41]序列分析与关联规则挖掘有什么关系?请举例讨论。
[42]结合实际序列数据库,假设最小支持度为20%,利用类Apriori算法提取所有的序列模式。
[43]时间序列分析与序列分析有什么关系?
[44]表4是某商品多次价格变动与销售量的数据,请利用回归分析求出价格x与销售量y 的关系(提示:x与y的关系大致为抛物线,先变换为线性回归问题再求解)。
[45]说明哪些数据挖掘算法之间可以组合使用,并举例说明。
[46]数据挖掘对电子商务有什么影响?
[47]举例说明数据挖掘在电子商务中有哪些方面的应用。
[48]总结数据挖掘在市场营销和顾客关系管理中的应用,并举例说明。可以从寻找潜在顾客,寻找正确的广告渠道,定向市场营销活动,了解潜在顾客以及顾客保持和流失等方面讨论。
[49]请分析商务智能技术在某些领域的具体应用:收集实际数据集,对数据进行预处理后,进行分类、聚类、关联、序列、回归分析等分析,并讨论分析结果的业务价值。
[50]以某一具体的数据挖掘项目为背景,讨论数据挖掘各个阶段的工作。
[51]请结合下图,分析一个完整的企业商务智能项目可以包含哪些内容?分别解决什么问题?其中的关键问题分别是什么?