数据挖掘第二次作业
数据挖掘作业2
数据挖掘作业21. 引言数据挖掘是一种从大量数据中发现、提取和分析有用信息的过程。
本文旨在探讨数据挖掘作业2的相关内容,包括数据集选择、数据预处理、特征选择和模型建立等。
2. 数据集选择在数据挖掘作业2中,我们选择了一个涉及电子商务的数据集。
该数据集包含了用户的购买记录、产品信息、用户评价等多个维度的数据。
通过对该数据集的挖掘,我们希望能够发现用户的购买偏好、产品的销售趋势等有价值的信息。
3. 数据预处理在进行数据挖掘之前,我们需要对数据进行预处理,以确保数据的质量和可用性。
首先,我们对数据进行清洗,去除缺失值和异常值。
然后,我们对数据进行归一化处理,以消除不同特征之间的量纲差异。
最后,我们对数据进行采样,以减少计算复杂度并保持数据的代表性。
4. 特征选择特征选择是数据挖掘的重要步骤,旨在从原始特征中选择出最具有预测能力的特征。
在数据挖掘作业2中,我们采用了信息增益和相关系数等方法来评估特征的重要性,并选择出了与目标变量相关性较高的特征。
此外,我们还进行了特征的降维处理,以减少特征空间的维度。
5. 模型建立在数据挖掘作业2中,我们选择了决策树算法作为模型建立的方法。
决策树是一种基于树状结构的分类模型,通过对特征进行逐步划分,最终得到一个可以对新样本进行分类的模型。
我们使用了ID3算法来构建决策树模型,并通过交叉验证的方法对模型进行评估和调优。
6. 模型评估为了评估模型的性能,我们采用了准确率、召回率、F1值等指标来衡量模型的分类效果。
此外,我们还使用了混淆矩阵来展示模型的分类结果,并计算了ROC曲线下的面积(AUC)来评估模型的整体性能。
7. 结果分析通过对数据挖掘作业2的实验和分析,我们得到了一些有价值的结论。
首先,我们发现用户对某一类产品的购买意愿与其评价的积极程度呈正相关关系。
其次,我们发现某些产品的销售量与其价格呈负相关关系,即价格越高,销售量越低。
最后,我们通过决策树模型对用户的购买行为进行了预测,并取得了较好的分类效果。
【2019年整理电大考试复习资料】中央电大《企业信息管理》形成性考核册第1-4次作业参考答案资料
中央电大《企业信息管理》形成性考核册第1-4次作业参考答案小抄第一次作业参考答案一、简答题1、举例说明以下几个问题:(1)IT的战略作用是什么?答:信息时代,产品或服务开发及生产的速度以及对市场的反应能力是企业取得成功的关键,而这些在很大程序上取决于信息技术的应用,信息技术在支持企业的业务活动、生产活动,增强营销和生产的灵活性以及提高组织的竞争力方面发挥着极其重要的战略作用,它可以有效地提高企业在产品和服务方面的质量。
主要表现为产品设计和制造自动化、生产过程自动化、产品和设备智能化、管理现代化等方面。
(2)IT是如何支持企业的业务活动的?答:提高管理工作的效率和质量,提高整个企业的管理技术水平可以提高生产的效率和产品的质量;作为经营管理的组成部分,提高企业的竞争优势;发展公共关系,为企业赢得良好的信誉和形象;作为一种创新手段,使企业获得新的商业机会;提高财务活动、人事管理等工作的效率和质量。
(3)IT如何提高生产效率和产品质量?答:信息技术最基本的任务是提高生产力。
因为信息技术具有准确、高速处理大量数据的能力,从而能够缩短时间、减少错误、降低各种信息处理的工作成本。
(1)联机事务处理主要用来协助企业对响应事件或事务的日常商务活动进行处理。
(2)事务处理系统是使操作层的日常业务活动的数据处理自动化,提高工作效率的系统,其主要作用是反馈控制。
(3)TPS的一个重要延伸就是客户集成系统。
CIS 将技术送到客户端,让他们处理其自身的事务。
信息技术的使用有助于提高决策质量。
可用于提高决策质量的信息技术工具有:(1)联机分析处理。
(2)决策支持系统。
(3)地理信息系统。
(4)数据仓库。
(5)数据挖掘。
(6)专家系统。
(7)商务智能。
(4)IT如何提高企业的竞争优势?答:作业一种广泛利用的标准资源,信息技术本身能够转化为企业的能力和核心能力。
核心能力通常是指那些能够使一个公司从战略上区别于竞争者,并培育出竞争者未拥有的有益行为的能力。
数据挖掘作业2
数据挖掘作业2一、任务背景数据挖掘是一种通过发现和分析大量数据中的模式和关联来提取有用信息的过程。
数据挖掘技术在各个领域中得到广泛应用,例如市场营销、金融风险管理、医疗诊断等。
本次数据挖掘作业2旨在通过使用机器学习算法对给定的数据集进行分析和预测,以解决一个实际问题。
二、任务描述本次数据挖掘作业2的任务是基于一个电信公司的客户数据集,构建一个客户流失预测模型。
客户流失是指客户停止使用某个产品或服务的情况,对于电信公司来说,客户流失可能导致业务下降和收入减少。
因此,通过预测客户流失,电信公司可以采取相应的措施来留住客户,提高客户忠诚度。
三、数据集介绍本次任务使用的数据集包含了一些客户的个人信息、合同信息、付款信息等。
数据集中的每一行代表一个客户的信息,每一列代表一个特征。
数据集中包含了以下特征:1. 客户ID:每个客户的唯一标识符。
2. 性别:客户的性别,可能取值为男或女。
3. 年龄:客户的年龄,以岁为单位。
4. 合作伙伴:客户是否有合作伙伴,可能取值为有或无。
5. 好友:客户是否有好友,可能取值为有或无。
6. 月租费:客户每月支付的费用,以美元为单位。
7. 总消费:客户总共支付的费用,以美元为单位。
8. 在网时间:客户使用该服务的时间,以月为单位。
9. 流失:客户是否已经流失,可能取值为是或否。
四、数据挖掘流程1. 数据预处理:a. 导入数据集:读取数据集,并查看数据的基本信息,如数据类型、缺失值情况等。
b. 数据清洗:处理数据中的缺失值、异常值等问题,确保数据的质量。
c. 特征选择:根据领域知识和特征相关性等方法,选择对预测客户流失有重要影响的特征。
d. 数据转换:对数据进行标准化、归一化等处理,以便于模型的训练和预测。
2. 模型训练:a. 划分数据集:将数据集划分为训练集和测试集,通常采用70%的数据作为训练集,30%的数据作为测试集。
b. 选择模型:根据任务的特点和需求,选择适合的机器学习算法,如逻辑回归、决策树、支持向量机等。
第二次数据挖掘实验报告
for j in range(i, len(x)):
# 判断等式是否成立
if x[i][:l - 1] == x[j][:l - 1] and x[i][l - 1] != x[j][l - 1]:
# 对列表r中追加排好序的元素
r.append(x[i][:l - 1] + sorted([x[j][l - 1], x[i][l - 1]]))
#进行排序后的ms和x放到一个列表里赋值给x
x = list(map(lambda i: sorted(i.split(ms)), x))
#把x列表的第一个元素长度赋值给l
l = len(x[0])
#创建一个空字典r
r = []
#i的范围是0~列表x的长度
for i in range(len(x)):
print(u'数目:%s...' % len(column))
# 新一批支持度的计算函数
sf = lambda i: d[i].prod(axis=1, numeric_only=True)
# 创建连接数据,这一步耗时、耗内存最严重。当数据集较大时,可以考虑并行运算优化。
d_2 = pd.DataFrame(list(map(sf, column)), index=[ms.join(i) for i in column]).T
# 导入数据集,根据自己的目录来插入
inputfile = 'D:\数据挖掘\menu_orders.xls'
#导出结果
outputfile = 'D:\数据挖掘\apriori_rules.xls'
# 读取数据
(完整word版)数据挖掘课后答案
第一章1.6(1)数据特征化是目标类数据的一般特性或特征的汇总。
例如,在某商店花费1000元以上的顾客特征的汇总描述是:年龄在40—50岁、有工作和很好的信誉等级。
(2)数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较.由此产生的可能是一个相当普遍的描述,如平均分高达75%的学生是大四的计算机科学专业的学生,而平均分低于65%的学生则不是.(3)关联和相关分析是指在给定的频繁项集中寻找相关联的规则.例如,一个数据挖掘系统可能会发现这样的规则:专业(X,“计算机科学”)=〉拥有(X,”个人电脑“)[support= 12%,confidence = 98%],其中X是一个变量,代表一个学生,该规则表明,98%的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人电脑的可能性是98%。
12%的支持度意味着所研究的所有事务的12%显示属于计算机科学专业的学生都会拥有个人电脑。
(4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。
它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。
例如:某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。
(5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。
聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定. (6)数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。
数据挖掘作业2
数据挖掘作业2数据挖掘是一种从大量数据中发现实用信息和模式的过程。
数据挖掘作业2旨在让学生运用数据挖掘技术,分析和挖掘给定数据集中的实用信息和模式。
本次数据挖掘作业2的任务是基于一个电子商务网站的用户行为数据集,通过分析和挖掘数据,了解用户的行为模式和购买意向,进而提供有针对性的推荐策略和市场营销方案。
首先,我们需要对数据集进行预处理。
这包括数据清洗、去除重复数据、处理缺失值等。
通过这些步骤,我们可以确保数据的准确性和完整性。
接下来,我们可以进行数据探索和可视化分析。
利用统计学和可视化工具,我们可以对数据集进行探索,了解用户的行为特征和购买习惯。
例如,我们可以通过绘制柱状图或者饼图来展示用户的购买类别偏好,或者使用散点图来展示用户的浏览时间和购买金额之间的关系。
在数据探索的基础上,我们可以应用数据挖掘技术来挖掘隐藏在数据中的模式和规律。
其中,常用的数据挖掘技术包括关联规则挖掘、聚类分析、分类算法等。
通过这些技术,我们可以发现用户之间的关联关系、不同用户群体之间的差异以及用户购买意向的预测等。
例如,我们可以利用关联规则挖掘算法,找出用户购买某一商品时,同时购买其他商品的规律。
这可以匡助电子商务网站进行交叉销售和推荐相关商品。
此外,我们可以利用聚类分析算法,将用户分成不同的群体,进而制定针对性的营销策略。
此外,通过分类算法,我们可以预测用户的购买意向,从而提前采取措施,增加用户的转化率。
最后,我们可以根据数据挖掘的结果,提出相应的推荐策略和市场营销方案。
这些策略和方案应该基于对用户行为的深入理解和数据挖掘的结果。
例如,我们可以通过个性化推荐系统,向用户推荐他们可能感兴趣的商品。
或者,我们可以通过优惠券、促销活动等方式,刺激用户的购买欲望。
综上所述,数据挖掘作业2旨在让学生通过对电子商务网站用户行为数据的分析和挖掘,了解用户的行为模式和购买意向,并提供有针对性的推荐策略和市场营销方案。
通过完成这个任务,学生可以提升数据挖掘和分析的能力,并将其应用于实际问题的解决中。
数据挖掘作业2
数据挖掘作业2一、任务背景与目的数据挖掘作业2旨在通过应用数据挖掘技术,从给定的数据集中发现有价值的信息和模式,以帮助决策者做出准确的决策。
本次作业的任务是基于一个电子商务网站的用户行为数据,分析用户购买行为,并构建一个预测模型,以预测用户是否会购买某个特定的产品。
二、数据集介绍本次作业使用的数据集包含了一段时间内的用户行为数据,包括用户的浏览、加购物车、购买等行为。
数据集中的字段包括用户ID、时间戳、产品ID、行为类型等。
数据集共有100万条记录。
三、数据预处理1. 数据清洗:对数据集进行清洗,去除重复记录、缺失值等异常数据。
2. 特征选择:根据业务需求和特征的相关性,选择合适的特征进行分析和建模。
3. 特征编码:对类别型特征进行编码,如使用独热编码将类别型特征转换为数值型特征。
4. 数据划分:将清洗和编码后的数据集划分为训练集和测试集,一般采用70%的数据作为训练集,30%的数据作为测试集。
四、数据分析与建模1. 数据可视化:通过绘制柱状图、折线图等方式,对用户行为数据进行可视化分析,了解用户行为的分布和趋势。
2. 关联规则挖掘:使用关联规则算法(如Apriori算法)挖掘用户行为之间的关联关系,发现用户购买某个产品的规律。
3. 用户分类:根据用户的购买行为特征,使用聚类算法(如K-means算法)将用户划分为不同的类别,以便更好地理解用户的购买行为。
4. 预测模型构建:选择合适的机器学习算法(如决策树、随机森林等),构建用户购买行为的预测模型。
五、模型评估与优化1. 模型评估:使用准确率、召回率、F1值等指标对构建的预测模型进行评估,选择最优的模型。
2. 模型优化:根据评估结果,对模型进行调参和优化,以提高模型的准确性和泛化能力。
六、结果分析与报告撰写1. 结果分析:对模型预测结果进行分析,比较不同模型的性能差异,找出影响用户购买行为的主要因素。
2. 报告撰写:根据分析结果,撰写数据挖掘作业2的报告,包括任务背景、数据处理方法、模型构建过程、结果分析等内容。
数据挖掘大作业(打印) 2
数据挖掘在客户关系管理中的应用一、数据挖掘技术在客户关系管理中的主要应用领域1、客户关系管理中常用的数据挖掘方法常用的数据挖掘方法主要包括:分类、聚类、关联规则、统计回归、偏差分析等等。
(1)分类:分类在数据挖掘中是一项非常重要的任务。
分类的目的是通过统计方法、机器学习方法(包括决策树法和规则归纳法)、神经网络方法等构造一个分类模型,然后把数据库中的数据映射到给定类别中的某一个。
(2)聚类:聚类是把一组个体按照相似性归成若干类别。
即“物以类聚”。
它的目的是使同一类别之内的相似性尽可能大,而类别之间的相似性尽可能小。
这种方法可以用来对客户进行细分,根据客户的特征和属性把客户分成不同客户群,根据其不同需求,制订针对不同客户群的营销策略。
(3)关联规则:它是描述数据库中数据项之间存在关联的规则,即根据一个事物中某些项的出现可导出另一项在同一事物中也出现,即隐藏在数据间的关联或相互关系。
在客户关系管理中,通过对企业客户数据库里大量数据进行挖掘,可以从中发现有趣的关联关系。
(4)回归分析:回归分析反映的是事务数据库中属性值在时间上的特征.主要用于预测,即利用历史数据自动推出对给定数据的推广描述.从而对未来数据进行预测。
它可应用于商品销售趋势预测、客户赢利能力分析和预测等。
(50偏差分析:偏差分析侧重于发现不规则和异常变化,即与通常不同的事件。
在相类似的客户中,对客户的异常变化要给予密切关注。
例如某客户购买行为发生较大变化,购买量较以前大大减少,就要对客户的这种原因进行调查,避免客户流失。
2、数据挖掘在客户关系管理中的具体运用由于零售业采用P O S机和C R M。
使得顾客的资料及购买信息得以贮存。
在这些海量的数据中存在着许多能对商品决策提供真正有价值的决策信息。
商家面临以下问题是:真正有价值的信息是哪些。
这些信息有哪些关联等等。
因此,需要从大量的数据中, 经过深层分析,从而获得有利商业运作提高企业争力的信息。
数据挖掘作业2
数据挖掘作业2数据挖掘作业2:文本分类与情感分析一、引言数据挖掘是从大量的数据中发现隐藏在其中的有价值信息的过程。
文本分类和情感分析是数据挖掘中的两个重要任务。
本文将介绍文本分类和情感分析的基本概念、方法和应用,并结合实际案例进行详细说明。
二、文本分类1. 概念文本分类是将大量的文本按照一定的标准进行分类的过程。
其目标是通过自动化方法将文本划分到预定义的类别中。
2. 方法(1)特征提取:从文本中提取有用的特征信息。
常用的特征提取方法包括词袋模型、TF-IDF、词嵌入等。
(2)特征选择:选择对分类任务有用的特征。
常用的特征选择方法包括信息增益、卡方检验、互信息等。
(3)分类器构建:选择合适的分类器进行文本分类。
常用的分类器包括朴素贝叶斯、支持向量机、决策树等。
(4)模型评估:使用评估指标对分类模型进行评估,如准确率、精确率、召回率、F1值等。
3. 应用文本分类在各个领域都有广泛的应用,如垃圾邮件过滤、新闻分类、情感分析等。
三、情感分析1. 概念情感分析是对文本中的情感进行识别和分类的过程。
其目标是判断文本中的情感倾向,如正面、负面或中性。
2. 方法(1)情感词典:使用情感词典对文本中的词进行情感打分,然后根据打分结果进行情感分类。
(2)机器学习:使用机器学习方法构建情感分类模型,常用的方法包括朴素贝叶斯、支持向量机、深度学习等。
(3)深度学习:使用深度神经网络进行情感分析,如卷积神经网络、循环神经网络等。
3. 应用情感分析在社交媒体监测、产品评论分析、舆情分析等方面具有重要的应用价值。
四、实例分析:电影评论情感分析为了进一步说明文本分类和情感分析的应用,我们以电影评论情感分析为例进行实例分析。
1. 数据收集从互联网上收集了一批电影评论数据,包括评论文本和对应的情感标签(正面、负面或中性)。
2. 数据预处理对收集到的电影评论数据进行预处理,包括去除停用词、标点符号和数字,对文本进行分词等。
3. 特征提取使用词袋模型对预处理后的文本进行特征提取,得到每个评论的特征向量表示。
数据仓库与数据挖掘教程第2版陈文伟版课后习题答案非常全
第一章作业1.数据库及数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库及数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.( ,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
(,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
9.元数据不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据,是整个数据仓库的核心。
数据字典是关于数据库中数据的描述,而不是数据本身,数据字典是数据库的元数据。
10 .数据仓库的定义是什么?答:(1)对数据仓库的定义:数据仓库是面向主题的,集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。
数据挖掘考试习题2有答案
数据挖掘考试习题2有答案1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD? (A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法?(D)A变量代换 B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。
数据挖掘第二次作业
-----WORD格式--可编辑--专业资料-----数据挖掘第二次作业第一题:1.a) Compute the Information Gain for Gender, Car Type and Shirt Size.b) Construct a decision tree with Information Gain.答案:a)因为class分为两类:C0和C1,其中C0的频数为10个,C1的频数为10,所以class元组的信息增益为Info(D)==11.按照Gender进行分类:(D)==0.971InfogenderGain(Gender)=1-0.971=0.0292.按照Car Type进行分类Info(D)=carType=0.314 Gain(Car Type)=1-0.314=0.6863.按照Shirt Size进行分类:(D)==0.988InfoshirtSizeGain(Shirt Size)=1-0.988=0.012b)由a中的信息增益结果可以看出采用Car Type进行分类得到的信息增益最大,所以决策树为:第二题:2. (a) Design a multilayer feed-forward n eural network (one hidden layer) f or the data set in Q1. Label the nodes in the input and output layers.(b) Using the neural network obtained above, show the weight values after one iteration of the back propagation algorithm, given the training instance “(M,Family, Small)". Indicate your initial weight values and biases and the learning rate used.a)Car Type?Shirt Size?C0C1familySportluxuryC0C1smallmedium,large, extra large1 23 4 5 6 7 8 9101112x11x12x21x22x23x31x32x33x34输入层隐藏层输出层b) 由a 可以设每个输入单元代表的属性和初始赋值X11 X12X21X22X23X31X32X33X34F M Family Sports Luxury Small Medium Large Extra Large0 1 1 0 0 1 0 0 0由于初始的权重和偏倚值是随机生成的所以在此定义初始值为:W1,10 W1,11W2,10W2,11W3,10W3,11W4,10W4,11W5,10W5,110.2 0.2 -0.2 -0.1 0.4 0.3 -0.2 -0.1 0.1 -0.1W6,10 W6,11W7,10W7,11W8,10W8,11W9,10W9,11W10,12W11,120.1 -0.2 -0.4 0.2 0.2 0.2 -0.1 0.3 -0.3 -0.1θ10 θ11θ12-0.2 0.2 0.3 净输入和输出:单元 j 净输入 Ij 输出Oj10 0.1 0.5211 0.2 0.5512 0.089 0.48每个节点的误差表:单元j Errj10 0.0089 11 0.0030 12 -0.12权重和偏倚的更新: W1,10W1,11W2,10W2,11W3,10W3,11W4,10W4,11W5,10W5,110.201 0.198 -0.211 -0.099 0.4 0.308 -0.202 -0.098 0.101 -0.100 W6,10W6,11W7,10W7,11W8,10W8,11W9,10W9,11W10,12W11,120.092 -0.211 -0.400 0.198 0.201 0.190 -0.110 0.300 -0.304 -0.099 θ10θ11 θ12 -0.287 0.1790.344第三题:3.a) Suppose the fraction of undergraduate students who smoke is 15% and thefraction of graduate students who smoke is 23%. If o ne-fifth of the college students are graduate students and the rest are undergraduates, what is the probability that a student who smokes is a graduate student? b) Given the information i n part (a), i s a randomly chosen college student morelikely to be a graduate or undergraduate student? c) Suppose 30% of the graduate students live i n a dorm but only 10% of theundergraduate students live in a dorm. If a student smokes and lives in the dorm, is he or she more likely to be a graduate or undergraduate student? You can assume independence between students who live i n a dorm and those who smoke.答:a) 定义:A={A 1 ,A 2}其中A 1表示没有毕业的学生,A 2表示毕业的学生,B 表示抽烟 则由题意而知:P(B|A 1)=15% P(B|A 2)=23% P(A 1)= P(A 2)=则问题则是求P(A 2|B)由166.0)()|B ()()|B (B 2211A P A p A P A P P则 277.0166.02.023.0)()()|(|222B P A P A B P B A P b) 由a 可以看出随机抽取一个抽烟的大学生,是毕业生的概率是0.277,未毕业的学生是0.723,所以有很大的可能性是未毕业的学生。
数据挖掘第二次作业
1•假设最小支持度为40%,最小置信度为70%o对于下表,使用Apriori 算法求解所有的频繁项集,在此基础上推导出所有的强关联规则,并给出相应的支持度和置信度最小支持数为:5*40% =2因此所有的频繁项集为 :{l1}, {l2}, {L3}, {L4}, {L6}, {l1,l2}, {l1,l3}, {l1,l6}, {l2,l4}, {l2,l6}, {l3,l6},{{l1,l2,l6}},{l1,l3,l6}}confidence =3/4 =75% confidence =3/4 =75%confidence =2/4 =50% confidence =2/2=100%confidence =3/4 =75% confidence =3/4 =75%confidence =2/4 =50% confidence =2/2 =100%confidence =3/4 =75%confidence =3/4 =75%confidence =2/2=100% confidence =2/4=50%I1=>I2 support = 3/5 =60% I2=>I1support =3/5 =60%{11,13}的非空子集为{11}, {13} I1=>I3 support = 2/5 =40% I3=> I1support = 2/5 =40%{11,16}的非空子集为{11}, {16} I1=>I6 support =3/5 =60%I6 => l1support = 3/5 =60%{12,14}的非空子集为{12}, {14} I2=>I4 support = 2/5 =40% I4 => l2support = 2/5 =40%{12,16}的非空子集为{12}, {16}I2=> l6 support = 3/5 =60% I6=> I2support =3/5 =60%{13,16}的非空子集为{13}, {16} I3=> l6support = 2/5 =40% I6=>I3support = 2/5 =40%{11,12}的非空子集为{11}, {12}{11,12,16}}的非空子集为{11,12} , {11,16}, {12,16}, {11}, {12}, {16}11二>12八16 support = 2/5 =40% confidence =2/4 =50% 12二>11八16support= 2/5 =40% confidence = 2/4 =50%16二>11八12support= 2/5 =40% confidence =2/4 =50%12八I6=> I1support= 2/5 =40% confidence = 2/3 =66.67%11八16 => I2support= 2/5 =40% confidence =2/3 =66.67%I1AI2=> 16 support = 2/5 =40% confidence =2/3 =66.67%{11,13,16}的非空子集为{11,13}, {11,16}, {13,16}, {11}, {13}, {16} I1=>I3AI6 support =2/5 =40% confidence =2/4 = 50%I3=>I1AI6 support = 2/5 =40% confidence = 2/2 =100%I6=>I1AI3 support = 2/5 =40% confidence =2/4 = 50% I3AI6=> I1 support = 2/5 =40% confidence = 2/2 =100% I1AI6 => I2support= 2/5 =40% confidence =2/3 =66.67%I1AI3=> l6 support = 2/5 =40% confidence =2/2=100%因为最小置信度为 70%,所以强关联 : I1=>I2 support =3/5 =60% confidence =3/4 =75%I2=>I1 support=3/5 =60% confidence =3/4 =75%I1=>I6 support=3/5 =60% confidence =3/4 =75%I6 => l1 support=3/5 =60% confidence =3/4 =75%I2=> l6 support= 3/5 =60% confidence =3/4 =75%I6=> I2 support : =3/5 =60% con fide nee =3/4 =75%I3=> I1 support : =2/5 =40%co nfide nee =2/2=100%13=> 16 support : =2/5 =40%co nfide nee =2/2=100%I4 => 12 support : =2/5 =40%co nfide nee =2/2 =100%13二>11八16support=:2/5 =40%con fide nee=2/2 =100%I3A I6=> I1support==2/5 =40%con fide nee=2/2 =100%I1A I3=> 16support= =2/5 =40%eon fidenee =2/2 =100%2•针对下表的数据,a)构造决策树,并给出是否外出游玩的有关规则;b)禾U用贝叶斯分类方法,判断:在(阴晴二sunny,温度二Mild,湿度二Normal,刮风二False的情况下,是否可以外出游玩。
数据挖掘第二次作业
Home WorkYang Zhou ID 10949219 Chapter 5 question 8(a)from the Conditional Probability we know that P(C︳A)=P(A,C)/P(A).P(+)=5/10=0.5P(A=1,class=+)=3/10=0.3, so P(A=1︳+)= P(A,Class=+)/P(+)=0.3/0.5=0.6P(B=1,Class=+)=2/10=0.2 so P(B=1︳+)=P(B,Class=+)/P(+)=0.2/0.5=0.4P(C=1,Class=+)=4/10=0.4 so P(C=1︳+)=P(C,Class=+)/P(+)=0.4/0.5=0.8P(-)=5/10=0.5P(A=1,class=-)=2/10=0.2, so P(A=1︳-)=P(A,Class=-)/P(-)=0.2/0.5=0.4P(B=1,class=-)=2/10=0.2, so P(B=1︳-)=P(B,Class=-)/P(-)=0.2/0.5=0.4P(C=1,class=-)=1/10=0.1, so P(C=1︳-)=P(C,Class=-)/P(-)=0.2/0.5=0.2(b)Bayes theorem: P(C︳A)= P(A︳C)*P(C)/P(A)We have two kinds of classes, Class=+ and Class=-, assume that X is the test record, so X=(A=1,B=1,C=1). We can use the result from (a)P(X︳Class=+)= P(A=1,class=+)* P(B=1,class=+)*P(C=1,class=+)=0.6*0.4*0.8=0.192P(X︳Class=-)= P(A=1,class=-)* P(B=1,class=-)*P(C=1,class=-)=0.4*0.4*0.2=0.032P(+)=0.5 P(-)=0.5Since P(X︳Class=+)*P(+)>P(X︳Class=-)*P(-)Therefore P(+︳X)> P(-︳X)The record should be in the Class=+(c)P(A=1)=5/10=0.5 P(B=1)=4/10=0.4 we can see from the table that(A=1,B=1)=2/10=0.2and P(A=1,B=1)=P(A=1)*P(B=1)=0.4*0.5=0.2So A and B are independent.(d)P(A=1)=5/10=0.5 P(B=0)=6/10=0.6 we can see from the table thatP(A=1,B=0)=3/10=0.3and P(A=1,B=0)=P(A=1)*P(B=0)=0.5*0.6=0.3So A and B are independent.(e)P(A=1,B=1,Class=+)=1/10=0.1 P(+)=5/10=0.5P(A=1,B=1︳Class=+)=P(A=1,B=1,Class=+)/P(+)=0.1/0.5=0.2from the (a) we can know that P(A=1︳Class=+)=0.6P(B=1︳Class=+)=0.4because P(A=1︳Class=+)* P(B=1︳Class=+)=0.6*0.4=0.24the product is not equal to P(A=1,B=1︳Class=+)=0.2so A and B are not conditionally independent given the classQuestion 13(a) using majority votewhen take the 1-nearest neighbor, we can see from the table that x=4.9 is the nearest neighbor, so at this time y=+, so 1-nearest neighbor:+3-nearest neighbor, we can see that the point x=4.9 y=+, x=5.2 y=-, x=5.3 y=-,are the 3 nearest neighbor point. There are two -, one +, so 3-nearest neighbor:-.5-nearest neighbor, we can see that point x=4.9 y=+, x=5.2 y=-, x=5.3 y=-, x=4.6 y=+, x=4.5 or x=5.5 y=+. Are the 5 nearest neighbor point. There are three +, two -, so 5-nearest neighbor:+.9-nearest neighbor, we can see that point x=4.9 y=+, x=5.2 y=-, x=5.3 y=-, x=4.6 y=+, x=4.5,x=5.5 y=+,x=3 y=-, x=7 y=-, x=0.5 y=- or x=9.5 y=-. Are the 9 nearest neighbor point. There are four +, five -, so 5-nearest neighbor:-..(b)using the distance-weighted voting aprroachWe use weight factor w=21/d d=distance between two points we can use this'(,)arg ()i i t i i vx y D y mentw I v y ∈=⨯=∑to caculate. 1- nearest neighbor point, d=5-4.9=0.1 so 21/d =100v=’+’ so from the table 1*100=100 v=’-’ so 0*100=0 so we can see that 1-neareat is +3-nearest neighbor points d1=5-4.9=0.1 d2=5-5.2= -0.2 d3=5-5.3= -0.3So w1=100 w2=25 w3=100/9v=’+’ so from the table 1*100+0*25+0*100/9=100v=’-’ so 0*100+1*25+1*100/9=36.11 so we can see that 3-neareat is +5-neareat neighbor points d1=5-4.9=0.1 d2=5-5.2= -0.2 d3=5-5.3= -0.3 d4=0.4 d5=0.5v=’+’ so from the table 1*100+0*25+0*100/9+1*6.25+1*4=110.25v=’-’ so 0*100+1*25+1*100/9+0*6.25+0*4=36.11 so we can see that 5-neareat is +9-neareat neighbor points d1=5-4.9=0.1 d2=5-5.2= -0.2 d3=5-5.3= -0.3 d4=0.4 d5=0.5 d6= -0.5 d7=2 d8= -2 d9=4.5v=’+’ so from the table1*100+0*25+0*100/9+1*6.25+1*4+1*4+0*0.25+0*0.25+0*0.049=114.25v=’-’ so0*100+1*25+1*100/9+0*6.25+0*4+0*4+1*0.25+1*0.25+1*0.049=36.659 so we can see that 9-neareat is +Question 15If a boolean function can satisify this1f()i iif w xxelseθ⎧>⎪=⎨⎪⎩∑and it is linearlyseparable.So we can see that it satisfy so it is linearly separableSo we can see that it satisfy so it is linearly separableSo we can see that it satisfy so it is linearly separable.satisfy the linearly separable. So from the table we know that 0*x1+0*x2<θSo θ>0 and we can also know that 0*x1+1*x2>=θ and 1*x1+0*x2>=θ so x2>=θ and x1>=θso x1+x2>=2θ we can also know that 1*x1+1*x2<θ because θ>0 so it is contradiction. So it is not linearly separable.Question 18(a)From the table we can see that there are 30 positive instances and 600 negative so at the root node the error rate is E=1-max(30/630, 600/630)=30/63030/630 –(310/630)*(10/310)-(10/630)*0-(310/630)*(10/630)=10/63030/630 –(200/630)*0-(230/630)*(30/230)-(200/630)*0=0So we choose X as the first splitting attribute,, because X1 child node is pure so we do not split it, we now use Y to attribute X=0 and X=2,because Y=0 and Y=2 node contain 100 – instances and Y=1 node contain 100 –instances and 10+instances. So the all three cases for Y the child node is label -,so=1and(01)(21)=-otherwise X X Y and X Y class +=∧==∧=⎧⎨⎩F-mesure: (2*0.333*1.0)/(1.0+0.333)=0.5(c)from the cost function we can get the cost matrixFrom (a) we know that only (X=0∧Y=1) and (X=2∧Y=1)are impure nodes Cost of misclassfying as positive:10*0+100*1=100Cost of misclassfying as negative:10*20+100*0=200 so we should label these nodes as +So=1and(01)(21) =-otherwiseX X Y and X Y class+=∧==∧=⎧⎨⎩(d)confusion matrix:The precision is: 30/(30+200)=0.1304The recall is :30/(30+0)=1.0F-measure is : (2*0.1304*1.0)/(1.0+0.1304)=0.2307。
物流信息技术形考作业及答案
《物流信息技术》形成性作业参考答案第一次作业(第1~3章)一、名词解释:1、软件工程:P20答:软件工程是指采用工程的概念、原理、技术和方法来开发和维护软件。
其核心内容是以工程化的方式组织软件的开发,它借鉴了传统工程的原则和方法,以求高效地开发高质量的软件。
2、物流信息:P46答:是指反映物流各种活动内容的知识、资料、图像、数据、文件的总称。
3、条码:P72答:是由一组按一定编码规则排列的条、空符号组成的编码符号,用以表示一定的字符、数字及符号组成的信息。
4、射频识别:答:是一种非接触式的自动识别技术,是一项利用射频信号通过空间耦合(交变磁场或电磁场)实现无接触信息传递并通过所传递的信息达到识别目的的技术。
二、单项选择题:1、(A)是物流信息技术的基础和灵魂。
A、计算机B、条码C、网络D、GPS2、经过处理的、有含义的有用数据就是(C)。
A、数据库B、数据仓库C、信息D、数据集市3、(A)是存放在计算机存储设备中的以一种合理的方法组织起来的,与公司或组织的业务活动和组织结构相对应的各种相关数据的集合。
A、数据库B、数据仓库C、信息D、数据集市4、(A)协议是Internet网中进行通信的标准协议。
A、TCP/IPB、NetBEUIC、DLCD、AppleTalk5、软件生存期模型中的(D)是迭代和演进的过程。
A、瀑布B、原型模型C、螺旋模型D、增量模型6、构成EDI系统的要素是EDI软件、硬件、通信网络以及数据标准化。
其中,EDI(A)是整个EDI最关键的部分。
A、标准B、软件C、硬件D、网络7、全球卫星定位系统也称为(D)技术。
A、EDIB、CADC、GISD、GPS8、20世纪80年代,各国相继制定了各自行业或国家EDI标准,其中(C)中制定的ANSI X12国家标准最具代表性。
A、中国B、日本C、美国D、法国9、射频技术的基本原理是(C)理论。
A、机械B、信息C、电磁D、力学10、一般来说,自动识别系统由标签、标签生成设备、识读器及计算机等设备组成。
数据挖掘第二次作业
" s l ( s )" 的置信度。其中,s’是 s 的子集。
和相关度进行比较。
d. Apriori 算法的一种变形将事务数据库 D 中的事务划分成 n 个不重叠的分区。证明
在 D 中频繁的项集至少在 D 的一个分区中是频繁的。
2. 6.2.2 节介绍了由频繁项集产生关联规则的方法。提出一个更有效的方法。解释它为什 么比 6.2.2 节的方法更有效。 (提示:考虑将习题 6.3(b)和 6.3(c)的性质结合到你的设 计中。 )
a.
假定挖掘出了关联规则“hot dogs humburgers”。给定最小支持度阀值 25%,
最小置信度阀值 50%,该关联规则是强规则吗? b. 根据给定的数据,买 hot dogs 独立于买 humburgers 吗?如果不是,二者之间存
在何种相关联系? c. 在给定的数据上,将全置信度、最大置信度、Kulczynski 和余弦的使用与提升度
x transaction, buys( X , item1 ) buys( X , item2 ) buys( X , item3 )
[ s, c ]
4.下面的相依表汇总了超级市场的事务数据。其中,hot dogs 表示包含热狗的事务,hot dogs 表示不包含热狗的事务,hamburgers 表示包含汉堡包的事务,hamburgers 表示不包含 汉堡包的事务。
西安交大数据挖掘第二次作业
{Dairyland-Milk,Tasty-Pie}=>Wonder-Bread [66.7%,100%]
Sunset-Milk=>{Wonder-Bread,Dairyland-Cheese} [66.7%,100%]
100%
{Milk,Cheese}=>Bread
100%
{Cheese,Bread}=>Milk
100%
b.解答:
项集
支持度计数
{Wonder-Bread,Dairyland-Milk,Tasty-Pie}
2
{Wonder-Bread,Sunset-Milk,Dairyland-Cheese}
2
强关联规则
第二次作业
Weihua Wang
1、证明。
给定频繁项集L和L的子集S,证明规则S'--->(L-S')的置信度不可能大于S --->(L-S)的置信度。其中,S'是S的子集。
证明:因为S'是S的子集,根据先验性质可得,频繁项集L的子集S和S'都是频繁项集,并且 。
关联规则S'--->(L-S')的置信度为:
{Sunset-Milk,Dairyland-Cheese}=>Wonder-Bread [66.7%,100%]
Dairyland-Milk=>{Wonder-Bread,Tasty-Pie} [66.7%,100%]
Tasty-Pie=>{Dairyland-Milk,Wonder-Bread} [66.7%,100%]
最新奥鹏大工20春《数据挖掘》大作业题目及要求参考答案
网络教育学院《数据挖掘》课程大作业大工20春《数据挖掘》大作业题目及要求参考答案第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。
KNN算法原理相对比较简单,也比较容易理解由于KNN并没有显式的学习过程,因此,当数据量比较大时,相比其他模型,其计算资源和时间的消耗将比较大。
由于涉及到距离的计算,当样本的分布密度不均衡时,K值的确定会相对比较麻烦。
在编码过程中,我想到了几个问题或者是需要改进的地方:一是数据的降维问题,维数太多可能出现维度灾难,那么在维度达到多少的时候需要降维(这次我没有降维)。
二是投票法的问题,当两种标签的训练数据量差别较大时,单纯使用投票法很可能得到错误的标签,应该考虑加权。
第三点跟第二点有一定联系,就是两种标签的数据量差距很大的时候,怎样避免过拟合的情况发生。
第二大题:完成下面一项大作业题目。
2020春《数据挖掘》课程大作业题目一:Knn算法原理以及python实现一.KNN简介1.KNN算法也称为K邻近算法,是数据挖掘分类技术之一。
所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
2.KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
KNN算法在类别决策时,只与极少量的相邻样本有关。
由于KNN算法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
二.KNN算法介绍KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,从这个名字我们就能看出一些KNN算法的蛛丝马迹了。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.假设最小支持度为40%,最小置信度为70%。
对于下表,使用Apriori算法求解所有的频繁项集,在此基础上推导出所有的强关联规则,并给出相应的支持度和置信度。
答:最小支持数为: 5*40% =2因此所有的频繁项集为:{l1}, {l2}, {L3}, {L4}, {L6},{l1,l2}, {l1,l3}, {l1,l6}, {l2,l4}, {l2,l6}, {l3,l6},{{l1,l2,l6}},{l1,l3,l6}}{l1,l2}的非空子集为{l1}, {l2}I1=>I2 support = 3/5 =60% confidence =3/4 =75%I2=>I1 support = 3/5 =60% confidence =3/4 =75%{l1,l3}的非空子集为{l1}, {l3}I1=>I3 support = 2/5 =40% confidence =2/4 =50%I3=> I1 support = 2/5 =40% confidence =2/2=100%{l1,l6}的非空子集为{l1}, {l6}I1=>I6 support = 3/5 =60% confidence =3/4 =75%I6 => l1 support = 3/5 =60% confidence =3/4 =75%{l2,l4}的非空子集为{l2}, {l4}I2=>I4 support = 2/5 =40% confidence =2/4 =50%I4 => l2 support = 2/5 =40% confidence =2/2 =100%{l2,l6}的非空子集为{l2}, {l6}I2=> l6 support = 3/5 =60% confidence =3/4 =75%I6=> I2 support = 3/5 =60% confidence =3/4 =75%{l3,l6}的非空子集为{l3}, {l6}I3=> l6 support = 2/5 =40% confidence =2/2=100%I6=>I3 support = 2/5 =40% confidence =2/4=50%{l1,l2,l6}}的非空子集为{l1,l2} , {1l,l6}, {l2,l6}, {l1}, {l2}, {l6}I1=>I2^I6 support = 2/5 =40% confidence =2/4 =50%I2=>I1^I6 support = 2/5 =40% confidence = 2/4 =50%I6=>I1^I2 support = 2/5 =40% confidence =2/4 =50%I2^I6=> I1 support = 2/5 =40% confidence = 2/3 =66.67% I1^I6 => I2 support = 2/5 =40% confidence =2/3 =66.67% I1^I2=> l6 support = 2/5 =40% confidence =2/3 =66.67%{l1,l3,l6}的非空子集为{l1,l3}, {l1,l6}, {l3,l6}, {l1}, {l3}, {l6}I1=>I3^I6 support = 2/5 =40% confidence =2/4 = 50%I3=>I1^I6 support = 2/5 =40% confidence = 2/2 =100% I6=>I1^I3 support = 2/5 =40% confidence =2/4 = 50%I3^I6=> I1 support = 2/5 =40% confidence = 2/2 =100% I1^I6 => I2 support = 2/5 =40% confidence =2/3 =66.67% I1^I3=> l6 support = 2/5 =40% confidence =2/2=100%因为最小置信度为70%,所以强关联:I1=>I2 support = 3/5 =60% confidence =3/4 =75%I2=>I1 support = 3/5 =60% confidence =3/4 =75%I1=>I6 support = 3/5 =60% confidence =3/4 =75%I6 => l1 support = 3/5 =60% confidence =3/4 =75%I2=> l6 support = 3/5 =60% confidence =3/4 =75%I6=> I2 support = 3/5 =60% confidence =3/4 =75%I3=> I1 support = 2/5 =40% confidence =2/2=100%I3=> l6 support = 2/5 =40% confidence =2/2=100%I4 => l2 support = 2/5 =40% confidence =2/2 =100%I3=>I1^I6 support = 2/5 =40% confidence = 2/2 =100%I3^I6=> I1 support = 2/5 =40% confidence = 2/2 =100%I1^I3=> l6 support = 2/5 =40% confidence = 2/2 =100%2.针对下表的数据,a)构造决策树,并给出是否外出游玩的有关规则;b)利用贝叶斯分类方法,判断:在(阴晴=sunny,温度=Mild,湿度=Normal,刮风=False)的情况下,是否可以外出游玩。
答:a)b)设X =(阴晴=sunny,温度=Mild,湿度=Normal,刮风=False)P (外出游玩= “yes” ) = 9/14 = 0.643P (外出游玩= “No” ) = 5/14 = 0.357p (阴晴= ”S unny” | 外出游玩= ”yes”)=2/9 ;p(阴晴= ”sunn y” | 外出游玩=”N o”)= 3/5 ;p (湿度=”Mild”|外出游玩=”yes”)=4/9 ;p(湿度=”Mild” | 外出游玩=” N o”)=2/5 ;p (温度=”N orma”|外出游玩=”yes”)=6/9 ;p(温度=”Normal” | 外出游玩=” N o”)=1/5 ;p(刮风=”F alse”|外出游玩=”yes”)=6/9 ;p(刮风=“false”| 外出游玩=”N o”)=2/5 ;p (X|外出游玩=”y es”)=2/9 * 4/9 * 6/9 * 6/9 = 0.044p (X|外出游玩=”no”)= 3/5 * 2/5 * 1/5 * 2/5 = 0 019p (X|外出游玩=”yes”) p(外出游玩=”yes”)= 0.044 * 0.643 = 0.028p (X|外出游玩=” no”) p(外出游玩=” N o”)= 0.019 * 0.357 = 0.007 因此,对于样本X,贝叶斯分类预测,外出游外=”yes”。
所以在(阴晴=sunny,温度=Mild,湿度=Normal,刮风=False)的情况下,可以外出游玩3.简述什么是面向属性的归纳,它的主要步骤有哪些?答:面向属性的归纳是一种面向关系数据查询的、基于汇总的在线数据分析技术。
受数据类型和度量类型的约束比较少它的基本思想是:使用关系数据库查询收集任务相关的数据●通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化●通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作●通过与用户交互,将广义关系以图表或规则等形式,提交给用户4.为什么要进行属性相关性分析?答:数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预●用户必须告诉系统哪些维或属性应当包含在类分析中 (难)。
属性太少,则造成挖掘的描述结果不正确。
属性太多,浪费计算、淹没知识●告诉系统每个维应当概化到多高的层次(易)。
直接通过概化的临界值,说明给定维应当达到的概化程度。
对概化层次不满意,则可以指定需要上卷或下钻的维5.什么是类比较,它的主要步骤有哪些。
答:类比较挖掘的目标是得到将目标类与对比类相区分的描述。
步骤:1)数据收集:通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类2)维相关分析:使用属性相关分析方法,使我们的任务中仅包含强相关的维3) 同步概化:同步的在目标类和对比类上进行概化,得到主目标类关系/方体和主对比类关系/方体4) 导出比较的表示: 用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间的比较(e.g count%).6.什么是关联规则挖掘,关联规则都有哪些类型?答:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。
类型有:1)根据规则中所处理的值类型2)根据规则中涉及的数据维3)根据规则集所涉及的抽象层4)根据关联挖掘的各种扩充7.简要说明什么是Apriori性质。
答:频繁项集的所有非空子集也必须是频繁的。
●A∪B模式不可能比A更频繁的出现●Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试。
●Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率8.简要说明多层关联规则挖掘的方法。
通常,多层关联规则的挖掘还是使用置信度-支持度框架,可以采用自顶向下策略a)请注意:概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度b)由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项计算累加计数c)每一层的关联规则挖掘可以使用Apriori等多种方法9.举例说明为什么强关联规则不一定是有趣的。
答:例如在5000个学生中3000个打篮球3750个喝麦片粥2000个学生既打篮球又喝麦片粥然而,打篮球=> 喝麦片粥[40%, 66.7%]是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高打篮球=> 不喝麦片粥[20%, 33.3%]这个规则远比上面那个要精确,尽管支持度和置信度都要低的多10.分类和预测有什么区别?它们的主要步骤是什么。
答:区别:●分类法主要是用来预测类标号(分类属性值)●预测法主要是用来估计连续值(量化属性值)步骤:⏹第一步,建立一个模型,描述预定数据类集和概念集⏹第二步,使用模型,对将来的或未知的对象进行分类11.除了决策树(判定树)以外还有哪些分类方法,比较这些分类方法的标准是什么?答:贝叶斯分类,后向传播分类。