基于云计算的数据挖掘的信息检索

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

工作期间高效、可靠的运行，以及如何从历史故障数据中形成对故障处理有效的信息，都具有重要的研究
意义。传统的故障诊断方法存在诊断模型难以建立、依赖于主观经验、难以获得规则等缺陷，针对故障的多
[2]
文摘格式： Title-题名: 基于云计算技术的数据挖掘 Author-作者: 应毅;任凯;刘正涛; Organ-单位: 三江学院计算机科学与工程学院;南京大学金陵学院;中兴通讯股份有限公司南京研发中心;南京航空航天大学信息科学与技术学院; Source-文献来源: 微电子学与计算机 Summary-摘要: 基于单一节点的数据挖掘系统在处理海量数据集时存在计算瓶颈,针对该问题,提出了一种基于云计算技术的数据挖掘方法:将大数据集和挖掘任务分解到多台计算机上并行处理.在对经典 Apriori 算法 MapReduce 化后,建立了一个基于 Hadoop 开源框架的并行数据挖掘平台,并通过对餐饮系统中点菜单的数据挖掘工作验证了该系统的有效性.实验表明,在集群中使用云计算技术处理大数据集,可以明显提高数据挖掘的效率. 引文格式： [1]应毅,任凯,刘正涛.基于云计算技术的数据挖掘[J].微电子学与计算机,2013,02:161-164. 摘要：基于单一节点的数据挖掘系统在处理海量数据集时存在计算瓶颈,针对该问题,提出了一种基于云计算技术的数据挖掘方法:将大数据集和挖掘任务分解到多台计算机上并行处理.在对经典 Apriori 算法 MapReduce 化后,建立了一个基于 Hadoop 开源框架的并行数据挖掘平台,并通过对餐饮系统中点菜单的数据挖掘工作验证了该系统的有效性.实验表明,在集群中使用云计算技术处理大数据集,可以明显提高数据挖掘的效率.
数据挖掘（Data mining），又译为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。
• 结果有 48 条。其中： • 中国学术期刊网络出版总库(38) • 中国优秀硕士学位论文全文数据库(8) • 中国重要会议论文全文数据库(2)
分析：第一次的检索的结果太多了，调整检索点，把发表时间改成 2012 年 6 月 1 号之后，搜索结果数
适中。所以选取第（2）个检索式。
2．万方数据资源系统
2 0 1 2 —2 0 1 3 学年度第二学期
信息检索与利用专题检索报告
课题：
基于云计算的数据挖掘
学院应用数学学院
专业
统计学
班级
2 0 1 1 级2 班
学号
3111008344
姓名
袁嘉蔚
手机
13660096334
指导教师陈晓瑜
2013 年 6 月 23 日
一、课题分析
云计算（cloud computing）是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网，后来也用来表示互联网和底层基础设施的抽象。狭义云计算指 IT 基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是 IT 和软件、互联网相关，也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。
6．Elsevier SDOL 电子期刊进入广东工业大学图书馆——外文数据库——Elsevier SDOL 电子期刊——Advanced search
（1）检索式：pub-date > 2010 and TITLE-ABSTR-KEY(cloud computing) and TITLE-ABSTR-KEY(data mining)
索结果，所以选取第（2）个检索式。
5．ISI web of knowledge 进入广东工业大学图书馆——外文数据库——ISI web of knowledge——所有数据库
（1）检索式：主题=(cloud computing) AND 主题=(data mining) 时间跨度=2011-2013。
该文全文首页如下图所示：
2．万方数据资源系统学位论文：
[3]
{Reference Type}: Thesis {Title}: 基于 Hadoop 的 Apriori 算法改进与移植的研究 {Author}: 朱安柱 {Publisher}: 华中科技大学 {Section}: 情报学 {Type of Work}: 硕士 {Year}: 2012 {Date}: 2012-05-01 {Keywords}: Hadoop {Keywords}: Apriori 算法 {Keywords}: MapReduce {Keywords}: 关联规则 {Keywords}: 云计算 {Abstract}: 随着计算机技术和互联网的飞速发展,Web2.0 的成熟与广泛应用,数据呈现爆炸式增长,传统的数据挖掘算法在处理海量数据时效率低下,云计算的出现为其改进带来了新的方式。云计算通过集群威力,实现了对海量数据的可靠存储和高速计算。Hadoop 作为一款比较成熟的开源云计算框架,以其高效、可扩展、低成本等优点在数据挖掘的相关领域得到了广泛应用。基于此,本文... {URL}: http://libwf.gdut.edu.cn/D/Thesis_D232733.aspx {Database Provider}: 北京万方数据股份有限公司 {Language}: chi
4．超星数字图书馆电子图书（读秀学术搜索）进入广东工业大学图书馆——中文数据库——超星数字图书馆电子图书——读秀学术搜索——图书—
—高级搜索。（1）检索式：(书名包含云计算数据挖掘) and (分类=全部分类) 结果有 0 条。（2）将图书改为期刊
检索式：(关键字=云计算)并(关键字=数据挖掘) 限定年度范围：2012 至 2013 结果有 57 条。分析：第一次的检索的结果为 0 条，说明在图书方面没有这方面的书，调整检索式，在期刊方面有检
进入广东工业大学图书馆——中文数据库——万方数据资源系——跨库检索。
（1）检索式：云计算 * 数据挖掘 * Date:-2013
匹配方式：模糊
结果有 1,292 条。其中：
期刊论文 (696)
学位论文(502) 会议论文(94)
（2）检索式：题名或关键词:(云计算) * 题名或关键词:(数据挖掘) * Date:2012-2013
结果有 73 条。（2）检索式：主题=(cloud computing) AND 主题=(data mining)
精炼依据: 研究领域=( SCIENCE TECHNOLOGY ) AND 研究方向=( COMPUTER SCIENCE ) 时间跨度=2011-2013。结果有 53 条。分析：第一次的检索的结果为 73 条，虽然结果适中，但为了提高查准率，用研究领域和研究方向来限制精炼依据，所以选取第（2）个检索式。
结果有 10 条。
II、选择并记录检索结果
1．中国知网期刊论文：
[1]
文摘格式： Title-题名: 基于云计算的煤矿安全监测预警系统研究 Author-作者: 李昊旻;卢建军;卫晨; Organ-单位: 西安邮电大学通信与信息工程学院; Source-文献来源: 工矿自动化 Summary-摘要: 针对传统煤矿安全监测系统存在无法提前预测井下事故等问题,提出一种基于云计算的煤矿安全监测预警系统,介绍了云计算、SaaS、数据挖掘等相关技术,并详细阐述了系统总体架构及云数据中心的设计。该系统可以有效地预报井下瓦斯事故、机电事故、火灾事故、水害事故等,降低发生安全事故的风险。引文格式： [1]王小妮,高学东,倪晓明.基于云计算的分布式数据挖掘平台架构[J].北京信息科技大学学报(自然科学版),2011,05:19-24. 摘要：针对互联网上数量众多的网站带宽资源长期浪费或突发资源短缺、响应时间长、服务器宕机、网站受到黑客攻击等问题,提出了基于"云"的分布式 web 安全系统及基于云计算的分布式数据挖掘平台架构,并在此基础上提出了一种新型的分布式数据挖掘模式,利用云计算技术,可以方便地通过网络获取强大的计算能力和存储能力,将消耗大量资源的复杂计算通过网络路由优化和资源约束自适应策略分布到多节点上进行,然后通过组合不同数据站点上的局部数据模型,最终得到全局数据模型。
子图书（读秀学术搜索） 2. 外文数据库：ISI web of knowledge，Elsevier SDOL 电子期刊
二、检索步骤及结果
I、检索过程
1．中国知网（CNKI）进入广东工业大学图书馆——中文数据库——中国知网——高级检索。（1）检索式：关键词=云计算并且关键词=数据挖掘并且专题子栏目代码=A+B+C+E+I+J (模糊匹配) 时间：从 1979 到 2013；排序：主题排序；
本课题涉及的范围有计算机软件技术等。关键词：云计算数据挖掘数据挖掘平台 Keywords: cloud computing data mining data mining platform
选择的数据库： 1. 中文数据库：中国知网（CNKI），万方数据资源系统，维普中文期刊数据库，超星数字图书馆电
本文研究的是基于云计算的数据挖掘。随着Internet技术的迅猛发展，人类社会产生的数据呈指数形式飞速增长，如何在海量的数据集合中发现有用信息的难度随之加大。由于云计算平台能够进行动态资源调度和分配、具有高度虚拟化和高可用性等特点，正好满足高效数据挖掘的需求，因此，将云计算引进海量的数据挖掘具有重要的现实意义。
• 结果有 134 条。其中： • 中国学术期刊网络出版总库(81) • 中国博士学位论文全文数据库(2) • 中国优秀硕士学位论文全文数据库(44) • 中国重要会议论文全文数据库(5)
• 国际会议论文全文数据库(1) • 国家科技成果数百度文库库(1)
（2）检索式：发表时间 between (2012-06-01,) 并且 ( 关键词=云计算并且关键词=数据挖掘 ) 并且专题子栏目代码=A+B+C+E+I+J (模糊匹配)；排序：主题排序；
（1）检索式：(题名或关键词=云计算)*(题名或关键词=数据挖掘)*全部期刊*年=1989-2013
匹配方式：模糊结果有 70 条。
（2）检索式：(题名或关键词=云计算)*(题名或关键词=数据挖掘)*全部期刊*年=2012-2013
匹配方式：模糊结果有 48 条。分析：第一次的检索的结果为 70 条，虽然结果数适中，但为了提高查准率，即更能放映近期的研究成果，把时间限制为 2012 年后。因此，选用第二个检索式。
匹配方式：模糊
结果有 58 条。其中：
期刊论文 (54)
学位论文 (4)
会议论文 (0)
分析：第一次的检索的结果太多，调整检索词点，用题名或关键词检索，并把时间改为 2012 年，结
果数适合。所以选取第（2）个检索式。
3．维普中文期刊数据库进入广东工业大学图书馆——中文数据库——维普中文期刊数据库——高级检索。
[4]
{Reference Type}: Thesis {Title}: 面向故障诊断的并行关联规则算法研究与实现 {Author}: 李栋 {Publisher}: 西安电子科技大学 {Section}: 计算机应用技术 {Type of Work}: 硕士 {Year}: 2012 {Date}: 2012-01-01 {Keywords}: 故障诊断 {Keywords}: 数据挖掘 {Keywords}: 关联规则 {Keywords}: 云计算 {Keywords}: MapReduce {Abstract}: 随着信息技术的飞速发展，设备日趋集成化与复杂化。对于如何能及时发现和预测故障，保证设备在