基于粒计算的数据挖掘算法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
代
分
号
学号 密
1020121208
题(中、英文)
作者姓指导教师姓名、学科门
创新性声明
秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。
申请学位论文与资料若有不实之处,本人承担一切的法律责任。
本人签名:日期
关于论文使用授权的说明
本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。
(保密的论文在解密后遵循此规定)
本人签名:导师签名:
日期:日期:
摘要
数据挖掘是当今计算机科学中快速发展的一个研究方向,它涉及到多个领域的知识。数据挖掘能从大量的数据中发现一些人们事先未知的、潜在的、有趣的知识,因此广泛被应用于商业分析、机器学习、网络个性化服务等领域。数据挖掘有很多研究方向,关联规则和序列模式是其中重要的两类,其中关联规则的研究重点在于频繁项集的发现,而序列模式则强调数据的序列特性。
本文基于粒计算的相关原理和模型,对关联规则和序列模式的挖掘算法进行了研究。本文的主要工作概括如下:
1. 概述了数据挖掘和粒计算的基本原理,说明了数据挖掘的主要研究方向和粒计算的几个重要的计算模型,对关联规则、序列模式和粗糙集的基础理论知识进行了介绍,对常见的关联规则挖掘算法和序列模式挖掘算法进行了简单的汇总和分析。
2. 详细分析了关联规则挖掘算法Apriori算法的原理。针对Apriori算法存在的产生较多候选频繁项的问题,给出基于粒化原理的改进算法Apriori-GRC算法,并通过仿真实验表明其有效性。
3. 给出一种基于重要度的粗糙集信息系统属性约简算法Sig-Reducts算法。讨论了序列的粗糙集模型,在Sig-Reducts算法的基础上,给出了一种基于决策表的序列规则挖掘算法Sequence-Mining算法,分析了算法的时间复杂度并通过仿真实验进行了验证。
关键词:数据挖掘粒计算关联规则序列模式
Abstract
Data mining is a research direction that develop quickly, it involves different knowledge of many aspects. Data mining is able to discover some unknown, potential, and interesting information from large amounts of data, so it is widely used in in the correlation analysis, classification, network personalized services and so on. Data mining has many research directions, and frequent pattern mining and sequence pattern mining are two important types. Frequent pattern mining focuses on items that frequently appear, while sequential pattern mining emphasizes the temporal characteristics of items.
This paper focuses on frequent pattern mining and sequential pattern mining based on the the principles and models of the granular computing. Some results are obtained and summarized as follow:
1.The Theoretical basis of frequent pattern, sequential pattern and granular computing is briefly illuminated. The common algorithm of data mining and the principles of granular computing are introduced.
2. A classical algorithm of frequent pattern mining –Apriori Algorithm is discussed in detail. Aiming at some existed questions in Apriori Algorithm such as, produceding candadata itemset need to match pattern, this chapter proposes one kind of frequent pattern mining algorithm based on granular computing, and its effectiveness is proved by the simulation.
3. A information system attributes reducts algorithm based on the importance of attributes is proposed which is named Sig-Reducts. Introduce the granulated model of the sequence set. Based on the Sig-Reducts algorithm, this chapter proposes the Sequence-Mining algorithm which produces the sequential rule, and proves its effectiveness.
Keyword:Granular Computing Data Mining Frequent Pattern Mining Sequential Pattern Mining