基于粒计算的数据挖掘算法研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

代
分
号
学号密
1020121208
题（中、英文）
作者姓指导教师姓名、学科门
创新性声明
秉承学校严谨的学风和优良的科学道德，本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。

尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。

与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。

申请学位论文与资料若有不实之处，本人承担一切的法律责任。

本人签名：日期
关于论文使用授权的说明
本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。

学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。

同时本人保证，毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。

(保密的论文在解密后遵循此规定)
本人签名：导师签名：
日期：日期：
摘要
数据挖掘是当今计算机科学中快速发展的一个研究方向，它涉及到多个领域的知识。

数据挖掘能从大量的数据中发现一些人们事先未知的、潜在的、有趣的知识，因此广泛被应用于商业分析、机器学习、网络个性化服务等领域。

数据挖掘有很多研究方向，关联规则和序列模式是其中重要的两类，其中关联规则的研究重点在于频繁项集的发现，而序列模式则强调数据的序列特性。

本文基于粒计算的相关原理和模型，对关联规则和序列模式的挖掘算法进行了研究。

本文的主要工作概括如下：
1. 概述了数据挖掘和粒计算的基本原理，说明了数据挖掘的主要研究方向和粒计算的几个重要的计算模型，对关联规则、序列模式和粗糙集的基础理论知识进行了介绍，对常见的关联规则挖掘算法和序列模式挖掘算法进行了简单的汇总和分析。

2. 详细分析了关联规则挖掘算法Apriori算法的原理。

针对Apriori算法存在的产生较多候选频繁项的问题，给出基于粒化原理的改进算法Apriori-GRC算法，并通过仿真实验表明其有效性。

3. 给出一种基于重要度的粗糙集信息系统属性约简算法Sig-Reducts算法。

讨论了序列的粗糙集模型，在Sig-Reducts算法的基础上，给出了一种基于决策表的序列规则挖掘算法Sequence-Mining算法，分析了算法的时间复杂度并通过仿真实验进行了验证。

关键词：数据挖掘粒计算关联规则序列模式
Abstract
Data mining is a research direction that develop quickly, it involves different knowledge of many aspects. Data mining is able to discover some unknown, potential, and interesting information from large amounts of data, so it is widely used in in the correlation analysis, classification, network personalized services and so on. Data mining has many research directions, and frequent pattern mining and sequence pattern mining are two important types. Frequent pattern mining focuses on items that frequently appear, while sequential pattern mining emphasizes the temporal characteristics of items.
This paper focuses on frequent pattern mining and sequential pattern mining based on the the principles and models of the granular computing. Some results are obtained and summarized as follow:
1.The Theoretical basis of frequent pattern, sequential pattern and granular computing is briefly illuminated. The common algorithm of data mining and the principles of granular computing are introduced.
2. A classical algorithm of frequent pattern mining –Apriori Algorithm is discussed in detail. Aiming at some existed questions in Apriori Algorithm such as, produceding candadata itemset need to match pattern, this chapter proposes one kind of frequent pattern mining algorithm based on granular computing, and its effectiveness is proved by the simulation.
3. A information system attributes reducts algorithm based on the importance of attributes is proposed which is named Sig-Reducts. Introduce the granulated model of the sequence set. Based on the Sig-Reducts algorithm, this chapter proposes the Sequence-Mining algorithm which produces the sequential rule, and proves its effectiveness.
Keyword：Granular Computing Data Mining Frequent Pattern Mining Sequential Pattern Mining
目录
第一章绪论 (1)
1.1研究背景 (1)
1.2研究现状 (2)
1.2.1 数据挖掘研究现状 (2)
1.2.2 粒计算研究现状 (3)
1.3 本文主要研究工作和内容安排 (4)
第二章相关研究分析 (7)
2.1 数据挖掘 (7)
2.1.1 数据挖掘的概念以及对象 (7)
2.1.2 数据挖掘的步骤 (7)
2.1.3 数据挖掘的功能 (8)
2.2 关联规则挖掘和序列模式挖掘 (9)
2.2.1 关联规则和序列模式的概念 (9)
2.2.2 相关定义 (10)
2.2.3 主要挖掘算法 (11)
2.3粒计算理论 (12)
2.3.1 粒计算的思想 (12)
2.3.2 几个重要的概念 (12)
2.3.3 粒计算研究的基本问题 (13)
2.3.4 现有的粒计算模型 (14)
2.3.5 各模型之间的关系 (15)
2.4 粗糙集理论基础知识 (16)
2.4.1 下近似集和上近似集 (16)
2.4.2 信息系统和决策表 (18)
2.4.3 约简与核 (19)
2.5本章小结 (19)
第三章基于粒化原理的关联规则挖掘算法 (21)
3.1 挖掘关联规则的Apriori算法 (21)
3.1.1 Apriori性质和Apriori算法的步骤 (21)
3.1.2 Apriori算法描述 (22)
3.1.3 存在的问题 (24)
3.2一种基于粒化原理的关联规则挖掘算法—Apriori-GRC算法 (25)
3.2.1 Apriori算法中的粒化原理分析 (25)
3.2.2 Apriori-GRC算法描述 (25)
3.2.3 算法示例 (27)
3.3 仿真结果及分析 (28)
3.4 本章小结 (30)
第四章基于决策表的序列模式挖掘算法 (31)
4.1 一种基于重要度的信息系统属性约简算法—Sig-Reducts算法 (31)
4.1.1 属性的信息量和重要度 (31)
4.1.2 Sig-Reducts算法描述 (32)
4.2 序列的粗糙集模型 (35)
4.2.1 序列和子序列 (35)
4.2.2 序列信息系统和序列决策表 (36)
4.3一种基于决策表的序列模式挖掘算法—Sequence-Mining算法 (37)
4.3.1 算法思想 (37)
4.3.2 算法描述 (38)
4.4算法效率分析和仿真实验 (41)
4.4.1 Sig-Reducts算法的时间复杂度分析 (41)
4.4.2 Sequence-Mining算法的时间复杂度分析 (41)
4.4.3 Sig-Reducts算法的仿真实验 (42)
4.5本章小结 (43)
结束语 (45)
致谢 (47)
参考文献 (49)
攻读硕士期间完成的论文和参与的科研工作 (53)
第一章绪论 1
第一章绪论
本章阐述了数据挖掘技术的应用需求背景，简单介绍了粒计算的原理，并指出基于粒计算的数据挖掘技术具有重要的理论和实际意义。

根据目前数据挖掘技术和粒计算的主要研究方向，本章给出其简单的总结。

最后本章总结了作者在攻读硕士学位期间的研究工作，并给出了全文的内容安排。

1.1 研究背景
随着计算机技术、互联网和通信技术的飞速发展，我们已经进入了海量数据时代，如何有效地解决数据爆炸已经成了信息化进程中非常重要的课题。

从信息处理的角度来讲，我们希望计算机可以帮助我们对现有的各种数据进行深入的整理、归类和分析，并最终为我们的决策提供有效的数据支撑，从而使我们在做决策时更加客观和科学。

因此这就需要有能够对海量数据进行有效处理的工具。

传统的数据分析方法，例如各种统计分析技术等，只能够获取这些数据的表层现象，很难进行更深入的分析，不便于发觉数据在逻辑层面的规律和规则，而往往这些规律和规则对我们做出决策时具有非常重要的作用。

因此，针对拥有海量数据却难以发现其中蕴含的有效信息这一矛盾，我们急需一中能够从海量数据中发现潜在知识的工具，数据挖掘技术正是在这样的背景下出现的。

与先提出假设再进行试验验证的数据处理方法不同的是，数据挖掘能够在没有先验知识的条件下，完全依靠现有数据发现潜在的规律。

数据挖掘技术不仅仅要针对特定数据库进行简单的检索处理，更需要对大量数据进行微观和宏观的统计、分析和推理，以便发现数据间的内在规律，为使用者提供决策支持，甚至预测研究问题在未来的发展趋势等。

因此数据挖掘技术出现后，得到了各国企业、学者和软件生产商的极大关注，其在众多领域取得了长足的发展。

在数据挖掘的众多研究方向中，关联模式挖掘和序列模式挖掘是比较重要的两个方向。

关联模式也称为关联规则，它大量应用在对事物数据的分析中。

关联规则应用案例非常多，例如针对企业的产品数据、销售记录等，制定销售策略，安排产品生产销售计划，以便实现生产高效化和利润最大化。

序列模式与关联模式的不同点主要为序列模式更加注重时间上的顺序关系。

序列模式不仅需要考虑事件是否已经发生了，还需要考虑其发生的先后次序，因为在许多领域事件的不同组合次序对问题的最终结果影响非常大。

粒计算（Granular Computing，缩写为GrC）[1]的概念产生于上世纪七十年代，目前主要有三个研究方向，即由波兰学者Pawlak提出的粗糙集（Rough Sets）[2]，
2
基于粒计算的数据挖掘算法研究
由美国学者Zadeh 提出的模糊集（Fuzzy Sets）[3]，以及由我国学者张钹、张铃提出的商空间[4]。

粒计算思想借鉴了人类思考问题的过程，即从不同角度、不同层次将一个大问题归结为若干小问题，这些小问题具有某种逻辑关系，从而通过研究这些小问题得到大问题的解决思路。

近年来，粒计算和数据挖掘的结合越来越紧密，从而为数据挖掘开拓了新的研究方向，并在一系列领域中取得了成果。

因此，基于粒计算的数据挖掘方法的研究有着很重要的理论和现实意义。

1.2 研究现状
1.2.1 数据挖掘研究现状
数据挖掘是一门结合数据库技术[5]、统计理论[6,7]和人工智能[8~10]等众多研究方向的研究课题。

它旨在从大量的、随机的、有噪声的、模糊的、不完备的实际应用数据中，找到这些数据背后隐藏的有效知识和信息，提取出有意义的模式，这些知识和模式往往可以帮助我们优化决策。

数据挖掘技术在包括故障诊断、商业分析和机器学习等领域中得到广泛应用，可以预测其在未来十年中会有重大的进展。

到目前为止，世界各国学者从不同角度、不同层面提出了数据挖掘的不同研究方向，下面对这些研究方向进行简单的介绍。

（1）神经网络方法[11,12]：该方法模仿人脑神经元的组织结构，以MP模型和Hebb学习规则为基础，建立起前馈式网络、后馈式网络和自组织网络三种神经网络模式。

其中，前馈式网络以函数型网络和反向传播模型为代表，主要应用在模式识别和预测等方面；后馈式网络一连续模型和Hopfield离散模型为代表，主要应用在优化计算和联想记忆等方面；自组织网络以Koholon模型和APT模型为代表，主要用于聚类。

（2）粗糙集方法[13,14]：该理论基于实际应用数据中的等价类概念，用上下近似集合来表述数据的粗糙概念，其主要思想为在保持分类能力不变的前提下，通过属性约简导出数据的分类规则和问题的决策规则。

粗糙集可以发现噪声数据和不准确数据的内在结构联系，识别和删除不影响数据分类的属性，评估实际数据中各属性的贡献程度，因此在分类、特征规约和相关分析中都有应用。

（3）模糊集方法[15,16]：模糊集理论认为模糊性在现实世界中是客观存在的，系统的复杂程度越高，其模糊性就越强。

该方法可以应用于模糊聚类分析、模糊模式识别、模糊决策和模糊评判等方向。

（4）决策树方法[17~19]：该方法利用信息论的互信息[20]（即信息增益）来寻找数据集中包含最多信息的字段，建立起决策树中的每个节点，进而根据字段不同的值来建立决策树。

目前较重要的决策树方法为Quinlan提出的ID3方法[21]。

第一章绪论 3
（4）遗传算法[22]：遗传算法借鉴了自然界生物种群进化的进化过程，提出了选择、交叉和变异三个基本算子。

其中，选择是指从父辈中选择生命力较强的个体从而产生子代种群的过程；交叉是指选择不同的两个个体的部分基因进行互换，从而形成两个新个体的过程；变异是指某些个体的部分基因进行突变的过程。

目前遗传算法已经在分类机器学习和优化计算等方面发挥了重要作用。

除去上述所述各个数据挖掘研究方向外，还有值预测、统计分析和云理论等。

数据挖掘是计算机科学中飞速发展的一个分支，它可以结合众多领域中的知识，提出更多高效实用的算法，应用在越来越多的研究和工作中。

1.2.2 粒计算研究现状
粒计算是所有与粒度相关的理论、模型、方法和技术的总称，目前在海量数据挖掘、复杂问题求解以及不确定性数据处理等方面有着广泛的应用。

粒计算的主要思想是，通过选择合适的粒度，将原问题化解为不同角度、不同层次的小问题，从而降低解决问题的成本，提供近似最优的解决方案。

随着粒计算研究的不断深入，粒计算的研究方向也越来越多，如如模糊集模型、粗糙集模型、商空间理论模型、基于覆盖的粒计算模型、模糊粗糙集模型和粗糙模糊集模型等，下面进行简单的介绍。

（1）模糊集模型：模糊集理论是由美国学者Zadeh于上世纪六十年代提出的[3]。

它是一种旨在处理模糊性和不确定性的数学理论。

模糊集模型主要基于模糊集理论中的“模糊”粒计算方法，它认为在粒的表示问题上，可以将知识的粒用一个模糊子集来表示。

不同层次的知识可以用不同模糊程度的自己来定义，进而利用模糊逻辑进行计算和推导，最终得到近似的最优解决方案。

目前，模糊集理论已经在模式识别、模糊聚类、模糊控制和模糊决策等领域得到了广泛的应用。

（2）粗糙集模型：粗糙集理论是由波兰学者Pawlak于上世纪八十年代初提出的[2]。

它主要研究的问题为不精确知识和不确定知识的处理。

粗糙集模型是一种基于粗糙集理论的“精确”粒计算方法，它研究了在给定的知识空间中粒度的表示、转换以及相互间的依赖关系。

粗糙集认为粒的概念可以用子集来表示，不同大小的粒可以用不同大小的子集来表示，而这些子集可以通过等价关系来得到。

其核心思想为利用属性值的差异，利用等价关系划分离散的空间对象，进而利用上下近似集合来描述不确定性问题。

目前，粗糙集理论已经在人工智能、决策分类、故障诊断以及知识获取等领域得到了广泛的应用。

（3）商空间模型：商空间理论是由我国学者张钹和张铃在上世纪九十年代初提出的[4]。

该理论借鉴人类的思考过程，认为人类在现实世界中能够从不同的粒度来观察和分析同一事物，并且在这一过程中可以很快速地从一个粒度转换到另一
4
基于粒计算的数据挖掘算法研究
个粒度。

这为复杂问题的解决提供了思路。

商空间模型是一种基于商空间理论的“精确”粒计算方法，它研究了所有可能的商空间的表示问题，以及不同商空间
的关系、合成、分解和推理过程。

其核心思想为在面对复杂问题时，人们通常首
先从较宏观的层次来分析问题，这也就是较粗的粒度，进而根据实际需求利用等
价关系逐步细化，从不同的商空间观察同一问题，最终取得复杂问题的近似最优解。

目前，商空间理论已经在数据挖掘、故障诊断、图像分割和产品预测等领域
获得广泛的应用。

（4）其他模型：模糊集模型、粗糙集模型和商空间模型是粒计算中的三个主要研究领域。

在这三个模型的基础上，许多学者提出了新的模型，如基于覆盖的
粒计算模型、模糊粗糙集模型、粗糙模糊集模型和基于概念格的粒计算模型。

基
于覆盖的粒计算模型[23~27]是一种较为特殊广义粗糙集理论模型，该理论利用领域
系统作为研究工具，通过等价关系来产生领域，再通过Zooming-in 和Zooming-out 两个算子来实现不同层次间的粒的转化。

模糊粗糙集模型[28~30]利用对象集的等价
关系，在模糊关系的理论基础上引入了上下近似集合。

粗糙模糊集模型[28,30]是用
模糊相似关系代替等价关系所得到的一个扩展模型。

基于概念格的粒计算模型[31]
则是根据对象与属性之间的函数关系，通过分析知识在内涵（属性集）和外延（对象集）间的依赖或者因果关系，建立起来的一种概念层次机构，它表明了概念的
泛化和粒化关系。

此外，还有许多新的粒计算模型被提出，例如基于神经网络的
粒计算模型[32,33]、自主式粒计算模型等[34,35]。

通过上述对粒计算的研究方向的简单总结，我们可以发现人们已经发展了很
多成功的粒计算建模理论和方法，它们从不同的知识表现角度进行了研究。

1.3 本文主要研究工作和内容安排
作者结合实验室相关研究课题，采用理论分析和实验仿真相结合的方法，对基于粒计算的关联模式挖掘和序列模式挖掘进行了研究，得到了一些成果。

本文的主要内容安排如下：
第二章对数据挖掘和粒计算的原理和概念进行了简要的介绍，对关联规则和
序列模式进行了简单的比较并归纳各自的主要算法，对粗糙集的基础知识进行了
说明。

第三章分析了Apriori算法的原理，针对该算法产生的中间集较多的问题，提出了一种基于粒化原理的频繁模式挖掘算法Apriori-GRC算法。

通过仿真实验证明，该算法减少了中间集的数量并减少了Apriori算法中的删除操作次数，优化了Apriori算法的性能。

第一章绪论 5
第四章首先给出基于重要度的属性约简算法Sig-Reducts算法，该算法从信息量的角度对属性约简进行了探索。

在Sig-Reducts算法的基础上，给出利用粒化思想对序列集合进行处理的Sequence-Mining算法，该算法将序列集合转化为序列决策表，进而得到序列规则。

6
基于粒计算的数据挖掘算法研究
第二章相关研究分析7
第二章相关研究分析
本章对数据挖掘和粒计算的原理和概念进行了简单的介绍，分别总结了其主要的研究方向。

在此基础上，进一步介绍关联规则和序列模式的概念以及区别，给出了一些重要概念的定义，并汇总了各自的主要挖掘算法。

最后梳理粗糙集中上下近似集和信息系统等基础理论知识。

2.1 数据挖掘
2.1.1 数据挖掘的概念以及对象
简单而言，数据挖掘就是从数量巨大的、不完整的、存在噪声的实际应用数据中，发现其中潜在的、有价值的、有趣的知识和信息的过程。

这些被提取出来的知识和信息，一般体现为概念、规则、规则或者是模式。

从理论上讲，数据挖掘可以在任何类型的数据存储工具上进行，例如可以是结构化的数据源，或者是半结构化的数据源，还可以是高级数据库系统以及面向特殊应用的数据库。

其中，结构化的数据源包括关系数据库、事务数据库或是数据仓库等，半结构化的数据源可以是文本数据库，高级数据库系统包括面向对象的和对象关系型数据库，面向特殊应用的数据库包括时间序列数据库、多媒体数据库以及空间数据库等等。

在这些数据源中，关系数据库具有统一的组织结构、规范化的查询语言，且应用广泛，因此目前为数据挖掘的主要数据来源。

2.1.2 数据挖掘的步骤
数据挖掘的过程在逻辑上可以大致分为三个步骤，即分别为数据准备、数据挖掘和知识表述，下面对这三个步骤进行简要介绍。

第一步，数据准备（Data Preparation）。

这一步的工作主要为提取来自于实际应用的数据，在加以集成后解决数据的语义二义性性问题并消除脏数据。

在此基础上，进一步缩小待分析数据的范围，提高数据的质量。

第二步，数据挖掘（Data Mining）。

这一步我们首先需要确定如何产生假设的知识，既可以让数据挖掘系统为用户提取出假设的知识，也可以由用户提出假设的知识后数据挖掘系统进行证实。

前一种情况称为发现型的数据挖掘，而后一种则称为验证型的数据挖掘。

接着需要需要合适的数据挖掘工具，例如决策树、神经网络或粗糙集等多种，从而得到期待的知识，并且予以证实。

8
基于粒计算的数据挖掘算法研究
第三部，知识表述（Rule Presentation）。

这一步将获得的知识和信息以方便观察、理解和使用的形式呈现给用户，通常可利用可视化的工具，还可以存储在知识库中，便于进一步的分析和比较。

2.1.3 数据挖掘的功能
在很多情况下，用户可能并不知道最终挖掘出何种形式的知识才是有用的，因此可能会希望并行地搜索出多种不同类型的知识。

这就要求数据挖掘系统能够挖掘出多种模式的知识，还应该从不同的抽象层发现这些模式。

下面将数据挖掘可以发现的模式类型进行简单介绍。

（1）概念、类描述。

数据可以和类或者概念相联系。

通常我们类和概念是汇总的、精确的、简洁的方式来描述的，这种类或者概念的描述称为概念/类描述。

这种描述我们可以通过两种方式来得到：数据特征化，数据区分。

数据特征化是对目标数据的一般性特征和特性的汇总。

通常用户指定类的数据会通过数据库查询来得到。

数据特征化和汇总的方式有很多，包括数据方的OLAP上卷操作等。

数据特征的输出形式包括饼图、曲线、条图和多维数据方等形式的多维表，或者也可以用泛化规则和特征规则的形式。

数据区分是针对不同的研究目标对象的一般特性比较。

比较类和被比较类通常是由用户指定的，具体操作可以通过数据库查询获得。

数据区分的输出类似于数据特征化，且应该包含比较度量，最终结果通常用以规则的形式描述，称为区分规则。

（2）关联分析。

关联规则是由关联分析发现的，这些规则展示了属性和值频繁地在给定数据集中出现在一起所需要的条件。

关联分析广泛用于事务数据分析和大型商场购物篮分析。

（3）分类和预测。

分类是寻找可以描述或识别数据类和概念的模型（或函数）的过程，从而可以依靠模型（或函数）来预测新的对象究竟属于哪个类。

导出的模型函数是基于对训练数据集的分析，其表示形式包括分类规则（IF-THEN）、判定树、数学公式或是神经网络等。

判定树是类似于流程图一样的结构，每个节点表示了对一个属性的测试，每个分支则代表了测试后的输出，树叶节点则代表了类或是类分布。

判定树较易于转换为分类规则。

神经网络则是一组类似于神经元的处理单元，各个单元之间采用加权连接。

在某些应用中，人们可能希望预测那些遗漏的、还未知的数据，这类应用就是预测。

预测一般可以对数据的值、数据的分布趋势等进行据测。

（4）聚类分析。

与分类和预测不同的是，聚类分析数据对象，而不考虑已知的类标号。

通常给定的训练数据中不提供类标号，而聚类分析可以产生这种标号。

对象是根据最大化类中的相似性、最小化类间的相似性的原则进行聚类的，也就。