基于粗糙集的特征选择算法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于粗糙集的特征选择算法研究
【摘要】:粗糙集理论(RoughSetTheory)是波兰数学家Z.Pawlak于1982年提出的一种处理模糊、不确定数据的软计算方法,是目前国际上人工智能理论及其应用领域中的重要研究热点之一。由于粗糙集理论方法独特、思想新颖,在提出的三十余年里面,吸引了大量研究人员对其进行研究,并成功的衍生出模糊粗糙集、优势关系粗糙集、决策理论粗糙集、变精度粗糙集等多种适用于处理复杂类型数据的粗糙计算模型。这些模型已成功应用于机器学习、模式识别、决策支持、过程控制、数据库知识发现、专家系统等研究领域。基于粗糙集的特征选择(属性约简)是粗糙集理论研究的核心内容之一,主要是在保持原始数据的属性区分能力不变的前提下,选择具有最小特征(属性)数的特征子集,达到消除无关和冗余特征,提高知识发现效率,改善分类器性能的目的。随着目前大量高维海量复杂数据的出现,这种解决问题的思路对于处理具有高价值总量、低价值密度、含有大量冗余属性的大数据研究具有重要的意义。本文跟踪国际学术前沿,对基于粗糙集理论的属性约简进行整理分析,在借鉴PageRank算法思路的基础上,提出了通过对属性进行“全局性”重要度排序,进而构造一种新的属性约简算法。另外,总结已有粗糙集特征选择的部分方法及数据集的预处理方法,设计了包含粗糙集特征选择与数据集预处理方法的RSLibrary类库,在类库的基础上设计了粗糙集特征选择系统。本文主要工作如下:(1)启发式属性约简算法的分析与比较。对经典的启发
式属性约简算法、启发式约简加速算法、启发式约简双向约简加速算法分别进行了具体的分析和比较。(2)提出一种基于“全局性”属性重要度排序的特征选择算法。将粗糙集理论与PageRank算法结合,借鉴其投票机制,提出了属性排序算法(AttributeRank),进而设计了基于属性排序的特征选择算法。在处理海量数据时,该算法的并行版本能够在可接受时间内得出结果。(3)设计了基于粗糙集的特征选择系统。针对在粗糙集学习中,做实验时,需要编写大量重复性代码、检验编码正确性、对比实验结果、对书局集进行大量预处理等工作,设计了包含常见粗糙集属性方法与数据集预处理的粗糙集类库。在此类库的基础上开发了基于粗糙集的特征选择系统。最后,将本文内容进行总结,说明了针对该类问题可以深入研究的方向。这些研究内容,探索了将属性约简并行化的方法,为大数据的数据挖掘提供有价值的参考。同时,进一步丰富了基于粗糙集的数据挖掘算法,为发展高效的数据挖掘方法提供一定的借鉴和指导,借此进一步推动并促进该领域的发展。【关键词】:粗糙集特征选择属性排序粗糙集类库属性相异系数
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP18
【目录】:中文摘要8-10Abstract10-12第一章绪论12-181.1研究的背景与意义12-131.2粗糙集理论及特征选择国内外研究现状13-151.3粗糙集理论基本知识15-161.3.1信息系统和决策表151.3.2不可区分关系与上下近似15-161.3.3基于粗糙集的特征选择161.4论文的研究内容与组织结构16-18第二章基于粗糙集的启发式特征选择算法分析与比较18-242.1启发式属性约简方法18-202.2启发式属性约简加速算法20-212.3启发式属性约简双向加速算法21-222.4算法分析与比较222.5本章小结22-24第三章基于属性排序的特征选择算法24-383.1PageRank算法简介24-253.2属性排序算法25-323.2.1属性关系矩阵25-273.2.2属性权重的确定27-283.2.3基于相似度的属性排序算法28-323.3基于属性排序的特征选择算法32-353.3.1算法流程323.3.2实验结果与分析32-353.4本章小结35-38第四章基于粗糙集的特征选择系统设计与实现38-444.1粗糙集类库的设计与开发38-404.1.1粗糙集类库概述384.1.2粗糙集类库应用场景举例38-394.1.3粗糙集类库设计与功能39-404.2系统功能404.3系统特点40-44第五章结束语44-46参考文献46-50攻读硕士期间取得的研究成果50-52致谢52-54个人简况及联系方式54-58 本论文购买请联系页眉网站。