连续属性离散化的Integral+Chi2算法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

　万方数据

连续属性离散化的Integral Chi2算法

作者：闫德勤，张丽平， YAN De-qin， ZHANG Li-ping

作者单位：辽宁师范大学,计算机系,辽宁,大连,116029

刊名：

小型微型计算机系统

英文刊名：JOURNAL OF CHINESE COMPUTER SYSTEMS

年，卷(期)：2008，29(4)

被引用次数：3次

1.卞国瑞;吴立德;李贤平概率论(第二册数理统计) 1979

2.Bian Guo-rui;Wu Li-de;Li Xian-ping Probability theory (Volume 2,Mathematical statistics) 1979

3.Liu X;Wang H A discretization algorithm based on a heterogeneity criterion 2005(09)

4.Su C T;Hsu J H An extended Chi2 algorithm for discretization of real value attributes 2005(03)

5.Tay E H;Shen L A modified Chi2 algorithm for discretization 2002(03)

6.Liu H;Setiono R Feature selection via discretization 1997(04)

7.Kerber R ChiMerge:discretization of numeric attributes 1992

1.期刊论文刘磊.闫德勤.桑雨.LIU Lei.YAN De-qin.SANG Yu连续属性离散化的Bayesian-Chi2算法-计算机工程

与应用2008,44(18)

连续属性离散化在机器学习和数据挖掘领域中有着重要的作用.连续属性离散化方法是否合理决定着对信息的表达和提取的准确性.Chi2算法在对连续属性进行离散化处理时,无冲突的数据能够得到较好的结果,但是,对不协调和不完全的数据实验结果不是很理想.利用了Bayseian模型允许一定程度错误分类存在的性质,对Chi2算法进行了改进.改进后的Chi2算法不仅更适合不协调和不完全的数据.还使得区间的合并更加合理.实验结果证明了算法的有效性.

2.学位论文桑雨粗糙集连续属性离散化方法研究2008

传统的粗糙集理论只能对数据库中的离散属性进行处理，所以对存在连续属性的数据库必须进行离散化处理。连续属性离散化是机器学习和数据挖掘领域中的一个重要问题，对后继阶段的机器学习或数据挖掘过程具有非常重要的意义。离散化是否合理决定着表达和提取相关信息的准确性。其中

，Chi2系列算法和类-属性相互依赖(CAI)的相关算法分别是基于概率统计理论和基于信息理论的连续属性离散化重要方法。连续属性离散化方法在人工智能、机器学习等很多方面具有重要应用。

首先，经过研究Chi2系列算法，本文提出一种新的基于属性重要性的连续属性离散化方法--Imp-Chi2算法，该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整，能够更准确的对连续属性进行离散化。并且，在实验过程中，提出了一种训练集类比例抽取方法，很好的避免了训练集随机抽取的不均匀性。

其次，本文对Chi2相关算法进行了深入分析，指出了其中的不足，提出一种新的连续属性离散化方法：Rectified Chi2算法。新算法给出了一种新的区间合并依据，能够更合理更有效地对连续属性进行离散化。在此基础上，考虑仅以最大差异为区间合并标准存在不合理性，提出一种基于差异序列为标准的区间合并方法，该方法可以大大提高Chi2系列算法的离散化效果。最后，对x2统计量中Etj取值不精确方面进行了分析，并且提出了两种改进方案。

再次，本文对Chi2相关算法(尤其是Extended Chi2算法)进行了深入研究，指出了其中存在的问题，提出一种新的基于区间相似性度量的连续属性离散化算法。新算法定义了一个区间相似度函数，用该区间相似度函数作为离散化过程的新的合并标准。同时，在函数中给出了两个重要参数：条件参数α和微调参数c，分别体现了离散化过程中的均衡性和相邻两区间数目的相差程度；并且在算法内部给出了两个重要规定。新算法不仅继承了x2统计合理的方面，同时也解决了Chi2相关算法中存在的问题，实现了公平的标准，能够更合理更有效地对连续属性进行离散化。

最后，在系统地分析基于类一属性相互依赖(CAI)的相关算法基础上，提出了一个新的离散化标准(NCAIC)，该标准考虑了数据的分布和所有类与连续属性之间的相互依赖，并且引入了粗糙集上近似概念作为离散化标准中的重要组成部分。基于新的标准提出了一种基于粗糙集和互信息的CAI连续属性离散化的最新算法。新算法利用类与属性间的互信息自动控制和调整连续属性离散化的程度，使得连续属性能够更合理更有效地对进行离散化。

3.期刊论文桑雨.闫德勤.刘磊.梁宏霞.SANG Yu.YAN De-qin.LIU Lei.LIANG Hong-xia连续属性离散化的Imp-

Chi2算法-计算机工程2008,34(17)

连续属性离散化足机器学习和数据挖掘领域中的一个重要问题,离散化是否合理决定着表达和提取相关信息的准确性.经过研究Chi2系列算法,提出一种新的基于属性最要性的连续属性离散化方法-Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确地对连续属性进行离散化.文章通过C4.5和支持向量机分别对离散化后的结果进行了实验,在实验过程中,提出一种训练集类比例抽取片法,避免了训练集随机抽取的不均匀性.实验结果证明了所提算法的有效性.

4.学位论文刘磊连续属性离散化相关研究及应用2008

信息时代的来临，带来大量的数据。这些数据中隐藏着许多重要的信息和知识。如何从表面数据中提取到深层次的、表现了事物内在规律的规则来进行预测或指导决策，是迫切需要解决的问题。数据挖掘正是在这样的背景下产生的新的研究领域，是统计学、计算机科学、模式识别、人工智能、机器学习、数据库等多领域的交叉学科。

连续属性离散化在机器学习和数据挖掘领域中有着重要的作用。本文就数据挖掘中的连续属性离散化问题进行了相关的研究。

首先，讨论了连续属性离散化问题。连续属性离散化是否合理决定着表达和提取相关信息的准确性。CHI2系列算法关联着统计学理论方法，有着重要的研究价值。利用Bayseian模型允许一定程度错误分类存在的性质，对Chi2算法进行了改进。提出的Bayseian-Chi2算法不仅更适合不协调和不完全的数据，述使得区间的合并更加合理。

其次，依据属性重要性程度对属性离散化的顺序进行了合理的调整，又提出一种新的基于属性重要性的连续属性离散化方法--属性重要度-Chi2算法，能够更准确的对连续属性进行离散化。