基于改进模糊C均值的软件缺陷预测研究
基于灰狼优化的模糊C—均值聚类算法
基于灰狼优化的模糊C—均值聚类算法作者:谢亮亮刘建生朱凡来源:《软件导刊》2017年第04期摘要:针对模糊C-均值聚类算法(FCM)存在易受初始聚类中心影响和容易陷入局部最优的问题,提出了一种将灰狼优化算法(GWO)和模糊C-均值相结合的新聚类算法(GWO-FCM)。
该算法利用GWO算法强大的全局寻优能力对FCM算法的聚类中心进行优化,模拟灰狼优秀的搜寻猎物行为找到一组最佳聚类中心来提高FCM的聚类效果。
通过UCI数据集的仿真结果和算法比较验证了该算法的有效性。
关键词:聚类分析;灰狼优化算法;模糊C-均值聚类;初始聚类中心;全局优化DOI:10.11907/rjdk.171030中图分类号:TP312文献标识码:A文章编号:16727800(2017)0040028030引言聚类是数据挖掘领域中必不可少的技术,是在事先没有分类规则下,根据事物间的特征相似度对事物进行区分和分类。
它的主要任务是按准则把所有数据按不同特性划分成各个不同的簇,即最小化每个簇内部数据间的差异性,并且最大化属于任意不同簇的数据间的差异性[1]。
在模糊集理论提出之后,研究者使用模糊集理论来作聚类分析[2]。
FCM聚类算法由Dunn[3]于1974年第一次提出,随后由Bezdek 进一步完善。
但FCM在聚类分析中存在易受随机产生的初始聚类中心的影响以及容易早熟收敛等缺点,对聚类的结果有很大影响。
针对传统的FCM存在的缺陷,本文提出一种基于灰狼优化的模糊C-均值聚类算法(GWOFCM)。
GWO具有结构简单,需要设置的参数较少,有强大的全局寻优能力,在实验编码中容易实现等优点,对FCM聚类结果有显著提高。
1灰狼优化算法GWO算法由Seyedali Mirjalili[4]于2012年受大自然中灰狼寻找和捕捉猎物行为的启发而提出,是一种新的元启发式算法。
本文从以下几个方面介绍算法步骤。
1.1社会等级灰狼是食物链顶端的群体猎食者,狼群一般由5~12只灰狼组成。
模糊C均值聚类算法及实现(最新整理)
模糊C均值聚类算法及实现摘要:模糊聚类是一种重要数据分析和建模的无监督方法。
本文对模糊聚类进行了概述,从理论和实验方面研究了模糊c均值聚类算法,并对该算法的优点及存在的问题进行了分析。
该算法设计简单,应用范围广,但仍存在容易陷入局部极值点等问题,还需要进一步研究。
关键词:模糊c均值算法;模糊聚类;聚类分析Fuzzy c-Means Clustering Algorithm and ImplementationAbstract: Fuzzy clustering is a powerful unsupervised method for the analysis of data and construction of models.This paper presents an overview of fuzzy clustering and do some study of fuzzy c-means clustering algorithm in terms of theory and experiment.This algorithm is simple in design,can be widely used,but there are still some problems in it,and therefore,it is necessary to be studied further.Key words: fuzzy c-Mean algorithm;fuzzy clustering;clustering analysis1 引言20世纪90年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量的数据。
但是,面对大规模的数据,传统的数据分析工具只能进行一些表层的处理,比如查询、统计等,而不能获得数据之间的内在关系和隐含的信息。
为了摆脱“数据丰富,知识贫乏”的困境,人们迫切需要一种能够智能地、自动地把数据转换成有用信息和知识的技术和工具,这种对强有力数据分析工具的迫切需求使得数据挖掘技术应运而生。
改进的模糊聚类在分类器设计中的应用
改进的模糊聚类在分类器设计中的应用摘要:提出了一种基于改进的模糊C均值算法的分类器设计方法。
该方法解决了分类过程中样本点分散和样本错分的问题。
其基本思想是:在样本决策函数中引入隶属度函数,为了避免传统的隶属度函数归一化问题,引入放松的归一化条件,利用决策函数根据条件求偏导,得到经过训练的分类器。
采用UCI标准进行数据集实验,实验结果表明,该算法具有一定的优越性。
关键词:模糊聚类;模糊隶属度;分类器;模糊C均值;归一化处理0引言模式分类和回归问题是机器学习和模式识别等研究领域中常遇到的最基本的任务之一,该任务的主要目标是利用实际数据构建一个具有较强泛化能力的预测模型,使我们可以对新的未知对象给出尽可能精确的估计。
因此,人们关注的一个根本问题是如何提高学习系统的泛化能力。
分类是数据挖掘和机器学习中的一个重要研究课题,它对由属性集描述的实例指定最适合的类标签,一般这个目标是通过构造分类器实现的。
有许多方法和技术用于建立分类器模型,例如决策树、神经网络、K-最近邻、贝叶斯方法、支持向量机等。
为了改变在样本分类中,存在样本分散点不能很好地分类的问题,本文提出了基于改进的模糊C均值算法的分类器,就是在原有算法的样本决策函数中引入隶属度函数。
同时为避免传统的隶属度函数归一化问题,引入放松的归一化条件,利用决策函数根据条件求偏导,得到我们所训练的分类器。
采用UCI标准进行数据集实验,结果表明,本文所提出的NN-MDC与MDC相比具有较高的分类精度。
1C均值分类器设有C个模式类1,2,…,c,第i个模式类i的训练样本数为ni,Xis(s=1,2,…,ni)表示第i个模式类i的第s个训练样本。
第i个模式类i的样本均值向量为mimi=1n∑Xis。
对于待识别样本X,计算它到第i个模式类的均值向量mi的距离,即:di(X)=‖X-mi‖i=1,2,…,c(1)常用的最小距离分类器就是根据式(1)定义的距离di(X),对X 进行分类决策。
模糊 c 均值聚类算法
模糊 c 均值聚类算法模糊 c 均值聚类算法是一种常用的聚类算法,其特点是能够解决数据集中存在重叠现象的问题,适用于多类别分类和图像分割等领域。
本文将从算法原理、应用场景、优缺点等方面分析模糊c 均值聚类算法。
一、算法原理模糊 c 均值聚类算法与传统的聚类算法相似,都是通过对数据集进行聚类,使得同一类的数据样本具有相似的特征,不同类的数据样本具有不同的特征。
但是模糊c 均值聚类算法相对于传统的聚类算法而言,其对于数据集中存在重叠现象具有一定的优越性。
模糊 c 均值聚类算法的主要思想是:通过迭代计算,确定数据集的类别个数,并计算每个数据样本属于不同类别的概率值。
在此基础上,通过计算每个聚类中心的权值,并对每个数据样本属于不同类别的概率进行调整,以达到数据样本的合理分类。
二、应用场景模糊 c 均值聚类算法的应用范围较广,主要包括:1.多类别分类:在多类别分类中,不同的类别往往具有比较明显的特征区别,但是存在一些数据样本的特征存在重叠现象。
此时,模糊 c 均值聚类算法可以对这些数据样本进行合理分类。
2.图像分割:在图像分割过程中,一张图片包含了不同的对象,这些对象的特征往往具有一定的相似性。
模糊 c 均值聚类算法可以通过对这些相似的特征进行分类,实现对于图像的自动分割。
3.市场分析:在市场分析中,需要根据一定的统计规律,对市场中的产品进行分类。
模糊 c 均值聚类算法可以帮助市场研究人员实现对市场中产品的自动分析分类。
三、优缺点分析模糊 c 均值聚类算法相对于传统的聚类算法而言,其对于数据集中存在重叠现象具有一定的优越性,具体优缺点如下所示:1.优点:(1) 能够有效地解决重叠现象问题,在多类别数据分类和图像分割等领域具有比较好的应用前景。
(2) 通过迭代计算,能够实现对数据集的自动分类,自动化程度高。
2.缺点:(1) 算法的时间复杂度比较高,需要进行多次迭代计算,因此在数据量较大时,运算时间比较长。
(2) 模糊 c 均值聚类算法对于初始聚类中心的选择较为敏感,不同的聚类中心初始化可能会导致最终分类效果的不同。
模糊c均值聚类算法
模糊c均值聚类算法
模糊c均值聚类算法(Fuzzy C-Means Algorithm,简称FCM)是一种基于模糊集理论的聚类分析算法,它是由Dubes 和Jain于1973年提出的,也是用于聚类数据最常用的算法之
一。
fcm算法假设数据点属于某个聚类的程度是一个模糊
的值而不是一个确定的值。
模糊C均值聚类算法的基本原理是:将数据划分为k个
类别,每个类别有c个聚类中心,每个类别的聚类中心的模糊程度由模糊矩阵描述。
模糊矩阵是每个样本点与每个聚类中心的距离的倒数,它描述了每个样本点属于每个聚类中心的程度。
模糊C均值聚类算法的步骤如下:
1、初始化模糊矩阵U,其中每一行表示一个样本点,每
一列表示一个聚类中心,每一行的每一列的值表示该样本点属于该聚类中心的程度,U的每一行的和为
1.
2、计算聚类中心。
对每一个聚类中心,根据模糊矩阵U
计算它的坐标,即每一维特征值的均值。
3、更新模糊矩阵U。
根据每一个样本点与该聚类中心的距离,计算每一行的每一列的值,其中值越大,说明该样本点属于该聚类中心的程度就越大。
4、重复步骤2和步骤
3,直到模糊矩阵U不再变化,即收敛为最优解。
模糊C均值聚类算法的优点在于它可以在每一个样本点属于每一类的程度上,提供详细的信息,并且能够处理噪声数据,因此在聚类分析中应用十分广泛。
然而,其缺点在于计算量较大,而且它对初始聚类中心的选取非常敏感。
基于机器学习的软件缺陷预测技术研究
基于机器学习的软件缺陷预测技术研究机器学习是一种人工智能的分支,通过利用算法和模型从数据中进行学习和预测,其应用范围非常广泛。
其中,基于机器学习的软件缺陷预测技术是解决软件缺陷问题的一种有效手段。
本文将探讨该技术的原理、应用和发展。
一、机器学习的原理机器学习基于大量数据,通过构建算法和模型,从中提取特征并进行学习和预测。
其主要原理包括监督学习、非监督学习和强化学习。
1、监督学习监督学习是一种基于标签的学习方式,即给定训练数据和标签,构建模型预测新的数据标签。
在软件缺陷预测中,将训练数据和其对应的缺陷标签作为输入,构建分类模型,对新的数据进行缺陷预测。
2、非监督学习非监督学习是一种无标签的学习方式,即通过数据自身的特征进行模型构建和预测。
在软件缺陷预测中,将软件数据输入,通过聚类、降维等算法提取特征,构建模型进行缺陷预测。
3、强化学习强化学习是一种基于奖惩机制的学习方式,即通过与环境的互动,根据奖励或惩罚进行学习和预测。
在软件缺陷预测中,将软件数据输入网络,根据反馈结果修正模型,提高预测准确率。
二、机器学习在软件缺陷预测中的应用1、缺陷检测目前,缺陷检测是基于机器学习的软件缺陷预测技术的主要应用领域。
通过对软件代码中可能出现缺陷的部分进行预测,可以及早发现并修复潜在的问题。
同时,通过对缺陷分布的分析,可以帮助改进软件开发过程。
2、质量评估机器学习可以通过预测缺陷数、缺陷密度等指标,对软件的质量进行评估。
相比于传统的质量评估方法,机器学习可以更加准确地预测软件缺陷,提高预测的准确性和效率。
3、缺陷定位通过机器学习对软件缺陷进行定位,可以帮助快速定位和修复问题。
在软件开发过程中,快速定位和修复缺陷可以提高软件的迭代速度和质量。
三、机器学习在软件缺陷预测中的发展趋势1、深度学习深度学习是机器学习的一种新型技术,其通过多层神经网络进行特征学习和提取,可以提高准确性和鲁棒性。
在软件缺陷预测中,深度学习可以通过自适应特征学习,提高预测的准确度。
基于深度学习的软件缺陷预测模型
基于深度学习的软件缺陷预测模型①陈 凯, 邵培南(中国电子科技集团第三十二研究所, 上海 201808)通讯作者: 陈 凯摘 要: 为了提高软件的可靠性, 软件缺陷预测已经成为软件工程领域中一个重要的研究方向. 传统的软件缺陷预测方法主要是设计静态代码度量, 并用机器学习分类器来预测代码的缺陷概率. 但是, 静态代码度量未能充分考虑到潜藏在代码中的语义特征. 根据这种状况, 本文提出了一种基于深度卷积神经网络的软件缺陷预测模型. 首先, 从源代码的抽象语法树中选择合适的结点提取表征向量, 并构建字典将其映射为整数向量以方便输入到卷积神经网络. 然后, 基于GoogLeNet 设计卷积神经网络, 利用卷积神经网络的深度挖掘数据的能力, 充分挖掘出特征中的语法语义特征. 另外, 模型使用了随机过采样的方法来处理数据分类不均衡问题, 并在网络中使用丢弃法来防止模型过拟合. 最后, 用Promise 上的历史工程数据来测试模型, 并以AUC 和F1-measure 为指标与其他3种方法进行了比较, 实验结果显示本文提出的模型在软件缺陷预测性能上得到了一定的提升.关键词: 软件缺陷预测; 抽象语法树; 卷积神经网络; 随机过采样; 丢弃法引用格式: 陈凯,邵培南.基于深度学习的软件缺陷预测模型.计算机系统应用,2021,30(1):29–37. /1003-3254/7726.htmlSoftware Defect Prediction Model Based on Deep LearningCHEN Kai, SHAO Pei-Nan(The 32nd Research Institute of China Electronics Technology Group Corporation, Shanghai 201808, China)Abstract : In order to improve the reliability of software, software defect prediction has become an important research direction in the field of software engineering. Traditional software defect prediction methods mainly design static code metrics and use machine learning classifiers to predict the defect probability of the code. However, the static code metrics do not fully consider the semantic features hidden in the code. According to this situation, this study proposes a software defect prediction model based on convolutional neural network. First, extract the characterization vectors from the appropriate nodes in the abstract syntax tree of the source code, and construct a dictionary to map them to integer vectors to facilitate input to the convolutional neural network. Then, a convolutional neural network is designed based on GoogLeNet, and the ability of the convolutional neural network to deeply mine data is used to fully mine the grammatical and semantic features of the features. In addition, this model uses the method of random oversampling to deal with the imbalance of data, and uses the method dropout in the network to prevent the model from overfitting. Finally, the historical engineering database on Promise is used to test the model, and AUC and F1-measure are used as indicators to compare with the other three methods. The results show that the proposed model has a certain improvement in software defect prediction performance.Key words : software defect prediction; abstract syntax tree; convolutional neural network; random oversampling; dropout计算机系统应用 ISSN 1003-3254, CODEN CSAOBNE-mail: Computer Systems & Applications,2021,30(1):29−37 [doi: 10.15888/ki.csa.007726] ©中国科学院软件研究所版权所有.Tel: +86-10-62661041① 收稿时间: 2020-05-19; 修改时间: 2020-06-16; 采用时间: 2020-06-23; csa 在线出版时间: 2020-12-311 引言随着现代软件的不断发展, 软件可靠性已经成为评价软件的关键因素. 软件规模的不断扩展和功能的日益增强, 软件复杂度不断上升, 软件缺陷出现的概率也不断上升, 从而导致软件的失败. 为了帮助开发人员和测试人员及时找到软件缺陷, 软件缺陷预测已经成为软件工程领域、数据挖掘领域的研究方向之一. 软件缺陷预测技术可以在一定程度上预测软件中是否存在着缺陷, 以此帮助相关团队快速了解软件的整体情况和质量, 制定相关策略测试和改善软件, 提高软件的可靠性和稳定性.基于此, 许多研究人员前赴后继潜心研究软件缺陷预测技术并尝试通过机器学习的方法来检测软件中是否存在着缺陷. 传统软件缺陷预测[1]是以手工获取软件度量特征的基础进行分类学习, 而特征选择的方法直接影响软件缺陷预测的准确性和稳定性. 而在以往的软件缺陷预测研究中, 通常使用静态软件度量作为代码的特征, 静态软件度量[1]主要包括以下几种方法:(1)代码度量代码度量是最直接、应用最普遍的度量方式. 通过对源代码相关指标的简单计数得到度量值. 度量包括总行数、代码行数目、注释行数目、空白行数目和代码及注释行总数目等, 通过对总行数、代码行数、注释行数等不同的处理方式, 度量结果就会不同.(2) McCabe度量McCabe度量是一种基于程序流程图的复杂性度量方法, 度量的是程序的复杂性, 主要包括圈复杂度、基本复杂度、设计复杂度等.(3) Halstead度量Halstead度量考虑了程序中出现的操作数和运算符, 具体有程序长度、操作符出现的总数量、操作数出现的总数量、程序容量、程序难度、程序级别、程序工作量等.(4) CK度量CK度量是面向对象程序的度量, 具体包括类方法复杂度带权和(WMC)、类在继承树中的最大深度(DIT)、继承树中类的直接子类个数(NOC)等.根据代码的实际情况, 选择合适的度量方法, 或在各种度量方法中选择合适的指标组成新的特征集合,然后根据从历史软件源码中提取出来的特征构建如逻辑回归、随机森林、支持向量机等分类器, 对新版本的软件源码进行软件缺陷预测, 以此来帮助编程人员找到可能包含缺陷的部分.然而, 传统软件缺陷预测方法使用静态代码度量作为特征, 未能充分考虑潜藏在代码中的语义特征, 这无疑会对缺陷预测造成影响. 而抽象语法树能够表达出源代码的语义, 已经有相关的论文[2]证实了其可以用于源码的完整性和缺陷的检测. 抽象语法树是基于源代码采用树状结构来描述代码上下文之间的关系,其中包含了程序模块的语法结构和语义信息. 从抽象语法树中提取表征用于软件缺陷预测, 可以充分考虑到代码的语法语义特征.近年来, 深度学习作为数据挖掘的技术之一得到了充足的研究. 在软件缺陷预测领域, 深度学习同样可以用于挖掘代码中隐含的特征. Iqbal等[3]介绍了用静态度量的方法获得特征, 然后用4种方法对特征进行投票, 选取出最合适的特征, 然后构建一个多层感知机(MLP)网络来对样本进行学习分类. Wang等[2]介绍了用多层受限玻尔兹曼机叠加而成的深度置信网络(DBN),自动提取源代码中的语法语义特征, 并用提取出来的特征构建软件缺陷预测模型. Li等[4]利用卷积神经网络(CNN)提取源码特征后, 将其与传统静态特征进行连结, 构建逻辑回归分类器来对软件缺陷进行预测. 然而, 这些方法依然存在着数据挖掘不足的问题, 所使用的网络大多是简单模型, CNN也仅使用单层卷积层.基于这种情况, 本文以抽象语法树为特征来源, 提出了一种卷积神经网路模型来进行软件缺陷预测, 并利用Promise官网上的历史工程数据来对模型进行实验, 取得了较好的结果.2 基于抽象语法树的代码表征能否从源代码中提取到合适的特征, 是影响软件缺陷预测性能的一个关键因素. 在过去的研究中, 常常用静态软件度量的方法来处理源代码, 忽视了潜藏在代码中的语义特征. 而本文使用了一种基于抽象语法树的方法来获取代码表征.2.1 抽象语法树抽象语法树(Abstract Syntax Tree, AST)是源代码关于抽象语法结构的树状表示, 源代码中的每一种结构都表征为树上的结点. 之所以说是抽象的, 是因为AST并不会将源代码的细节表示出来, 例如, 一串For 语句, 在结点中就记录为“ForStatement”以及一些关键计算机系统应用2021 年 第 30 卷 第 1 期要素, 而具体循环的内容并不会被记录下来. 另外, 抽象语法树并不依赖源代码语言的语法, 也就是说, 语法分析时所采用的是上下文无关文法, 因为在写文法时,通常会对文法进行等价的转换(消除左递归, 二义性,回溯等), 这样会在文法分析时引入一些冗余成分, 对后续阶段造成不好的影响.抽象语法树能有效保存代码的语法结构和语义信息. 如图1所示, 代码a和代码b十分相似, 且有着几乎一样的静态代码度量, 也就是说, 他们有着几乎一样的特征, 在特征空间中, 它们的距离会非常小, 用分类器分类的话, 很有可能将两份代码归为一类, 但显然代码a是没有缺陷的, 而代码b是有缺陷的, 这就造成了错误的检测结果. 图2展示两份代码的抽象语法树, 代码a的抽象语法树比代码b的抽象算法树多了两个结点, 在提取表征向量时, 两份代码在序列上就会有一定的区别, 而这种区别就可以方便模型区分两种代码, 得到更好的软件缺陷预测性能.图1 抽象语法树示例代码2.2 提取表征向量本文使用了一款开源的Python依赖包Javalang 来对源代码进行解析, 它提供了一个基于Java语言规范的词法分析器和解析器, 可以构造Java源代码的抽象语法树. 在得到源代码的抽象语法树后, 按照深度优先的顺序来遍历AST的所有节点, 然后主要选择以下3类结点作为抽象语法树的表征向量元素:(1)表示为方法调用的结点(2)表示为声明的结点, 包括方法声明、类声明、接口声明等(3)控制流结点, 譬如说条件分支、循环控制等根据结点的类型, 我们选取不同的要素来作为结点的特征. 对于第1类结点, 我们使用结点对应的方法名来作为结点在特征向量中的标识; 第2类结点选择结点的名称来作为标识; 第3类控制流结点选择节点的类型来作为标识, 比如表征条件分支的结点, 记录结点的类型名“IfStatement”作为该结点的特征. 表1列出了本文所使用的所有的结点类型.由此, 我们可以得到一棵树即一份代码的表征向量.2.3 整数向量映射从抽象语法树中获得的表征向量不能直接用于神经网络, 训练神经网络需要输入整数向量, 所以我们需要在获得的特征和整数之间建立一个映射, 将表征向量转换为整数向量.为了在获得的特征和整数之间建立映射, 我们建立一个字典[2]将表征和正整数一一对应起来. 将训练样本和测试样本中的代码全部提取为表征向量后, 统计各个特征的频率, 将其转换为对应的整数. 假设不同的特征的数量是m, 每个特征都有着对应的整数, 那么正整数的范围也是1~m. 具体的, 在从训练样本和测试样本中提取表征向量后, 首先, 计算各个特征在所有样本中出现的频数, 并且根据频数将它们排列; 然后,为排列好的特征建立一个序列字典, 频数高的特征排在前面, 这意味着出现频率越高的特征对应的正整数越小; 构建完字典后, 就可以将之前的表征向量转化为整数向量. 但因为神经网络的输入要求有固定的长度,为了避免向量过于稀疏, 选择适当的向量长度对向量进行处理. 如果一个向量的长度小于设定的长度, 那么我们就在向量末尾添0, 而0在神经网络的计算过程中没有意义; 如果一个向量的长度大于设定的长度, 那就在向量中寻找最大的正整数将它删去, 因为最大的整数对应的是频数最小的特征, 循环往复, 直到向量的长度符合设定的长度. 由此, 我们得到了每份源代码对应的整数向量. 图3给出了从源代码到整数向量的全部流程.2021 年 第 30 卷 第 1 期计算机系统应用图2 示例代码的抽象语法树表1 使用到的所有结点类型类别结点类型方法调用结点MethodInvocation, SuperMethodInvocation声明结点PackageDeclaration, InterfaceDeclaration, ClassDeclaration, MethodDeclaration, ConstructorDeclaration, VariableDeclaration 控制流结点IfStatement,WhileStatement, DoStatement, ForStatement, SwitchStatement, AssertStatement, BreakStatement,ContinueStatement, ReturnStatement, ThrowStatement, TryStatement, SynchronizedStatement, BlockStatement,TryResource, CatchClause, EnhancedForControl其他结点FormalParameter, BasicType, CatchClauseParameter, MemberReference, SuperMemberReference, ReferenceType图3 从源代码到得到整数向量的流程图(①从源代码中解析出抽象语法树; ②从抽象语法树中提取表征向量;③根据提取的特征构建字典; ④将表征向量映射为整数向量)计算机系统应用2021 年 第 30 卷 第 1 期3 卷积神经网络设计与结构卷积神经网络是一种含卷积计算且具有深度结构的前馈式神经网络, 具有表征学习、深度挖掘数据的能力. 卷积神经网络已经被证实在图像处理、语音识别、自然语言处理等领域有着不错的性能表现. 而且,卷积神经网络的隐含层内的卷积核参数共享、层与层之间的稀疏连接使得卷积神经网络能够以较小的计算量对格点化特征.3.1 数据预处理在软件缺陷预测领域, 数据分类不均衡问题是普遍存在的, 如何处理这种不均衡问题也是具有挑战性的. 在获得的数据集中, 往往有缺陷的样本数是要少于没有缺陷的样本数, 如果直接用这样的样本对模型进行训练, 训练出来的模型往往会对样本数量较少的类别的识别能力较弱, 在软件缺陷预测时, 模型便会偏向没有缺陷的结果. 因此, 我们需要对数据进行预处理以弥补数据集分类不均衡带来的偏差.一般而言, 针对数据集中存在的样本分类不均衡问题, 通常采用过采样或欠采样的方法来使得数据集中各类的样本数量达到均衡. 欠采样是从多数样本中随机选择和少数样本一样数量的样本, 以此构建分类平衡的数据样本, 但这样会大大减少数据的训练样本,造成信息的损失, 会造成模型的欠拟合, 因此我们选择过采样的方法来处理分类不均衡问题. 由于AST数值向量并非是特征向量, 所以类似像SMOTE[5]等基于样本间的欧式距离来生成新样本的分类不均衡处理方法并不一定适用. 因此, 在这里, 我们采取简单的随机过采样的方法来对数据进行预处理, 在少数样本即有缺陷的样本中随机选择进行复制, 使得有缺陷的样本数量和没有缺陷的样本数量保持一致, 以此保证数据类别间的均衡. 具体的算法如算法1所示.算法1. 随机过采样算法输入:分类不均衡的数据集D输出: 分类均衡的数据集D'(1)初始化已复制样本集合C为空集.(2)将数据集D复制, 组成数据集D'.(3)在数据集D中筛选出有缺陷的样本集d.(4)在数据集d中随机选择样本a, 如果a不在已复制样本集合C中,将样本a加入数据集D'和已复制样本集合C; 如果已复制样本集C的大小和d一样, 则清空C.(5)重复步骤(4)直至数据集D'中无缺陷样本和有缺陷样本数量保持一致.3.2 网络结构首先介绍所要构建的网络中用到的基础卷积块Inception块[6], 这个卷积模块的结构如图4所示.图4 Inception块如图4所示, Inception块含有4条并行的网络线路. 前三条线路所使用的卷积核大小分别是1×1、3×3、5×5, 以用来抽取不同空间尺寸下的信息, 第2, 3层会先对输入做1×1卷积操作以减少输入通道数, 以降低模型复杂度. 第4条线路会先使用3×3最大池化层, 然后接一个1×1卷积层来改变通道数. 并且, 根据4条线路的具体情况, 设置合适的填充来使得输入和输出的高和宽一致. 最后将每条线路的输出在通道维上连结, 以此完成卷积的功能, 将结果输入到下一层. 相较于普通的卷积层, Inception块因为使用了3个卷积层和1个池化层, 能够更深层次的挖掘数据中的特征,以此帮助模型进行更好的学习分类.为了能够更深层次地挖掘出潜藏在向量中的语法语义特征, 本文基于GoogLeNet[7]设计了一个卷积神经网络, GoogLeNet最初设计出来是用来进行图像处理的, 在I m a g e N e t图像识别挑战赛中大放异彩, GoogLeNet串联了多个Inception块来对图像进行深度挖掘, 以此进行更好的分类. 本文基于GoogLeNet设计一个卷积神经网络, 具体的网络结构如图5所示, 除了最后的输出层使用Sigmoid函数作为激活函数外, 其他层的激活函数均使用ReLU函数, 并且根据实际情况调整网络中各个层的参数, 网络整体分为主要分为以下3个部分:(1)输入层: 输入层主要是一个嵌入层[8], 嵌入层的主要作用是将输入的整数向量中的整数元素转换成整数向量, 使得向量可以进行卷积操作. 嵌入层有两个重要参数: 嵌入层字典的大小(num_embeddings)和每个产出向量的大小(embedding_dim). 这里, 本文将num_embeddings设置为2.3节构建的字典中所含有的2021 年 第 30 卷 第 1 期计算机系统应用特征的数量, 将embedding_dim设置为2.3节中通过映射得到的整数向量的长度. 将长度为n的整数向量输入到嵌入层, 嵌入层将给出一个n×n的矩阵向量. 并且,为了提高内存利用率和训练模型的速度, 本文选择分批量进行训练, 设置每次训练样本个数(批尺寸, Batch_ Size)为16, 即一次输入16个样本进行训练.(2)卷积部分: 卷积部分是网络的主体部分, 共由5个模块组成. 模块与模块之间使用步幅为2的3×3最大池化层来减小输出高度. 第1个模块包含3层的3×3卷积层; 第2个模块使用2个卷积层, 首先接一个64通道的1×1卷积层, 然后接了一个将通道数扩大3倍的3×3卷积层; 第3个模块串联了2个完整的Inception块; 第4模块串联了5个Inception块; 第5模块串联了2个Inception块. 通过多层的不同空间尺寸的卷积操作, 来深度挖掘数据中的特征, 从而进行性能更好稳定性更高的学习分类.(3)输出层: 输出层主要是根据之前卷积层输出的结果来输出分类结果. 首先使用一个全局平均池化层来将每个通道的高和宽都变成1, 然后接上一个全连接层, 输出通道数为标签类别数, 最后, 连结一个Sigmoid 函数构建逻辑回归分类器来计算程序代码的缺陷概率,从而得到分类结果.图5 网络结构图3.3 模型优化之前, 我们在数据预处理时采用随机过采样的方法来解决数据分类不均衡问题, 提升了模型的泛化能力, 但是这样也有一定的过拟合的风险, 因此我们选择使用丢弃法(Dropout)[9], 通过随机丢弃一部分神经元来避免过拟合. 在训练过程中, 随机丢弃一部分隐藏层神经单元, 即所有神经单元都有可能被清零, 这样就减少了神经元之间的依赖性, 输出层的计算也无法过度依赖任何一个隐含层神经元, 从而在训练模型时起到正则化的作用, 用来应对过拟合. 在测试模型时, 为了拿到更加准确的结果, 我们不使用丢弃法.另外, 在训练模型的过程中, 为了得到最优的模型参数, 我们需要根据损失函数的梯度不断地对参数进行迭代, 这里我们选择使用Adam[10]优化器来更新参数. Adam算法结合了AdaGrad和RMSProp两种优化算法的优点[10], 能够自动调整学习率, 并且参数的更新不受梯度的伸缩变换影响. Adam算法能够从梯度均值及梯度平方两个角度进行自适应地调节, 综合考虑梯度的一阶矩估计和二阶矩估计计算出更新步长, 而不是直接由当前梯度决定.4 实验与结果分析4.1 数据集为了评估训练出来的模型的性能, 本文从Promise[11]上下载了5个工程, 总共11个项目, 组成6组软件缺陷预测任务, 用于模型的测试. 在同一软件工程中, 将旧版本的工程项目作为训练集, 将新版本的工程项目作为测试集, 根据测试结果来评估模型的预测能力. 例如, 对于Camel工程, 我们将Camel 1.4版本的工程代码用来训练模型, 然后用Camel 1.6版本的代码用来测试模型. 表2列出了测试时所使用的软件项目的基本信息.表2 测试使用的工程信息工程版本平均代码数平均缺陷率(%) Camel 1.4, 1.691818.1Lucene 2.0, 2.220955.7 Synapse 1.0, 1.1, 1.221225.5Poi 2.5, 3.041364.0Xalan 2.6, 2.784447.3另外, 在数据集中, 每个项目不仅含有工程的源代码, 还统计了源代码的静态代码度量和缺陷注释, 度量方法主要是针对面向对象编程的静态代码度量, 具体的指标内容如表3所示. 这些指标可以用于其他的软件缺陷预测方法, 来和本文模型进行比较.计算机系统应用2021 年 第 30 卷 第 1 期表3 数据集中所使用的20个静态代码度量简写全称LOC Lines of codeDIT Depth of inheritance treeNOC Number of childrenRFC Response for a classCBO Coupling between object classesLCOM Lack of cohesion in methodsLCOM3Lack of cohesion in methodsNPM Number of public methodsDAM Data access metricMOA Measure of aggregationMFA Measure of function abstractionIC Inheritance couplingCAM Cohesion among methods of classCBM Coupling between methodsAMC Average method complexityCa Afferent couplingsCe Efferent couplingsAvg(CC)Average McCabeMax(CC)Maximum McCabeWMC Weighted methods per class4.2 评估指标本文采用AUC[12]和F1-measure[13]这两个指标来评估模型性能, AUC主要用来评估模型的识别缺陷的能力, 而F1-measure主要用来评估模型的稳定性.在二分类的学习预测过程中, 根据分类结果可以将其分为4类: (1)若一个实例为正类且被预测为正类,即为真正类(True Positive, TP); (2)若一个实例为正类但被预测负类, 即为假负类(False Negative, FN); (3)若一个实例为负类但被预测为正类, 即为假正类(False Positive, FP); (4)若一个实例为负类且被预测为负类,即为真负类(True Negative, TN). 基于这4个数据, 可以得到击中概率(TPR)和虚报概率(FPR), 其计算公式如式(1)和式(2)所示:然后以FPR为横轴, TPR为纵轴, 就可以绘制出ROC曲线, 而ROC曲线下的面积就是AUC. 根据AUC的定义, 识别能力更好的模型对应着更高的TPR 和更低的FPR, 所以有AUC值越大的预测方法越好.F1-measure是精确率(P)和召回率(R)的调和平均, 其中精确率和召回率的计算公式如式(3)和式(4)所示:通常情况下, 我们希望精确率越高越好, 召回率也越高越好, 但事实上这两个指标在某些情况下是矛盾的, 而F1-measure则综合考虑了这两个指标. F1-measure 的计算公式如式(5)所示.另外, 用于评估软件缺陷预测模型的指标还有很多, 例如MCC[14]和G-mean[15], MCC考虑所有的有缺陷数据和无缺陷数据来综合评估预测结果和真实结果之间的关系, G-mean是在数据不平衡时十分有参考价值的一个指标, 但因为AUC和F1-measure综合评估了模型的准确性和稳定性, 具有广泛的代表意义.4.3 实验方法为了能够正确估计模型对于软件缺陷预测的性能,将本文提出的模型与以下3种方法进行比较:(1)静态代码度量+逻辑回归(LR): 以数据集中提供的20个静态代码度量作为代码特征, 并用逻辑回归的方法进行分类(2)深度置信网络+逻辑回归(DBN)[2]: 使用深度置信网络从源代码中提取特征, 然后使用逻辑回归的方法进行分类(3)卷积神经网络+逻辑回归(CNN)[4]: 利用单层卷积神经网络对源代码进行特征提取, 然后使用逻辑回归分类器得到分类结果对于传统软件缺陷预测算法, 因为使用的是20个静态代码度量所构成的特征向量, 所以在数据预处理时, 可以使用SMOTE方法进行过采样来处理数据集分类不均衡问题; 而对于DBN、CNN和本文模型, 只能简单地采用随机过采样的方法来对数据进行预处理.本文使用Python环境以及深度学习框架PyTorch 来实现本文提出的模型, 所有的实验均在一台带有NVIDIA GTX 1080的Linux服务器上运行. 此外, 因为随机过采样和丢弃法都具有一定的随机性, 因此实验中每个方法都执行10次, 取平均值来进行模型性能的比较.4.4 实验结果及分析本文采用AUC和F1-measure来比较4种方法在2021 年 第 30 卷 第 1 期计算机系统应用6组预测任务上的性能. 表4和表5分别记录了这4种方法关于AUC和F1-measure的实验结果, 每次测试任务的表现最好的已在表格中加粗.表4 4种方法关于6项测试任务的AUC 训练集测试集LR DBN CNN本文模型Camel 1.4Camel 1.60.5990.6410.6870.709Lucene2.0Lucene2.20.6280.6260.6350.641 Synapse1.0Synapse1.10.6000.6390.5940.646 Synapse1.1Synapse1.20.6370.6970.6220.674Poi2.5Poi3.00.6650.6510.7100.718Xalan2.6Xalan2.70.6510.6830.6750.674平均值0.6300.6560.6540.677表5 4种方法关于6项测试任务的F1-measure 训练集测试集LR DBN CNN本文模型Camel 1.4Camel 1.60.3550.3420.4890.513Lucene2.0Lucene2.20.6110.6660.7090.724 Synapse1.0Synapse1.10.4440.4570.4560.461 Synapse1.1Synapse1.20.4710.4930.4870.473Poi2.5Poi3.00.7070.7160.7560.776Xalan2.6Xalan2.70.6330.6420.6540.681平均值0.5370.5530.5920.605表3和表4分别列出了4种方法关于每个测试任务的AUC值和F1-measure. AUC评估了模型分类的准确性, 而F1-measure评估了模型的稳定性. 从表3和表4中我们可以看到, 总体而言, 本文提出的模型在软件缺陷预测性能方面和模型稳定性明显优于LR、DBN 和CNN的. 而本文模型的AUC和F1-measure的均值也都高于其他方法, 这也证实了本文提出模型的合理性和可行性. 此外, 从两张表中我们可以看出, 相较于传统的软件缺陷预测方法, 应用深度学习方法在软件缺陷预测性能和模型稳定性上都得到一定的提高. 这也证实了, 在软件缺陷预测性能方面, 深度学习方法优于传统的机器学习方法.综上所述, 针对传统软件缺陷预测方法中对源代码语义特征挖掘不足的问题, 本文测试实验结果表明,在软件缺陷预测领域, 相比于传统的预测方法, 应用深度学习方法得到了一定的提高. 而本文也根据前人的工作, 提出了用多层卷积神经网络对基于抽象语法树得到的表征向量进行分类学习, 有效提高了缺陷预测的准确性.5 结束语本文针对传统软件缺陷预测方法应用静态代码度量而忽视代码语义的缺点, 从代码的抽象语法树中提取出向量, 再利用卷积神经网络深度挖掘数据的能力挖掘代码中的语法语义特征, 从而对软件缺陷进行学习分类. 并且, 通过与LR、DBN、MLP方法的实验比较, 由AUC和F1_measure两个指标我们可以看出本文提出的模型在软件缺陷预测性能上得到了一定的提高. 然而, 关于数据集分类不均衡、模型优化等问题,本文的处理方法相对粗糙, 这也是未来需要继续研究的方向.参考文献刘童. 基于机器学习算法的软件缺陷预测技术研究[硕士学位论文]. 武汉: 华中师范大学, 2018.1Wang S, Liu TY, Tan L. Automatically learning semantic features for defect prediction. 2016 IEEE/ACM 38th International Conference on Software Engineering. Austin, TX, USA. 2016. 297–308.2Iqbal A, Aftab S. A classification framework for software defect prediction using multi-filter feature selection technique and MLP. International Journal of Modern Education and Computer Science, 2020, 12(1): 18–25. [doi:10.5815/ijmecs.2020.01.03]3Li J, He PJ, Zhu JM, et al. Software defect prediction via convolutional neural network. 2017 IEEE International Conference on Software Quality, Reliability and Security.Prague, Czech Republic. 2017. 318–328.4Chawla NV, Bowyer KW, Hall LO, et al. SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 2002, 16(1): 321–357.5Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, Inception-ResNet and the impact of residual connections on learning. Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, CA, USA. 2017.4278–4284.6Tang PJ, Wang HL, Kwong S. G-MS2F: GoogLeNet based multi-stage feature fusion of deep CNN for scene recognition. Neurocomputing, 2017, 225: 188–197. [doi: 10.1016/j.neucom.2016.11.023]7Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality. Proceedings of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY, USA. 2013. 3111–3119.8Ba LJ, Frey B. Adaptive dropout for training deep neural 9计算机系统应用2021 年 第 30 卷 第 1 期。
模糊C均值聚类算法的优化与应用研究
模糊C均值聚类算法的优化与应用研究近年来,随着大数据和人工智能技术在各行业的广泛应用,聚类算法作为一种重要的无监督学习方法,被广泛应用于数据挖掘、图像识别、模式识别等领域。
在众多聚类算法中,模糊C均值聚类算法(FCM)因其简单易实现、适用范围广等特点而备受关注。
然而,FCM算法在处理较大数据量、较高维度数据时,聚类结果模糊度高、计算复杂度大等问题也日益凸显。
本文将从模糊C均值聚类算法的原理入手,探讨了几种优化方法并进行实验验证,分析其在实际应用中的效果。
一、模糊C均值聚类算法原理模糊C均值聚类算法是基于向量量化(Vector Quantization)原理的一种聚类算法。
旨在给定数据集将其中的数据分成k个不同的簇。
其主要思想是通过计算数据点到各簇中心的距离,来确定一个数据点可能属于各个簇的概率值,从而获得各数据点所属簇的隶属度矩阵,以此反复迭代更新簇中心和隶属度矩阵,最终达到聚类的目的。
具体来说,设原始数据集为$X=\{x_1,x_2,……,x_n\}$,要将其分成k个簇,每个簇的质心为$V=\{v_1,v_2,……,v_k\}$。
根据数据点x到簇质心$V_j$的距离,定义出数据点x属于簇j的隶属度$U_{ij}$: $$U_{ij}=\frac{1}{\sum_{k=1}^k(\frac{||x_i−v_j||}{||x_i−v_k||})^{\frac {2}{m−1}}}$$其中,m为模糊指数,$||·||$表示欧式距离。
在U矩阵和V矩阵确定之后,对于一个新的数据点x,将其划分到隶属度最大的簇中。
反复迭代更新U矩阵和V矩阵,直到收敛为止。
二、模糊C均值聚类算法的问题尽管模糊C均值聚类算法的原理较为简单,但其在实际应用中仍存在一些问题。
本节将主要讨论FCM算法可能遇到的两大问题:聚类结果模糊度高和计算复杂度大。
1.聚类结果模糊度高FCM算法的隶属度矩阵U的值为[0,1]之间的实数,因此一个数据点不属于任何一个簇的概率不为0.这就导致FCM算法的聚类结果模糊度高,无法唯一确定每个数据点的簇归属。
Frangi滤波器和模糊C均值算法相结合的织物瑕疵检测
Frangi滤波器和模糊C均值算法相结合的织物瑕疵检测张缓缓;李仁忠;景军锋;李鹏飞;赵娟【摘要】为解决织物瑕疵自动检测问题,提出一种基于Frangi滤波器和模糊C均值算法(FCM)相结合的织物瑕疵检测方法.首先采用均值下采样方法对采集的织物图像进行预处理,以减少织物背景纹理信息对织物瑕疵检测产生的影响;然后通过Frangi滤波器滤波增强织物的瑕疵区域;最后利用FCM处理滤波后的图像,确定织物瑕疵区域的像素和非瑕疵区域像素的聚类中心,并分割出瑕疵区域和非瑕疵区域.结果表明,本文方法检测织物瑕疵种类较多,分割效果较好.与其他方法相比,本文提出的算法利用聚类思想对织物疵点进行分割,无需利用正常织物图像进行阈值计算;另外经过滤波后疵点信息明显增强,使得疵点信息与纹理明显不同,从而使聚类更为准确,增加了检测的准确度.【期刊名称】《纺织学报》【年(卷),期】2015(036)009【总页数】5页(P120-124)【关键词】疵点检测;织物疵点;Frangi滤波器;模糊C均值聚类算法【作者】张缓缓;李仁忠;景军锋;李鹏飞;赵娟【作者单位】西安工程大学电子信息学院,陕西西安710048;西安理工大学自动化与信息工程学院,陕西西安710048;西安工程大学电子信息学院,陕西西安710048;西安工程大学电子信息学院,陕西西安710048;西安工程大学电子信息学院,陕西西安710048;西安工程大学电子信息学院,陕西西安710048【正文语种】中文【中图分类】TP391织物瑕疵的出现很大程度影响着织物质量和纺织企业的经济效益,因此织物的质量检测在纺织行业中占重要地位。
据统计,织物瑕疵对织物销售价格有很大的影响,致使其价格降低45%~65%,严重影响了企业的利润[1]。
目前国内许多企业对织物瑕疵检测的方法落后,检测率低且准确度不高[2-3]。
此外,织物瑕疵种类繁多、形状各异,这更给准确检测织物的瑕疵提出了挑战。
为了适应现代化企业生产的需求,解决传统织物疵点检测方法速度慢,准确率低等缺点, 进一步提高企业的利润,急需开发更先进更智能化的疵点检测方法。
软件缺陷预测模型及其应用研究
软件缺陷预测模型及其应用研究近年来,软件开发产业迅猛发展,软件已经成为了现代社会的一个重要组成部分。
然而,软件开发过程中难免会出现各种各样的缺陷。
因此,研究和预测软件缺陷的模型也变得非常重要。
软件缺陷预测模型简介软件缺陷预测模型是一种通过数据挖掘技术从已知缺陷数据中提取特征,预测未知数据中缺陷的方法。
它可以帮助软件开发人员及时发现潜在的问题,提高软件质量,减小软件维护成本。
软件缺陷预测模型的分类目前,软件缺陷预测模型被分为三类:基于统计的模型、基于机器学习的模型和基于数据挖掘的模型。
基于统计的模型使用统计分析方法预测软件缺陷,根据历史软件缺陷的数据,通过统计方法分析提取出对软件缺陷具有显著影响的关键因素,并建立相应的数学模型。
基于机器学习的模型则是通过学习历史数据中的模式来进行预测,需要结合实际情况选择不同的算法进行训练和预测。
基于数据挖掘的模型则是综合了统计和机器学习的特点,通过数据挖掘技术挖掘具有潜在价值的数据模式,从而提高预测精度。
软件缺陷预测模型的应用软件缺陷预测模型已经广泛应用于软件工程领域。
下面介绍几种常见的应用:1. 软件测试软件测试是预防和缓解软件缺陷的重要手段之一。
软件缺陷预测模型可以在测试前预测软件缺陷的位置和数量,帮助测试人员有针对性地进行测试,并及时找出缺陷,提高测试的效率。
2. 软件维护在软件的维护过程中,软件缺陷预测模型可以帮助开发人员及时识别潜在的缺陷,通过提高软件质量降低维护成本。
此外,软件开发人员还可以使用缺陷预测模型为维护工作指定优先级,处理更加紧急和关键的缺陷。
3. 质量控制软件缺陷预测模型还可以应用于软件质量管理中的控制过程。
通过预测软件缺陷,开发人员可以及时采取措施来改善软件质量,使得软件的整体性能得到改进。
结语软件缺陷预测模型是软件工程领域的一个重要研究方向。
它可以帮助开发人员提高软件质量、减少维护成本、提高软件的可用性和可靠性,一定程度上解决了软件开发中普遍存在的问题。
模糊c均值聚类综述
模糊c均值聚类综述
模糊C均值聚类是一种常用的模糊聚类方法,它通过将数据
样本划分到不同的聚类中心来进行聚类。
模糊C均值聚类是
基于隶属度的聚类方法,每个数据样本都会被分配一个隶属度,表示其属于不同聚类的可能性。
模糊C均值聚类与传统的C均值聚类相比,具有以下几个特点:
1. 聚类结果更加灵活:传统的C均值聚类中,每个样本只能
属于一个聚类中心,而模糊C均值聚类中,每个样本可以属
于多个聚类中心,且有不同的隶属度。
这样的聚类结果更加灵活,更能反映数据的复杂性。
2. 对噪声和异常值具有鲁棒性:由于模糊C均值聚类考虑了
每个数据样本到每个聚类中心的隶属度,它对于噪声和异常值具有一定的鲁棒性。
即使有些样本与其他样本差异较大,仍然可以被分配到一个合适的聚类中心。
3. 聚类结果更加复杂:模糊C均值聚类可以生成具有不同隶
属度的样本,因此可以生成更加复杂的聚类结果。
聚类结果中的每个样本都可以被认为是属于多个聚类中心的,这有助于捕获数据中的潜在特征和结构。
4. 隶属度的确定:模糊C均值聚类中,隶属度的确定是一个
重要的问题。
常用的方法包括根据样本之间的距离计算隶属度,或根据聚类中心之间的距离计算隶属度。
这些方法都涉及到一
个隶属度的计算公式,可以根据具体的问题和数据特征进行选择。
总的来说,模糊C均值聚类是一种重要的模糊聚类方法,它在聚类结果的灵活性、鲁棒性和复杂性方面具有优势。
在实际应用中,可以根据具体的问题和数据特征选择合适的模糊C 均值聚类方法,并且对隶属度的确定进行适当的调整和优化。
一种改进的模糊C均值算法在入侵检测中的应用
据对象的隶属度表明了这个数 据对象隶 属于这 个类 的程度 ; 同 时 , 聚类 中心 的更新 中, 在 隶属度 也显 示了每个 数据 对象 对新 的
聚类 中心的调整中的贡献 的程 度 。然 而 , 由于生成 的隶属 度 是相对数量 , 它们很 可能在某 些应用 中是不适合 的。因此使 用 这些隶属度计算得到的聚类 中心很可能不是所期望的。假如有
的安全机制 ( 括机 密性 、 包 完整 性 、 可用性 ) 的行为 u 。对入 侵
度一个加权值 , 来减少孤立点对聚类中心的影响 , 进而达 到改 进 聚类 分析的结果 , 增强入侵检测的检测率 , 降低误检率 。 在模 糊 C均值算法中 , 数据对象 的属 于某个特定 类 的隶 属
的模糊隶属度对 聚类 中心的影 响来进行改进 。通过 给模糊隶 属
0 引 言
随着全球互 联网的飞速发展人 们必须面对脆弱的网络所带 来 的巨大安全隐患 , 入侵检测 便成 了网络 安全 中一个 重要并 且 很 活跃 的研究领域 。怎样建立 有效 的入 侵检 测模 型已经成 为网 络安全 专家们研 究的重要课题 。入侵是对信息系统的非授权访 问及( ) 或 未经许可在信 息系统 中进行操作 , 威胁计算 机或网 络
n 这里 n指聚类 的数 目, , 那么它就 可能会 引起一个 不期望 的聚 类结果 。因此本 文对 F M算法进行 了改进 : C 假设给定数据集 X= ,: … , } 模糊 C均值 算法 把 n , ,
个数据集对象划分为 c 子类 , 个 并给每 一个子类 定义 一个 聚类
第2 9卷 第 2期
21 0 2年 2月
基于改进遗传算法的模糊C均值聚类算法
基于改进遗传算法的模糊C均值聚类算法
董军浪;王庆飞
【期刊名称】《西安工程大学学报》
【年(卷),期】2008(022)005
【摘要】针对传统模糊C均值聚类算法(FCM)的缺陷,提出了一种基于改进遗传算法的模糊聚类方法.利用改进遗传算法强大的全局寻优能力,这种算法较好地克服了FCM算法对初始化敏感、容易陷入局部最优的缺陷.仿真实验证明,该算法具有较强的全局寻优能力和较快的收敛速度.
【总页数】5页(P605-609)
【作者】董军浪;王庆飞
【作者单位】西安工程大学科技处,陕西,西安,710048;西安工程大学,理学院,陕西,西安,710048
【正文语种】中文
【中图分类】TP183
【相关文献】
1.基于免疫遗传算法的模糊C均值聚类算法应用研究 [J], 李鹏松;石卓;刘欣
2.模糊C均值聚类图像分割的改进遗传算法研究 [J], 杨凯;蒋华伟
3.基于改进遗传算法的加权模糊C均值聚类算法 [J], 李同强;周天弋;吴斌
4.基于改进遗传算法的加权模糊C均值聚类算法 [J], 李同强;周天弋;吴斌
5.基于遗传算法和模糊C均值聚类的WSN分簇路由算法 [J], 董发志;丁洪伟;杨志军;熊成彪;张颖婕
因版权原因,仅展示原文概要,查看原文内容请购买。
江苏科技大学第十九届青教师学术研讨会
江苏科技大学第十九届青年教师学术研讨会优秀论文目录1、海洋供应船的多学科协同优化设计*******************李冬琴尧达辉莫涛张洁2、基于GiD的单元划分在边界元法中的应用********************************刘珍3、Crush behavior of metallic sandwich panels with corrugated cores**************************************************张延昌LIU Kun ZHANG Shi-lian4、128m打桩船桩架结构强度分析**********************************周礼军汪宏5、考虑桩-土-锤相互影响的桩基瞬态动力响应**********************田阿利尹晓春6、基于自锁滚子的蠕动式微位移机构机理分析与运动仿真**田桂中曹文浩高云川7、基于自适应扩展Kalman粒子滤波器的实时漂移补偿方法****************戴晓强8、TCP中的RTT不公平性分析************************************姜文刚李建华9、基于混沌自适应粒子群算法的雷达组网优化部署*************************王敏10、基于改进PF算法的水下目标被动定位研究****************************王彪11、基于层次分析法的船舶电力系统风险评估**********************薛文涛季德丰12、可调桨实验系统研制**********************************张永林李彦王卫东13、基于改进广义回归神经网络和主成分分析的宽带DOA估计*************张贞凯14、费用粘性是否影响了企业的债务融资?——基于货币政策变更的考察***马文超15、基于设计结构矩阵的复杂产品供应链管理优化**************************徐兰16、一类非线性热弹性耦合系统的解的局部存在性**************************孟义平17、基于数字量化器的π+稀有衰变精确测量分析****************************王颖18、Sn在Fe晶界的偏析及其对Fe的d电子数与晶界结合的影响***********杨卫国19、稀土成核剂对聚乳酸结晶行为和热性能的影响**********张竞吴建邹俊20、不锈钢穿孔等离子弧焊热源模型的探讨*********胡庆贤王晓丽王顺尧武传松21、大学创业文化的兴起***************************************************崔艳丽22、一种核对称散布矩阵空间的特征抽取方法**********************段旭高尚23、基于加权范数的多维时间序列相似性研究******************************郭小芳24、基于模糊C均值聚类的方向自适应滤波算法************秦斌高尚于化龙25、基于距离比上下文的形状描述与识别方法******************************束鑫26、基于相似关系的不完备多粒度粗糙集***********王丽娟杨习贝杨静宇吴陈27、一种基于改进二值模式特征的人脸检测算法************左欣左景龙秦斌28、基于过采样技术和随机森林的不平衡微阵列数据分类方法******于化龙秦斌29、Sub-cellular Localization of High Metastatic Potential C3orf1 Gene in Cell Line 95D of Human Lung Cancer************闻燕Huan Lv Qi Chen Ming-Zhu Jiang Hui Yan30、4-氨基吡啶催化6-烷氧基取代嘌呤衍生物的合成***************************************************陆鸿飞武鼎铭孙垒垒高玉华31、A novel mild route to hausmannite Mn3O4 nanocubes at room temperature and its catalytic performance************张俊豪HongliangWang JiaolongWang ZhaokunQu32、氧化铝模板法控制合成一维梯度直径铋纳米线**叶琳张晓光袁志好徐丽萍33、基于截面数据模型的地级以上城市规模产出效应研究***********张友志顾红春34、Displacement-based Design for RC Bridge Columns Based on Chinese Code**********************************************************************周道传35、Visualization Research on Heat Pipe Radiator in Cooling Electronic Apparatus with High Heat Flux **********************赵忠超Ye Rui CHEN Yuping ZHOU Genming36、船舶机舱通风与结构对其火灾特性的作用研究******************王亮苏石川37、舰船设备基座振动特性的有限元分析***********************************方媛媛38、工业化、城市化和城乡商贸流通一体化*********************************汤向俊39、分工、专业化与产业组织演进:一个理论分析模型*********************张国强40、对我国出口退税政策实际效果的再思考:理论与经验************严雷刘晴41、断裂还是连续?——后现代主义之下的总体性批判理论的建构**********周远全42、略论近代中国知识分子的民族主义思想*************************张学玲孙云43、朝鲜战争中“有限战争”战略对美国冷战政策及其以后其他局部战争的影响***************************************************************************王小强44、拓展训练对群体凝聚力影响的实验研究*****************赵泽霖杜彬彬韩文民45、钱钟书《槐聚诗存》七绝对仗之研究**********************************卢一飞46、嵌入式协商——美国地方协商民主的经验与启示************************陆海燕47、产业集群内企业社会资本投资演化博弈分析*******************崔祥民梅强48、大学生英语双元音产出的实验研究*****************************陈红周卫京49、反义词对在非母语语料库和母语语料库共现现象的研究*****************韩菁菁50、Backwash of Internet-based CET-4 Listening Subtest--Impact on College English Listening Instruction********************************************************何享51、论《汤姆·琼斯》的现实主义写作风格*********************************胡继云52、二语习得理论在英语口语教学中的实证研究****************************纪晓丽53、多媒体语境下英语语法多模态教学模式的构建**************************秦永丽54、英语教学中的积极课堂心理气氛及其构建途径**************************王栋55、人际关系的异化——试析琼·狄第恩的《顺其自然》*******************王丽霞56、毛诗典故翻译中召唤结构的再创造*************************************夏惠君57、中国古典诗歌中的隐喻翻译********************************************尹周红58、论巴赫金“复调理论”对英语专业基础阶段课堂教学的启示*************朱莹59、高校课外体育俱乐部资源的界定与开发********************************裘进60、社会体育专业学生职业生涯规划研究***********************************贾儒61、江苏科技大学学生体育锻炼与自我效能感的调查分析*******************张伟62、Primary characterization of the sumo gene from Bombyx mor i******唐旭东沈中元63、家蚕马氏管免疫相关基因的研究*唐顺明丁丽平吴俊王娜裘智勇沈兴家64、云斑天牛纤维素酶Ⅱ基因的克隆、分析及转基因载体在BmN细胞中的检验*******************************************夏定国张国政赵巧玲韦亚东张业顺65、江苏省2007—2009年社会发展水平研究和对策分析********************黄雪丽66、气候变化对中国小麦潜在适宜种植区分布的影响************************周卫红67、基于SD模型的合作创新全过程知识产权风险控制研究*****************周园68、一种基于ZigBee的温度采集节点的设计********************************汪燕69、基于BP神经网络的企业ERP应用绩效评价的实证分析*****************易锦燕70、大学生心理健康教育教学内容与教学方法改革研究*********************安岭71、基于Java ME-Web服务的教务师生移动查询系统研究*******************刘嘎琼72、浅谈“卓越计划”下大学英语写作教学改革*******************************阎海英73、江苏省大学生体育安全的影响因素调查*************************孙利亚徐军艳74、基于空间相互作用的环城游憩带研究***********************************施然75、Effects of Dy2O3 Additives inYBa2Cu3O7-δ on the Critical Current Density*******************************************************************徐胜Y. N. Gu76、焦炉煤气重整制氢Ni基催化剂性能研究**********************杨志彬丁伟中77、Geometric entropy of nilpotent group actionson local dendrites**************王苏华78、智能空间下机器人环境建模中的非线性最优视觉标定***************************************************申燚胡海秀孙小肖丁前闯79、顶吹转炉炼钢法冶炼历程分析*****************************************卓伟伟80、三分支机器人最小范数逆解算法研究***********洪磊王琪袁明新张鹏81、基于概念特征获取的中文多文档文摘生成机制**********卢冶苏勇须磊82、多校区多分馆模式下典藏工作中复本的判定与处理*********************孙玉鹏83、科研质量体系视角下的高校科研团队建设模式**************************张志生。
模糊C均值聚类算法及实现
模糊C均值聚类算法及实现摘要:模糊聚类是一种重要数据分析和建模的无监督方法。
本文对模糊聚类进行了概述,从理论和实验方面研究了模糊c均值聚类算法,并对该算法的优点及存在的问题进行了分析。
该算法设计简单,应用范围广,但仍存在容易陷入局部极值点等问题,还需要进一步研究。
关键词:模糊c均值算法;模糊聚类;聚类分析Fuzzy c-Means Clustering Algorithm and ImplementationAbstract: Fuzzy clustering is a powerful unsupervised method for the analysis of data and construction of models.This paper presents an overview of fuzzy clustering and do some study of fuzzy c-means clustering algorithm in terms of theory and experiment.This algorithm is simple in design,can be widely used,but there are still some problems in it,and therefore,it is necessary to be studied further.Key words: fuzzy c-Mean algorithm;fuzzy clustering;clustering analysis1 引言20世纪90年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量的数据。
但是,面对大规模的数据,传统的数据分析工具只能进行一些表层的处理,比如查询、统计等,而不能获得数据之间的内在关系和隐含的信息。
为了摆脱“数据丰富,知识贫乏”的困境,人们迫切需要一种能够智能地、自动地把数据转换成有用信息和知识的技术和工具,这种对强有力数据分析工具的迫切需求使得数据挖掘技术应运而生。
基于改进模糊C均值聚类算法的乙烯裂解原料识别
法 只 包 含 均 值 中心 ,带 来 聚 类 效 果 的单 一 性 。为 了 充 分 利 用 裂 解 原 料 的 有 效 信 息 ,提 出 了 基 于 混 合 概 率 模 型 的
模 糊 隶 属 度 设 置 方 法 ,即 通 过 建 立 混 合 高 斯 模 型 实 现 对 聚 类 样 本 隶 属 关 系 的概 率 分 布 描 述 ,并 利 用 E M 算 法 பைடு நூலகம் 行 模 型 参 数 的极 大 似 然 估 计 。该 算 法 可 在 考 虑样 本 均 值 中 心 的前 提 下 ,进 一 步 有 效 利 用 样 本 协 方 差 与 权 重 系 数 信 息 进 行 模 式 判 别 。最 后 , 以经 典 I R I S数 据 聚 类 、 乙烯 裂 解 原 料 识 别 为 仿 真 实 例 ,验 证 了本 文所 述方 法 在 Du n n
Ea s t C h i n a Un i v e r s i t y 0 厂S c i e n c e a n d Te c h n o l o g y, S h a n g h ai 2 0 0 2 3 7 , Ch i n a )
Ab s t r a c t :I n e t hy l e ne c r a c k i ng pr o c e s s, t he c ha ng e s of f e e d ha v e ma ny ki n ds, a nd d ue t o i t s e xp e ns i v e
常见的缺陷预测模型:优化过程和机器学习技术的比较
常见的缺陷预测模型:优化过程和机器学习技术的比较缺陷预测模型可以帮助软件开发商在软件开发过程中及时发现和解决可能存在的缺陷,降低软件质量问题带来的风险和损失。
目前常用的缺陷预测模型主要包括优化过程和机器学习技术两种。
优化过程是一种基于统计学分析和数据挖掘的预测方法,其核心思路是通过对历史缺陷数据的分析,建立统计模型和规则来预测未来可能的缺陷。
优化过程的优点在于理论基础较为完善,不需要太多的计算资源和数据量,可以很好地解决数据缺失和不均衡的问题。
常见的优化过程模型包括Pareto分析、贝叶斯预测和退化分析等。
其中,Pareto分析通常用于确定造成缺陷的主要原因,贝叶斯预测则更多地被应用于软件实验室缺陷预测中。
退化分析则是一种对软件产品缺陷密度的变化进行分析和控制的方法。
但是,优化过程模型也存在一些缺陷。
首先,优化过程模型需要大量的专业领域知识,并且建立过程也非常耗时,需要较长时间才能看到结果。
其次,由于这种模型是基于过去数据的预测,因此在新的软件环境或新的数据集上的预测效果可能不佳。
最后,优化过程的模型也较为复杂,需要专业研究人员对其进行维护和更新。
机器学习技术因其智能化、自适应的特点,逐渐成为缺陷预测模型中的主流技术之一。
机器学习可以通过数据训练,自动优化算法模型,提高预测精度和准确性。
目前,机器学习技术已经广泛应用于各个领域,其中缺陷预测也是其中之一。
机器学习技术可以分为监督学习和无监督学习两种方式。
监督学习需要明确的训练集和测试集,并根据训练集对算法模型进行优化,在测试集上进行预测。
无监督学习则没有明确的训练集和测试集,其算法模型可以自动从数据中识别出特征模式并进行预测。
机器学习缺陷预测模型的优点主要在于,由于其自学习能力,可以很好地解决数据缺失和数据不均衡的问题,适用于不同规模、不同类型的软件系统缺陷预测。
其次,机器学习技术在很多领域中都具有良好的预测能力,可以自适应地优化算法模型,提高预测精度和准确性。
光伏发电用干式变压器设计要点
光伏发电用干式变压器设计要点发布时间:2021-04-28T10:48:56.417Z 来源:《电力设备》2020年第33期作者:莫向松1 张军海2 叶晓锋3 彭丽霞4[导读] 摘要:在本文研究工作过程中,重点针对光伏发电所使用的干式变压器设计工作进行了相关分析和研究,重点提出光伏逆变器电路构成的特点,直流偏磁所产生的影响以及光伏发电所使用的干式变压器设计工作要点等多方面内容,充分发挥出干式变压器的工作性能和优势,提高光伏发电工作的质量和稳定性,为社会的发展提供出更加充足的电力资源,实现电力供电单位的更高经济效益和社会效益。
(广州市一变电气设备有限公司广东省广州市 511450)摘要:在本文研究工作过程中,重点针对光伏发电所使用的干式变压器设计工作进行了相关分析和研究,重点提出光伏逆变器电路构成的特点,直流偏磁所产生的影响以及光伏发电所使用的干式变压器设计工作要点等多方面内容,充分发挥出干式变压器的工作性能和优势,提高光伏发电工作的质量和稳定性,为社会的发展提供出更加充足的电力资源,实现电力供电单位的更高经济效益和社会效益。
关键词:光伏发电;干式变压器;设计要点现阶段,人类活动对各种能源的消耗量不断加大,不可再生性资源的储存量越来越少,因此人类的发展急需更多可再生性清洁资源来进行供应。
光伏发电作为一种清洁性较高,同时可再生性能源,受到了世界上各个国家的广泛关注和重视,并且我国各个地区正在大力发展光伏发电工作,尤其在我国一些光照时间和光照强度相对较高的地区,通过光伏发电所表现出的发电效率和经济效益非常明显。
1.直流偏磁影响和设计分析光伏逆变器设备通常情况下使用的是PWM逆变电路结构,逆变输出为PWM脉冲波。
从理论角度上进行分析不存在直流分量,但是在实际运行工作当中波形,通常情况下属于不对称式结构形式,产生这一问题的主要原因分为以下几个方面:首先,逆变器设备当中个桥臂阀体结构在工作过程中的导通饱和量和压降参数会存在一定的差异性,在断开工作条件下的储存时间间隔有所不同,同时在整个输出电压波形的正负幅值方面也存在一定的差异。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基 于 改进 模 糊 C均 值 的软 件缺 陷预 测 研 究
张 焯 , 徐 玲 , 杨 丹
ZHAN G Zh u o ’ , XU Li n g , YANG Da n
摘
要: 软 件 缺 陷预 测 用 来预 测 软 件 系统 各 个 模 块 中是 否存 在 B UG。传 统 的软 件 缺 陷预 测 技 术 研 究 主 要 局 限在 有
监督 方法上 , 这 类方法需要 大量 的 已标 注数据 进行训 练, 但 在X - 程 实际中, 这 类标签数据 不易获取 。提 出了一种 结 合模 拟退 火和 遗传算法 的改进模糊 c均值 算法 , 以解 决模 糊 C均值 容 易受初始 聚类 中心影响 而收敛到局部最优 的 缺 陷。实验结 果表 明提 出的方法在软件缺 陷预测 中具备 高鲁棒性和较 高预测精度。 关键词 : 软件缺 陷预 测; 模糊 C均值 ; 模拟退 火; 遗传算法; 无监督 文献标志码: A 中图分类号 : T P 3 1 1 d o i : 1 0 . 3 7 7 8  ̄ . i s s n . 1 0 0 2 。 8 3 3 1 . 1 3 0 5 . 0 2 6 3
Co mp u t e r En g i n e e r i n g a n d Ap p l i c a t i o n s , 2 0 1 5 , 5 1 ( 7 ) : 1 3 6 - 1 4 0 .
Abs t r a c t :S o twa f r e d e f e c t p r e d i c t i o n i S t o p r e d i c t whe t h e r t h e r e i S a b u g i n a s o twa f r e s y s t e m mo d ul e . Tr a d i t i o n a l r e s e a r c h e s o n S O twa f r e d e f e c t p r e d i c t i o n ma i n l y f o C U S o n s u p e r v i s e d me t ho d . Thi s t y pe o f me t ho d n e e d s a 1 o t o f i n s t a n c e s wi t h l a b e l s a s t h e t r a i n i n g s e t . Ho we v e r , i n e n g i n e e r i n g p r a c t i c e ,t he i n s t a n c e s wi t h l a be l s a r e d i ic f u l t t o o b t a i n. Th i s p a p e r p r o p o s e s a n i mp r o v e d f u z z y C— me a ns a l g o r i t h m ,c o mbi n i n g s i mul a t e d a n n e a l i n g a n d g e n e t i c a l g o r i t h m ,t o s o l v e t h e d e f e c t t h a t f u z z y C. me a ns i S e a s i l y a f f e c t e d b y t h e i n i t i a l c l us t e r c e n t e r s . T he e x p e r i me n t a l r e s u l t s s h o w t h a t t h e p r o p o s e d me t h o d h a s h i g h r o b us t n e s s a n d a c c u r a c y o n s o twa f r e d e f e c t p r e d i c t i o n . Ke y wo r d s :s o tw a f r e d e f e c t p r e d i c t i o n; f u z z y C— me a n s ; s i mu l a t e d a n n e a l i n g ; g e n e t i c a l g o r i t h m; u n s u p e r vi s学院 , 重庆 4 0 0 0 4 4 2 . 重庆大学 软件学院 , 重庆 4 0 0 0 4 4
1 . Co l l e g e o f Ma t h e ma t i c s a n d S t a t i s t i c s , Ch o n g q i n g Uni v e r s i t y , Ch o n g q i n g 4 0 0 0 4 4 , Ch i na
2 . Co l l e g e o f S o tw a f r e En g i n e e r i n g , Cho n g q i n g Un i ve r s i t y , Ch o ng q i n g 40 0 0 4 4, Ch i n a
ZHA NG Zh uo , X U Li ng ,YAN G Da n. Re s e ar c h o n s o f t wa r e d e f e c t pr e d i c t i on ba s e d o n i m pr o v e d f u z z y C- me a ns .