一种基于随机游走模型的多标签分类算法_郑伟
3a算法原理
3a算法原理
3a算法原理是一种基于图论的半监督学习算法。
该算法的核心思想是将节点分为已标记节点和未标记节点,通过已标记节点的标签信息,推断未标记节点的标签。
具体步骤如下:
1. 构建相似图:对给定的数据样本,首先计算出它们之间的相似度。
常用的相似度度量方法有欧氏距离、余弦相似度等。
然后将相似度作为边的权重,构建一个相似图。
2. 初始化标签:根据已知的标记信息,将已标记节点上的标签作为初始标签。
未标记节点的标签则初始化为0。
3. 传播标签:采用随机游走的方式,通过已标记节点的标签信息传播到未标记节点。
具体而言,对于每个未标记节点,将其通过邻居节点的标签信息进行加权平均,得到一个新的标签。
通过多次迭代,不断更新未标记节点的标签。
4. 输出结果:当迭代收敛后,即节点的标签不再发生变化时,算法停止迭代。
最终输出节点的标签作为算法的结果。
3a算法的核心思想是通过已有的标记信息,将标签信息传递到未标记节点,以实现对未标记节点的标签推断。
它在半监督学习中有广泛的应用,尤其在节点分类、社区发现等领域取得了很好的效果。
一种基于随机游走的多维数据推荐算法
L I F a n g a L I Y o n g - j i n 2
( S c h o ol o f Co mp u t e r , Hu b e i I n s t i t u t e o f Te c h n o l o g y, Hu a n g s hi 4 3 5 0 0 0, Ch i n a )
( Sc h ol o f o mp C u t e r ci S e n c e , Na t i o n a l Un i v e r s i t y o f De f e ns e Te c h n o l o g y, Ch a n g s h a 4 1 0 0 7 3 , Ch i n a ) 。
c o mme n d e r a l g o r i t h m. F i r s t , t h i s p a p e r b u i l t a mu l t i d i me n s i o n a l r e c o mme n d e r s y s t e m mo d e l u s i n g u s e r s ’c o n t e x t , 8 e -
基于内容的推荐方法对用户以前访问过的商品进行分析并将与其相似的未知商品推荐给用户这种方法主要是对商品的资料如大小类别生产商等进行分析然后将未知的商品与之比较以发现相似的商品4
第4 O 卷
2 0 1 3年 1 1 月
第1 1 期
计
算
机
科
学
ቤተ መጻሕፍቲ ባይዱ
Co mp u t e r S c i e n c e
Vo 1 . 4 0 NO . 1 1 Nov 2 01 3
一
种 基 于 随机 游 走 的 多维 数 据 推 荐算 法
一种基于N-grams的多标签分类方法及装置[发明专利]
专利名称:一种基于N-grams的多标签分类方法及装置专利类型:发明专利
发明人:梁潇,安宁钰,张强,郑晓崑,吴宁,邹云峰,徐超
申请号:CN202010550466.4
申请日:20200616
公开号:CN111709475A
公开日:
20200925
专利内容由知识产权出版社提供
摘要:本申请提供的一种基于N‑grams的多标签分类方法及装置,该方法包括:获取待分类对象中的分类要素,并根据分类要素确定待分类对象对应的标签,构成标签集合;采用N‑grams模型对标签集合中所有的标签进行排序,生成标签序列;根据标签序列构建分类器链;根据分类器链对待分类对象进行分类,生成分类结果。
上述方案提供的基于N‑grams的多标签分类方法,通过采用
N‑grams模型对标签集合中所有的标签进行排序,并按照标签的排序构建分类器链,以获得分类效果较好的分类器链,从而提高了分类结果的准确性。
申请人:全球能源互联网研究院有限公司,国网江苏省电力有限公司营销服务中心,国家电网有限公司
地址:102209 北京市昌平区未来科技城滨河大道18号
国籍:CN
代理机构:北京三聚阳光知识产权代理有限公司
代理人:胡晓静
更多信息请下载全文后查看。
一种基于聚类算法的多特征数据分类识别方法[发明专利]
专利名称:一种基于聚类算法的多特征数据分类识别方法专利类型:发明专利
发明人:魏乐,姚伟,徐珮宸,田琪林
申请号:CN201810967775.4
申请日:20180823
公开号:CN109214440A
公开日:
20190115
专利内容由知识产权出版社提供
摘要:一种基于聚类算法的多特征数据分类识别方法,所述方法首先计算多维数据中任意两维特征数值之间的离散度准则函数值,再通过比较各离散度准则函数值的大小提取出能代表待分类数据的二维主特征,然后将待分类的多特征数据转换成仅包含主特征的二维数据;最后采用聚类算法对降维后的二维数据进行分类,从而实现对原多特征数据的准确分类识别。
本发明采用聚类算法对多特征数据进行分类,并在分类前首先对数据进行降维处理,使之仅包含能代表待分类数据的二维主特征,从而消除了多维数据中无效信息对分类造成的不良影响,大大提高了多特征数据分类识别的准确性。
申请人:华北电力大学(保定)
地址:071003 河北省保定市永华北大街619号
国籍:CN
代理机构:石家庄冀科专利商标事务所有限公司
更多信息请下载全文后查看。
随机游走、基于分布式系统的随机游走方法、装置以及设备[发明专利]
专利名称:随机游走、基于分布式系统的随机游走方法、装置以及设备
专利类型:发明专利
发明人:曹绍升,杨新星,周俊
申请号:CN201711061117.0
申请日:20171102
公开号:CN108021610A
公开日:
20180511
专利内容由知识产权出版社提供
摘要:本说明书实施例公开了随机游走、基于分布式系统的随机游走方法、装置以及设备,方案包括:获取根据图数据包含的各节点的信息生成的结构体数组,结构体数组中的结构体包含对应节点的标识,以及该对应节点的相邻节点的标识,进而根据结构体数组,生成随机序列,从而实现在图数据中的随机游走。
申请人:阿里巴巴集团控股有限公司
地址:英属开曼群岛大开曼资本大厦一座四层847号邮箱
国籍:KY
代理机构:北京晋德允升知识产权代理有限公司
代理人:杨移
更多信息请下载全文后查看。
随机游走模型在生态学中的应用
随机游走模型在生态学中的应用随机游走模型是一种基于概率的模型,它可以用于解决许多复杂的生态学问题。
该模型的基本思想是,通过随机、无序的运动来描述物种或个体在空间和时间上的分布变化。
这种方法不仅能够模拟物种的扩散和迁移,还可以预测种群未来的变化趋势。
在本文中,将探讨随机游走模型在生态学中的应用及其价值。
随机游走模型简介随机游走模型是一种基于概率的模型,它通常用于描述物理、数学、生物和经济等领域的随机过程。
在生态学中,随机游走模型可用于模拟物种或个体在时间和空间上的扩散和分布变化。
在该模型中,物种或个体在空间中的位置是随机变量,其移动方向和距离是由概率分布决定的。
随机游走模型有许多变种和扩展,其中最常见的是简单随机游走模型(SRW)和随机移动模型(RMM)。
SRW假设物种或个体在每个时间步骤中以相同的概率随机移动到相邻的位置。
这种模型比较简单,但其结果通常无法预测物种在未来的扩散趋势。
相比之下,RMM引入了个体的生理特征和环境因素,考虑了许多影响个体移动的因素。
因此,它更符合实际情况,并可以进行更复杂的预测和分析。
随机游走模型在生态学中的应用是多方面的。
以下是其中一些主要领域。
1. 物种分布预测随机游走模型可用于预测物种的分布范围和变化。
通过解析随机游走过程的概率分布,可以计算物种在不同时间和空间上的分布概率。
此外,该模型还可以考虑到生态因素(如温度、湿度、土壤类型等)对物种扩散的影响。
它将这些因素纳入模拟过程中,并得出更准确的预测结果。
2. 生态系统稳定性研究随机游走模型可以帮助我们理解生态系统的稳定性和韧性。
通过建立适当的模型,可以估计生态系统中物种的相互作用和稳定性。
这些模型可用于研究物种的多样性和食物网的结构。
除此之外,随机游走模型还可以预测不同干扰下生态系统的响应。
3. 移民和迁移研究随机游走模型还可以帮助生态学家研究物种或个体的移民和迁移。
例如,在研究候鸟在迁徙过程中的繁殖策略时,可以使用随机游走模型来模拟它们在不同时间和空间上的分布变化。
一种基于随机游走的迭代加权子图查询算法
一种基于随机游走的迭代加权子图查询算法张小驰;于华;宫秀军【摘要】Nowadays ,technological development in measuring molecular interactions has led to an increasing number of large‐scale biological molecular networks . Identifying conserved and stable functional modules from such networks helps not only to disclose the function of inner components , but also to understand their relationships systematically in complex systems .As one of classical NP‐complete problems , the sub‐graph query problem is gaining research efforts in analyzing such behaviors from the fields of social networks , biological networks , and so on . Calculating node similarities and reducing the sizes of target graphs are two common means for improving query precisions and reducing computational complexity in th e study of sub‐graph algorithms . For the problem of querying sub‐graphs among complex protein interaction networks ,this paper presents a sub‐graph query algorithm based on semi‐Markov random walk model .A comprehensive similarity measurement based on sem i‐Markov random walk model is designed to integrate the similarities of nodes ,structures and their neighbors .Meanwhile ,an iterative procedure is applied to reduce the size of targeted graph by removing nodes in a cluster with lower similarities by calculating the global correspondence score .The experimental results on multiple real protein query networks demonstrate that the proposed algorithm improves its performance in both query precisions and computational complexity .%作为经典的NP完全问题之一,子图查询算法近年来在社交网络、生物分子网络等复杂系统分析中引起研究人员的极大关注。
一种基于随机游走模型的多标签分类算法
一种基于随机游走模型的多标签分类算法郑伟;王朝坤;刘璋;王建民【期刊名称】《计算机学报》【年(卷),期】2010(033)008【摘要】在数据挖掘领域,传统的单分类和多分类问题已经得到了广泛的研究.但是多标签数据的普遍存在性和重要性直到近些年来才逐渐得到人们的关注.在多标签分类问题中,由于标签相关性的存在,传统的单分类和多分类问题的解决方法,无法简单地应用于多标签分类问题.文中提出了一种基于随机游走模型的多标签分类算法,称为多标签随机游走算法.首先,将多标签数据映射成为多标签随机游走图.当输入一个未分类数据时,建立一个多标签随机游走图系列.而后,对图系列中的每个图应用随机游走模型,得到遍历每个顶点的概率分布,并将这个点概率分布转化成每个标签的概率分布.最后,基于多标签随机游走算法,文中给出了一种新的阈值学习算法.真实数据集上的实验表明,多标签随机游走算法可以有效地解决多标签分类问题.【总页数】9页(P1418-1426)【作者】郑伟;王朝坤;刘璋;王建民【作者单位】清华大学软件学院,北京,100084;清华大学软件学院,北京,100084;清华大学软件学院,北京,100084;清华大学软件学院,北京,100084【正文语种】中文【中图分类】TP181【相关文献】1.基于项目和标签的随机游走个性化信息推荐模型 [J], 王丽莎;张绍武;林鸿飞2.一种基于多阶邻居的网络环境下多标签分类算法 [J], 王浩;张赞;李磊;汪萌3.一种基于标签相关性的多标签分类算法 [J], 王霄;周李威;陈耿;朱玉全4.一种基于关联规则的MLKNN多标签分类算法 [J], 杨岚雁;靳敏;张迎春;张珣5.融合相似度图和随机游走模型的多标签短文本分类算法 [J], 李晓红;王闪闪;马堉银;马慧芳因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于随机游走算法的复杂网络生成
一种基于随机游走算法的复杂网络生成余思东;万荣泽;黄欣【摘要】为了更好地研究复杂网络结构,采用随机游走算法实现复杂网络的生成。
该算法采用扩散策略实现网络生成,根据活跃标签标注下一次抽取与前一次抽取的联系,除第一个节点之外的所有网络节点的加入均由网络节点属性决定,以最大转移概率为准则来实现下一个节点的选择,有效避免局部陷入与遍历不全的不足。
实验证明,相比于传统的复杂网络生成方法,该算法能更好地反映复杂网络的原始网络结构,网络连通性好,度分布和聚类系数与原始网络更相似,网络层次性更强。
%In order to better study the complex network structure,we use random walk algorithm to realise the generation of complex network.The algorithm adopts diffusion strategy to achieve network generation,marks the connection between the next-time extraction and the previous one according to active labels.All the joining of the network nodes are determined by network node attributes except the first one, and the selection of next node is implemented by taking the maximum probability as criterion,thus effectively prevents from the insufficiencies of falling into local optimum and incomplete traversal.Experiment proves that compared with traditional complex network generation method, the algorithm proposed in this paper can better reflect the original network structure of complex networks.It has good network connectivity, the degree distribution and clustering coefficient are more similar to the original network,and the network hierarchy is higher as well.【期刊名称】《计算机应用与软件》【年(卷),期】2015(000)002【总页数】4页(P120-123)【关键词】复杂网络;网络生成;随机游走算法;度分布;聚类系数【作者】余思东;万荣泽;黄欣【作者单位】广西农业职业技术学院现代教育技术与网络信息中心广西南宁530007;广西农业职业技术学院现代教育技术与网络信息中心广西南宁 530007;广西农业职业技术学院现代教育技术与网络信息中心广西南宁 530007【正文语种】中文【中图分类】TP399随着计算机网络应用与数据挖掘技术的发展,特别是社交网络平台的盛行,复杂网络的研究变得越来越重要。
基于随机游走的数据聚类
Aeijvk
+1 = −1 0
i= k j= k 其它
(5)
由上式可知,关联矩阵由边 eij 和节点 vk 决定,图中 eij 为任意方向, A 为联合梯度算子, AT 为联合 散度算子。 我们构造一个大小为 m × m 的对角阵 C ,其对角线上的值为映射图边上的权值即:
72
崔伟 等
(11)
s i
因此,通过求解: LU x s = − BT m s 得到到达单个标记点的概率; 通过 LU X = − BT M 求得到所有种子点的概率,其中, k 个列矢量 x s 组成 X, k 个列矢量 m s 组成 M。 因为对任意未被标记节点来说,它到所有种子点的概率之和为 1,即:
th th th
Received: Jun. 28 , 2017; accepted: Jul. 17 , 2017; published: Jul. 20 , 2017
Abstract
In order to realize the clustering analysis of large data volume and complex types of data, the random walk algorithm maps the data set into graphs, each data represents node, and uses a weighting function to represent the relationship between data and data. The similarity criterion indicates the weight between two data in the data set. In the random walk algorithm, the weight of the weight represents the random walker from the non-seed point for the first time to reach a seed point of preference. Finally, cluster analysis is realized according to the maximum transition probability. The results show that the random walk algorithm can achieve clustering in the clustering analysis of numerical data.
基于关系挖掘和对抗训练的多标签文本分类
基于关系挖掘和对抗训练的多标签文本分类
杨冬菊;程伟飞
【期刊名称】《计算机与数字工程》
【年(卷),期】2024(52)1
【摘要】传统的多标签文本分类方法存在忽略标签语义、没有充分利用文本与标签以及标签与标签之间的关系等问题。
为了解决以上问题,论文提出了一种基于关系挖掘和对抗训练的多标签文本分类模型。
该模型利用了BERT模型和图注意力网络(GAT)分别提取文本的语义信息和挖掘标签之间的关系。
首先,通过BERT模型对文本进行编码,以获取文本的语义信息。
然后,使用图注意力网络(GAT)来挖掘标签之间的关系,以更好地理解标签之间的依赖关系。
为了进一步挖掘文本与可学习的标签嵌入之间的关系,该模型采用了多头自注意力机制。
此外,为了提高模型的鲁棒性,论文采用了R-drop策略进行模型训练。
实验结果表明,在AAPD和RCV1数据集上,所提出的模型相比当前一些主流的多标签文本分类模型,不仅能够关注文本信息,还能够有效捕捉文本与标签之间的依赖关系以及标签与标签之间的关系,从而取得更好的性能。
【总页数】6页(P18-22)
【作者】杨冬菊;程伟飞
【作者单位】北方工业大学信息学院;大规模流数据集成与分析技术北京市重点实验室(北方工业大学)
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于标签推理和注意力融合的多标签文本分类方法
2.基于词-标签概率的多标签文本分类研究
3.基于BERT+BiLSTM+Attention的对抗训练新闻文本分类模型
4.基于对抗训练的伪标签约束自编码器
5.基于无监督对抗训练的跨语言文本分类方法
因版权原因,仅展示原文概要,查看原文内容请购买。
基于多标签随机游走的选择性集成方法用于表情识别
基于多标签随机游走的选择性集成方法用于表情识别
黄仕松;李丹杨;陈星;唐玉梅;吴义青
【期刊名称】《软件工程与应用》
【年(卷),期】2022(11)6
【摘要】为了提升分类器集成的性能,本文提出了一种基于多标签随机游走的选择性集成方法,该方法将分类器选择问题建模为多标签分类问题,以灵活有效选择分类器。
首先在训练集样本与分类器序列间建立映射,将能正确识别样本的分类器序列
视为样本标签,对于一个特定的测试样本,寻找它的近邻样本,并构建出多标签随机游走图,执行随机游走过程,根据收敛后的概率向量选择出对应的分类器序列进行集成。
在Fer2013、CK+和JAFFE人脸表情数据集上进行实验,并与一些当前先进的选择性集成算法进行对比,实验结果证明了该算法的可行性和有效性。
【总页数】13页(P1344-1356)
【作者】黄仕松;李丹杨;陈星;唐玉梅;吴义青
【作者单位】贵州大学大数据与信息工程学院贵阳
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于选择性集成的表情识别方法
2.基于选择性集成分类器的面部表情识别研究
3.基于超图随机游走标签扩充的微博推荐方法
4.一种基于随机游走的软子空间聚类
集成方法5.一种基于局部随机游走的标签传播算法
因版权原因,仅展示原文概要,查看原文内容请购买。
基于局部和全局一致性的多标签分类算法
基于局部和全局一致性的多标签分类算法姚小慧;孙国强【摘要】针对局部和全局一致性的分类算法LGC未考虑标签之间的相关性,提出了一种基于局部和全局一致性的多标签分类(MLGC)算法.该方法新增加了一个标签与标签之间的约束,在分类时考虑了标签之间的相关性,再取出1/10的数据集使用该算法,求出每个标签的自适应阈值,利用阈值对整个数据集进行预测.实验结果表明,所提出算法在Emotion和Yeast数据集上均优于原来算法,将此算法应用于区域医疗大数据的项目中,也取得了良好的分类结果.【期刊名称】《电子科技》【年(卷),期】2017(030)003【总页数】4页(P4-7)【关键词】多标签分类;局部和全局一致性;标签相关性【作者】姚小慧;孙国强【作者单位】上海理工大学光电信息与计算机工程学院,上海200096;上海理工大学光电信息与计算机工程学院,上海200096【正文语种】中文【中图分类】TP301.6众多学者对于分类问题提出了许多算法[1],但有许多问题无法采用单分类方法解决,例如文本领域[2-3],图片注解领域[4-6]和生物信息领域[7]。
所以,多标签分类问题应运而生,引起了人们广泛的关注。
解决多标签分类最简单的方法就是BR(Binary Relevance)方法[8],但它没有考虑标签之间的相关性。
LP(Label Powerset)[9]方法是将问题转化为多分类问题,虽然考虑了标签之间的相关性,但是训练开销会比较大。
MLkNN算法[10]用最大化后验概率来预测该样本的标签集,也没有考虑标签之间的相关性。
因此本文在文献[11~13]的研究基础上,提出了一种基于局部和全局一致性的多标签分类算法MLGC(A Multi-label Classification Based on The Local And Global Consistency),不仅考虑了标签之间的相关性,而且还提出了适应于该算法的阈值,经过Matlab仿真实验,证明了该算法优于LGC(Learning With Local And Global Consistency)算法。
应用随机游走的社交网络用户分类方法
应用随机游走的社交网络用户分类方法
贺超波;杨镇雄;洪少文;汤庸;陈国华;郑凯
【期刊名称】《计算机科学》
【年(卷),期】2015(42)2
【摘要】针对现有在线社交网络用户分类方法不能有效利用用户属性和关系网络信息提高分类性能的问题,设计了一种基于随机游走模型的多标签分类方法MLCMRW.该方法的分类过程包括学习用户初始化类别标签以及通过迭代推理获得用户稳定标签分布两个阶段,并且其可以同时考虑用户属性以及关系网络特征信息进行分类.多个在线社交网络数据集上进行的实验表明,MLCMRW比其它已有的代表性方法有更好的分类性能,并且更适合对现实中的在线社交网络进行用户分类.【总页数】6页(P198-203)
【作者】贺超波;杨镇雄;洪少文;汤庸;陈国华;郑凯
【作者单位】仲恺农业工程学院信息科学与技术学院广州510225;华南师范大学计算机学院广州510631;华南师范大学计算机学院广州510631;华南师范大学计算机学院广州510631;华南师范大学计算机学院广州510631;华南师范大学计算机学院广州510631;华南师范大学计算机学院广州510631
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于随机游走算法的社交网络构建 [J], 刘辉
2.一种基于随机游走和共点的社交网络拓扑模型 [J], 林佳佳;刘衍珩;王亚洲;田雪颖
3.基于用户相似度的随机游走社交网络事件推荐算法 [J], 马铁民; 周福才; 王爽
4.大数据背景下基于社交网络的聚类随机游走抽样算法研究 [J], 贺建风;李宏煜
5.大数据背景下基于社交网络的聚类随机游走抽样算法研究 [J], 贺建风;李宏煜因版权原因,仅展示原文概要,查看原文内容请购买。
基于随机扰动的多目标进化算法
基于随机扰动的多目标进化算法郭修豪;陈勇【期刊名称】《现代计算机(普及版)》【年(卷),期】2015(000)012【摘要】Uses genetic algorithm to solve multi-objective problem, the result is often trapped in local optimum. Introduces the external population of the traditional algorithm, and proposes a genetic algorithm based on random perturbation of the RDMOGA. The new algorithm is tested by using the standard multi objective test functions, and compared with the NMOGA algorithm proposed by Han Lixia. The test results show that the new algorithm shows good performance.%运用遗传算法解多目标问题,结果往往会陷入局部最优。
引入传统算法求得的外部种群,提出基于随机扰动的RDMOGA遗传算法。
将新算法用标准多目标测试函数进行测验,并与韩丽霞提出的NMOGA算法进行对比,实验结果表明,新算法表现出良好的搜索性能。
【总页数】6页(P3-7,42)【作者】郭修豪;陈勇【作者单位】重庆师范大学,重庆 401331;重庆师范大学,重庆 401331【正文语种】中文【相关文献】1.基于随机扰动的自适应布谷鸟算法 [J], 叶亚荣;贺兴时;张超2.基于随机扰动航班时刻的停机位分配 [J], GAO Yang;XIA Hong-shan;LIANG Di-da;LI Huan3.基于随机扰动技术的共形阵列失效单元非凸压缩感知近场诊断方法 [J], 李玮; 邓维波; 杨强; Marco Donald Migliore4.基于WRF模式的对流尺度边界层方案参数随机扰动方法研究 [J], 王璐璐;闵锦忠;刘畅5.基于控制图下谐振点随机扰动的伺服系统谐振抑制 [J], 丁玉发;杨光因版权原因,仅展示原文概要,查看原文内容请购买。
基于随机游走和多样性图排序的个性化服务推荐方法
基于随机游走和多样性图排序的个性化服务推荐方法方晨;张恒巍;王娜;王晋东【期刊名称】《电子学报》【年(卷),期】2018(046)011【摘要】针对传统服务推荐算法由于数据稀疏性而导致推荐准确性不高,以及推荐结果缺乏多样性等缺陷,提出基于随机游走和多样性图排序的个性化服务推荐方法(PRWDR).在分析直接相似关系稀疏性的基础上提出带权重的随机游走模型,通过在用户网络上进行随机游走来挖掘更多的相似关系;基于所有相似用户预测服务的QoS值,并给出服务图模型构建方法,以过滤大量性能过低的候选服务;提出最优节点集合选取策略,利用贪婪算法得到兼具推荐准确性和功能多样性的服务推荐列表.在公开发布的数据集上进行实验,并与多个经典算法进行比较,验证了本算法的有效性.【总页数】8页(P2773-2780)【作者】方晨;张恒巍;王娜;王晋东【作者单位】信息工程大学,河南郑州450001;数字工程与先进计算国家重点实验室,河南郑州450001;信息工程大学,河南郑州450001;数字工程与先进计算国家重点实验室,河南郑州450001;信息工程大学,河南郑州450001;信息工程大学,河南郑州450001;数字工程与先进计算国家重点实验室,河南郑州450001【正文语种】中文【中图分类】TP393【相关文献】1.一种基于图的多模态随机游走重排序算法 [J], 赵鹏;陈浩;刘慧婷;姚晟2.基于信任扩展和列表级排序学习的服务推荐方法 [J], 方晨;张恒巍;张铭;王晋东3.基于排序学习的Top-k软件服务推荐方法 [J], 肖海涛;何鹏;曾诚4.基于距离度量的多样性图排序方法 [J], 李劲;岳昆;蔡娇;张志坚;刘惟一5.基于混杂社会网络的个性化Web服务推荐方法 [J], 杨洁;朱咸军;周献中;柳毅因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第33卷 第8期2010年8月计 算 机 学 报CH INESE JOURNA L OF COM PU TERSVo l.33N o.8A ug.2010收稿日期:2010-06-11.本课题得到国家自然科学基金(60803016)、国家 九七三 重点基础研究发展规划项目基金(2007CB310802,2009C B320706)和国家 八六三 高技术研究发展计划项目基金(2008AA042301,2007AA040602)资助.郑 伟,男,1986年生,硕士研究生,主要研究方向为多标签数据的分类和聚类、数字音乐信息检索.E -mail:zh engw 04@mails.ts .王朝坤,男,1976年生,博士,讲师,主要研究方向为音乐数据管理与云计算.刘 璋,男,1985年生,博士研究生,主要研究方向为非结构化数据管理和音乐数据管理.王建民,男,1968年生,博士,教授,博士生导师,主要研究领域包括数据管理与信息系统、云环境下非结构化数据管理技术、业务过程与产品生命周期管理、数字版权与系统安全技术、数据库测试技术.一种基于随机游走模型的多标签分类算法郑 伟 王朝坤 刘 璋 王建民(清华大学软件学院 北京 100084)(清华信息科学与技术国家实验室 北京 100084)(信息系统安全教育部重点实验室 北京 100084)摘 要 在数据挖掘领域,传统的单分类和多分类问题已经得到了广泛的研究.但是多标签数据的普遍存在性和重要性直到近些年来才逐渐得到人们的关注.在多标签分类问题中,由于标签相关性的存在,传统的单分类和多分类问题的解决方法,无法简单地应用于多标签分类问题.文中提出了一种基于随机游走模型的多标签分类算法,称为多标签随机游走算法.首先,将多标签数据映射成为多标签随机游走图.当输入一个未分类数据时,建立一个多标签随机游走图系列.而后,对图系列中的每个图应用随机游走模型,得到遍历每个顶点的概率分布,并将这个点概率分布转化成每个标签的概率分布.最后,基于多标签随机游走算法,文中给出了一种新的阈值学习算法.真实数据集上的实验表明,多标签随机游走算法可以有效地解决多标签分类问题.关键词 多标签;分类算法;随机游走;阈值学习中图法分类号T P 181 DOI 号:10.3724/SP.J.1016.2010.01418A Mult-i Label C lassification Algorithm Based on Random Walk ModelZH ENG Wei WANG Chao -Kun LIU Zhang WANG Jian -M in(S chool of S of twar e ,T singhu a Univ er sity ,B eij in g 100084)(T singhu a N ational L abor atory f or Inf ormation S cience and T ec hnology ,Be ij ing 100084)(K ey L abor atory f or Inf or mation S ystem Se curity ,M inistr y of Ed ucation ,B eij in g 100084)Abstract T her e ar e ex tensive literatures related to traditional single -class and m ult-i class class-ification pr oblem s,in w hich each data point is assig ned to one categor y.But in many applications,a data point may belong to mor e than one categ ory.T his kind o f problem is called the M ult-i LabelClassificatio n(MLC)pro blem.Due to the existing of label relev ance,the traditional data -mining methods cannot be directly applied to the M LC problems.This paper proposes a novel M LC algo -r ithm based on the random w alk model,called Mult-i Label Random Walk (M LRW )algo rithm.Firstly ,a mult-i label r ando m w alk gr aph is built on the training set.As an unlabeled data ar -r iv es,a mult-i label random w alk graph sy stem w ill be built,on w hich the random w alk pro cess -ing is carried out.After that,a pr obability distribution am ong all labels is obtained.At last,athresho ld learning algo rithm is pro posed based on the M LRW algorithm so that the final predic -tion o n each label is presented.Ex perimental results on actual data set show that the M LRW a-l g orithm prov ides an effective solutio n to the MLC problems.Keywords mult-i label;classificatio n;random w alk;threshold lear ning1 引 言数据分类(data classificatio n)是数据挖掘(data mining)的一个重要研究方向.一直以来,数据分类问题和方法受到了人们的广泛关注和研究.传统数据分类问题的研究目标是如何将每条数据准确地划分到某一类中.如果候选类别只有一个,则分类目标转化为判断未分类数据是否属于该类别,这类问题被称作单分类问题(sing le-class classification)或二值分类问题(binary classifica-tion).如果候选类别有多个,在传统的分类问题中,分类器仅能在这些候选类别中选择一个作为输出,这类问题被称作多分类问题(mult-i class classifica-tion).多分类问题可以比较容易地转化成单分类问题.单分类问题和多分类问题统称为单标签分类问题(single-label classification).它们和本文研究的多标签分类(m ult-i label classification)问题有着本质的区别[1].在实际应用中,普遍存在如下情况:一条数据可能同时属于多个不同的类别.这类数据被称作多标签数据.例如,Lew is等研究了路透社的804414条新闻,发现平均每条新闻同时属于2 6个不同的类别[2];在ACM Co mputing分类体系中,存在着一级类别11个、二级类别81个,而作者可以为每篇文章选择多个不同的类别[3];Snoek等人通过分析43907个从非洲、中国和美国收集的音频片段以及与这些音频片段相关的101个标签,发现平均每个音频片段具有4 4个不同的标签[4].这样的分类问题被称作多标签分类问题(见定义1).和传统的单标签分类问题相比,多标签分类问题存在着显著的区别,类别间的相关性(relev ance)和共现性(co-occurrence)直接导致传统的单标签分类方法不能被直接应用到多标签分类问题中[1,5].多标签分类问题正逐渐成为当前的一个研究热点.多标签分类问题的形式化定义如下所示.定义1. 已知一个定义在实数域R上的d维输入数据空间,记作X=R d;一个包含q个标签的标签集合,记作Y={ 1, 2, , q}和一个包含m个训练数据的训练集合,记作D={(x i,Y i)|1 i m,x i X,Y i Y}(1)其中x i是输入空间X中的一个训练数据,Y i是x i的真实标签集合(actual label set).多标签分类问题指:根据训练数据D学习分类函数f:X 2Y,当输入一个未分类数据x X时,通过函数f得到x的预测标签集合P x Y,使得P x 与x的真实标签集合Y x最为接近.易知,单标签分类问题是多标签分类问题的一个特例.当训练和测试数据都满足|Y i|=1时,多标签分类问题退化成多分类问题.特别地,当q=1时,多标签分类问题退化为单分类问题.多标签排序问题是与多标签分类问题直接相关的一类问题,其形式化定义如下.定义2. 已知输入空间X、标签集合Y和训练数据集合D如定义1所示.多标签排序问题指:根据训练数据D学习函数g:X Y R,当输入一个未分类数据x X时,对于任意的y Y,得到一个置信系数g(x,y),并根据该置信系数对Y中的所有标签进行排序,使得此排序结果与真实结果最为接近.不同的指标被用于度量分类或排序结果的正确性,例如Precision/Recall/F-M easur e、Subset accu-racy、H amming Loss、One-Er ror、Ranking Lo ss、Coverage、Av er ag e Precision等[5](见5 1节).多标签分类问题主要有两大类解决方法:基于问题转化的方法和基于算法转化的方法[5](见第2节).本文提出了一种基于随机游走模型的多标签分类算法M LRW(A m ult-i label classification alg orithm based on the random w alk model).主要贡献有(1)提出了一种新的多标签分类算法MLRW. M LRW在预测未分类数据时,除了能够给出分类结果,还可以结合条件概率模型,给出该数据具有每个标签的概率分布.(2)基于MLRW算法,提出了一种分类阈值学习方法,该方法可以解决多标签分类算法中的阈值设置问题.(3)真实数据集上的实验结果表明,M LRW算法和分类阈值学习方法能有效解决多标签分类问题和多标签排序问题.本文第2节介绍与本文有关的研究工作;第3节和第4节分别给出M LRW算法和阈值学习方法;第5节给出MLRW算法的相关讨论;第6节介绍实验方法和实验结果;最后总结全文.2 相关工作近年来,多标签分类和排序问题受到了人们的广泛关注和研究.其解决方法主要分为基于问题转14198期郑 伟等:一种基于随机游走模型的多标签分类算法化的方法(Pr oblem T ransfo rmatio n based meth-o ds,PT)和基于算法转化的方法(Algo rithm Adap-tation based m ethods,AA).2.1 基于问题转化的方法PT类方法的主要目标是将一个多标签分类问题转化成一个或一组单标签分类问题,从而运用已有的单标签分类方法解决该问题.BR(Binar y Relev ance)是一种典型的PT方法,它将每个标签的预测看作一个独立的单分类问题,并为每个标签训练一个独立的分类器,用全部的训练数据对每个分类器进行训练.这种算法忽略了标签之间的相互关系,往往无法达到令人满意的分类效果.文献[6]通过拷贝(copy)和带权重拷贝(copy-w eight)的方法,对BR进行改进,将原训练集合中的一条多标签数据拆分成多条单标签数据,并给予相应的权重.H ullerm eier等提出了基于标签对比(pairw ise com pariso n)的分类方法.通过对比标签集合中任意两个标签之间的关系,建立q(q-1)/2个分类器.每个分类器在两个标签 i和 j之间投票,然后组合这些投票结果作为最终的多标签分类结果[7].假设多标签分类算法中采用的基础分类器(base classifier)的复杂度为O(t(D)),其中函数t(D)表示分类器在训练集合D上建立分类模型的复杂度,则基于标签对比的多标签分类算法的复杂度为O(q(q-1)/2 t(D)).LP(Label Pow erset)是另外一种被广泛使用的PT方法.它将训练数据中的每种标签组合进行二进制编码,从而形成新的标签.在LP中,多标签数据被以这种方式转化成单标签数据.LP算法的显著缺点是不能预测新的标签组合.Read等将概率分布模型应用到LP中,当对未分类数据进行预测时,可以预测出训练集合中未出现的标签组合[8].但是LP 算法的复杂度较高,达到O(min{2q,m} t(D)),可以通过剪枝[8]或随机标签组合[9]的方法在一定程度上降低复杂度,但降低的幅度有限.2.2 基于算法转化的方法AA类方法的主要目标是,通过改变已有的单标签分类算法,使其能够处理多标签数据.典型的AA算法有以下几种:基于单标签分类算法AdaBo ost.M1,Schapir e 等提出了适用于多标签数据的AdaBoo st.M H算法[10],该算法使用每个多标签训练数据生成q个新的单标签训练数据.该算法的主要缺点是,显著地增加了训练数据的数量,进而增加了建模时的消耗.人工神经元网络也可以应用到多标签分类问题中.Zhang等人通过定义针对多标签数据的全局优化函数,使得人工神经元网络能够处理多标签数据[11].该算法基本思想是,如果很多实例同时具备两个标签,那么这两个标签中的一个出现了,另外一个也很可能同时出现.经典的k NN方法也可以应用到多标签分类问题中,例如文献[12]中介绍的M L k NN算法. M L k NN通过统计方法,得出每个标签的先验概率.当输入一个未分类数据x时,对标签集合Y中的每个标签 ,分别计算x具有标签 和不具有标签 的概率,进而预测x是否具有标签 .C4 5决策树也可应用于多标签分类问题中,只需要将单标签分类问题中熵的定义扩展到多标签分类问题.Clare等定义多标签分类问题中的熵为ML E ntrop y= y Y p(y)log p(y)+(1-p(y))log(1-p(y)),而后便可以基于熵计算信息增益,从而对多标签数据建立决策树[13].此外,经典的Bay es等算法也可以通过修改而被用于多标签分类问题中.此外,基于已有的多标签分类算法,Tsoumakas 等提出了二层的多标签分类模型,第一层中采用BR、决策树或SVM等进行k-fo ld交叉训练;在第二层中,采用BR、SVM等算法,使用第一层训练后得到的各标签的得分或概率分布作为输入,来预测最终的标签输出结果[14].2.3 随机游走模型随机游走模型的基本思想是,从一个或一系列顶点开始遍历一张图.在任意一个顶点,遍历者将以概率1- 游走到这个顶点的邻居顶点,以概率 随机跳跃(teleport)到图中的任何一个顶点,称 为跳转发生概率.每次游走后得出一个概率分布,该概率分布刻画了图中每一个顶点被访问到的概率.用这个概率分布作为下一次游走的输入并反复迭代这一过程.当满足一定前提条件时,这个概率分布会趋于收敛.收敛后,即可以得到一个稳定的概率分布.随机游走模型广泛应用于数据挖掘和互联网领域,Pag eRank算法可以看作是随机游走模型的一个实例[15].Zhang等人使用该模型从书评中挖掘关键词[16];Zhu等人提出了有吸收状态的随机游走模型,该模型可以用于文本自动摘要(tex t sum mariza-tion)和基于社会网络的分析与挖掘[17].本文使用收1420计 算 机 学 报2010年敛后的概率分布来刻画未分类数据具有每个标签的概率.3 MLRW 和阈值学习算法3.1 随机游走图的生成MLRW 算法首先将训练集合D 映射成d 维度空间中的多标签随机游走图.我们使用随机游走模型的原因是:该模型通过点与点之间的连通性准确地刻画训练数据之间的相关性,进而刻画候选标签之间的相关性.MLRW 的基本思路是:将集合D 中的每个训练数据x X 映射为图中的一个点v.如果两个训练数据x i 、x j 具有相同的标签,则将这两个训练数据对应的顶点v i 、v j 相连.形式化地,已知训练集合D 如式(1)所示,则由训练集合D 导出的多标签随机游走图记作:G =(V ,E)(2)V ={v i |x i X ,1 i m}(3)E ={(v i ,v j )|v i ,v j V ,Y i Y j ,i j }(4)如无特别说明,本文余下部分使用v i 表示训练数据x i 在随机游走图上对应的顶点.例如,式(3)表示每个训练数据x i 将对应图G 中的一个顶点v i ,这些顶点构成了图G 的顶点集合V.接下来,我们计算随机游走图G 上的权重矩阵W .如式(5),边的权值即为训练数据对应顶点在d 维空间中的距离,记作dis(v i ,v j ).本文采用欧式距离作为距离函数.W ij =0,v i =v j,v i v j ,(v i ,v j ) Edis(v i ,v j ),v i v j ,(v i ,v j ) E(5)不失一般性,可以假定图G 是连通的.如果G 中存在不连通的子图,则说明标签集合Y 中存在相互独立的标签子集,G 中的每个连通分量对应Y 中的一个独立子集.此时,我们可以根据G 中的连通分量,将标签集合Y 拆分成多个互不相交的子集,并对每个子集分别应用M LRW 算法.因此,本文后面的内容都将基于图G 是连通图这一前提展开.例如,给定一个标签集合Y ={ 1, 2},训练集合中包含6条数据(如表1),训练数据x 1,x 2,x 3有相同的标签 1,则将这3个点两两相连,连接它们的边的权重即为这3个数据的特征向量在输入空间中的欧式距离.同理,x 3,x 4,x 5,x 6同时具有标签 2,把它们两两相连,则由训练集合D 导出的随机游走图如图1所示.表1 训练集合D 示例特征向量标签集合1x 1Y 1={ 1}2x 2Y 2={ 1}3x 3Y 3={ 1, 2}4x 4Y 4={ 2}5x 5Y 5={ 2}6x 6Y 6={ 2}可以看出,随机游走模型无法直接应用于传统的单标签分类问题.如果将单标签数据映射为随机游走图,得到的将会是不连通图,这不满足随机游走算法的收敛条件(见定理1).然而,将多标签数据映射为随机游走图时,满足随机游走模型的收敛条件,因而得以应用.3.2 多标签随机游走过程3.2.1 随机游走过程随机游走过程需要4个输入参数:邻接矩阵P (adjacent m atrix ),初始概率分布向量s 0,跳转发生概率 (teleporting probability ),发生跳转时跳转到图中每个顶点的概率分布向量d .每次游走过程后的输出概率分布向量记作s ,则s 的计算法方法为s =(1- ) P Ts 0+ d ,0< <1(6)将向量s 作为式(6)的输入s 0,反复迭代式(6)直至收敛,将此时的概率分布向量记作 ,满足=(1- ) P T + d (7)式(7)中的向量 即为稳定的概率分布向量.为了应用式(6),首先基于权重矩阵W 计算邻接矩阵P .基本思想是,对任意顶点v,在v 的所有邻居顶点中,如果一个顶点距离v 越远,则游走到这个顶点的概率就越低,如式(8)所示.M i j =0,w ij =w ij max 1 k m {w kj |w kj },w ij (8)对矩阵M 进行归一化处理:M i j =M ij -avg i {M ij }std i {M ij }(9)P ij =M ijiM ij(10)此时的概率分布矩阵P 即为算法输入的邻接矩阵.14218期郑 伟等:一种基于随机游走模型的多标签分类算法3 2 2 多标签随机游走图系列当输入一个未分类数据x 时,将x 对应的顶点记作u ,M LRW 将以u 作为起始点应用q 次随机游走模型.具体地,在第k 次应用随机游走模型时,将u 与所有具有标签 k 的点相连得到多标签随机游走图G k .我们将这些图的集合{G k }(k =1,2, ,q)定义为多标签随机游走图系列(如图2所示).定义3. 已知多标签随机游走图G 、标签集合Y 和一个未分类数据x ,则定义由G 和x 导出的多标签随机游走图系列为T ={G k |k =1,2, ,q },其中G k =(V k ,E k )(11)V k =V {u}(12)E k =E {(u,v i )| k Y i ,1 i m}(13)其中,u 是未分类数据x 对应的顶点,v i 是训练数据x i 对应的顶点,Y i 是x i 的真实标签集合.接下来,我们对T 中的每个图以u 为起点应用本文3 2 1节所描述的随机游走过程.此时,我们还需要计算初始向量s 0.首先计算s 0,s 0是一个m 维向量,它的第i 个元素为s 0(i)=dis(u,v i ),(u,v i ) E k0,其它(14)对s0使用类似于式(8)~(10)的方法进行归一化,即得到初始向量s 0.在本文中,我们假设从某个顶点出发跳转到图中任意一个顶点的概率是相等的,得到随机跳转到每个顶点的概率分布向量:d =1m ,1m , .,1m(15)此外,我们还得知 的一般取值为0 15[16],本文的实验部分将对 取值对结果的影响进行讨论.至此,我们已经得到了随机游走过程所需的所有输入,将它们代入式(6)中,可以得到概率分布向量s ,通过反复迭代式(6)直至收敛,可得出最终的概率分布向量 . 刻画了将未分类数据x 对应的顶点u 与具有标签 k 的数据对应的顶点相连(记作x < k )时,以u 点为起点游走到图G k 中每个顶点的条件概率.我们将该条件概率记作P (v i |x < k )= (i),1 i m (16)其中, (i)表示向量 的第i 个元素.将每个标签对应的点取其条件概率的平均值,即为以u 点为起点遍历图G k 时游走到每个标签的平均条件概率:P ( j Y x |x < k )=av g{P (v i |x < k )| j Y i }(17)3.2.3 条件概率模型根据条件概率模型,未分类数据x 具有标签j 的概率可以采用以下公式计算:P(j Y x )= 1 k qP ( jY x |x <k )P (x < k )(18)因此,我们还需要求出未知数据与具有标签 k 的点相邻的先验概率P (x < k ).在本文中,使用u 点和具有标签 k 的数据对应顶点的平均距离来刻画这个先验概率.即平均距离越大,则该先验概率的值就越小.为此,首先计算一个临时变量,记作w (x < k )=avg{dis(x ,v i )| k Y i }(19)而后,使用类似于式(8)~(10)的方法对式(19)进行归一化,即可得到所需的先验概率P (x < k ),将其代入式(18),得到最终的概率分布结果.M LRW 算法的形式化描述如图3所示.3.3 图剪枝标签集的势指平均每条数据具有的标签数[5],记作c.我们发现,当训练集中标签的势较大时,图G 中边的数量会大大增加.这是因为,平均每个标签关联的数据为O(mc/q),则每个点平均具有边O(mc 2/q),图G 中边的总数为O(m 2c 2/2q).由此可以看出图G 中的总边数随c 的增大而快速增大,当c q 时,M LRW 算法的空间消耗快速上升.因此,我们对图G 进行如下剪枝,以降低算法的空间消耗.定义4. 已知图G =(V,E),其上的权重矩阵为W ,则图G 上的Top -k 剪枝指的是,对每个顶点v i V,将其相关联的所有边{(v i ,v j )|i j ,(v i ,v j )1422计 算 机 学 报2010年E},按照其权重W ij排序,保留其中权重最小(即距离最近)的k条边,将其它边从图G中删除.我们将在本文实验部分对剪枝的影响进行讨论.算法1. 多标签随机游走算法M LRW.输入:训练数据集合D,随机跳转发生概率 ,未分类数据x,标签集合Y输出:x具有Y中每个标签的概率分布P( j Y x)M LRW(D, ,x,Y)1.初始化数组P C、P P//临时保存条件概率、先验概率2.构造随机跳转到每个顶点的概率分布向量d//式(15)3.for k 1to q do4. 根据D,x, k构造随机游走图G k//式(11)~(13)5. 根据G k计算邻接矩阵P//式(8)~(10)6. 根据G k计算随机游走初始向量s0//式(14)7. 应用随机游走模型得出条件概率分布向量,记作Q:Q(j)=P( j Y x|x< k),j=1,2, ,q//式(16)~(17)8. 将向量Q保存到数组PC中,即PC[k]=Q9. 计算先验概率并保存在数组P P中:P P[k]=P(x< k)10.end for11.foreach j Y do11. 根据P P,PR计算概率分布P( j Y x)//式(18)12.end for图3 多标签随机游走算法M L RW4 分类阈值学习方法由式(18),当输入一个未分类数据x时,可求出x具有每个标签的概率分布.通过该概率分布,可以得到一个排序后的标签集合.此时,为了决定每个标签的取舍,还需要为每个标签给定一个阈值,将概率大于阈值的标签集合作为x的预测标签集合P x.多标签分类中的阈值确定问题,同样得到了人们的广泛研究.例如,Fan等提出了SCutFBR算法[18],Tang等人提出了基于训练数据的阈值学习方法[19].但是,这些阈值学习的方法由于没有与具体的分类方法相结合,往往难以取得好的效果.本文基于MLRW算法,给出一种新的阈值学习方法.具体地,首先对训练集合D进行随机采样,生成采样集合D .对D 中的每一个数据x i,以x i对应的顶点为输入应用M LRW算法,由式(18)可以得到一个q维的概率分布向量,记作P i.而后我们使用这|D |个向量通过如下操作得到一个q维的接受阈值(accept threshold)向量和一个q维的拒绝阈值(reject threshold)向量,分别记作P a、P r,如P a(j)=avg{P i(j)|x i D , j Y i}(20)P r(j)=avg{P i(j)|x i D , j Y i}(21)其中,P a(j)表示向量P a的第j个元素,其它类同.最终的阈值向量为这两个阈值的平均:P T=avg{P a,P r}(22)当输入一个未分类数据时,首先通过算法1得到x具有每个标签的概率,而后与阈值向量P T比较,进而确定每个标签的有无.5 算法讨论5.1 收敛性定理1. MLRW算法是收敛的.证明.(1)因为向量d中不包含非零元素,并且0< <1,所以从任意点开始,随机跳跃到图G k中的任意点都是可能的,故邻接矩阵P是不可规约的(irr educible).(2)当随机游走过程遍历到某一顶点后,再次遍历到这个顶点所需的步数是不确定的,故整个随机游走过程是一个非周期的过程(aperiodic).(3)显然,当图中任意一个顶点被遍历后,都可能在有限步数内再次遍历这个顶点,且再次遍历之前经过的步数是不完全相同的(positive recurr ent).由以上3点,可以得出M LRW算法是各态历经的(erg odic)[20],故此算法是收敛的.即存在向量 ,满足式(7).证毕.5.2 复杂度分析定理2.M LRW算法的时间复杂度为O(q log m),空间复杂度为O(q|E|).其中,q表示标签集合Y的大小,E表示由训练集合D导出的随机游走图G中边的集合,m是训练集的大小.证明. 算法1的第3~6行循环的复杂度由算法第6行随机游走的迭代次数决定.根据文献[21], MLRW算法中随机游走的迭代次数为O(log|E|)= O(log m).|Y|=q,故MLRW算法的时间复杂度为O(q log m).算法1中需要存储的变量为转移矩阵P、随机跳转向量d、每次迭代后的概率分布向量s、数值 和 k.其中,转移矩阵P的大小等于图G k中边的数目.故算法的空间复杂度为O((m+m+|E|)q+1+1),由于图G k连通,所以总的空间复杂度为O(q|E|).证毕.6 实 验6.1 数据集和度量标准本文采用yeast数据集 ,该数据集是对啤酒酵14238期郑 伟等:一种基于随机游走模型的多标签分类算法数据集可在http://mulan.sourceforg e.n et/datasets.html下载母菌细胞基因表达的研究结果.经过微阵列实验(microarray experiments),大量的基因片段(大约3300个)被按照功能进行分类,其中的2417条数据构成了yeast 数据集[22],其统计数据如表2所示.其中标签密度等于标签集的大小q 除以标签集的势c,表示每个标签出现的平均概率.表2 数据集统计信息数据集名称训练集大小m 测试集大小特征空间维度d 标签集大小q 标签密度标签集的势c yeast1500917103140 304 20本文使用平均精度(A v g -Pr ecision)、(One -Err or)、结果覆盖长度(Cover age)等指标对实验结果进行度量,它们的定义分别为[23]One -Er ror =1m m i =1I (arg min Y r i ( ) Y i )(23)Cover ag e =1m mi =1max Y ir i ( )-1(24)A vg-Pr ecison =1m mi =11|Y | Y i { Y i ,r i ( ) r i ( )}r i ( )(25)其中r i ( )表示标签 的排名.本文实验环境为Intel Core 2 33GH z 的CPU ,4GB 内存,1 5TB 硬盘的PC 机.操作系统为U buntu 9 10,Java 版本Sun JDK 1 6 0.6.2 实验结果6.2.1 对比实验我们基于MuLan 实现了MLRW 算法.Mu -Lan 是一个基于Weka 的开源项目,它实现了一些最近提出的多标签分类和排序算法.实验中采用的对比算法有H o mer 、BR(Binary Relev ance)、CLR (Calibr ated Label Ranking )、MLkNN(M ult-i Label k -nearest neighbor)、RAkEL(Random -k Labelsets)、LP(Label Pow erset)等(见第2节).其中H o mer 算法中Cluster 的数量为3,MLkNN 中k =10,其它均采用默认参数.BR 、CLR 、IncludeLabels 、RAkEL 、LP 算法的基础分类器(base classifier)采用SVM 分类器,该SVM 分类器采用线性核函数,常数c 的值为1.H omer 分类算法采用Calibr atedLabel 分类器作为基础分类器.在对比实验中,我们将原有数据集中的训练集和测试集混合,随机重新采样排序,然后用10-fo ld 交叉验证(cro ss validation)的方法对结果进行验证.对以上实验重复进行10次,取其平均值.MLRW 算法中剪枝粒度k 设定为100.如表3所示,M LRW 算法可以达到较好的平均精度和较小的误差.M LRW 算法的平均精度与M LkNN 算法几乎相同,但M LRW 算法的结果覆盖长度比较小,也就是说,使用M LRW 算法可以用较小的误差找全所有的正确标签集合.而较低的One -E rror 值(相比ML k NN 领先5 6%),则说明M LRW 算法给出的排名最靠前的标签(top -one re -lated label)不在该数据实际标签集合中的概率较低.这在信息检索应用中非常重要,因为大多数用户往往只关心排名靠前的检索结果[24].表3 各算法实验结果对比One -E rr orCov er age Av g-Pr ecison H omer 0 25018 23020 6955BR 0 36647 50700 6613CLR 0 25976 79710 7097M L k NN 0 28447 41430 7284LP 0 52679 59650 5633RAk EL 0 29117 65430 7096M LRW0 24517 41000 70696.2.2 剪枝粒度对实验结果的影响通过实验我们发现,剪枝粒度越大(k 值越小),随机游走过程中,达到稳定前迭代的次数就越多.从图4中可以看出,随着k 值的增大.迭代数目明显减小.这是因为,剪枝粒度的减小,图G 中边的数量增加,图的连通性增强,邻接矩阵P 中每一列的方差减小,遍历到每点的概率趋于平均,因此收敛速度加快.通过对比剪枝粒度对算法精度的影响,我们发现,改变剪枝粒度的大小(k 值),对实验精度的影响极小,算法的平均精度维持在69 75% 0 5%(如图5所示).可以认为,剪枝的粒度只会改变算法的收敛速度,不会对算法的精度造成大幅度影响.1424计 算 机 学 报2010年源码和文档可在http://m /下载源码和文档可在http://ww w.cs.w /~ml/w eka/下载。