局部学习的半监督多标记分类算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Journal of Computer Applications 计算机应用,2012,32( 12) : 3308 - 3310 文章编号: 1001 - 9081 ( 2012 ) 12 - 3308 - 03
ISSN 1001-9081 CODEN JYIIDU
2012-12-01 http: / / www. joca. cn doi: 10. 3724 / SP. J. 1087. 2012. 03308
[2 ]
并且考虑了类与类之间的相关性 , 在训练样本数相对较少时 [6 ] 分类效果也很好。 陈钢等 同时考虑无标记样本和类与类 之间相关性两方面的内容 , 在训练样本和类标记上分别创建 了无 向 图, 构 建 了 基 于 图 的 正 则 化 框 架。 再 通 过 求 解 Sylvester 方程来获得无标记样本的标记 。孔祥南等[7] 利用直 label classification, 推 式 多 标 记 分 类 ( Transductive multiTRAM) 方法为每一个训练样本分配一组多标记 , 首先构造直 推式多标记学习的优化问题来估计类标记构成 , 接着推导出 该优化问题的闭型解, 最后运用一种有效的算法给未标记样 本分配标记集。 本文以“整体法 ” 来研究半监督多标记分类 利用局部学习来习得样本类标记 , 利用流形学习来考虑 问题, 类别与类别之间的相关性 , 提出了基于局部学习的半监督多 实验证明了算法的可行性和有效性 。 类分类算法,
Abstract: Semisupervised multilabel classification problem is usually decomposed into a set of singlelabel semisupervised binary classification problems. However, it results in the ignorance of the inner relationship between labels. A semisupervised multilabel classification algorithm was presented, which avoided multiple singlelabel semisupervised binary classification problems but adopted the overall approach in this paper. On the basis of undirected graph, local learning regularizer for data points and Laplace regularizer for labels were introduced and regularization framework of the problem was constructed. The experimental result shows the proposed algorithm has higher precision and recall. Key words: semisupervised learning; multilabel classification problem; local learning; label; regularizer
。这种处理方法的好处在于可以利用最新的二类分类
算法, 缺点是它是孤立地处理分解得到的每一个二类分类问 , 题 未考虑到每个样本所属类标记集中类与类之间的相关性 。 而在实际问题中, 如能充分利用类与类之间的相关性 , 则可有 效地提高学习系统的泛化能力 。研究者们已开始考虑样本所 属类标记集中类与类之间的相关性的问题
来自百度文库
基于局部学习的半监督多标记分类算法
吕 佳
( 重庆师范大学 计算机与信息科学学院,重庆 400047) ( * 通信作者电子邮箱 lvjia@ cqnu. edu. cn)
要:针对在求解半监督多标记分类问题时通常将其分解成若干个单标记半监督二类分类问题从而导致忽视 类别之间内在联系的问题 , 提出基于局部学习的半监督多标记分类方法 。 该方法避开了多个单标记半监督二类分类 “整体法” 采用 的研究思路, 利用基于图的方法, 引入基于样本的局部学习正则项和基于类别的拉普拉斯 问题的求解, 正则项, 构建了问题的正则化框架 。实验结果表明, 所提算法具有较高的查全率和查准率 。 关键词:半监督学习; 多标记分类问题; 局部学习; 标记; 正则项 中图分类号:TP391. 4 文献标志码:A
摘
Semisupervised multilabel classification algorithm based on local learning
L Jia
*
( College of Computer and Information Sciences, Chongqing Normal University, Chongqing 400047 ,China)
[3 - 4 ]
1
半监督二分类问题
半监督多标记分类问题的数学描述如下 : 给定训练集 T = { ( x1 , y1 ) , …, ( xl , yl ) , x l +1 , …, xn }
0
引言
多标记学习起源于文本分类研究中遇到的歧义性问题 ,
主要解决一个样本可以同时属于多个类别的问题 。现实世界 中, 多标记学习问题普遍存在
[1 ]
, 例如, 在生物信息学中, 一
“新陈代谢 ” 、 “蛋白质合成 ” 个基因序列具有若干个功能 , 如 等; 在文本分类中, 每篇文档可能同时属于多个主题 , 如“苹 ” 、 “乔布斯” 果 等; 在场景分类中, 每个场景图片可能对应于 “大海 ” 、 “沙滩 ” 多个类别, 如 等。 通常多标记分类问题的一 种直观的处理办法是把多标记分类问题转化为一组独立的二 其中每一个二类分类问题对应一个标记 , 每一个 类分类问题, 样本的标 记 最 终 通 过 组 合 所 有 的 二 类 分 类 问 题 的 结 果 获 得
ISSN 1001-9081 CODEN JYIIDU
2012-12-01 http: / / www. joca. cn doi: 10. 3724 / SP. J. 1087. 2012. 03308
[2 ]
并且考虑了类与类之间的相关性 , 在训练样本数相对较少时 [6 ] 分类效果也很好。 陈钢等 同时考虑无标记样本和类与类 之间相关性两方面的内容 , 在训练样本和类标记上分别创建 了无 向 图, 构 建 了 基 于 图 的 正 则 化 框 架。 再 通 过 求 解 Sylvester 方程来获得无标记样本的标记 。孔祥南等[7] 利用直 label classification, 推 式 多 标 记 分 类 ( Transductive multiTRAM) 方法为每一个训练样本分配一组多标记 , 首先构造直 推式多标记学习的优化问题来估计类标记构成 , 接着推导出 该优化问题的闭型解, 最后运用一种有效的算法给未标记样 本分配标记集。 本文以“整体法 ” 来研究半监督多标记分类 利用局部学习来习得样本类标记 , 利用流形学习来考虑 问题, 类别与类别之间的相关性 , 提出了基于局部学习的半监督多 实验证明了算法的可行性和有效性 。 类分类算法,
Abstract: Semisupervised multilabel classification problem is usually decomposed into a set of singlelabel semisupervised binary classification problems. However, it results in the ignorance of the inner relationship between labels. A semisupervised multilabel classification algorithm was presented, which avoided multiple singlelabel semisupervised binary classification problems but adopted the overall approach in this paper. On the basis of undirected graph, local learning regularizer for data points and Laplace regularizer for labels were introduced and regularization framework of the problem was constructed. The experimental result shows the proposed algorithm has higher precision and recall. Key words: semisupervised learning; multilabel classification problem; local learning; label; regularizer
。这种处理方法的好处在于可以利用最新的二类分类
算法, 缺点是它是孤立地处理分解得到的每一个二类分类问 , 题 未考虑到每个样本所属类标记集中类与类之间的相关性 。 而在实际问题中, 如能充分利用类与类之间的相关性 , 则可有 效地提高学习系统的泛化能力 。研究者们已开始考虑样本所 属类标记集中类与类之间的相关性的问题
来自百度文库
基于局部学习的半监督多标记分类算法
吕 佳
( 重庆师范大学 计算机与信息科学学院,重庆 400047) ( * 通信作者电子邮箱 lvjia@ cqnu. edu. cn)
要:针对在求解半监督多标记分类问题时通常将其分解成若干个单标记半监督二类分类问题从而导致忽视 类别之间内在联系的问题 , 提出基于局部学习的半监督多标记分类方法 。 该方法避开了多个单标记半监督二类分类 “整体法” 采用 的研究思路, 利用基于图的方法, 引入基于样本的局部学习正则项和基于类别的拉普拉斯 问题的求解, 正则项, 构建了问题的正则化框架 。实验结果表明, 所提算法具有较高的查全率和查准率 。 关键词:半监督学习; 多标记分类问题; 局部学习; 标记; 正则项 中图分类号:TP391. 4 文献标志码:A
摘
Semisupervised multilabel classification algorithm based on local learning
L Jia
*
( College of Computer and Information Sciences, Chongqing Normal University, Chongqing 400047 ,China)
[3 - 4 ]
1
半监督二分类问题
半监督多标记分类问题的数学描述如下 : 给定训练集 T = { ( x1 , y1 ) , …, ( xl , yl ) , x l +1 , …, xn }
0
引言
多标记学习起源于文本分类研究中遇到的歧义性问题 ,
主要解决一个样本可以同时属于多个类别的问题 。现实世界 中, 多标记学习问题普遍存在
[1 ]
, 例如, 在生物信息学中, 一
“新陈代谢 ” 、 “蛋白质合成 ” 个基因序列具有若干个功能 , 如 等; 在文本分类中, 每篇文档可能同时属于多个主题 , 如“苹 ” 、 “乔布斯” 果 等; 在场景分类中, 每个场景图片可能对应于 “大海 ” 、 “沙滩 ” 多个类别, 如 等。 通常多标记分类问题的一 种直观的处理办法是把多标记分类问题转化为一组独立的二 其中每一个二类分类问题对应一个标记 , 每一个 类分类问题, 样本的标 记 最 终 通 过 组 合 所 有 的 二 类 分 类 问 题 的 结 果 获 得