基于矩阵填充的众包学习模型研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
LIU Tian-shi, WU Qiong
(School of computer Science of Xi’an Shiyou University, Xi’an 710065)
【Abstract】: This paper proposes a robust low rank approximation algorithm (ROLA) to learn the potential similarity between annotators and to solve the noise in annotated data sets. ROLA constructs a low rank matrix model to capture latent correlation information in tags and latent eigenvectors of problems. The experimental results show that ROLA has the highest accuracy on four data sets. Compared with existing algorithms, it also has corresponding advantages in optimization time. 【Key words】: Low rank approximation; Matrix filling; Crowdsourcing learning
2 LRAMO 优化算法
本节将众包学习看成矩阵填充问题,提出低秩
作者简介: 刘天时(1960),教授,主要研究方向:智能计算机应用;吴琼(1993),女,硕士研究生,主要研究方向:矩阵填充。
第 40 卷 第 4 期
软件
近似流形优化算法(Low-Rank Approximation Manifold Optimization,LRAMO)。通过黎曼优化求解矩 阵填充,不仅降低了矩阵填充的时间复杂度,而且 收敛速度也有所提升。构建众包学习的矩阵填充模 型,将众包学习得到的数据矩阵 Z,分解成低秩矩 阵 X 即从标注数据中采样得到的标签,和噪声矩阵 E,其中 E 是稀疏噪声。
1 低秩矩阵模型
众包学习获得数据的成本比较低廉,但是存在
大量噪声[2-5]பைடு நூலகம்而标签数据之间具有低秩结构,本文 根据数据的低秩结构,将众包学习理解成矩阵填充 问题。因此本文提出基于矩阵填充的低秩近似流形 优化算法,删除恶意标注者的标注噪声,并对恶意 和有不良标注习惯的标注者进行标记,优化了后续 的众包学习过程。
阵,其最小化问题为:
min X2
P (Z
X
E)
2 F
X
*
(2)
这里采样矩阵 Z 即标签矩阵是已知的,求解公
式(2)时,噪声矩阵 E 设为固定值,通过 k 次迭代,
2019 年 第 40 卷 第 4 期
软
件
COMPUTER ENGINEERING & SOFTWARE
2019, Vol. 40, No. 4 国际 IT 传媒品牌
基于矩阵填充的众包学习模型研究
刘天时,吴 琼
(西安石油大学计算机学院,陕西 西安 710065)
摘 要: 本文提出一种鲁棒低秩近似算法(ROLA)来学习标注者之间潜在的相似性,进而解决标注数据集中 的噪声。ROLA 通过构造一个低秩矩阵模型,来捕获标签中的潜在相关信息,与问题的潜在特征向量。实验结果表 明,ROLA 在四个数据集上的准确率最高。并且与现有算法相比,在优化时间上也存在相应优势。
对噪声进行约减。
2.1 标签矩阵的低秩问题
由于标注者的目的都是尽可能正确的完成任
务,除去个别标注者粗心导致的错误,大部分标注
者的标注习惯比较相似,因此无噪声的标注矩阵满
足低秩结构。也就是说,无噪声标签的矩阵是可靠
标注者,由他们得到的标签数据往往是正确的,且
具有低秩结构。那么用 X 表示无噪声标签的低秩矩
min
X ,E
X
*
E 2,1
s.t.Z X E
(1)
上式中ǁ·ǁ*表示核范数,是给定是正则参数。
由于众包学习被形式化为低秩矩阵填充问题,由于
矩阵填充求解秩函数是 NP 问题,因此这里用核函
数最小化进行凸松弛。在模型中与标注者相关的噪
声用 l2,1 范数刻画,最小化噪声矩阵 E 的 l2,1 范数
关键词: 低秩近似;矩阵填充;众包学习 中图分类号: TP311.13 文献标识码: A DOI:10.3969/j.issn.1003-6970.2019.04.034 本文著录格式:刘天时,吴琼. 基于矩阵填充的众包学习模型研究[J]. 软件,2019,40(4):159161
Research on Crowdsourcing Learning Model Based on Matrix Filling
0 引言
近年来在机器学习和计算机视觉方面广泛应 用。然而由于雇主发布的标注任务差异,导致收集 到来自于不同自由职业者的标注结果,含有大量噪 声。如何甄别噪声,提高众包学习的质量是目前面 临的问题[1]。
本文提出基于矩阵填充的数据去噪方法:低秩 近似流形优化算法(Low-Rank Approximation Manifold Optimization,LRAMO)。以矩阵填充的视角看 待众包学习问题,认为矩阵的低秩结构既标注着之 间的潜在相关关系,以此为依据,将恶意或者具有 相似不良标注习惯的标注者的噪声删去。而针对无 噪声的标签矩阵,LRAMO 算法直接进行黎曼优化 的矩阵分解,获得完整的标签矩阵,能快速进行众 包学习。
也就是说,少数恶意和不良习惯的标注者带来 噪音,当众包任务发出去后,多数认真对待任务的 标注者的标签是相似的,都试图给出正确答案。由 于得到的众包数据具有低秩结构,可转换成一个低 秩的矩阵和一个噪声矩阵相加。这样做的目的是: (1)接受标注任务的标注者得到的数据可以分成准 确标注和噪声标注。而噪声是稀疏的,根据数据的 低秩结构可以轻易的推断出真实的标注。(2)噪声 标注导致的偏差可以用 l2,1 范数表示,而矩阵的低 秩结构说明标注者之间存在潜在关系[6-10]。
(School of computer Science of Xi’an Shiyou University, Xi’an 710065)
【Abstract】: This paper proposes a robust low rank approximation algorithm (ROLA) to learn the potential similarity between annotators and to solve the noise in annotated data sets. ROLA constructs a low rank matrix model to capture latent correlation information in tags and latent eigenvectors of problems. The experimental results show that ROLA has the highest accuracy on four data sets. Compared with existing algorithms, it also has corresponding advantages in optimization time. 【Key words】: Low rank approximation; Matrix filling; Crowdsourcing learning
2 LRAMO 优化算法
本节将众包学习看成矩阵填充问题,提出低秩
作者简介: 刘天时(1960),教授,主要研究方向:智能计算机应用;吴琼(1993),女,硕士研究生,主要研究方向:矩阵填充。
第 40 卷 第 4 期
软件
近似流形优化算法(Low-Rank Approximation Manifold Optimization,LRAMO)。通过黎曼优化求解矩 阵填充,不仅降低了矩阵填充的时间复杂度,而且 收敛速度也有所提升。构建众包学习的矩阵填充模 型,将众包学习得到的数据矩阵 Z,分解成低秩矩 阵 X 即从标注数据中采样得到的标签,和噪声矩阵 E,其中 E 是稀疏噪声。
1 低秩矩阵模型
众包学习获得数据的成本比较低廉,但是存在
大量噪声[2-5]பைடு நூலகம்而标签数据之间具有低秩结构,本文 根据数据的低秩结构,将众包学习理解成矩阵填充 问题。因此本文提出基于矩阵填充的低秩近似流形 优化算法,删除恶意标注者的标注噪声,并对恶意 和有不良标注习惯的标注者进行标记,优化了后续 的众包学习过程。
阵,其最小化问题为:
min X2
P (Z
X
E)
2 F
X
*
(2)
这里采样矩阵 Z 即标签矩阵是已知的,求解公
式(2)时,噪声矩阵 E 设为固定值,通过 k 次迭代,
2019 年 第 40 卷 第 4 期
软
件
COMPUTER ENGINEERING & SOFTWARE
2019, Vol. 40, No. 4 国际 IT 传媒品牌
基于矩阵填充的众包学习模型研究
刘天时,吴 琼
(西安石油大学计算机学院,陕西 西安 710065)
摘 要: 本文提出一种鲁棒低秩近似算法(ROLA)来学习标注者之间潜在的相似性,进而解决标注数据集中 的噪声。ROLA 通过构造一个低秩矩阵模型,来捕获标签中的潜在相关信息,与问题的潜在特征向量。实验结果表 明,ROLA 在四个数据集上的准确率最高。并且与现有算法相比,在优化时间上也存在相应优势。
对噪声进行约减。
2.1 标签矩阵的低秩问题
由于标注者的目的都是尽可能正确的完成任
务,除去个别标注者粗心导致的错误,大部分标注
者的标注习惯比较相似,因此无噪声的标注矩阵满
足低秩结构。也就是说,无噪声标签的矩阵是可靠
标注者,由他们得到的标签数据往往是正确的,且
具有低秩结构。那么用 X 表示无噪声标签的低秩矩
min
X ,E
X
*
E 2,1
s.t.Z X E
(1)
上式中ǁ·ǁ*表示核范数,是给定是正则参数。
由于众包学习被形式化为低秩矩阵填充问题,由于
矩阵填充求解秩函数是 NP 问题,因此这里用核函
数最小化进行凸松弛。在模型中与标注者相关的噪
声用 l2,1 范数刻画,最小化噪声矩阵 E 的 l2,1 范数
关键词: 低秩近似;矩阵填充;众包学习 中图分类号: TP311.13 文献标识码: A DOI:10.3969/j.issn.1003-6970.2019.04.034 本文著录格式:刘天时,吴琼. 基于矩阵填充的众包学习模型研究[J]. 软件,2019,40(4):159161
Research on Crowdsourcing Learning Model Based on Matrix Filling
0 引言
近年来在机器学习和计算机视觉方面广泛应 用。然而由于雇主发布的标注任务差异,导致收集 到来自于不同自由职业者的标注结果,含有大量噪 声。如何甄别噪声,提高众包学习的质量是目前面 临的问题[1]。
本文提出基于矩阵填充的数据去噪方法:低秩 近似流形优化算法(Low-Rank Approximation Manifold Optimization,LRAMO)。以矩阵填充的视角看 待众包学习问题,认为矩阵的低秩结构既标注着之 间的潜在相关关系,以此为依据,将恶意或者具有 相似不良标注习惯的标注者的噪声删去。而针对无 噪声的标签矩阵,LRAMO 算法直接进行黎曼优化 的矩阵分解,获得完整的标签矩阵,能快速进行众 包学习。
也就是说,少数恶意和不良习惯的标注者带来 噪音,当众包任务发出去后,多数认真对待任务的 标注者的标签是相似的,都试图给出正确答案。由 于得到的众包数据具有低秩结构,可转换成一个低 秩的矩阵和一个噪声矩阵相加。这样做的目的是: (1)接受标注任务的标注者得到的数据可以分成准 确标注和噪声标注。而噪声是稀疏的,根据数据的 低秩结构可以轻易的推断出真实的标注。(2)噪声 标注导致的偏差可以用 l2,1 范数表示,而矩阵的低 秩结构说明标注者之间存在潜在关系[6-10]。