基于全路径相似度的大规模层次分类算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019年5月计算机工程与设计May2019第40卷第5期COMPUTER ENGINEERING AND DESIGN Vol.40No.5基于全路径相似度的大规模层次分类算法
朱建林s陈忠阳s张永俊2,孙存3
(1.中国人民大学财政金融学院,北京100872; 2.中国人民大学信息学院,北京100872;
3.北京大学光华管理学院,北京100871)
摘要:为快速准确地实现大规模层次分类问题,提出词类区分度概念,并以此作为计算类向量的基础&基于类向量,以改进的Rocchio算法计算待分类文本与目标类的相似度,候选出N个最可能的目标类别;根据目标类别的层次拓扑结构,计算待分类文本与N个目标类别的全路径相似度,确定分类类别。实验结果表明,该方法分类效果优于传统算法,其基于文本类全路径相似度的策略明显改善了单纯基于词类区分度的分类算法。
关键词:词类区分度;全路径相似度;大规模层次分类;文本分类;化繁为简策略
中图法分类号:TP311文献标识号:A文章编号:1000-7024(2019)05-130005
doi:10.16208/j.issnl000-7024.2019.05.019
Large scale hierarchical classification algorithm based on full-path similarity
ZHU Jian-lin1,CHEN Zhong-yang1,ZHANG Yong-jun2,SUN Cun-yi3
(1.School of Finance,Renmin University of China,Beijing100872,China;2.School of Information,Renmin University of
China,Beijing100872,China;3.Guanghua School of Management,Peking University,Beijing100871,China)
Abstract:A large-scale hierarchical classification algorithm based on full-path similarity was proposed.The concept of word-class discrimination was proposed and used as the basis of class vector.An improved Rocchio algorithm was proposed to calculate texclass similarity and N most likely classes were selected as candidates.The full-path similarities between text and candidate classes were calculated according to hierarchical structure of classes,by which the classification results were determined.The time complexiyofLhealgorihm was linearly correlaLed wi hLhe number of classes.ExperimenLal resul s showLhaLLhe e f ecLs ofLhe algorihmarebe L er.
Key words:word-class discrimination;full-path similarity;EimplifyEtrategy
0引言
现实生活中,分类场景的目标类经常具有一定的拓扑
结构,有时类的个数也很多。例如,当雅虎把因特网中的
网站分类到数百万个类别时,这些类别标签构成了层次结
构的有向无环图;再如,把论文分类到研究领域时,研究
领域的类型包括所有学科的众多研究分支,这些研究分支
形成了有层次的树型结构。还有,把图片分类到具有层次
结构的类中也是当前的研究热点之一这种分类场景可
以抽象为大规模层次分类问题。
大规模层次分类的目标类别很多,结构更为复杂,所large-Ecale hierarchical claEEification;text claEEification;
以分类的准确率很难达到理想效果。目前,大规模层次分类问题有3种解决方案:全局策略、自顶向下策略和化繁为简策略。
为了准确快速地实现大规模层次分类,本文拟用了化繁为简策略,先从目标类中筛选出候选类别,再融入类间关系,构建更为准确的分类算法,从候选类别中选取最终的分类结果。
1相关工作
大层个大别层
指定未知类别对象在类别层次中所属的类别+,。例如,新
收稿日期:20180102;修订日期:201803-28
基金项目:国家自然科学基金项目(71271209);北京市自然科学基金项目(4132067)
作者简介:朱建林(1979-),男,河北廊坊人'博士'博士后,研究方向为金融风险量化分析;陈忠阳(1968-),男,湖南常德人'博士’教授,博士生导师,研究方向为金融风险管理;张永俊(1986-),男’江苏南京人’博士研究生,研究方向为异构信息网络挖掘;孙存一(1979-),男,山东青岛人,博士,博士后,研究方向为财政与金融信息化。E-mail:linjie_zhu@
第40卷第5期朱建林!陈忠阳!张永俊!等:基于全路径相似度的大规模层次分类算法・1301・
闻分类是根据内容分为政治、经济、体育等,而体育又能为篮球、羽毛球等,根间的从属关系,可以个庞大的层,而底层的新闻类别有数千。在下,如果使用传统
法,如SVM、KNN等,会因计算量太大而无法完成。即使能完成,也会因为目标类别太多而得理想•类(,如何利用类间关系计,得更好,是大层关键。
定义1层:层可形式化地定义为一个偏序集合(C,L),其中C表示类别的一个有限集,L表示3S-A/关系。Sila等认为3S-<”具有非自反性、非对称性和传即层以下4个性质:①存在一个唯一的根元素;②9c,c#C,如果c V c j那么c*C i;③9c#C,贝ij c/c;④V c,c;,c.# C,如果c a L c并且c c.,那么c V c.(
层可以根别,目标类的数量和目标类在中等为型。
目标(T+log%)层次分类可分为:①树型(N):下层类只个树形。如图1(a)所示。②有向无环图型CDAG):当下层类节点的父节点个数可以多于1时,类别向;图。如图1(b)所示。
(a)树(b)有向无环图
图1类别层次拓扑结构
依据目标类的数目(Label Number)可将层次分类问题分为:①单标签分类(SPL):任何对象只能被分类到单一类别;②多标签分类(MPL):对象可以被分到不止1个别。
依据目标类在拓扑结构中的位置(Poston)可将层次为:①全路径(FD):待分类对象只能叶上,即径必须是从根叶子节
完整路径。②径(PD):不同于全路径分类,分类对象可以处于类别层次结构的中间节点上,而不一
叶子节点。如图1(b)中,某实例属于类别1,那么该问题属于部分路径分类,它的分类路径是“根一〉1”。
大层可以用以上3种分类方法表示成三元组(Topology,LabelNumbrr,Position)o例如,(T, SPL,FD)描述树型层次结构的全路径多标签分类,学者们对这类问题的研究最为普遍,它种类的层次分类也可以转换为该类问题。
大规模层解决方案可以分为3种策略:全局策略〈Gobal)自顶向下分而治之策略(Top-down))和化繁为简策略(Rdce)+,。
全局策略Global:从全局范围考虑,只构造一个分类器。全局策略中,考虑了类别方法称为Bzg-Bang方法+「1C),。例如Fernando了可糊自
关联映射(ARAZ)神经网络模型,该模型可解决高维数大层+i,。Siddharth等了层叶斯。Anveshi等提出了风险最小化框架下的大+3。全局策略中,不考虑类别关系的方法叫扁平方法(Fa M141。这种方,可以避免错误传输,训练过程很费时,而且随着类别大,
保障。
自顶向下分而治之策略(Topdown):也叫局部分类策略(Lo al),这方根别,为个个针对小器,自顶向下
方下层于上层,层数得理想。时,别
,比如上层类别过于抽象,以中语料的用词过于宽泛,则导致词的区分能力下降,使得上层类别的文本好,从而大大降低整。为了克服,一些学者使用等方别的上层,再自上而下。这类方法可以为个器(localclassifierpernote,LCN)、个
器(localclassifierperparentnode,LCPN)层个器(localclassifierperlevel,LCL)3。
化繁为简策略(Reduce):是先用一个算法候选出可能别,再用另一个算法从候选类别中筛选终结果方法。化繁为简方法可分为候选集搜索和候选[阶。候选集搜索,XUE等在[6,16,中使用KNN候选索,训练语大时,KNN的计算开销很大。Malik在文献[17,中用SVM候选索,其候选搜索大。Oh等在[18,中用Lucene方训练数J筛选,方解大本(在候选
阶段,XUE、Mlk和Oh等都使用朴素贝叶斯算法确定分类结果。
2基于全路径相似度的大规模层次分类算法本使用化繁为策略对大本层,在候选集搜索本文设计了改进的Rccchia M,在候选集设计了基于全路径相似度的分。Rocchw为容,速度快,随文本数量呈线性可,处理大本。作为直太好,作为候选集搜索算法