社会化标注系统的标签语义检索研究综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2010-12-23
基金项目:国家社科基金重点项目(项目编号:10ATQ004)
作者简介:宣云干(1974-),男,博士研究生,高级工程师,研究方向:网络信息资源管理,发表论文20多篇。
综 述
社会化标注系统的标签语义检索研究综述
宣云干
1,2
朱庆华1 鞠秀芳
3
(1.南京大学工程管理学院,南京210093; 2.江苏省建筑科学研究院有限公司,南京210008;
3.南京大学中国社会科学研究评价中心,南京210093)
摘 要 社会化标注系统中标签的语义模糊性和形式不规范使得资源管理与共享越来越困难,为准确定位标签语义,文章从扩展标签语义与涌现标签语义两个方面,对标签语义检索研究现状进行了综述,分析了社会化标注系统中标签语义检索的研究动态和不足,并总结得出可计算性高、可操作性强、能智能获取标签的语义关系是社会化标注系统标签语义检索的未来研究方向。
关键词 标签;标注;社会化标注系统;标签检索;标签语义;语义检索
DOI:10.3969/j.issn.1008-0821.2011.02.049 中图分类号 G354 47
文献标识码 A
文章编号 1008-0821(2011)02-0174-04
Overview of Research on Tag Semantic Retrieval in Social Tagging System
Xuan Yungan
1,2
Zhu Qinghua 1 Ju Xiufang
3
(1.School of Engineering Management,Nanjing University,Nanjing 210093,China;2.Jiangsu Research Institute of Building Science (Co.,LTD.),Nanjing 210008,China;3.Chinese Social Sciences Research Evaluation Center,Nanjing University,Nanjing 210093,China)
Abstract Resources management and sharing becomes more and more difficult due to semantic ambiguity and not standard ized form of tag in Social tagging system.For the purpose of positioning accurate tag semantics,this paper reviews the literature on tag semantic retrieval from two aspects:the extension tag semantic and the emerging tag semantic.The research trend and its shortcomings are investigated.It is realized that the abili ty of obtain i ntelligen t tag semantic relations with high calculability,strong maneuverability is the future research on semantic retrieval in social tagging system.
Key words tag;tagging;social tagging system;tag retrieval;tag semantic;semantic retrieval
构建社会化标注系统的初衷是为方便个人对网络信息资源的管理,后来越来越多的用户用标签对资源进行描述、分类和检索,表现出了足够的社会效应,便逐渐发展成为重要的资源组织与共享平台。
但不同用户认知程度不同,对标签词义的理解各异,造成标签的模糊和不规范,单凭标签的定位与匹配很难准确、便捷的得到用户所需,给资源管理与共享带来很大困难,所以标签的语义检索近几年成为社会化标注系统的研究热点。
语义检索是基于知识与语义的匹配,在提高检索的查准率和查全率方面有很好的表现,笔者检索了社会化标注系统标签语义检索领域的相关文献,发现普遍思路是通过
增强标签的语义信息来提高检索能力,研究主要分两个方向:一是利用受控词表、树或本体通过标签的智能扩展,增强标签规范性,减少模糊性来提高提问式和资源集的匹配度。
二是利用概率统计、无向权图、共现矩阵等向量空间模型,从标注系统中提取出标签涌现语义。
下面对这方面的研究进行综述,以期掌握标签语义检索的研究动态和趋势。
1 扩展标签语义1 1 利用语义工具
研究者认为,用分类法模式来组织标签,对确定标签
的含义非常有帮助,如利用WordNet返回标签所属的类,帮助检查该标签是否与内容属于同一类[1],或用WordNet 将相关标签建立语义层级[2],这一方法对解决标签同义较为有效,对歧义问题则帮助不大。
还有研究者利用软件OMCS以及Conceptnet,将标签扩展为几个相同的概念,然后再进行相应的查找,并对查找结果进行打分,进而得到相应的结果[3]。
Yusef提出一个把海量标签集合转换成层次的分类标签树的方法,以便用户的检索和导航[4]。
有研究者将多种工具结合使用,来确定标签所属概念及其间关系,如使用在线词典与本体资源将标签绘制成概念、属性以及例子,确定已绘制标签间的关系[5]。
也有研究者将目标标签的邻居标签吸纳进来,在选择维基中的解释文本时,选择邻居标签总频率发生最高的那个文本,进而建立标签与概念的对应库[6]。
Ronzano则将研究提升到了新的高度,认为资源是由概念组成,而概念又是由关键词(标签)组成,因此通过维基,将文章作为资源,文章标题作为概念,再将文章标题与内容中提取的词作为关键词,建立Syntag库,该库由概念与关键词组成,可以消除歧义,更加全面的表达概念[7]。
有研究者则自己开发工具来扩展语义,如Marchetti通过开发一个新的基于语义的系统SemKey,对当前的标注系统加以概念上的扩展,在该系统中,标签被分为三类关系: hasAs Topcic,hasAsKind,myOpinionIs,用户需要指出其所标注与内容关系属性,同时,Semkey也通过WordNet来减少歧义[8]。
也有学者提出对用户的自定义标签再添加可控标签,即标签的标签[9],笔者认为该方法不仅成本高,而且并不十分有效。
1 2 利用本体技术
社会化标注系统中标签数据体现了群体智慧,具有不规范和非形式化的特性,使用本体对这些数据进行形式化的描述,可以从中提取出丰富的语义信息。
Tom Gruber最初提出标签本体的思想,设计了基于标签构建本体的概念模型[10],Davis开展了更进一步的研究,提取出描述网络资源的标签,并自动的将其映射为相应的预定义领域本体[11]。
一些研究用本体的思想规范化标签,如将标签结构化,使标签信息更为具体[12],或将标签的信息定义为包括主体、客体以及两者间的关系[13]。
还有用本体将标签进行层级化表示,具体到上下层级之间的特定关系,进而帮助用户寻找相关的资源[14]。
另一些研究者对标签本体思想进行了深化,通过建立一个类似维基的体系,将本体编辑的任务交给大众[15],或者认为社会化标注是一种 社会化的本体 ,本体的构建不需要再依赖于专家,而可以从丰富的用户数据中提取[16]。
Jose开发出了一个基于语义网技术和社会化标注相结合的平台,将不同领域细节本体联合,用户可以添加元数据到资源中,同时协同标注资源,该系统利用联合不同元数据搜索引擎来定位期望的资源,通过本体和标签提供浏览能力[17]。
Haklackin在语义层面上讨论数种社会化标签系统标注的方法,提出一个标签协作标注和设计的民俗分类法的概念模型,同时比较已有的标签本体,提出一个评价标准[18]。
2 涌现标签语义
2 1 利用概率论
这一方法是通过将用户的标注行为用一个概率生成模型加以表示和处理,自动的得到标签的涌现语义,实现同义与多义标签的识别和区分。
Wu运用概率论方法挖掘潜藏在用户、资源和标签共现频率中的潜在语义[19]。
Pasquale 通过大众分类提出一个支持用户标注资源的新途径,利用概率技术来加速精确地决定两个标签的相似度和概括度,提出两个等级结构和两个相关算法,在一个等级里安排语义相关的标签组,这样可以让用户根据期望的语义粒度显现他们感兴趣的标签,帮助他们发现最能表达他们信息需求的标签[20]。
2 2 利用图论
运用图论研究社会化标注系统中的语义也较为多见,被广泛应用于研究社会化标签系统的语义结构,Heymann 等通过将标签作为点,标签相似度为边,建立相应的无权图,将大量的标签转化为可导航的层次结构的分类法,将标签按其所标注的资源的次数表示成向量的形式,同时用余弦相似性计算不同标签的相似性,并给定相应阈值,就可以得到标签的相似图,进而得到潜在层级的分类法[21]。
Begelman统计了基于资源的标签共现,并利用分离点去除弱关联的标签,将强关联的标签表示成无向权图,运用聚类分析得到层次性[22]。
2 3 利用共现网络
Halpin对高出现频率标签形成的共现网络进行分析,指出可以利用这些高频标签与其他标签的关系,确定目标标签的意义[23]。
Specia建立共现矩阵来划分标签簇,使用在线词典以及本体资源将标签绘制成概念、属性以及例子,并确定已绘制标签间的关系[24]。
还有研究也是对高出现频率标签形成的共现网络进行分析,指出可以利用这些高频标签与其他标签的关系,确定目标标签的意义[25]。
2 4 其他方法
Aurnhammer等的研究较为初步,主要是给出了一个相似度搜索模型,可以让用户得到在概念上相关的数据[26]。
同样的,通过概念作为过渡,Hsieh方法化了如何将标签分层级,实现了提高检全率的同时又不过多损失检准率[27]。
Zhou应用确定性退火算法,提出从社会化标签中自动提取出层次性语义的相关模型,有效的反映语义概念和层级间的关系[28]。
3 讨 论
利用本体或受控词库来确定标签的类属关系,以加强标注规范性,在标注时推荐标签,这有利于有能力提供更多的检索词的检索者。
但这些工具的建设仍需要大量的人工参与,完备性不够,同时,采用导航的方式进行概念扩展和匹配,可计算性不高,建立提问式与资源集的语义关系比较困难,应用效果不理想。
采用共现矩阵、无向权图等传统语义向量分析方法从标注系统中涌现出标签语义,将资源内容表示成标签项及其权重的向量,形成标签 资源矩阵或图,使得各种数学处理成为可能。
这样做的缺点是两个不包含共同标签的资源其相关度为0,而没有考虑到词形不同的标签间仍然存在语义关系,用互不相关的向量代表标签这一点本身与人对标签的认知不符,无法分辨自然语言的语义模糊性,且当资源集较大时,形成的向量维度较大,计算困难。
在社会化标注系统中,存在潜在的语义结构支配标签的出现和资源的构成,一个包含语义的资源出现在以标签为维度的空间中,其分布服从某种语义结构,一个标签出现在某个资源中也同其它出现在该资源中的标签有密切的联系,这体现了 标签 资源 双重概率关系。
因此笔者认为标签和资源在语意空间的位置可以用来作为一种语意指引,如果能够找到一种方法自动提取出这种语义结构,将标签和资源以可计算性高、可操作性强、代表语义的形式表示和存储,可以为标签检索提供一种语义匹配的新方法,这对未来的社会化标注系统标签语义检索意义重大,将直接推动社会化标注系统和互联网技术的发展。
参考文献
[1]Carmagnola F,Cena F,Gena er Modeling in the Social Web
[C].LNCS:Knowledge-Based Intelli gent Information and Engineer
ing Systems.Springer Berlin/Heidelberg,2008,4694/2008:745-752.
[2]Laniado D,Eynard D,Colombetti M.A Se mantic Tool to Support
Navi gation i n a Folks onomy[C].Proceedings of the Eighteenth Con ference on Hypertext and hypermedia.ACM,New York,USA, 2007:153-154.
[3]Nauman M,Hus sai n i ng Pers onali zed Web Search for Enhanci ng
Common Sense and Folks onomy Based Intelligent Search Sys te ms[C].
Proceedings of the IEEE/WIC/ACM International Conference on Web Intelli gence.IEEE Co mputer Society,Was hington,DC,USA, 2007:423-426.
[4]Yusef H M,vlctor H S.Improving Tag Clouds as Vi sual Informati on
Retrieval Interfaces[DB/OL].International Conference onMul tidisci pli nary Information Sciences and Technologies.http: www.i nstac.
es/in sci t2006/paper/fdf/165.pdf,2009-12-12.
[5]Specia L,Motta E.Integrating Folksonomies with the Semantic Web
[C].LNCS:The Se mantic Web:Res earch and Applications.
Springer Berlin/Hei delberg,2007,4519/2007:624-639.
[6]Ronz ano F,Marche tti A,Tesconi M et al.Tagpedia:a Semantic
Reference to Descri be and Search for Web Resources[C].Workshop on Social Web and Knowledge Manage ment at17th International Confer ence on World Wi de Web.Beijing,China,April2008.
[7]Ronz ano F,Marche tti A,Tesconi M et al.Tagpedia:a Semantic
Reference to Descri be and Search for Web Resources[C].Workshop on Social Web and Knowledge Manage ment at17th International Confer ence on World Wi de Web.Beijing,China,2008:216-132. [8]Marchetti A,Tesconi M,Ronz ano F et al.Se mKey:A Semantic Col
laborative Tagging System[C].Proceedi ngs of the16th Internati onal Conference on World Wide Web.ACM,New York,USA,2007: 825-834.
[9]Vlad T,Olga S.Extreme Tagging:Emergent Semantics through the
Tagging of Tags[C].ESOE,2007:212-231.
[10]Gruber T.Ontology of Folks onomy:A Mash-up of Apples and Or
anges[EB/O L].2009-10-02.http: /writing/mt sr05-ontol ogy-of-folks onomy.htm,2008-10-02.
[11]Davis H C,Al-Khalifa H S,Gil bert L.Creating Structure from Disor
de r:Using Fol ksono mies to Create Se mantic Metadata[C].Proceedings of the3rd International Conference on Web Informati on Systems and Technologies.Barcelona,Spain,March,2007:214-231.
[12]Singh A V,Wombacher A,Aberer K.Personalized Information Access in
a Wiki Using Structured Tagging[C].LNCS:On the Move to Meaningful
Internet Systems2007:OTM2007Workshops.Springer Berli n/Heidel berg,2007,4805/2007:427-436.
[13]Yang J,Matsuo Y,Ishiz uka M.An Augmented Taggi ng Scheme with
Triple Tagging and Collec tive Filteri ng[C].Proceedi ngs of the IEEE/ WIC/ACM International Conference on Web Intelligence.IEEE Comput er Socie ty,Was hington,DC,USA,2007:35-38.
[14]Christiaens S.Metadata Mechanis ms:From Ontology to Folks onomy and
Back[C].LNCS:On the Move to Meani ngful Internet Sys te ms2006: OT M2006Workshops.Springer Berlin/Heidelberg,2006:199-207. [15]Gendarmi D,Lanubile munity-Driven Ontology Evoluti on Based
on Folks onomies.LNCS:On the M ove to Meaningful Internet Sys te ms 2006:OTM2006Workshops.Spri nger Berlin/Heidelberg,2006,4277/ 2006:181-188.
[16]Mote N.The New School of Ontologies[EB/OL].http: www.i /
~mote/papers/Folks onomy.html,2009-10-02.
[17]Jose E G.WESONet:applying s emantic web technologies and collab
orative taggi ng to multimedia web i nformation systems[J].Computers in Human Behavior,2010,(26):205-209.
[18]Hamas aki M,M atsuo Y,Nishi mura T,et al.Ontology Extrac tion
by Collaborative Taggi ng w i th Social Net worki ng[EB/OL].http: ymats /papers/www2008ha ma.pdf,2009-12-12.
[19]Wu X,Zhang L,Yu Y.Exploring Social Annotati ons for the Seman
tic Web[C].Proceedings of the15th International Conference on World Wide Web.ACM,New York,USA,2006:417-426. [20]Ps aquale D M.Exploitati on of semantic relati onships and hierarchical
data s tructures to support a user in his annotation and browsi ng activi ties
in folksonomies[J].Information s ys te ms,2009,(34):511-535.
[21]Heymann P,Garcia-Moli nay H.Collaborati ve Creati on of Commu
nal Hierarchical Ta xonomies in Social Taggi ng Sys te ms[C].Technical Report InfoLab.Department of Computer Sci ence.Stanford Univers i ty.Stanford,CA,USA,2006:312-341.
[22]Begel man G,Keller P,Smadja F.Automated Tag Clus teri ng:Im
proving Search and Exploration i n the Tag Space[C].Works hop on Collaborati ve Web Tagging at15th International Conference on World Wide Web.Endiburgh,Sc otland,2006:241-262.
[23]Weber J.Fol ksono my and Controlled Vocabulary in LibraryThi ng
[EB/OL].http: /s amples l2452-Folksonomy.
pdf,2009-12-10.
[24]Specia L,Motta E.Integrating Folksonomies with the Se mantic Web
[C].LNCS:The Se mantic Web:Res earch and Applications.
Springer Berlin/Hei delberg,2007:624-639.
[25]Halpin H,Robu V,Shepherd H.The Complex Dynamics of Collab
orative Taggi ng[C].Proceedi ngs of the16th international conference on World Wide Web.ACM,Ne w York,USA,2007:211-220. [26]Aurnhammer M,Hanappe P,Steels L.Augmenting Navi gation for
Collaborative Taggi ng wi th Emergent Semantics[C].LNCS:The Se mantic Web-ISWC2006.Springer Berli n/Heidelberg,2006,4273/ 2006:58-71.
[27]Hsieh W T,Lai W S,Chou S C T.A Collaborative Tagging System
for Learning Resources Shari ng[J].Current Developments in Technol ogy-As sisted Educati on,2006:1364-1368.
[28]Zhou M,Bao S,Wu X e t al.An Unsupervised Model for Exploring
Hierarchical Semantics fro m Social Annotations[C].LNCS:The Se mantic Web.Springer Berli n/Heidelberg,2008:680-693.
(上接第164页)
例如:国内的一位老师开始把一篇文章投到一本影响因子还不到1的杂志,但是被拒了。
这位老师没放弃,在修改之后又把文章投到了学科领域内最著名的杂志,影响因子高达10,文章被接受了[5]。
这件事告诉我们,选择一个合适的期刊对于文章是否能发表有很大的影响。
由于不同学科期刊的影响因子存在很大差异,因此,选择拟投稿的期刊时应注意避免过于看重期刊影响因子的大小,作者必须要十分了解自己研究领域的重要期刊,力求所选择期刊的出版内容与稿件的专题确实密切相关,尽可能选择影响因子高且稿件的主题与期刊出版的内容相符,论文的录用率高些。
如何提高投稿论文命中率是非常重要的。
查新机构为作者提供SCI、EI论文收录及SCI引用检索服务,查阅2010影响因子总表,利用JCR检索该期刊的总被引频次和影响因子来了解期刊的学术影响力。
即期刊的总被引频次和影响因子越高,则表明期刊被读者阅读和使用的可能性越大。
进而可推断该期刊的潜在的学术影响力也越大。
从总被引频次和影响因子入手,帮助作者选择影响因子高的期刊为首选发表期刊。
5 注重SCI源期刊对论文的要求
注重SCI源期刊对论文的要求,如:英文名、论文的规范化表达、文章格式、份数、稿件类型、字数限制及投稿地址等。
已进入SCI和SCI外围的刊物或有希望进入的刊物,可完全以英文著录,要想进入和保住SCI的收录,就必须按照SCI的著录格式,期刊的国际化是非常实际的,也是必须的。
对于中文文献,在著录项后括号内注出中文,参考文献的著录项目和著录格式应根据国家标准GB/T7714 2005执行。
在一篇科技论文的参考文献中,外文参考文献应占相当大的比例,这样的论文被SCI收录的可能性大。
据 中国论文统计与分析 近年来的报导表明,中文期刊平均每篇论文所引用的参考文献不足7篇,而SCI收录的论文平均每篇引用的参考文献达24篇以上[6]。
只有严格按照SCI源期刊对论文的要求,才能提高投稿论文的命中率。
6 结束语
学术交流日益国际化的今天,从事学术研究的作者经历了艰辛的努力与劳动、观察和得到的实验结果,如果这些能够抢先在国际相关的学科杂志上发表,不仅能使学科界认可,且有利于扩大和提升作者科研成果的价值,确定作者进一步深入开展此项实验的意义。
科技查新机构利用自身优势,为科技人员开展论文翻译服务,对课题内容的选择及投稿期刊进行检索查新,查找拟投SCI期刊和投稿方向,提高投稿命中率,是拓展科技查新信息服务的新途径。
参考文献
[1]朱国琴.SCI简介及如何向SCI源刊投稿[J].医学信息,
2002,15(7):449-451.
[2]段鹏翔.SCI(E)的选刊原则与投稿指南[J].江西图书馆学
刊,2004,34(4):39-41.
[3]王素文,李忠芳.参考文献著录国际化出现的问题及对策
[DB].2010-03-26.http: /Front/XueShu LunWen/Article.aspx?ArticleID=60927&DispMode=110,2010-07 -17.
[4]南京图书馆.常用术语(影响因子、总被引频次)[DB].
http: /njlib-hdzn/t20061214-55194.ht m,2010 -07-17.
[5]本刊发展部.如何向SCI杂志投稿:选择期刊是关键的一环
[J].中国组织工程研究与临床康复,2010,(2):301.
[6]张润芝.向SCI来源期刊投稿的技巧与方法[J].情报探索,
2007,(10):118-119.。