国外Folksonomy语义丰富研究综述
国内外词汇语义学研究述评
词汇 语 义 学 ( 1 e x i c a l s e m a n t i c s ) 是
生 成主 义 语 言 学 则 把 研 究 范 畴 主 要 限定 为 语 法层 面 ,在 语 言 学 研 究 的相 当 长 一 段 时 间里 ,词 汇 得 到 学 术 关 注 程 度 较 低 。令 人 欣 喜 的是 ,2 O世 纪 下 半 叶 以来 ,这 个 现 象 逐 渐得 到改 观 ,学 界 对 词 汇 的 关 注 度 大 为
讨词汇 意 义 的分 支 领 域 ”
( R i c h a r d s&
S c h m i d t 2 0 0 2 :3 0 7 ) 。词 汇 语 义 学 经历 了一 段 悠长 的发 展历程 。“ 词 汇 语 义学 作 为 一 门 学 科始 于 1 9世 纪初 期 ,但 这并 不 意 味 着 在 这之前 就不 讨 论 词 义 问题 ” ( G e e r a e r t s
2 4 8 ) 。
在 上世 纪末 就 指 出 : “ 过去的 1 0年 是 词 汇
语 义 学迅 速 发 展 的 一个 时 期 ” 。进 入 2 1世
纪 以来 ,词 汇 语 义 学 逐 渐 成 为 语 言 学 界 的
一
个 热点话 题 ,在 国 内外 范 围 内取 得 了数
在词 汇范 畴 ,意义 则 是 最 核 心 的 要 素 。 “ 语 言 中词 汇 的功能 就是 表 达 意 义 ” ( Ha l l i —
42
外语 与翻译
2 0 1 4年第 4期 ( 总第 8 3期 )
2 .研 究 对象
基于在线词表的folksonomy语义关联识别方法研究
基于在线词表的folksonomy语义关联识别方法研究魏来2012-10-22 10:12:07 来源:《图书情报工作》(京)2011年5期【英文标题】On Folksonomy Semantic Association Identify Method Based on Online Thesaurus【作者简介】魏来,女,1976年生,讲师,东北师范大学计算机科学与信息技术学院博士研究生,发表论文15篇(长春130117)。
【内容提要】在研究现有folksonomy语义关系发现与识别的基础上,提出基于在线词表的folksonomy语义关联识别的总体思路和方法步骤,重点研究folksonomy语义关联识别的具体规则,制定基于在线词表的直接关联关系识别规则和非直接包含/同源关系识别规则,并利用开放教育领域的在线词表ERIC作为语义基础进行实证研究。
The paper bases on the research of discovering and identifying folksonomy semantic association, puts forward the methods, implement process and identify rules based on online thesaurus, especially semantic association identify rules. At last, the paper processes an experiment based on online thesaurus ERIC.【关键词】folksonomy/语义关联/语义识别/在线词表Folksonomy/Semantic association/Semantic identify/Online thesaurusfolksonomy是Web2.0社会性软件工具应用的典型代表,Thomas Vander Wal 于2004年首次提出并将其定义为:使用人们自己的词表描述网络资源的机制[1]。
Folksonomy理论研究及应用前景
有 限 范 围 内 ( sr~ sr ) F 1sn m 。 U elU e5 的 0k0 0 v
V ne l “ l” “aoo " 合 成 “ oko o v , 为 ad r Wa 将 f k 和 txnmy组 o F lsn m ”作
由社 会 性 书 签 最 具 特 色 的 自定 义 标 签 ( a ) 能 衍 生 而 来 , Tg功 是 We20的 重要 范 畴和 典 型 的技 术 应 用 之 一 。 b.
T g 中国 文 学 十 八 春 a4
T g 张爱玲 a5
文学
十八春
爱情
中国文学
2 F lsn my的涵 义 ok o o
描 述 d 1c . r美 味 书 签 ) Fik( 亮 图片 夹 ) 个 网 站 eii0 ( . ou 和 l r闪 c 两
所发展出的信息架构的术语 。 Fl : o 意思 是广 大成 员 、 k 人们 , 达 了 F lsn m 表 oko o v作 为
We20环境 下 社 会 化 软 件 (oil o w r) 大众 性 。 会 性 b. Sca Sf a 的 t e 社 软 件 是 指 任 何 支 持 群 体 交 流 的 软 件 , 核 心 内涵 在 于互 联 网 其
,
随着 以 Bo ( l 博客 )S S 社会性 网络 服务 )R S聚 合 、 g 、N ( 、S
B o m r( ok ak 社会 性书签 ) 等社会 性服 务为代表 的新一代互 联
网 ( b .) 术 的 广 泛 应 用 ,种 “ 民织 网 ” 新 形 态 互 we2 技 0 一 全 的
国内外三语习得研究综述与分析论文
国内外三语习得研究综述与分析论文国内外三语习得研究综述与分析论文一、研究背景长期以来,语言学界将多语研究的重点聚焦于双语研究。
然而,科学技术和社会的快速发展使人们的交流需求增强,这种交流可能是跨区域、跨语言、跨文化的。
在此背景下,多语研究的必要性和重要性日益凸显。
三语习得研究作为近年来国际和国内研究的一个新领域,引起了国内外学者的广泛关注。
本文通过对国内外有关三语习得的文献进行梳理,剖析了国内外三语习得研究现状及其特点,并通过对比国内外研究成果,对三语习得后续研究的发展做出展望。
二、国外三语习得研究综述国外的三语习得研究肇始于Hoffman和Thomas的研究。
Hoffman 的著作Language Acquisitionin Two Trilingual Children 是三语习得研究的典型作品。
Hoffman 在此研究中主要从语言学、社会学和心理学这三方面跟踪调查两个从小同时学习德语和西班牙语的小孩的语言发展与习得。
在此期间,Cenoz,Gorter,Kemp &Jorda 等学者对三语习得研究的发展做出了巨大贡献。
Cenoz & Gorter探究了在巴斯克语、英语和西班牙语三语环境下写作技能的培养,并用不同方法来探究这三种语言之间的联系与交互。
语言学家Kemp给多语现象下了定义,他所提及的影响元语言意识的变化因素为三语习得研究带来了新的视野,包括语言习得者同时掌握的`两门语言,学习者的读写能力、成熟度、学校教育等因素。
Jorda基于言语行为和语用能力的分析,阐述了三语语用意识的产生以及影响。
语言学家De Angelis 探究了习得的语言之间的距离、近因的使用、语言习得的顺序、文本的形式和对目标语与源语言的熟练程度。
三、国内三语习得研究综述与国外的三语习得研究相比,国内的三语习得研究直到20 世纪90 年代中后期才开始,起步较晚。
从已有的三语教育研究成果可知,国内三语研究对象主要针对少数民族,尤其是少数民族学生。
Folksonomy在高校图书馆OPAC中的应用
科技情报开发与经济SCI-TECH INFORMATION DEVELOPMENT&ECONOMY2010年第20卷第5期如今Web2.0“以人为核心”的思想已经逐步渗透到人们的生活。
2005年国内外纷纷掀起Web2.0相关议题与应用的信息潮流,其中指出:Web2.0的核心精神为关注使用者层面,强调“使用者可以控制自己所拥有的资料”,这种理念也成为Folksonomy受到重视的主要原因。
Folksonomy是由社会性书签服务中最具特色的自定义标签(Tag)功能衍生而来,它的概念出现晚于应用,这种现象源于一些社会化网络软件。
其中最著名的有分享书签网站()、相片分享网站(Flickr)、目标分享网站(43-Things)等。
它们都巧妙地将Tag功能运用其中,配合他们独特的易用性,一定程度上引起了Tag以及Folksonomy的流行。
1理论基础由于成本和效益的因素,过去人们只能关注重要的人或重要的事。
如果用正态分布曲线来描述这些人或事,人们只能关注曲线的“头部”,而长尾理论认为应该更加关注处于曲线“尾部”,需要更多精力和成本才能关注到的大多数人或事。
长尾理论与图书馆有很好的适应性。
图书馆的文献资源利用率遵循著名的“二八原则”,即80%的用户使用图书馆资源总量的20%,绝大多数馆藏资源没有被有效利用。
根据长尾理论可知,要让所有东西都能被使用者找到,也就是使所有文献都有可能被读者利用,这将有助于80%的书籍的使用。
Folksonomy的兴起和迅猛发展在信息内容的增长、信息的传播、信息提供与信息需求的匹配等方面为长尾的显现提供了驱动力,这种驱动力也将促使信息服务领域中传统二八定律向现代长尾分布的转变。
2国内外现状调查显示,目前国内外图书馆OPAC采用Folksonomy相对较少,总体上仍属于试验性探索服务阶段,实质性应用极少,因此要对这些应用进行认真细致的分析研究。
而图书馆恰恰可以利用Folksonomy的理念和技术,串联起内容、技术和用户,实现互动,给图书馆网络信息服务注入新鲜力量,达到以用户为中心的终极目标。
Folksonomy
鬆散、未事先製定
大眾化、與個人背景、社會文化相關、共享 相當主觀,品質參差不齊 較具彈性、易變動 品質不一 成本低、瀏覽 貼近使用者,不需訓練
架構嚴謹、事先製定
放諸天下皆準的知識體系 具權威性 較精確 品質高 成本高、檢索率高 接受訓練後使用
有效組織資訊,方便再擷取利用
Folksonomy使用的索引方式
Folksonomy的應用(3)
Folksonomy的應用(4)
Folksonomy的應用(5)
Folksonomy的應用(6)
Folksonomy的應用(7)
Folksonomy的應用(8)
Folksonomy的應用(9)
標籤雲(Tag Clouds)
Folksonomy的優點
總 數
a+c
b+d
a+b+c+d
精確率= a /a+b = 檢索所得之相關筆數 / 檢索所得之所有書目筆數 回收率= a /a+c = 檢索所得之相關筆數 / 資料庫中所有相關筆數 (為未知數) 雜訊比= b /b+d =檢索出之不相關筆數 / 資料庫中所有不相關筆數
標記的選擇
由使用者提供,貼近使用者認知 對於網路資源的瞭解不夠全面、對標記詮譯太過主觀
由使用者下標記,個人文化背景、知識領域、知識水準的參差不齊
標記的品質
隨著標記數量愈來愈多,若能有效利用,將有助於品質的改善 其資訊關聯性是隱性,需要使用者自己發掘
資訊關聯的創造
Folksonomy對圖書資訊服務的影響與應用(2)
Folksonomy的發展(1)
关于Folksonomy的基本架构及其功能模式的研究
( 中国农业大 学 图书馆 ,北京 109) 0 13
[ 摘 要)对 Fl oo y o s m 网格 架构和互联关 系 kn 进行 了剖析 ,利用基于互联 关系的共现分析的原理 ,探讨 了其信息 自 组化 管理
的基本功能模 式。以期有助于 Flsnm o oo y的深度 开发和应用。 k [ 关键词】Flm o ;网络结构 ;网络性质 o nmy k
[ e od ]Fl oo y e o t c r;ntokp pre K yw rs o snm ;nt r sut e ewr m els k wk r u i 步入互联 网 w b . e20时代 ,为满足用户在 网际环境下 参 管理和检索 ,对上传或需 要备档 的资源 ,基于用 户对资 源
21 年 3 01 月 第 3 卷第 3 1 期
・
现 代 情 报
Ju lo o ma fMoe Ifr t n d m noma o i
Ma . 2 1 r , 01
V 13 Nl 3 0. 1 0 .
业 务 研 究 ・
关 于 Flsnm o oo y的基 本 架构 及 其功 能模 式 的研 究 k
Fl oo y收藏保存 ,加 入系统供其他用户共享。标 引过程 o snm k
涉及用户 ,标签和资源三元组 要素 。三元组元 素 间因多 向
连接而形成为一个 复杂 的交互 作用 的信 息网格 :用户 在共 享相 同的标签和/ 或资源 中与其他人产生间接的联系 ;标签 因标记 同一资源对 象而发生关 联 ;资源 因同一标 签标 注而 被聚类。随着协 同标引过程的进行 ,系统不断生成并扩大 ,
的理解 ,用 自由语 言 作 为标 签 ,对 资源 进 行标 注,并 由
卡明斯诗歌“orounDmoon”的多模态功能解读
0 . 引言 卡明斯 ( e � e � cum m i n gs) ,生于 189 4 年, 卒于
( 王红阳 , 信息交际纳入分 析框 架 ( 辛志 英,2 008 ) " 2 007 ; 张旭红 , 2 01 0) � 回顾视觉诗的研究历程, 多模态话语分析理论越
19 6 2 年, 美国 诗人 � 画家 � 卡明斯 创作 的很 多诗歌, 来越受青睐, 相信将逐步成为视觉诗分析的主流 � 针 "在结构 和技巧上明显地 带有现代主义倾 向 " ( 王红 对这样的情况, 本文以卡明斯的"o ( rounD ) m oo n" 为 2 007 ) �"语法变异 " , "书写变异 " "独特的形象 例, 阳, 和 尝试以多模态话语分析为理论框架对之做出解读 � 设计 "( 徐艳萍, 杨跃,2 005) 是卡明斯诗歌的主要特 点� 卡明斯的诗歌, 亦诗亦画 , 可读可赏, 卡明斯由此 2. 系统功能语言学框架内的多模态话语分析 成为二十世纪视觉诗的代表诗人� 兴起于上世纪 9 0 年代的多模态话语分析理论, 为 视觉诗的研究"提供 了一套同时分析视 � 听和文字互相兼容的系统研究体 " ( , 2 010 ) � 系 张旭红 1. 视觉诗 1 .1 视觉诗的定义 2 .1 韩礼德的纯理功能思想 "韩礼德系统功能语法的核心内容是关于语言的 ( 王红阳 ,2 007 ) � 韩礼 德 ( 1 9 9 4 ) 指 纯理功能思 想 " 出, 语言在人们的社会生活中主要有三大作用 , 即概念 � �" 功能 人际功能和语篇功能 概念功能是代表或 反 映或解释世界的功能, 人际功能是交际参与者分配角 色和对语篇作出判断的功能, 语篇功能是用各种语言 手段将语篇中的各个句子连接成一篇连贯的文章的功 ( 方琰 , 2 005) � 能" 2 .2 模态 � 多模态和多模态语篇 模态指的是"交 流的 渠道 和媒介 , 包 括语 言� 技
概念格稳定性分析及其在Folksonomy中的应用
计 算机 工程 与 设 计
C OM P UTER ENGI NEERI NG AND DES GN I
M a . 12 r 20
第3 3卷
第3 期
Vo. 3 No 3 13 .
概念格稳定性 分析 及其在 F lsn my中的应用 oko o
申 乐 ,王黎 明 ( 州大 学 信 息 工程 学 院 ,河 南 郑 州 4 00 ) 郑 50 1
a ddsu sst em enn n h ne eto o c p tbl y fre tatn h o c ps n ic se h a ig a d teitr s fc n e tsa it o x r cig t ec n e t. i
Ke r s o k o o y o c p t b l y o c p a t e o m a o c p n l ss e . co U y wo d :F l s n m ;c n e ts a i t ;c n e tl ti ;f r l n e ta a y i ;d 1 i i. S i c c
更精确 的表示 它 ,1 9 9 0年 Kun t v首先 提 出 了概念 稳定 z es o 性这一概念 ,随后在 2 0 0 7年[ 1 又对 概念稳定性做 出了进一 步的分析和定义 。通 过在不 同的应 用 背景上 利用 稳定 性对
概念格进行剪 枝 ,可 以很容 易 的获得 精确 有效 的信 息 ,这
利用 F A (oma o cp nlss C fr l ne taayi)为博 客标 签建 立 语境 c
收 稿 日期 : 2 1—32 ;修 订 日期 :2 1- 52 0 10 -1 0 i0 —5
作者简介 :申乐 ( 9 3 ) 18 一 ,女 ,河南鹤壁人 ,硕士 ,研究方向为数据挖掘 ;王黎明 (9 3 ) 1 6 一 ,男 ,河南郑州人 , 士 ,教授 ,C F高级 会 博 C
菲尔生态语言学研究述评
菲尔生态语言学研究述评阿尔温菲尔(Alwin Fill)1940年11月生于奥地利蒂罗尔州(Tyrol)的库夫施泰因(KufstEin);1965年毕业于因斯布鲁克大学(Innsbruck University),获得硕士学位,所学专业是英语研究与古典语文学(English Studies and Classical Philology);1967年获得因斯布鲁克大学的博士学位,专业是英语语言文学与古典语文学(English Language and Literature and Classical Philology)。
1980年任奥地利格拉茨大学(University of Graz,Austria)教授,2007年退休。
菲尔先后到英国牛津大学(Oxford University,UK)和美国密执安大学(University of Michigan,Ann Abor,USA)学习过,还到英国伦敦担任过一年时间的德语助教。
多年来,他潜心研究生态语言学,撰写了很多这个研究领域的论文和专著,是世界生态语言学研究队伍中的一位重要人物。
本文从以下几个方面谈谈菲尔对生态语言学研究的贡献。
二、菲尔的生态语言学研究简介菲尔自20世纪80年代就开始研究生态语言学问题,但主要是在国内(奥地利)发表论文和做学术报告。
1987年,他应邀参加在比利时安特普召开的国际语用学大会,并做了生态语言学研究的报告,这是他第一次走出国门宣讲生态语言学的理论与实践。
也就是在这一年,他出版了讨论生态语言学问题的学术专著《化词语为犁头》(W■rter zu Pflugscharen)①。
在这本著作中,他是这样定义生态语言学的:生态的语言学所要研究的是作为人类与自然的生态系统的组成部分的语言;语言在个人与个人、个人与国家、个人与宗教等之间的关系中起着重要的作用。
1993年,菲尔出版了《生态语言学导论》(■kolinguistik. Eine Einfhrung)②,这本书奠定了菲尔在世界生态语言学研究圈的学术地位。
基于标签的Folksonomy机制研究——以CiteUlike为例
码 、出版 商、摘要等信息 ,形成标准的引文格式 。而
且 所 有 的 这些 工 作 均 在 浏览 器 中完 成 ,不 需 要 安 装 什
么 特别 的插 件 。 2 数 据 集
Fl oo y 近年 来 流行 于 网络 的一 种用 户 参 与 、 o snm 是 k
主导的资源 自组织方式 ,是 w b .时代的一个重要技 e2 0 术辅助手段。现在 ,很 多应用 Fl oo y的网站成为 o snm k
Fl o o y这 种 分 类 形 式 在 网络 资 源 组 织 o sn m k 和 用 户行 为研 究上 都具 有 独特 的 优 势 。 [ 图分 类 号] G 5 ;G 5. 中 20 207 2 [ 文献 标 志码 ] A [ 文章编 号] 10 —8 l(0O0 —0 2 —0 0 5 242 1 )5 0 9 5
图 书馆 理 论 与 实 践
信 息 管理 与 信 息 学
21 () 00 5
● 刘 向 红 , 宋 文 2 一 ,姚
(.承德 石 油高 等 专科 学 校 信息 中心 ,河 北 1
朋
承德 07 0 ;2 600 .中 国科 学 院 文 献 情报 中心 ,北 京 10 8) 0 00
Folksonomy
杨 璐
重庆 4 0 0 7 1 5 ) ( 西南大学计 算机 与信 息科学 学院
摘 要:本文对 F o l k s o n o m y在 图书馆领域的应用研 究进行 了综述。首先对 F o l k s o n o m y的定义 、类型 、特 点做 了概述 ,然后对 其 研 究 内容从信 息组 织和信 息服务 两方 面进行 了总结。 关键词:F o l k s o n o m y ;图书馆 :综述 。
一
、
要包括 F o l k s o n o my 在O P AC中的应用及信息组织模型 的构建等 。 ( 1 )F o l k s o n o my在 O P A C方面的研 究 F o l k s o n o my 在 O P A C 中 的 应 用 有 许 多 优 势 , 如 通 过 F o l k s o n o m y 的标签聚类功能,可 以促进 图书馆相关资源的利用 , 加深对馆藏的揭示;易于分析用户 的兴趣点,从而进行信息推荐,
Байду номын сангаас
利于个性化信息服务工作的展开;弥补了编目 人员编目知识不足,
能对新概念及时反应等。F o l k s o n o my在 图书馆 O P A C 中的研究较 多,如崔莎、 鞠春杨从大学生和图书馆两方面总结 了其在高校 图书 馆 O P A C 应用 的重要意义,对其应用局限提出了解决建议:贾君 枝,李婷将 F o l k s o n o m y在 图书馆领域中的应用分为嵌入软件式和 链接式两种模式, 嵌入软件式又分为 图书馆 自我开发式和专业软件 系统, 认为国内目前的模式多属于嵌入专业软件系统; 罗琳和梁桂 生对标签在 高校图书馆 OP A C 系统 中的应用进行调查,认为高校 O P A C 系统 中的标签技术还处于初级阶段, 仅仅是初步意义上实现 了标签技术应用,参与用户大多局限于本校师生群体 。 ( 2 )信息组织模型构建 基于 F o l k s o n o my应用 的图书馆信息组织模型构建研 究也较 多 ,如郑燃构建 了以标签应用为核心 的基于 F o l k s o n o my应用 的 图书馆信息组织模型;苏美文通过分众分类 实例分析 ,提出了基 于元数据应用的图书馆 2 0 分众 分类模式 [ 1 】 . 王健构建 了基于本 体 的 图书 馆 f o l k s o n o my 信 息 组 织 优 化 模 型 , 从 本 体 和 f o l k s o n o my关联 的方式、系统模型结构 设计框架、开发设计 的 关键技术、本体 的存储与读取四个方面对其进行 了解析 ;王银红 提 出了基于 自由分类法 的图书馆信息组织模型 , 在 模型中阐述 了 图书馆 自由分类法的构建 与组织 。 除 了F o l k s o n o my在 O P A C中的应用及信息组织模型构建方面 的研究以外,王翠英调查统计了 F o l k s o n o my在 国内大学 图书馆服 务中的应用现状, 对 图书馆在 F o l k s o n o m y的广度和深度、 技术支 持平台以及存在的问题和优势方面进行 了分析 , 提 出了图书馆开展 基于 F o l k s o n o m y的信息组织 的建议;邢文 明,司莉,陈红艳从系 统论的角度 出发,提出提高馆 员素质 、加强用户信息素养教育、提 升F o l k s o n o m y的组织性能、 创建基于传统组织方法的 F o l k s o n o my 等优化策略 。 韩松涛将大众分类 法与分面组配分类法相结合 , 进 行了 “ 以标签为形式的多维度数字 图书馆分类法 ”的创新研 究, 并对新分类法的形式与分类方法进行 了探讨等 。 ( -)F o l k s o n o m y在 图书馆信息服务方面的研究 F o l k s o n o my在图书馆信息服务方面的研究包括图书馆宣传和 指导、图书推荐、用户教育和参考咨询 、个性化信息检索等方面。 曹淼分析了将分众分类法融入到 图书馆宣传和指导中的方式 , 主要 有图书馆博客 以及 图书馆在 F l i c k e r和豆瓣等网站中开办的图书馆 网页两种方式, 具体表现为图书馆员在图书馆博客中利用标签对 自 己的 日 志进行分类 , 用户可 以通过标签云来进行浏览; 图书馆在豆 瓣上建立小组,定期或不定期地发起活动,回答豆友问题,收藏图 书信息 。罗琳、梁桂生、蔡军利用分众分类法构建用户、资源和标 签的三元组关系实现图书推荐系统, 在采集图书馆的书 目数据基础 上获得豆瓣 网上的该书所对应的用户标注数据 ,以此为文本数据 , 认为图书推荐系统 的实现 ,有利于图书馆 O P AC 系统 功能完善 , 利 用用户标注数据 了解用户需求 ,提供更好 地个 性化推荐服务 。
基于Folksonomy的服务发现研究
中 图法分类号 : P l T 3
文 献标识码 : A
文 章编号 :0072 (0 0 2 .0 80 10 —0 4 2 1) 350 .4
Sud nFo k o o y b s dw e s r ied s o r t y o l s n m — a e b e v c ic vey
we e ieca sf ai nr t e a, n h i r v me t a p idt F l s n myh v o i v i a t o o hr c lr t n d r cso ai . bs r c l si c t v i o er v la dt e mp o e n s p l i e o ok o o a ep s i e mp cs nb t e a l ai t oa p e iinr t o
Ke r s F l s n my s ma t s we e v c ic v r ; W i i e ; W o d t y wo d : o k o o ; e n i ; c b sr i ed s o e y kp da r Ne
0 引 言
We b服 务 数 量 的急 剧 增 加 , 得 服 务 发 现 变 得 越 来 越 困 使 难 。 提 高 We 为 b服 务 发 现 效 率 , 界 提 出 了服 务 聚 类 的 概 念 。 业 U D .…中也 增 加 了 标 识 系 统 和 第 三 方 分 类 系 统 对 服 务 进 D I 0 2
利 用 程 序 模 拟 了协 作 标 签 系统 环 境 , 进 行 了模 拟 实验 。 实验 结 果 表 明 , 机 制 能 实 现 更 为 高效 的 We 服 务 分 类 检 索 , 对 并 该 b 针
Taxonomy、Folksonomy和Ontology的分类理论及相互关系
!塑!至箜!!塑:!!:些:!1 2国王堡塑查(些!竺翌翌堂211Taxonomy、Folksonomy和Ontology的分类理论及相互关系岳爱华(承德民族师专中文系河北067000)孙艳妹(天津市天港区职业成人教育中心图书馆300270)文摘Ta xon omy(知识分类学)是关于具体或抽象事物的分类组织的学科与方法,Fol kso n-omy(分众分类)是大众自发的用标签对网络信息分类标识和共享的资源组织方法,Ontology (知识本体)是从语义和知识层次上描述构架信息系统的概念模型。
本文归纳整理了这三个与分类相关的概念及其特性,并进一步厘清这些相关概念间的关系,希望研究结果有助于加深对分类相关概念的理解及应用。
关键词知识分类学分众分类知识本体分类Research o n Clas sific atio n Theory an d The Relationship of Taxonomy、Fo l k so n om y an d OntologyY u e Aih ua,Sun Yan mei(Chinese Langua ge and Literate Depar tm en t of Chengde No rma l College,Hebei067000) Abstract:Taxonomy iS a discipline and met ho d o n classification organization for co n c re t e and ab- stract objects,Folksonomy is a met ho d o n r e s o u r c e s or gan iz ati on w hi ch m as s using T A G classifica- tion to mark an d share network information,Ontology is a conceptual mode l of d esc ri pt io n and a rc hi—t e c t u r e info rma tion system from s emantic and kn ow le dge hie rarc hy aspects.This article wor ks up those thr ee concepts related to t he classification,further clarifies th e relations among thos econcepts.The result of the resea rch will be he lp fu l for understanding and a ppl ica ti on of classification eoncept.K e y words:Taxonomy,Folksonomy,Ontology,Classification分类思想在人类认识世界的过程中有着悠久的腊文ta x is与n o m os或n om i e组成,t a x is指排列(a t-历史,对事物或观点的表达、交流和记录起着重要的r angement)或分类(classification);nomos 指管理作用。
普什语的语汇构成有什么特点
普什语的语汇构成有什么特点普什语是阿富汗普什图族使用的语言,在语汇构成方面具有一系列独特的特点。
首先,普什语的词汇来源丰富多样。
它融合了古代语言的元素,同时也受到周边语言的影响。
从历史角度来看,普什语吸收了古波斯语的一些词汇,这些词汇在宗教、文化和传统领域中仍被广泛使用。
此外,由于阿富汗地区在历史上的频繁交流和贸易活动,普什语还引入了来自阿拉伯语、土耳其语和印地语等语言的词汇,使其词汇库更加丰富和多元化。
在词汇构成的形式上,普什语有着丰富的词缀系统。
通过添加前缀、后缀和中缀,可以改变单词的词性、时态和意义。
例如,通过添加特定的后缀可以将名词转化为动词,或者将形容词变为副词。
这种词缀的变化不仅增加了词汇的表达能力,也使得语言更加灵活多变。
普什语的名词系统较为复杂。
名词有性、数和格的变化。
性分为阳性、阴性和中性,数包括单数和复数,格则有主格、宾格、属格等。
这种复杂的名词变化系统在一定程度上反映了普什语语法的严谨性和精确性,能够更准确地表达语义关系。
动词在普什语词汇构成中也占据重要地位。
动词有时态、人称和语态的变化。
不同的时态通过词形变化来体现,如过去时、现在时和将来时。
而且,根据主语的人称不同,动词的形式也会相应改变。
语态方面,包括主动语态和被动语态,同样通过动词的词形变化来表现。
普什语中的形容词和副词丰富多样,用以描绘各种特征和状态。
形容词在修饰名词时,其位置和形式可能会根据名词的性、数和格而有所变化。
副词则通常用于修饰动词,以更准确地表达动作的方式、程度和时间。
另外,普什语中有大量的复合词。
这些复合词由两个或多个基本词汇组合而成,形成一个具有新意义的词汇。
复合词的构成方式灵活多样,可以是名词与名词的组合,也可以是动词与名词、形容词与名词等的组合。
这种复合词的构成方式丰富了词汇的表达,同时也反映了语言使用者对事物的认知和描述方式。
在数字词汇方面,普什语有着独特的构成和表达方式。
数字不仅用于计数,还在时间、年龄、数量等方面有着特定的用法和规则。
Folksonomy在图书馆OPAC的应用
<div class="article_tit"> Folksonomy在图书馆OPAC的应用</div> <span>作者 : 未知</span> <p> 摘要:在介绍大众分类法(Folksonomy)定义的基础上,通过与传统分类法对比,论述了大众分类法的特点,通过调研FoIksonomy 在国内外的应用实例,总结了其在高校图书馆OPAC 应用的重要意义,阐述了其应用的局限性,并提出具有理论基础和一定可行性的解决建议。
<br/> 关键词:Folksonomy;OPAC;图书馆 <br/> 中图分类号:G251文献标识码:A 文章编号:1009-0118(2011)-12-0-03 <br/> <br/> 一、Folksonomy概述 <br/> (一)含义 <br/> Folksonomy是Thomas Vander Wal于2004年8月提出来的,它是由社会性书签服务中最具特色的自定义标签tag功能衍生出来的,由Folks和Taxonomy两个词组合而成。
Thomas Vander Wal称Folksonomy为“自上而下的社会化分类方法”,ClayShirky认为“它们是平面的名称空间”,提出这种协作的标签分类是语义网本体的一种非常有意义的尝试。
Adam Mathes解释说Folksonomy是用户为他们自己创造元数据。
David Weinberger用“知识之树”来形容分类法的不同类型和发展阶段,并将标签和自由分类法比作从树上飘落的一堆“知识树叶”。
Marieke Guy认为Folksonomy指的是关键词、标签、元数据、是由使用资源的社区创建的自然资源,术语间不存在层次结构,没有特定的父子与兄弟关系,但有反馈现象,是种类而非分类。
基于Folksonomy的本体构建综述
基于Folksonomy的本体构建综述薛 涵1,2,秦 兵1,刘 挺1(1.哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150006;2.哈尔滨工程大学图书馆,黑龙江哈尔滨150001) 摘 要: Folksonomy是随着网络信息海量增长而迅速兴起的新型网络信息组织方式,与传统的信息组织方式本体结合的研究和应用价值正在逐渐受到人们的重视.在概述的基础上,基于Folksonomy对本体构建的核心问题展开论述,重点对比主流构建方法,归纳评价方法,并预测应用和研究趋势,以期对后续研究有所助益.关键词: 本体;Folksonomy;本体构建;信息抽取;评价中图分类号: TP391 文献标识码: A 文章编号: 0372-2112(2014)04-0791-07电子学报URL:http://www.ejournal.org.cn DOI:10.3969/j.issn.0372-2112.2014.04.026ASurveyofOntologyConstructionBasedonFolksonomyXUEHan1,2,QINBing1,LIUTing1(1.SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin,Heilongjiang150006,China;2.HarbinEngineeringUniversityLibrary,Harbin,Heilongjiang150001,China)Abstract: Folksonomyisanewwayofonlineinformationorganizations.Thecombinationoffolksonomyandtraditionalon-tologyattractsmoreandmoreattentionduetoitsresearchvalueandextensiveapplications.Aftertheoverview,wemainlysurveythekeytasksofontologyconstructionbasedonFolksonomy.Wefocusonthecontrastiveanalysisofprevalentmethodsaboutconstruc-tion,andthenproposetheevaluationmetrics,andfinallypredicttheimportantapplicationsandfutureresearch,whichisexpectedtobehelpful.Keywords: ontology;Folksonomy;ontologyconstruction;informationextraction;evaluation1 引言 目前,互联网上各种用户参与的网页、论坛、社交网络等数据,无意间构成大量具有研究价值的自然标注资源[1],标签就是其中一种典型的显式自然标注.通过用户自发为感兴趣的资源赋予标签,并与他人分享的过程,汇集大众标签形成的Folksonomy(由“folk或者folks”和“taxonomy”组合而成,意为民间的分类法[2]),体现了用户的群体智慧,蕴含了丰富的语义知识,被视为社会化本体,受到网络用户和研究者们的青睐.如果用散落树叶的随意堆积来形容Folksonomy,那么传统本体就是一棵完整意义上的分类树.本体是得到大多数人认同的、关于概念体系明确的、形式化的规范说明[3],是自然语言处理、Web信息检索、语义网、数字图书馆等领域的核心问题,是领域内部共同认可的知识概念化和形式化的规范描述,是不同主体(人、机器、代理)系统之间共享和重用的语义基础.本体构建是本体研究的基础,主要存在以下问题:第一,本体构建通常需要领域专家的参与,并多以工具辅助手工方式来完成[4],耗时费力且不免主观;第二,如果要求推理,本体就要用建立在逻辑基础上的复杂表示语言而不是简单概念图的形式表示,理解和使用本体表示语言[5]对普通用户并非易事,也就无从为本体反馈和更新知识;第三,由于没有统一的评价标准,领域本体无法自适应到其他领域,共享和重用性不高.这些问题使我们思考寻找新的途径来研究解决传统本体构建的难题.Folksonomy从大量“草根”用户的标签中发现、获取和组织本体,及时更新和反映网络群体的共识,降低了本体构建和使用的门槛,有效缓解了知识获取的瓶颈,是解决传统本体构建问题最有效的途径.但是,Folkson-omy标签本身的随意性、模糊性和缺乏有效的组织,如果不与规范的传统本体相关联,对语义协助的贡献是有限的.本文旨在通过Folksonomy这种新资源研究本体构收稿日期:2013-03-11;修回日期:2013-11-25;责任编辑:蓝红杰基金项目:国家自然科学基金(No.61133012,No.61273321);国家863高技术研究发展计划(No.2012AA011102)第4期2014年4月电 子 学 报ACTAELECTRONICASINICAVol.42 No.4Apr. 2014建的核心问题,以期对传统本体构建中难题的解决和克服Folksonomy的缺陷有所助益,并对更多基于此问题的研究和应用提供支持.2 Folksonomy概述 Folksonomy的概念由美国著名互联网专家ThomasVanderWal于2004年首次正式提出,是基于“开放性元数据标准”和“自然语言社群聚类”,采用自底向上的方法,依靠用户贡献和协同分类来实现.网络社区中每个用户都有一个自身对概念知识体系理解的“本体”,但整个社会最初并没有定义统一规范的本体,用户之间通过不断的交流,理解对方的“本体”,传播自己的“本体”,逐渐形成统一的语义本体,常表现为标签云的形式.图1[6]形象地描述了这一过程,用户在Folksonomy系统中添加标签的行为将用户、标签、资源三者关联起来(实线),同时,也将用户和资源分别隐性关联起来(虚线),这些关联产生了丰富的可供挖掘的潜在语义信息,为本体构建提供可能.许多网站都提供为感兴趣的资源(如对象链接地址、图片、视频、书籍等)自由标注标签的功能.比如,美味书签Delicious,照片分享Flickr,目标分享43things,学术参考资料CiteULike,视频分享YouTube,豆瓣,博客,微博等.2畅1 Folksonomy的特点Folksonomy作为本体构建的新数据源,与传统本体构建的无结构文本,半结构网页和结构化数据库不同,具有以下优势:首先,实体(标签)已经被用户人工“抽取”出来,这样就避免传统本体构建中实体识别和抽取的一系列自然语言处理任务,如分词、词性标注、句法分析等;其次,发现能精确描述某领域主题的代表性文本语料是很困难的,尤其对于专业性强或者快速变化的领域[7],但是标签却可以更及时、自由地表征领域的热点主题和新词;再次,标注是在亿万网络用户浏览网页或发布信息的过程中轻松完成,虽然标注质量不能与付费的专业标注相比,但及时更新和零成本等优势使这种海量数据具有很大研究价值.诚然,这种新数据源缺少明显可供挖掘关系的来源和应用的语境(如图2,“遇龙河是漓江在阳朔境内最长的一条支流,位于桂林市.”这样的背景知识和其中所涉及标签之间的关系,是独立于标签和图片之外的).标签词汇本身也存在无统一标准(如图2,标签“风景”属于通用域的抽象概念;“阳朔”属于特定域的地名)、无层级结构(如图2,“桂林”属于“中国”这种上下位的层次关系没有标明)等缺陷,给本体构建带来一些新问题.2畅2 Folksonomy的概念模型根据Folksonomy形成过程中的标注行为,国内外学者展开一系列概念模型方面的研究.荷兰科学家Mi-ka[8]率先提出在概念和实例构成的传统本体中加入用户这一社会维度,形成适合表达Folksonomy的三元组本体模型<actor,concept,instance>(ACI).在此基础上,后续出现一些较典型的模型. (1)系统协同模型 Gruber[9]的理论模型Tagging(object,tag,tagger,source,+/-),考虑到标签系统之间的协同标注扩展了ACI模型.object指被标注的内容,tag指用于标注的标签,tagger指标注object的人或者代理,source指标注行为所保存的系统,即标签的来源(如Delicious或Flickr等),+/-的极性判别参数表示对标注行为是否认可. (2)跨界协同模型 跨界协同模型支持跨系统、用户、资源之间共享标注行为.SCOT[10]是应用最广泛的扩展模型,采用OWL语言定义,从结构和语义两方面表达标签数据,并为异构系统数据的共享和重用提供互操作.它同时链接SIOC,FOAF和SKOS三个本体.SIOC连接在线社会化服务网站,描述“标签-网站”以及“网站-网站”中的关系;FOAF描述人或者机器代理,以及他们之间的关系;SKOS从语义上把标签用属性关联起来. (3)语义标注模型 语义标注模型,旨在提供机器可读的语义模型.MOAT(MeaningofaTag)[11]在经典三元组模型的基础上,增加含义类表达习惯性或者用户自定义的标签含义,采用OWL语言形式化表示. (4)数学模拟模型 数学模拟模型通过数学模型模拟用户的标注行为,辅助分析标签的语义.如将主题模型(LDA)的思想引入Folksonomy模型,出现了基于标297 电 子 学 报2014年题词的标签-主题(TT)模型[12],用户-词-主题的(UWT)模型[13],以及用户-概念-实例-主题(ACIT)模型[14].AC-IT模型融合了ACI和LDA模型的思想,引入隐含的主题层,避免了ACI模型三元超图到二元图的化简;同时,用户-标签-资源之间的三元关系被同步建模,比TT和UWT模型更有效.可见,Folksonomy概念模型基本组成元素已经达成共识,即用户、标签、资源.基于Folksonomy构建本体,建议以数学模型为主,适当融合其他模型的思想.3 基于Folksonomy的本体构建 基于Folksonomy构建本体的国内外相关研究可以分为三类:基于聚类的方法、基于已标注语义知识源的方法、基于聚类和已标注语义知识源结合的方法.实验数据是支持Folksonomy的网站标注数据(如Delicious),并无特殊要求.基于聚类的方法主要通过分析元素的共现信息,包括标签-标签、标签-资源、标签-用户之间的共现,发现标签之间潜在的层次关系,但无法明确标签的语义和挖掘出标签间隐含的非层次关系.基于已标注语义知识源的方法,通过标签与语义实体的关联,明确标签的含义和标签之间的关系,但依赖所引入的外部语义知识源的种类、规模、质量、更新和开放程度等因素.基于聚类和已标注语义知识源结合的方法,通过不同结合方式实现两者优势互补,明确标签的含义和标签间的语义关系.3畅1 基于聚类的方法根据聚类分析对象的不同,将研究方法分为三种:第一种分析对象仅含标签集合,忽略其他因素的影响;第二种分析对象是用户-标签集合,即考虑用户的影响,区分不同用户给出的标签;第三种分析对象是标签元数据,在语义角度上更细化. (1)标签集合 Zhou等人[15]受到物理和化学领域的启发,把DA模型用在标签集合的每一次分裂过程中,自动从标签空间浮现出层级语义.从根节点包含所有标签开始,通过统计共现计算标签之间的语义相似度,循环迭代,不断分裂得到由“核心标签”准确表示出语义主题的一系列聚类.与其他聚类算法需要指定聚类数目不同,DA算法能够借助一个参数在分裂过程中自动控制聚类的数目和每个聚类的大小,确保每个节点的语义最终能通过一些标签来识别,缺陷是未能明确标签的语义和关系.类似的方法还有,Begelman等人[16]使用谱平分聚类在资源中发现了共享共现模式的标签组,但在每个组中标签的含义或者在不同组中标签之间的关系没有阐述.Schmitz[17]统计词频并基于父类包含子类的思想,建立类的层次体系.方法基于统计技术,准确性会随数据量的增加而增加,但为了排除重叠关系需要反复遍历节点,效率较低.Heymann等人的方法[18]是一种自顶向下的只利用标签共现关系的层次聚类方法.这个方法简单高效,但父标签只是比子标签更宽泛的概念,并非严格的包含关系. (2)用户-标签集合 这类方法区分不同用户提交的标签,辅助分析标签的含义和关系.比如,Hamasaki等人[19]将与用户直接相连邻居的标签作为用户的间接标签,克服某些用户标注信息缺失的问题.假设一个标签被不同组的用户(或邻居)用于标注不同的资源,标签就可能有不同的含义,否则,标签仅有一个(或非常相似的)含义.方法受到所选择用户组及其标注信息的影响. (3)标签元数据 在聚类方法中,只有Kennedy等人[20]在标签的元数据信息上识别与位置和事件相关的标签.该方法利用地理标注资源的纬度和经度以及时间戳信息,得到与每个标签相关的空间和时间的分布.为了识别位置和事件标签,聚类算法应用到空间分布发现共享空间模式的标签组,应用到时间分布发现共享时间模式的标签组.但是,方法仍然没有明确标签的含义.3畅2 基于已标注语义知识源的方法按照是否需要用户的参与,分为自动方法和半自动方法. (1)自动方法 通过标签与WordNet、Wikipedia等已标注语义知识源中的概念自动关联,用正式的语义丰富标签的语义.Angeletou等人[21]首先从Flickr数据集中过滤掉数字、特殊符号和非英文标签.过滤后每个标签所有可能的单词描述(单数、复数或者复合标签的各种分解情况)作为标签的背景知识与标签一起映射到WordNet.如果一个标签对应WordNet中多个概念(即一词多义),从WordNet中抽取出每个概念的上下位词汇与该标签背景知识中的所有词汇进行相似度计算,相似度最高的概念作为标签的含义.进而,将此概念在WordNet中的同义词和上下位关系词抽取出来,补充到标签的背景知识集合中.然后,通过本体映射把扩展后的标签集合与语义网搜索引擎Waston中的语义实体关联,推理发现标签对之间的关系,构建FLOR标签本体.实验证明,Folksonomy通过已标注语义知识源能自动获取标签之间的语义关系并对标签消歧,精确率93%,召回率49%.但是,许多标签无法映射到已标注语义知识源中的概念.研究者继而考虑Wikipedia及相关的DBpedia、YAGO等开放联合构建的本体,克服由相对封闭成员组397第 4 期薛 涵:基于Folksonomy的本体构建综述维护的本体更新缓慢的问题.Garcia-Silva等人[22]使用含有大量标签元数据的关联数据服务站点TSR检索与有歧义标签相关的Wikipedia候选页面的集合.根据页面中出现最频繁的术语确定与标签最相似的Wikipedia页面.由于DBpedia中每个概念都有一个页面对象属性,连接DBpedia概念和对应的Wikipedia页面,因此通过最相似的页面找到对应的DBpedia概念.方法使用术语在对应Wikipedia页面出现的频率作为术语的权重,其实可以通过探索目前信息检索方法中更加复杂的术语权重如TFIDF,或者关键词密度值来改善结果. (2)半自动方法 当标签与已标注语义知识源的映射无法自动完成时,就需要用户参与.Passant[23]提出在标签创建时就应由标签的使用者赋予其语义.假设标签有歧义,系统就会要求用户从多个概念中选择,如果没有合适的,用户可以向管理员提出增加新的概念,由管理员将此概念添加到已有本体中.虽然让用户参与到整个标注过程是避免标签歧义最直接的方式,但方法只在公司内部测试,对于大量用户是否认可这种控制他们标注的行为还有待商榷.3畅3 基于聚类和已标注语义知识源结合的方法这类方法的主要思想是融合基于聚类和已标注语义知识源两种方法,但是融合方式各有不同.有的方法采取顺序结合的方式,即先聚类标签后关联语义知识源,或者先关联语义知识源后聚类标签;有的方法采取嵌入结合两者的方式,即在聚类方法中嵌入语义知识源的影响.两种结合方式的出发点都是认为仅从标签本身不足以分析构建出令人满意的本体,需要进一步扩展标签的语境信息,深入分析语义. (1)顺序结合 Specia等人[24]以与其他标签的共现统计作为该标签的背景知识向量,对比寻找相关的标签.对于相关标签的每个聚类,用户通过语义网搜索引擎(如Swoogle)查找包含聚类中标签对的本体,并用找到的语义信息建立标签间的关系.方法在训练时没有预先定义关系发现或者映射的类型,因而是无监督的.但需要人工分析从语义网搜索引擎检索到的本体.Liu等人[7]通过语义知识库为每个关键词推断概念集合并从搜索引擎获得该关键词的上下文信息.然后,从知识库和上下文信息两方面丰富关键词的信息.最后,基于贝叶斯的层级聚类方法自动归纳分类体系. (2)嵌入结合 Giannakidou等人[25]基于标签共现和语义相似度混合的策略,对标签和资源聚类,发现标签的语义.其中,标签和资源之间的相似性是标签与标注该资源的所有标签之间的最大相似性.两个标签之间的相似性是它们社会相似性(共现)和语义相似性(把标签映射到语义资源WordNet)的加权之和.资源和标签关联的二元图随后用光谱图聚类算法得到彼此不相交的聚类.如果一个标签有多个含义,这个方法只能根据标签共现的模式识别出标签最常用的含义.Tomuro等人[26]使用DSCBC聚类算法,将Wikipedia作为标签的特征先验,自动识别标签的Wikipedia领域,并把标签聚类到不同的含义,用层级聚合聚类自动构建标签本体.方法考虑到标签消歧,但仅用到Wikipedia中文章的主题信息,如能结合利用资源结构抽取Wikipedia的相关研究,效果会更好.综上,由于没有统一的评价标准,很难简单地说三类方法哪个更好,但根据目前聚类技术和已标注语义知识源的发展状况来看,两者结合的方法应该是研究趋势.4 基于Folksonomy的本体评价 本体评价是运用科学的方法,遵循统一的标准和特定的指标体系,对本体的建设理念、应用需求、概念组织、功能设计和实际运行状况等进行综合测评的过程和方法[27].缺少统一的测试平台和标准是传统本体和基于Folksonomy构建本体的共同难题.基于Folksono-my的本体评价方法可归纳为以下四类. (1)人工评价 根据人工预先设定的标准对Folk-sonomy学习产生的本体打分,通过协调不同评价人员的结果得到最终的评分.如Tang等人[12]就要求社会标签的提供者直接评价系统最终产生的标签本体,对是否满意标签之间的关系打分,精确率为满意数与反馈总数的比率. (2)语义评价 将Folksonomy学习产生的本体与参考本体使用词召回率(术语或者概念分别在两者对应目录中出现的数目)和分类法重叠率(父亲-孩子对处于正确顺序的数目),还有增强的精确率和召回率以及On-toRand进行对比[28,29].参考本体可以是普遍认可的标准本体,如ODP、LACC、DC、Wikipedia、WordNet、中图分类法等;也可以是数据来源本体,如Ali等人[14]就是将基于Folksonomy学习产生的本体与来源本体对比,评价提出的本体构建方法;还可以是较先进技术生成的本体. (3)实用评价 将Folksonomy学习产生的本体应用到具体任务中,通过对任务支持效果的评价,间接评价生成本体的质量.如Helic等人[30]把Folksonomy算法和网络中的分散搜索关联,提出一个新颖的框架,从实用的角度评价不同算法得到的Folksonomy本体,核心思想是把标注系统的探索导航任务构建成标签网络的分散搜索,从Folksonomy中学习产生的本体作为搜索时的背景知识,通过对探索导航任务的支持效果间接评价学习本体的质量. (4)分布评价 通过概念的分布效果评价Folksono-my学习产生的本体.Tomuro等人[26]提出本体密度的概497 电 子 学 报2014年念,认为所有被赋予同一个资源的语义相关的标签应该被置于本体中靠近彼此的位置上.通过测量本体中赋予资源的标签间连接边的数目,估计资源的本体密度,就可以统计出所有资源的平均密度,继而就能评价本体的质量.总之,研究者可以根据实际选择其中一种或者综合多种方法来评价.人工评价简单常用,但是评价指标的设定和评价过程都依赖人工参与;语义评价关键是参考本体的选择,随着可用参考本体的丰富,是较为通用的评价策略,有助于本体评价的规范化;实用评价多用于应用需求驱动的任务本体,但对于以知识积累为目标的本体,增加了评价的难度;分布评价直观新颖,值得深入探索更多用于描述本体质量的评价指标.5 基于Folksonomy的本体应用 基于Folksonomy构建的本体,是传统本体和社会化本体的折中,虽然是初步的、轻量级的本体,但应用也很广泛. (1)用于揭示网络资源 近几年国外研究人员非常关注Folksonomy对网络信息资源组织产生的影响,积极开展实证研究,如Int.ere.st项目、FLOR项目等,通过丰富Folksonomy的语义信息,优化网络信息资源组织,便于发现和重用. (2)用于个性化检索 陈毅恒等人[31]通过本体对标签进行抽取和筛选,实现了对检索结果聚类的优化.张志强等人[32]的研究说明,除了分析搜索日志,还可以结合Folksonomy构建的本体实现更好的个性化服务. (3)用于辅助自动标注 标注数据是许多研究领域的宝贵资源,但人工标注成本高,自动标注准确率低.司献策等人[33]用基于Folksonomy构建的本体辅助自动标注,捕获到短文本的言外之意.可见,基于Folksonomy的本体构建研究,在理论和实践上都极具前瞻性的探索空间.6 结论和展望 Folksonomy技术兴起于国外,目前已拥有较成熟的概念模型和方法,而且也举办多次以此技术为主题的学术会议,如欧洲机器学习与数据挖掘会议(ECML/PKDD)2008年垃圾标签用户的识别任务,2009年标签推荐在线评测等.与国外相比,国内对于Folksonomy的研究工作有待深入.多数从概念认识、特征层面研究,逐渐出现社会标签分析与推荐系统方面的研究[33],但与本体构建相关的研究[12,14,32]较少,尤其研究中文本体构建的文献截止到本论文完成还没有调研到.本文对基于Folksonomy构建本体的关键问题展开论述,包括Folksonomy的特点和概念模型的概述,本体构建主流方法的对比分析,评价方法的归纳及应用成果的阐述等.从文献调研来看,基于Folksonomy构建本体的方法论、表示语言(工具)与传统本体构建并无差别,故不在此赘述.此外,我们认为还有一些具有价值的研究点,列举如下,希望对其他研究者有所启发. (1)传统本体与Folksonomy的融合 传统本体和Folksonomy这两种本体既有相似又有不同.如何将两者结合,发挥彼此的优势,相互促进,是本体研究者共同努力的方向.标签语义信息抽取文本和半结构化数据中相对成熟的信息抽取技术,如何调整和应用到Folk-sonomy这个新的数据源是要进一步探讨的. (2)本体进化 动态更新是Folksonomy数据源的一大优势,如何在不重新构建本体的前提下,将局部的更新反映到本体概念和关系的变化中,是值得深入思考的. (3)跨语言 对跨语言的研究,不仅可以借助国外先进的技术和成果,也有益于解决中文本体构建资源不足的问题,是很有意义的研究方向.参考文献[1]孙茂松.基于互联网自然标注资源的自然语言处理[J].中文信息学报,2011,25(6):26-32.SunMaosong.Naturallanguageprocessingbasedonnaturallyannotatedwebresources[J].JournalofChineseInformationProcessing,2011,25(6):26-32.(inChinese)[2]TrantJ.Studyingsocialtaggingandfolksonomy:Areviewandframework[J].JournalofDigitalInformation,2009,10(1):1-42.[3]GruberTR.Towardprinciplesforthedesignofontologiesusedforknowledgesharing[J].InternationalJournalofHumanComputerStudies,1995,43(5):907-928.[4]邓志鸿,唐世渭,等.Ontology研究综述[J].北京大学学报(自然科学版),2002,38(5):730-738.DengZhihong,TangShiwei,etal.Overviewofontology[J].ActaScientiarumNaturaliumUniversitatisPekinensis,2002,38(5):730-738.(inChinese)[5]岳静,张自力.本体表示语言研究综述[J].计算机科学,2006,33(2):158-162.[6]MarlowC,NaamanM,BoydD,etal.HT06,taggingpaper,taxonomy,Flickr,academicarticle,toread[A].ProceedingsoftheSeventeenthConferenceonHypertextandHypermedia[C].ACM,2006.31-40.[7]LiuX,SongY,LiuS,etal.Automatictaxonomyconstructionfromkeywords[A].Proceedingsofthe18thACMSIGKDDIn-ternationalConferenceonKnowledgeDiscoveryandDataMin-ing[C].ACM,2012.1433-1441.[8]MikaP.Ontologiesareus:Aunifiedmodelofsocialnetworks597第 4 期薛 涵:基于Folksonomy的本体构建综述andsemantics[J].TheSemanticWeb–ISWC,2005,LNCS(3729):522-536.[9]GruberT.Ontologyoffolksonomy:Amash-upofapplesandoranges[J].InternationalJournalonSemanticWebandInfor-mationSystems(IJSWIS),2007,3(1):1-11.[10]KimHL,BreslinJ,YangSK,etal.Socialsemanticcloudoftag:semanticmodelforsocialtagging[J].AgentandMulti-A-gentSystems:TechnologiesandApplications,2008,LNCS(4953):83-92.[11]PassantA,LaubletP.Meaningofatag:acollaborativeap-proachtobridgethegapbetweentaggingandLinkedData[A].ProceedingsoftheWWW2008WorkshopLinkedDataontheWeb(LDOW2008)[C].Beijing,China,2008.1-5.[12]TangJ,LeungH,LuoQ,etal.Towardsontologylearningfromfolksonomies[A].Proceedingsofthe21stInternationalJointConferenceonArtificalIntelligence[C].MorganKauf-mannPublishersInc,2009.2089-2094.[13]BundschusM,YuS,TrespV,etal.Hierarchicalbayesianmodelsforcollaborativetaggingsystems[A].NinthIEEEIn-ternationalConferenceonDataMining[C].IEEE,2009.728-733.[14]AliD,JuanziL.Modelingontologyoffolksonomywithlatentsemanticsoftags[A].IEEE/WIC/ACMInternationalConfer-enceonWebIntelligenceandIntelligentAgentTechnology[C].IEEEComputerSociety,2010.516-522.[15]ZhouM,BaoS,WuX,etal.Anunsupervisedmodelforex-ploringhierarchicalsemanticsfromsocialannotations[J].TheSemanticWeb,2007,LNCS(4825):680-693.[16]BegelmanG,KellerP,SmadjaF.Automatedtagclustering:improvingsearchandexplorationinthetagspace[A].Collab-orativeWebTaggingWorkshopatWWW2006[C].Edin-burgh,Scotland,2006.15-33.[17]SchmitzP.Inducingontologyfromflickrtags[A].Collabora-tiveWebTaggingWorkshopatWWW2006[C].Edinburgh,Scotland,2006.1-4.[18]HeymannP,Garcia-MolinaH.Collaborativecreationofcom-munalhierarchicaltaxonomiesinsocialtaggingsystems[R].InfoLabTechnicalReport,2006.1-5.[19]HamasakiM,MatsuoY,NishimuraT,etal.Ontologyextrac-tionusingsocialnetwork[A].InternationalWorkshoponSe-manticWebforCollaborativeKnowledgeAcquisition[C].Hy-derabad,India,2007.1-6.[20]KennedyL,NaamanM,AhernS,etal.Howflickrhelpsusmakesenseoftheworld:contextandcontentincommunity-contributedmediacollections[A].Proceedingsofthe15thIn-ternationalConferenceonMultimedia[C].ACM,2007.631-640.[21]AngeletouS,SabouM,SpeciaL,etal.Bridgingthegapbe-tweenfolksonomiesandthesemanticweb:anexperiencere-port[A].the4thEuropeanSemanticWebConference[C].Innsbruck,Austria,2007.2-15.[22]Garcia-SilvaA,SzomszorM,AlaniH,CorchoO.Preliminaryresultsintagdisambiguationusingdbpedia[A].1stInterna-tionalWorkshopinCollectiveKnowledgeCapturingandRep-resentation(CKCaR09)[C].California,USA,2009.1-9.[23]PassantA.Usingontologiestostrengthenfolksonomiesandenrichinformationretrievalinweblogs[A].ProceedingsofInternationalConferenceonWeblogsandSocialMedia[C].Boulder,Colorado,2007.1-8.[24]SpeciaL,MottaE.Integratingfolksonomieswiththesemanticweb[J].TheSemanticWeb:ResearchandApplications,2007,LNCS(4519):624-639.[25]GiannakidouE,KoutsonikolaV,VakaliA,etal.Co-clusteringtagsandsocialdatasources[A].TheNinthInternationalCon-ferenceonWeb-AgeInformationManagement[C].IEEE,2008.317-324.[26]TomuroN,ShepitsenA.Constructionofdisambiguatedfolk-sonomyontologiesusingwikipedia[A].Proceedingsofthe2009WorkshoponthePeople’sWebMeetsNLP:Collabora-tivelyConstructedSemanticResources[C].ACL,2009.42-50.[27]BrankJ,MarkoG,DunjaM.Asurveyofontologyevaluationtechniques[A].Proceedingsofthe8thInternationalMulti-ConferenceonInformationSociety[C].Ljuljana,slovenia,2005.166-169.[28]PlangprasopchokA,LermanK,GetoorL.Growingatreeintheforest:constructingfolksonomiesbyintegratingstructuredmetadata[A].Proceedingsofthe16thACMSIGKDDInterna-tionalConferenceonKnowledgeDiscoveryandDataMining[C].ACM,2010.949-958.[29]DellschaftK,StaabS.Onhowtoperformagoldstandardbasedevaluationofontologylearning[J].TheSemanticWeb-ISWC,2006,LNCS(4273):228-241.[30]HelicD,StrohmaierM,TrattnerC,etal.Pragmaticevaluationoffolksonomies[A].Proceedingsofthe20thInternationalConferenceonWorldWideWeb[C].ACM,2011.417-426.[31]陈毅恒,秦兵,等.基于ontology抽取优化初始选择的检索结果聚类[J].电子学报,2008,36(12A):166-170.ChenYiheng,QinBing,etal.Searchresultclusteringbasedoncentroidoptimizationbyontologyextraction[J].ActaElec-tronicaSinica,2008,36(12A):166-170.(inChinese)[32]张志强,孟庆海,谢晓芹.个性化的社会标签查询扩展技术研究[J].计算机科学与探索,2010,4(9):812-829.ZhangZhiqiang,MengQinghai,XieXiaoqin.Researchonpersonalizedsocialtagqueryexpansiontechniques[J].JournalofFrontiersofComputerScienceandTechnology,2010,4(9):812-829.(inChinese)[33]XianceSi,ZhiyuanLiu,MaosongSun.Modelingsocialanno-697 电 子 学 报2014年tationsvialatentreasonidentification[J].IEEEIntelligentSystems,2010,25(6):42-49.作者简介薛 涵 女,1982年生于河南开封.哈尔滨工业大学计算机科学与技术学院博士研究生.研究方向为信息抽取、社会计算、本体构建等.E-mail:hxue@ir.hit.edu.cn秦 兵 女,1968年生于黑龙江哈尔滨.哈尔滨工业大学计算机科学与技术学院教授,博士生导师.研究方向为自然语言处理、文本挖掘、情感分析等.E-mail:qinb@ir.hit.edu.cn刘 挺 男,1972年生于黑龙江哈尔滨.哈尔滨工业大学计算机科学与技术学院教授,博士生导师.研究方向为自然语言处理、文本挖掘、文本检索等.E-mail:tliu@ir.hit.edu.cn797第 4 期薛 涵:基于Folksonomy的本体构建综述基于Folksonomy的本体构建综述作者:薛涵, 秦兵, 刘挺, XUE Han, QIN Bing, LIU Ting作者单位:薛涵,XUE Han(哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150006; 哈尔滨工程大学图书馆,黑龙江哈尔滨 150001), 秦兵,刘挺,QIN Bing,LIU Ting(哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨,150006)刊名:电子学报英文刊名:Acta Electronica Sinica年,卷(期):2014(4)本文链接:/Periodical_dianzixb201404026.aspx。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国外Folksonomy语义丰富研究综述魏来2012-12-25 10:12:42 来源:《情报资料工作》2010年03期【英文标题】Review of the Research of Semantic Enrichment of Folksonomy Abroad(Academy of Computer Sciences and Information technology Northeast Normal University, Changchun, 130117)(National Science Library, Chinese Academy of Science, Beijing, 100080)【作者简介】魏来,女,1976年生,东北师范大学传媒科学学院讲师,中国科学院国家科学图书馆博士研究生。
东北师范大学计算机科学与信息技术学院长春130117中国科学院国家科学图书馆北京100080【内容提要】文章对国外folksonomy语义丰富的理论与实证研究进行了全面的梳理,从folksonomy的聚类、推荐、关联和实证四个方面探讨folksonomy 语义丰富的方法和途径,优化网络信息资源组织。
The paper comprehensive researches the theory and practice of folksonomy semantic enrichment, including folksonomy clustering, suggesting, relating and practicing.【关键词】folksonomy/语义丰富/语义folksonomyfolksonomy/semanticenrichment/semantic folksonomyFolksonomy由Thomas Vander Wal于2004年首次提出[1],是Web2.0社会性软件工具应用的典型代表。
目前,已经在各种社会性网站上广泛应用,如社会性书签服务[2],flickrt[3],社会性编目网站标注服务librarything[4],BibSonomy[5]等。
Folksonomy作为一种自底向上的公众分类方法,能够作为集体智慧的体现,提供流行的、反映用户兴趣的标签,具有简单、丰富、流行和多样的特点。
但随着标签数量的增加,folksonomy的进一步应用出现了一些制约因素,如标签的歧义,平面延展的标签结构,标签之间的语义关系等,这些问题会制约标签进一步使用。
解决这些问题的主要方法是为folksonomy提供一定的语义关系,即folksonomy语义丰富。
WellerK于2007年指出folksonomy能够从现有的知识组织系统中获得标签控制和语义关系的构建原则,同时提供有用的语义丰富知识组织系统,改进现有的分类法、叙词表或本体[6]。
国外研究人员对该领域的研究较为活跃,本文从folksonomy语义丰富的几个核心问题——聚类、推荐、关联及实证出发,探寻国外folksonomy语义丰富的主要方法和途径。
1 Folksonomy的标签聚类研究相同或相似标签能够通过一定的聚类方法聚集在一起,形成基于用户兴趣的标签集合。
根据标签聚类目的,标签聚类方法可分为相同标签聚类和相似标签聚类两种。
1.1 相同标签的聚类方法相同标签聚类方法的目的是将意义相同或描述主题相同的标签聚类(如“folksonomy”和“folksonomies”),主要有三种方法。
(1)词根还原方法(Stemming algorithms)。
词根还原方法是从单词中抽取词根聚类相同词根标签的方法。
如“links”和“linked”经过词根还原算法都聚类在“link”标签下。
Hend S等人在文献[7]中使用了词根还原算法标准化处理标签,将相同词根的标签聚集在一起。
(2)字符串距离测度方法(String distance metrics)。
字符串距离测度方法是测度标签字符串之间区别的方法。
最常用的是Levenshtein算法,即计算两个字符串之间的编辑距离,这个“距离”是从源字符串变换到目标字符串需要进行的删除、插入和替换的最少次数。
L.Specia和E.Motta在文献[8]中使用了Levenshtein算法,从形态学上聚合词形与语义相同的标签。
(3)在线资源探测方法(Exploiting on line resources)。
使用在线资源如Word Net,google等进行标签控制,如标签的拼写,单复数和词形规范等,同时找出相同标签集合中有代表性的标签。
L.Specia和E.Motta在文献[8]、Van Damme C.等人在文献[9]中建议使用在线资源检验标签的方法聚类相同标签。
1.2 相似标签的聚类方法1.2.1 标签的相似性测度方法标签相似性测度是进一步处理标签数据的基础,通过标签的相似性计算能够聚类相似标签进而推断标签之间的语义关联。
Cattuto、Markines等人在文献[10-13]中提出了不同的folksonomy标签相似性测度的方法。
(1)基于folksonomy三元组结构的相似性测度。
Mika在文献[12]中中将folksonomy作为来自社区的语义结构,建议通过揭示标签之间的语义关系构建folksonomy本体,利用folksonomy的三元组结构{用户,标签,资源}通过资源的共现来建立标签之间的关系,通过计算标签共现的次数计算标签之间的相似性。
(2)Jaccard index相似性测度。
Beglman等人在文献[13]中使用Jaccard index相似性测度方法,采用标准化的共现方法测度标签的相似性。
具体的算法为:其中,A是使用标签a标注的文档集,B是使用标签b标注的文档集。
(3)分布式聚类和余弦相似性测度。
Markines在文献[11]中提出了基于三个不同向量空间背景的测度方法,其中Tag-TagContext为每一个标签向量同其他标签向量共现;Tag-Resource Context为标签t标注资源的频次;Tag-User Context为用户u使用标签t的频次,使用余弦相似性算法计算标签相似性。
(4)folksonomy内部相似性测度评价框架和互信息测度(MutualInformation Measure)。
互信息是信息论中的一种信息度量,指两个事件集合之间的相关性。
Markines等人在文献[11]中提出了基于互信息测度的相似性测度方法,并提出不同测度类型的评价框架,包括标签之间的测度及被标注资源的测度方法。
1.2.2 相似标签的聚类方法(1)谱平分聚类方法(Spectral Bisection Clustering)。
基于Laplace特征值的谱平分聚类方法根据Laplace图谱的次小特征值和第三小特征值对应的特征向量,构成聚类样本并显示出来。
Begelman等人在文献[13]中发现标签同时出现的频率会在一个临界点变化显著,可以根据这个临界点确定两个标签之间是否相关,使用谱平分聚类算法对标签进行了聚类分析,从Raw-Suar网站抽取30000个标签进行试验。
(2)文档向量空间聚类方法(Vector Space Model)。
文档向量空间聚类方法是计算文本之间距离或相关度的方法。
HeymannP在文献[14]中,使用向量空间聚类方法。
从网站搜集60000个标签,根据标签的向量相似度确定相关标签,将相关标签连接成无权重的无向图,采用相关算法将无向图转换为层次结构的分类树。
Daniel Ramage、YusefHassan-Montero和VíctorHerrero-Solana等人在文献[15-16]中,使用kmeans聚类方法扩展向量空间模型。
Miranda Grahl等人在文献[17]中,使用k-means聚类算法和folkrank排序算法构建了数据的三个等级概念结构。
(3)共现聚类方法(Co-occurrence Clustering)。
Cattuto等人在文献[18]中指出标签共现可以用语义描述,标签的相似性被认为是标签之间的一种语义关系,可通过标签之间的相对共现进行评价,能够揭示协作标注系统中的语义关系,如标签之间的同形异义、同义和等级关系等。
P.Schmitz在文献[19]中使用基于包容算法的模型,抽取标签的共现关系,聚类标签并发现相关标签。
Begelman 等人在文献[13]中将标签作为一个无向图,将标签共现频次作为向量,并赋予标签共现的值,来完善标签聚类的结果。
X.Wu等人在文献[20]中基于标签、资源和用户的共现,生成语义关联的标签组。
从目前国外研究进展来看,以上几种标签聚类方法都被普遍的采用,并通过具体的数据来检验聚类的效果。
其中,共现聚类方法应用最多,同时共现聚类方法能够同其他的方法结合使用,以优化聚类的结果,发现与识别标签之间的语义关系。
2 Folksonomy标签推荐方法研究标签推荐能够为用户提供与关键词匹配良好的资源,标签推荐方法的目标是通过有效的解决标签缺少等级结构问题来处理标签服务中出现的各种问题[21],对标签推荐方法的研究包括定量分析和推荐算法两个方面。
2.1 定量分析E.H.Chi和T.Mytkowicz在文献[22]中评价了早期delicious数据有效导航的价值,指出标签随着时间增加,top标签不能支持随时间变化的有效导航。
R.Li 等人在文献[23]中探索了标签共现网络,提出ELSABer标注空间浏览方法,即基于相似性和语义等级发现标签子集的方法,实现语义浏览、层次浏览和有效浏览。
E.Santos-Neto等人在文献[24]中研究了Citelike和Bibsonomy服务,探索促进导航的模式。
2.2 推荐算法(1)K-way算法。
在文献[13]中使用k-way方法代替spectral clustering,该方法实现了更好的聚类质量,并且比spectral clustering方法易于使用,效果更好。
(2)向量空间算法与TP-IDF算法。
文献[25]中扩展了推荐资源内容的选择,分析了标签描述博客内容的有效性,通过构建标签向量空间,有效的分类博客内容。
(3)基于相似性的folkrank算法。
Hotho等人在文献[26]中提出了folkrank 算法,用于排序和关联folksonomy元素。
其指导思想是被重要用户使用重要标签标注的资源也是重要的,folkrank算法的目的是计算一个给定标签的相关标签的排序列表。
(4)基于启发式规则和深度句法分析的等级分类体系。
Eric Tsui等人在文献[27]中提出了基于启发式规则和深度句法分析的方法,处理核心的分类数据集,生成等级的结构促进用户信息导航行为并体现个性化特征,获取的标签能够整合到分类体系中,以自动的方法完成分类等级构建的过程。