教育资源元数据语义扩展查找方法的研究_孙霞
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第41卷第12期2004年12月
计算机研究与发展
JOURNAL OF COM PUTER RESEARCH AND DEVELOPM ENT
V ol 141,No 112Dec 12004
收稿日期:2004-09-21
基金项目:国家自然科学基金项目(60373105);国家/八六三0高技术研究发展计划基金项目(2001BA101A01)
教育资源元数据语义扩展查找方法的研究
孙 霞 郑庆华
(西安交通大学计算机科学与技术系 西安 710049)(sx @mailst 1xjtu 1edu 1cn)
摘 要 随着网络教育资源的急剧增长,如何有效地提供教育资源查找服务,成为一项重要而迫切的研究课题1由于教育资源同网格资源一样具有海量、异构、广域分布等特性,于是采用网格资源查找技术中基于元数据的资源查找方法实现教育资源的查找1与其他基于元数据资源查找方法不同的是:利用自动构建的语义关系库,实现教育资源元数据同义扩展、蕴涵扩展、外延扩展以及并列扩展,试图从词所表达的语义层次处理用户的检索请求1关键词 教育资源;网格;元数据;语义扩展中图法分类号 T P393
Educational Resources Search Based on Metadata Expanded S emantically
SUN Xia and ZHENG Qing -Hua
(Dep ar tment of Co mp uter Science and T echnology ,X i .an Jiaotong Univer sity ,Xi .an 710049)
Abstract With the increase of the amounts of educational resources,it has become an important research issue to provide users with effective serv ice of educational resources search 1Unfortunately,traditional infor -mation retrieval cannot answ er the challenge of the issue,on account of the complex characters of educa -tional resources,such as vast character,distributed character and heterogeneous character 1Grid technology aims to integ rate the various resources into a homogenous presentation,and to share vast,heterogeneous and distributed resources 1Furthermore,metadata specification of educational resources is be -coming m a -ture 1Thus technology of grid resources search based on metadata can be utilized to solve the problem of ed -ucational resources search 1Different from other resource locating methods based on metadata,expanded metadata are introduced into resource retrieval,w hich can im prove the performance of resource search,but
also achieve associational retrieval 1Now a prototype of educational resources search system has already been developed and has been tested on the XJTU educational resource databases 1The experimental result shows that the proposed m ethod can achieve and improve the accuracy and efficiency of educational resource search 1
Key words educational resources;grid;metadata;semantic expansion
1 引 言
教育资源是教育信息化和网络教育的基础1一方面,教育资源分布广、数量大、层次不一;另一方面,教育资源种类繁多,形态各异1由于各种异质教
育资源之间缺乏互操作性,众多资源成为离散、孤立
的/信息孤岛01在这种情况下,如何有效地提供教育资源查找服务,也就成为一项重要而迫切的研究课题1传统的检索技术无论从资源覆盖度、检索精度等诸多方面来看,都无法应对海量、异构、广域分布的教育资源查找问题[1]
1于是,需要一种新的资
源查找方法帮助用户从大量教育资源的集合中获取想要的资源1
网格技术是近年来逐渐兴起的一个研究热点1网格技术是要把整个因特网上的各种资源整合成1台巨大的计算机,从而实现海量、异质、广域分布资源共享与协同工作[2]1因此,可以利用网格技术来解决教育资源查找问题1目前存在两种网格资源查找方法,一种是采用资源路由表的机制发现和定位网格资源,如中国科学院计算技术研究所的织女星网格[3]1设计者提出了虚拟计算机的体系结构模型,并在此基础上,通过基于资源信息的路由转发的资源定位模型和3层资源表示模型来解决资源查找问题1另一种是基于元数据的资源查找方法,资源提供者通过系统提供的接口,主动将资源元数据信息发布到目录服务器上1系统自动匹配目录服务器上的元数据,发现和定位实际的资源实体,返回给资源需求者1如Globus计算网格中的MDS实现了基于LDAP的树状元数据目录服务,完成对网格计算环境中信息的发现、注册、查询、修改等工作[4]1考虑到目前教育资源元数据规范已经逐渐进入一个相对成熟的阶段,所以本文将采用第2种方法实现教育资源的查找,如图1所示:
图1教育资源查找模型
2教育资源元数据
目前国际上许多国家和地区都成立了专门从事教育信息标准化工作的组织,致力于教育资源元数据描述规范的研究1其中,学习技术标准委员会IEEE LTSC(Learning Technology Standards Com-m ittee)的学习对象元数据模型(learning object metadata,LOM)影响较大,是当前最重要的关于教育资源的数据模型1我国现代远程教育技术标准化委员会就是以LOM为核心,进行了一系列的本地化工作,形成了我国的教育资源元数据规范)))5教育资源建设技术规范6[5](以下简称5规范6)15规范6规定了教育资源属性标注标准,即呈献教育资源时,所应提供的属性(包括必须属性、可选属性和扩展属性),称为教育资源元数据,如资源名称、资源关键词、资源制作者等等1如下给出XML格式的操作系统课件元数据片断:
3metadata4
3descr ip tion4基于M IN IX的操作系统课件3/descr ip tion4
3key w ords4操作系统3/keyw ords4
3author4网络学院3/author4
3p ublisher4西安交通大学3/publisher4
3learning context4大学本科3/lear ning context4
3coverage4计算机3/cover age4
3dif f iculty443/diff iculty4
3typ ical lear ning time4108学时3/typ ical
lear ning time4
s
3/metadata4
3语义关系库的自动获取
基于元数据的资源查找方法的核心是元数据匹配1从操作系统课件元数据片断可以看出,教育资源元数据元素表现形式为词或者短语,所以可以采取字符匹配的方式实现教育资源的查找1但是,这种方式参与匹配的是字符的外在形式,而不是它们所表达的语义信息1若用户查询请求中的元数据和元数据目录服务器中元数据表述方式不一致,就会造成漏匹配现象1解决这个问题的方法就是对元数据元素中的关键词进行同义扩展1然而,资源与资源之间不是孤立存在的[6],它们之间存在各种各样的联系,需要通过元数据的蕴涵扩展、外延扩展和并列扩展建立资源间的各种联系1鉴此,我们提出了一种获取语义关系库的方法,并借助该语义库实现了基于元数据语义扩展的资源查找¹1元数据的同义扩展、蕴涵扩展、外延扩展和并列扩展对应的语义关系为:同义关系(synonymy)、父类关系(hyponymy)、子类关系(hypernymy)和兄弟关系(parataxis)1
2171
12期孙霞等:教育资源元数据语义扩展查找方法的研究
¹元数据语义扩展实质上是指对元数据元素中的关键词进行语义扩展,从而达到元数据语义扩展的目的1
311基本思想
在参考了文献[7,8]的基础上,我们采取监督学习和无监督学习相结合的方法获取词与词之间4种语义关系1其基本思想是:根据人工总结的关系抽取模板,抽取出所有可能的关系对,并记录关系对在检索集中出现的次数,组成候选关系集1每一种关系对应一组抽取模板1然后计算语义关系的支持度和置信度,并应用集合运算对候选关系集进行优化,尽可能地逐一去除错误关系1最后进行角色转换,获得各种类型的语义关系,最终建立语义关系库1 312关系抽取模板
通过对大量语料的分析,我们发现有些句子在不同的上下文总是能够表达某种语义关系1如例1中,/北京大学0和/北大0是一对具有同义关系的词,记为R syn(北京大学,北大)1而有些句子在不同的上下文中可以表达多种语义关系1如例2和例3中/超文本传输协议0和/http协议0具有同义关系,而/学生0和/张三0具有父子关系1
例11/北京大学简称北大01
例21/超文本传输协议,即http协议01
例31/没通过考试的学生,即张三01
因此,我们把每种语义类型对应的关系抽取模板划分为两类:一类称为确定型模板,或A类模板,另一类称为歧义型模板,或B类模板1
313候选集优化
根据关系抽取模板,抽取得到如下候选集C:
C J={Set syn,Set hyp,Set par},(1) Set syn,Set hy p,Set par是指分别用同义关系抽取模板、父类关系抽取模板和兄弟关系抽取模板抽取出的3种关系对集合1
Set syn J={Set A i syn,Set B j syn},i,j\1,(2) Set A i syn表示同义关系的第i个A类模板抽取的关系对的集合1Set hyp,Set pa r的定义同式(2)类似1
Set A i sy n J={f(R A i sy n(W p,W q))},(3) f(*)表示某个关系对在检索集合中出现的次数1 R A i syn(W p,W q)是指利用同义关系的第i个A类模板抽取的关系对1Set B j syn的定义同式(3)类似1
由于候选集C中可能存在错误的语义关系对,需要对候选集进行优化,排除错误的语义关系对,保证语义扩展的有效性1考虑到两类模板的特点不同,我们分别采用不同的方法处理两类模板抽取的关系对候选集1A类模板抽取的关系集合,称为A类候选集;B类模板抽取的关系集合,称为B类候选集131311A类候选集的优化
A类模板是指无歧义的表达某种语义关系的模板,所以A类候选集中,要么是该语义类型的正确关系对,要么是不具有任何语义关系的一组词,我们视后者为错误关系对1为了消除错误关系对,本文从统计的角度引入支持度和置信度的概念1即给定最小支持度和最小置信度,对超过最小支持度的关系集合,进行语义关系的置信度计算1只要最小支持度和最小置信度定义得合适,就可以有效地消除错误关系对1
定义11支持度1
支持度反映了一组词满足某种语义关系的支持程度1若f(R A i x(W p,W q))[MINS UP,则删除该词对1这是为了避免关系抽取过程中的偶然性事件1其中,x I{sy n,hyp,par};MINS UP为最小支持度,一般取值为21
假设11若某种关系的n个A类模板都抽取到同一组词(W p,W q),则n值越大,并且f(R(W p, W q))值越大,R(W p,W q)是正确关系的可能性也就越大1
定义21置信度1
根据假设,两个词之间语义关系的置信度CON 定义为
CON(R(W p,W q))=S UM+
n@S UM
n+S UM
,(4) S UM=E n i f(R A i x(W p,W q))1(5)最后设置最小置信度MINCON(文本设置为15),删除小于MINCON的关系对1至此,A类候选集优化完毕1
31312B类候选集的优化
与A类模板不同,某种语义类型的B类模板在不同的上下文中可以描述多种语义关系1所以B 类候选集中存在两种错误关系对:¹抽取得到的一组词不具有任何语义关系;º抽取得到的关系类型错误1
对于第1种错误,可以采用第31311节介绍的支持度和置信度方法,达到消除错误的目的1对于第2种错误,根据两类模板的特点,我们借助经过优化的A类候选集进行错误消除,即集合运算方法1集合运算方法的描述如下:
IF Set B x H Set A y=A X§TH EN
Set B x=Set B x-A,(6)其中,x X y且x I{syn,hyp,par}1
2172计算机研究与发展2004年
本文中,同义关系、父类关系和兄弟关系是通过模板匹配的方法获取的1由于父类关系和子类关系具有相对性:如果W p是W q的子概念,那么W q就是W p的父概念1因此,子类关系可以通过角色转换获得,即遍历父类关系中所有的词对,得到相应的子类关系对,从而得到所有类型的语义关系,最终建立语义关系库1
4实验结果和分析
我们搜集了近115MB的教育资源,约100000个句子,作为检索集1人工总结3种关系模板共计39个,其中12个A类模板,27个B类模板1分别做了以下两组实验:实验1考察语义关系抽取的质量;实验2检验获取的语义关系库对基于元数据的教育资源查找精度的影响1
411语义关系获取的正确率
表1和表2分别给出了两类模板抽取的结果1表1A类模板抽取结果的正确率
实验参数
同义关系父类关系兄弟关系
RS US RS US RS US
获取得到的正确关系数目71711601655759
获取得到的全部关系数目75781751886366准确率P/%941791109114871890159010表2B类模板抽取结果的正确率
实验参数
同义关系父类关系兄弟关系
RS US RS US RS US
获取得到的正确关系数目224229307324183194
获取得到的全部关系数目320445415656277453准确率P/%701051157410491466114218
其中,RS:经过优化的结果集(refined set);US:未经优化的结果集(unrefined set)1
从表1和表2可看出,A类模板抽取的关系对数目较少,但准确率高1B类模板抽取的关系对数目较多,能够有效提高关系对获取的全面性1另外,两类模板抽取得到的结果集中,经过优化的结果集的准确率普遍高于未经优化的结果集,尤其B类模板的情况非常明显,这说明本文提出的候选集优化方法是可行的1
412语义关系库的作用
为了测试本文所构建的语义关系库对教育资源检索的影响,我们做了一个评测模块,采用查准率和查全率作为评测标准,对500个注册的教育资源进行检索,对所输入40个查询进行以下两种检索方法的测试:
(1)CS,没有使用语义关系库的查询(common search)1
(2)ES,使用语义关系库进行扩展查询(extended search)1
表3列出了两种方法实验对比结果1
表3两种查询的比较
测试
方法
检索到的相
关资源数目
检索到的
资源数目
资源库中应有
相关资源数目
Precisi on/
%
Recall/
% CS57749277106210 ES69869280127510从以上数据可以看出,采用ES方法得到的平均查准率比CS方法得到的平均查准率提高了8012%-7710%=312%,平均查全率提高了7510%-6210%=1310%1由此证明,采用语义关系知识库进行语义扩展,能够提高检索效率,特别是大大提高了查全率1
接下来,分析一下本文提出的资源查找方法的时间复杂度1本文采用的是基于元数据的资源查找方法1与传统的元数据资源查找方法不同的是,我们并不是直接对查询语句中的元数据和目录服务器上的元数据进行匹配,而是通过预先自动构建的语义关系库,对查询语句中的元数据进行同义扩展、蕴涵扩展、外延扩展以及并列扩展,把扩展后的元数据分别提交给元数据目录服务器1因此,对于每一条查询语句来讲,我们需要额外付出元数据扩展的时间代价1这部分的时间复杂度计算如下:
我们用平均访问语义库次数来衡量元数据扩展的时间复杂度1语义关系库采用多级树状索引式结构[9],假设语义库中所有词的平均长度为L,每条记录的平均下临字个数为M1一次元数据扩展所需的查找次数为
T=
(L-1)@M
2
+11(7)目前,本系统的语义关系库收录的词总数为1438词,所有词的平均长度L为3118,每条记录的平均下临字个数M为3122,本算法的时间复杂度为T=4151(次),对整个资源查找系统的影响很小1 5结论
本文提出了一种构建语义关系知识库的方法,
2173
12期孙霞等:教育资源元数据语义扩展查找方法的研究
并把获取的语义关系库应用到基于元数据的教育资源查找中,实现了教育资源元数据同义扩展、蕴涵扩展、外延扩展以及并列扩展,提高了查询的精度1该语义关系获取方法具有以下两个特点:
(1)只要增加不同语义类型的抽取模板,就可以获得更多语义类型的关系,因此具有客观、通用、可扩展性好的优点1
(2)将抽取模板划分为确定型和歧义型两类,根据两类模板的特点,采用不同的方法优化候选集,既确保了语义关系抽取的准确性,又尽可能提高语义关系抽取的全面性1
参考文献
1王继成,邹涛,杨小江,等1基于Internet的信息资源发现技术与实现1计算机研究与发展,1999,36(11):1369~1374
(Wang Jicheng,Zou Tao,Yang Xiaoj iang,et al1T he technology
and implementation of resource discovery on Internet1Journal of Computer Research and Developm ent(in Ch i nese),1999,36
(11):1369~1374)
2Ian Fos ter,Carl Kesselman,Steven Tuecke1T he anatomy of the grid:Enabling scalable virtual organizations1International Journal of Supercomputer Applicati ons,2001,15(3):200~222
3董方鹏,龚奕利,李伟,等1网格环境中资源发现机制的研究1计算机研究与发展,2003,40(12):1749~1755
(Dong Fangpeng,Gong Yili,Li Wei,et al1Research on resource
discovery mechanisms i n grids1Journal of Computer Research and Developm ent(in Chi n ese),2003,40(12):1749~1755)
4都志辉,陈渝,刘鹏1网格计算1北京:清华大学出版社,2002 (Du Zhihui,Ch en Yu,Liu Peng1Gri d Computi ng(in Chines e)1
Beij ing:Tsi nghua Universi ty Press,2002)
5全国信息技术标准化技术委员会教育技术分技术委员会1教育资源建设1http://20211201941248,2002-03-15
(Chinese Educational T echnol ogy Standardization Committee1 Construction of educati onal resources(in Chinese)1http:// 20211201941248,2002-03-15)
6李蕾,王楠,钟义信1基于语义网络的概念检索研究与实现1情报学报,2000,19(5):525~531
(Li Lei,Wang Nan,Zhong Yi x i n1Semantic n etw ork based con-cept retri eval1Journal of the China Society for Scienti fic an d T ech-nical Information(in Chinese),2000,19(5):525~531)
7Roxana Girj u,Adriana Badulescu,Dan M oldovan1Learning se-mantic constraints for the automatic discovery of part-w hole rela-tions1Human Language T echnology Conference/North American Chapter of the Ass ociation for Com putational Linguistics Annual M eeting(HLT-NAACL),Edmonton,Canada,2003
8P Pantel,D Lin1Discovering word senses from text1ACM Special Interest Group on Know ledge Discovery i n Data and Data M ining (SIGKDD2002),Edmonton,Canada,2002
9张素娟,郑庆华,胡云华,等1一种面向网络答疑的汉语切分歧义消除算法1计算机工程与应用,2004,40(25):55~58
(Zhang S uj uan,Zheng Qinghua,H u Yunhua,e t al1A novel a-l gorithm of eliminating the Chinese word segmentati on ambiguities for Web answ er1Computer Engineering and Applications(in Ch-i nese),2004,40(25):55~58)
孙霞女,1977年生,博士研究生,
主要研究方向为智能网络学习环境的理论
及技术、自然语言处理等1
郑庆华男,1969年生,教授,博士生
导师,主要研究方向为智能网络学习环境
的理论及技术、计算机网络安全等1
2174计算机研究与发展2004年。