互联网技术——浅谈语义web
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
互联网技术——浅谈语义web
World Wide Web(www)的诞生只不过是十几年前的事情,但是Web技术的成长和对社会的作用却是惊人的,Web已经成为人们日常生活、电子政务和电子商务等领域不可或缺的部分。
随着Web技术的不断发展,互联网上的信息飞速增长,但信息格式的异构性、信息语义的多重性以及信息之间关系的匮乏和非统一,给人们在信息搜索、抽取、表示、解释和维护造成极大的不便。
Web2.0的出现使Web摆脱了主要供人进行阅读的局限,更深层次的应用开始涌现,电子商务、电子政务的智能化服务也得到了一定发展。
然而,这仅仅是真正智能化Web的初级阶段。
万维网之父Tim Berners Lee 等人于2001年在《科学美国人》杂志上提出了“语义Web”的概念,预见了未来智能化Web时代的到来。
一、语义Web概念解析
什么是语义Web并没有一个严格的定义,Tim.Berners-Lee对语义Web做了如下的描述:语义Web并不是一个孤立的Web,而是对当前Web的扩展,语义Web 上的信息具有定义良好的含义,使得计算机之间以及人类能够更好地彼此合作。
根据上面的描述,人们可以给语义Web做出这样的定义:机器可以理解数据含义的下一代Web,称之为语义Web,语义Web中的语义表示计算机对某一个概念、术语或者符号可以理解的“含义”。
1)元数据角度:
我们对MIS比较熟悉, 所以可以考虑用MIS系统的例子图书管理系统做比较,从元数据的角度出发。
图书管理系统可以按作者,书名,出版社查询,是因为有元数据,即在数据库中,每个数据都有所属的字段名和表名。
而Web上只能按关键词查询,是因为网页上的内容没有元数据,例如,网页上一个数字“15”,程序没法知道这个数字是年龄呢,还是个数呢,等等,当然人能够根据上下文判断出来。
语义Web的基本思想就是让网页上的数据都有元数据描述它,说明它的含义,这样计算机程序能够理解网页上的数据,也能更好地为大家服务。
如提供类似MIS的那种查询界面,而不是关键词查询。
语义Web提供了一种统一的元数据描述语言,和其所用的词汇定义语言。
2)数据交换角度:
如果不同的图书管理系统要实现互操作,如馆际互借,由于不同系统的数据格式都是私有的,很难实现数据交换和共享。
先讨论不同时期的数据交换方式:
Web 技术的发展
上述的应用交换数据问题可以这样解决:每个应用把他的数据导出为RDF数据,需要数据输入的应用则只要写一个RDF数据抽取程序,这个程序对任意输入的RDF文件,在其中查询其需要的数据。
当然,一个前提是基于同一个词汇表,如大家都用“Student”这个词表示学生,这个词汇表就是RDF Schema。
它和XML Schema的区别在它不是约束XML数据的格式,而是描述RDF数据中词汇的含义。
这样,就屏蔽了同一含义不同XML语法的问题。
也就是说,RDF Schema比XML Schema更容易为大家达成一致,因为它只关心领域的概念模型,而不关心这个概念模型用XML表示出来的格式(XML Schema可以看成是概念模型的XML表示方式)。
3)Web搜索角度:
目前的网页是让人看的,如查找信息,(如查找人口超过1000万的城市),网
上购物,语义Web上的网页是让计算机看的,但并不是通过NLP技术,而是制定一个Web上数据表示语言的规范,用以描述Web内容,且让计算机能够理解。
二、语义web的语言标准和体系结构
W eb技术标准化组织W3C极大地推动了语义Web的标准化进程。
在其努力下,先后推出了RDF(S),DAML+OIL和OWL等本体描述语言。
而且围绕着RDF(S)和OWL,形成了由一系列规范和标准构成的多层次语义Web体系结构。
这一体系结构能够通过本体描述语言实现对数据的清晰语义描述,同时也正努力通过SPARQL和RIF等标准实现对Web信息的“理解”和智能化处理。
语言标准:
RDF是一个建立在XML基础上获取信息(知识)的描述标准。
RDF数据层用于描述资源、链接及其类型,允许对结构元数据进行译码、交换和重用。
它的文档是一个由主谓宾结构的断言的集合且包括一个数据模型 (RDFMS)和一个s chema (RDFS)。
DAML(DARPA Agent Markup Language)发布于2000 年8月,它的目的是为本体层提供语言和工具。
它属于军方D ARPA(Internet 就是源自该组织的研究项目)的计划。
DAML 是在W3C 的X ML 与R DF 标准基础上建立的。
DAML 是通过自己表达本体,同时对原有W eb 页面进行注解,链接到相关的本体上的。
OWL(Web Ontology Language)是W3C 网络本体工作组设计一种的网络本体语言。
它包含一个高层的抽象语法,它充分利用了D AML,可以看成是D AML 的一个升级。
并且一个有理论模型的语义形式化表示。
可以对O WL 本体进行形式化表示,并且可以映射到R DF 的语法。
语义Web体系结构:
第一层:Unicode和URI。
Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符。
数据格式采用Unicode 的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。
URI(Uniform Resource Identifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。
在语义Web体系结构中,该层是整个语义Web的基础,其中Unicode负责处理资源的编码,URI负责资源的标识。
第二层:XML+NS+xmlschema。
XML是一个精简的SGML,它综合了SGML的丰富功能与HTML的易用性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。
NS(Name Space)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。
XML Schema是DTD(Document Data Type)的替代品,它本身采用XML语法,但比DTD更加灵活,提供更多的数据类型,能更好地为有效的XML文档服务并提供数据校验机制。
正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XML Schema所提供的多种数据类型及检验机制,使其成为语义Web体系结构的重要组成部分。
该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。
第三层:RDF+rdfschema。
RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。
该框架能充分利用各种元数据的优势,进行基于Web 的数据交换和再利用。
RDF解决的是如何采用XML标准语法无二义性地描述资源对
象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。
如果把XML 看作为一种标准化的元数据语法规范的话,那么RDF就可以看作为一种标准化的元数据语义描述规范。
Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述。
第四层:Ontology vocabulary。
该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。
在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系。
第五至七层:Logic、Proof、Trust。
Logic负责提供公理和推理规则,而Logic一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性。
通过Proof
交换以及数字签名,建立一定的信任关系,从而证明语义Web输出的可靠性以及其是否符合用户的要求。
三.语义Web研究中的关键技术
语义Web的发展和成功主要取决于支持它的一些关键技术的发展与成功应用。
语义Web的主要技术为:
1.元数据获取
目前,Web内容是按照让人读懂而不是让机器读懂的方式组织的,Web语言主要是HTML,HTML只负责数据的显示方式而不关心数据的内容。
元数据是关于数据的数据,它的作用是以一种机器可以处理的方式来描述Web的内容。
比如Web中一篇文章的标题用<标题>标记,文章的作者用<作者>标记,文章的内容用<段落>标记,那么标记<标题>、<作者>、<段落>就是Web中这篇文章的元数据。
XML是目前使用最多的元数据表示语言,它允许各组织、个人建立适合自己需要的标记集合(元数据集合),并且这些标记可以迅速地投入使用。
2.本体
用XML表示的元数据可以由各组织和个人建立,在Web中就存在同一个元数据表示不同的含义和不同的元数据表示相同含义的问题,语义Web采用本体技术来解决这一问题。
本体是领域共享概念的明确的形式化规范说明。
不同的领域和应用根据领域知识建立起自己的本体,即用本体描述语言描述共享概念及概念之间的关系,使这些概念表示明确的语义。
本体中的主要元素包括概念(也称类)、属性、实例、关系和公理。
概念是共享概念的定义,属性用来描述概念所具备的性质,实例是概念的具体化,是符合某个概念属性的对象,关系用来描述不同概念之间的相互联系,公理是领域中的规则。
本体的研究是人工智能长期进行的一项难题,其中本体的自动构建、不同本体之间的匹配、本体的自动演化问题是近几年本体研究的热点,也是语义Web
研究中的热点问题。
3、逻辑
逻辑提供了知识的形式化表示方法,也提供了从已知的知识推出未知知识的推理机制。
利用逻辑推理,我们可以知道本体所表示的知识库中隐含的知识,隐含的关系,以及判断本体中的知识是否互相冲突,检验本体的一致性。
描述逻辑(Description Logic)是本体描述语言OWL的逻辑基础,它是一阶谓词逻辑的可判定子集,能够提供可判定的推理服务,并且具有语义特征。
在经过二十多年的研究与发展之后,描述逻辑已经基本趋于成熟并走向应用,它是知识表示的形式化工具。
但是描述逻辑主要还只能处理静态的知识,在对动态世界的表示与推理上却无能为力,尤其是对智能主体的内部知识库的表示显得乏力,也不能对服务的动态性与交互性进行刻画。
动态逻辑最开始是用来进行程序正确性验证的,后来人们也用它来对动态世界进行表示与推理,有的也用在逻辑程序设计上。
它们能对动作、状态、动态关系进行较好的刻画,在静态知识上的表达力却很弱,且推理较为复杂。
如何将动态与静态结合起来,这是需要研究的关键问题。
4、智能主体
智能主体是分布式环境下软件智能化的重要技术。
自20世纪50年代就已经提出,但真正的发展是20世纪80年代之后,在20世纪90年代成为研究的高潮,直到现在为止仍然是人工智能研究的热点。
现在关于智能主体的研究主要侧重在以下几个方面: 主体的认知模型和理论、多主体系统的体系结构、主体的协作与协商、面向主体的软件方法学以及主体技术的应用等。
经过近二十多年的研究,主体的理论与技术有了长足的发展,已经在很多领域中得到了应用。
而对于用户来讲,语义网应该提供一种丰富完善的服务,一种在知识表示与推理之上的服务,这些服务由具有智能的主体来提供。
四、语义web的应用
语义web主要应用在搜索引擎和一些依靠语义的自动化服务。
搜索引擎是互联网一种主要的应用,根据2007中国互联网报告,有四分之三使用互联网的人要使用到搜索引擎。
搜索引擎技术从第一代的目录检索,到第二代基于关键字的检索,走向如今发展中的第三代搜索引擎的技术研究。
对第三代搜索引擎,不同的研究人员具有不同的观点,还没有统一的认识,但大家一致认为,第三代搜索引擎会或多或少地采纳语义机制来提高检索的效果和用户满意度。
所以,一定程度可以认为第三代搜索引擎是基于语义的搜索引擎。
语义搜索将通过准确理解用户的意图和搜索内容的含义,返回给用户更加准确有用的搜索
结果,提高信息的查准率和查全率。
在语义搜索中,本体技术、信息的存储机制、搜索算法、知识推理、语言处理等都是语义搜索中重点研究的关键技术。
Web服务是松散耦合的、可复用的软件模块。
其目的是为在Internet上不同操作系统、硬件平台和编程语言间集成应用软件提供支持,方便应用的实现和发布。
Web服务与其他分布式计算技术相比,最显著的优点是任何一个Web服务都可以通过标准的协议(SOAP)与其他任何Web服务交互,同时,任何一个Web 服务的用户可以使用标准的Web协议来调用Web服务。
由于以上特点,Web服务的研究和应用近几年发展迅速,并得到了IBM、微软、Sun等大厂商的广泛支持。
Web服务在应用集成、电子商务等领域有广阔的应用前景。
以下这是网络上比较流行的2008年10大语义Web产品。
1. Yahoo! SearchMonkey
今年5月,Yahoo!为开发者推出一个开放的搜索平台,SearchMonkey。
Yahoo!今年厄运连连,但他们对搜索的创新与努力值得称道。
4月份的 Web 2.0 展,RWW 曾对 SearchMonkey 做过报道,指出 SearchMonkey 是 Yahoo! 的一个重要部件,允许开发者在 Yahoo! 搜索的上层创建应用,允许站点所有者共享Yahoo! 的结构数据,使用语义置标语言(microformats, RDF)以及标准 XML feeds, APIs (OpenSearch or other web services),以及页面抽象。
2. Powerset (08年被微软收购)
Powerset 是一个自然语言搜索引擎,可以说,PowerSet 在 2008年风光无限,最值得一提的是,它7月份被微软收购。
被收购伊时,Powerset 表示他们需要一个大一点的合作伙伴,让他们的产品走出 Wikipedia 的圈子。
而微软则表示,Powerset 对他们自己的搜索技术非常有帮助,可以让微软的搜索技术上一个台阶。
3. Open Calais (Thomson Reuters)
2007年末,刚被 Reuters 收购的 ClearForest 推出一个 Web Service 以及一个 Firefox 扩展。
现在,ClearForest 又准备推出 Calais,一个允许用户在他们的博客,内容管理系统(CMS),网站与程序中加入语义功能的技术。
自今年初发布 Open Calais API 之后,他们已经拥有超过6000个注册开发者,每天处理100万个请求。
本月初已经推出 3.0 版,4.0版将于09年1月推出。
4. Dapper MashupAds
RWW 曾在11月份报道过 Dapper MashupAds 的最新功能改进,而最早在一年前,RWW 就发现了 Dapper。
内容发行商可以告诉 Dapper,我网站的这个部位将显示电影的名字,请在这里给我显示一个 Banner 广告,这个广告必须和这里显示的任何电影有密切的关系。
Dapper 认为,他们会为内容发行商在网站上实现语义功能。
5. Hakia
Hakia 是一个自然语言搜索引擎。
Hakia 对搜索,尤其是对句子进行分析。
过去的一年,Hakia 有不少的动作,3月份,他们向其它公司签发 OntoSem 技术许可,6月宣布语义 API。
他们还是第一个使用 Yahoo! BOSS 的公司,将他们的语义分析技术同 Yahoo 的索引结合。
6. TripIt
Tripit 是一个旅行安排程序,你只需要将你定的票转发给
plans@ ,TripIt 会帮你安排余下的一切。
过去的一年,TripIt 的功能不断改进,同 LinkedIn 集成,更好的移动功能,更多社会网络功能。
7. BooRah
BooRah 是一个饭店测评网站,RWW 本年初曾有过报道。
BooRah 使用语义分析与自然语言处理技术对一些相关博客中发表的外出就餐方面的文章进行分析,它能理解其中的赞扬和批评并因此对相关饭店进行评测。
BooRah 还从Citysearch, Tripadvisor 以及其它大型评测网站搜索评论。
BooRah 上月宣布推出一个 API,允许别的网站和饭店将 BooRah 的评测结果提供给他们的客人。
8. AdaptiveBlue
AdaptiveBlue 是一个叫做 BlueOrganizer 的 Firefox 插件的作者。
RWW 曾对 BlueOrganizer 做过介绍,BlueOrganizer 会根据你目前访问的网页的内容主题,提供一些相关资料和链接。
过去的一年,这个公司忙于另外一个叫做 Glue 的产品,上月已经发布。
Glue 是一个社会网络化的 Blue Organizer,它会就书籍,音乐,电影,明星,艺术家,股票,葡萄酒,饭店等话题将你和你的朋友联系起来。
9. Zemanta
Zemanta 是一个驾御了语义技术的博客工具,为你的博客文章提够相关内容,9月,Zemanta 的服务进行了重要升级,允许用户指定 Zemanta 提供的相关内容的来源,用户可以在他们的博客文章中结合他们自己的社会网络,RSS Feed,相册等。
Zemanta 的 API 也被一些创业公司运用到他们的产品中,如Faviki 的语义书签服务。
10. UpTake
UpTake 是一个语义搜索公司,曾名 Kango,它的目标是让在线订票更容易。
RWW 5月曾做过报道并指出,UpTake 是一个垂直搜索引擎,拥有一个庞大的相关数据库,包括40万家美国的酒店,资料来自1000家不同网站。
基于这些资源,UpTake 从超过 2000万条关于酒店的评论,建议,描述中,语义地抽取有用的信息。
五.结语
Web网的创始人Tim Berners-Lee曾经说过他关于Web的两个梦想: 在梦想的第一部分,Web成为人们相互合作的强大工具; 在梦想的第二部分,合作延伸到计算机,机器可以分析Web上的所有数据,包括数据、链接以及人与计算机之间的交互。
Tim Berners-Lee关于Web梦想的第一部分可以说已经实现,Web现在已经成为人们知识共享、通信和协作的强大工具以及生活的助手,梦想的第二部分即是语义Web。
虽然语义Web有了良好的结构和框架,各层技术也有所发展,但每一点语义都是一条漫长的道路,语义Web关键技术中的本体建立、本体匹配、逻辑推理等,无一不是世界级的难题。
可以想象,语义Web很难一下子获得巨大的成功,它会一点一点渗透到现有的Web中,最后在人们的不知不觉中,语义Web的时代已经到来。