语义网的发展及其可用工具
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语义网的发展及其可用工具
语义网的发展及其可用工具
美国阿尔法股权管理公司(Alpha Eqiuty Mangement)高级国际资产分析师Vince Fioramonti在2001年突然意识到,由于有价值的投资信息在网络上将会越来越多,今后越来越多的厂商将根据信息的重要性和关联性提供可搜集和解译这些信息的软件。语义网络将成为企业发展的利器Fioramonti称:“我曾经拥有一支专门为公司搜集和分析金融信息的分析团队。不过,他们的处理速度极为缓慢,得出的结论往往也过于主观,甚至有时会前后矛盾。”第二年,Fioramonti改用Autonomy集团的语义平台——智能数据操作层(IDOL)来自动处理各种形式的数字化信息。他们在部署中遇到了一个障碍:IDOL仅提供了常用的语义算法。Fioramonti称,阿尔法股权管理公司为此不得不组建了一个由程序员和金融分析师组成的团队,专门研发适用于金融学的算法和元数据。由于耗资过于巨大,公司最后放弃了这一项目。阿尔法股权管理公司在2008年迎来了新的契机,当时他们参加了汤森路透的机器可读新闻(Machine Readable News)服务。该服务可从3000多名路透社记者,以及网络报纸和博客等第三方资源那里收集、分析网络新闻。然后,根据影响力(如果公众对公司或产品的印象)、关联性和新颖性,对这些材料进行分析和评分。这些结果会源源不断的提供给客户,包括公共关系和营销人员、使用自动化“黑匣子交易(black
box trading)”系统的股票交易商、为长期投资决策收集整理数据的基金经理。Fioramonti称该服务每月收费并不便宜。据估计,实时数据更新的成本每月在15000至50000英镑之间。不过,对于阿尔法股权管理公司来说,该服务确实物有所值。他称,这些信息不仅帮助提升了公司的资产收益,还帮助公司击败了许多竞争对手。阿尔法股权管理公司的经历并不是唯一的案例。无论公司决定建造一个类似的内部系统,还是决定雇用服务提供商,通常都要花费巨资才能利用语义网技术。如果所搜索和分析的信息包括有针对特定商业领域的行话、概念和缩略语信息,那么同样可以实现。以下我们将为大家介绍一下那些能够帮助进行商业部署和利用语义网基础的工具,以及要想发挥这一技术的潜能还需要哪些东西。关键标准根据Tim Berners-Lee提出的概念,语义网的核心是联合搜索(Federated Search)。其可搜索引擎、代理或应用询问网络上成千上万个信息源,发现并在语义上分析相关内容,准确检索用户寻找的产品、答案或信息。尽管联合搜索正逐渐流行起来,特别是出现在了Windows7上,但是要在整个网络上广泛普及还有很长的路要走。为了有效的推动联合搜索,万维网联盟(W3C)制定了几个关键标准,定义了基本的语义基础设施。它们包括:•简单协议与RDF查询语言(SPARQL),其定义了用于查询和访问数据的标准语言。•资源描述框架(RDF)和RDF模式(RDFS),其规范了在语义本体(又称为词汇表)中如何陈述和组织信息。•网络本体语言(OWL),其对本体论和部分RDFS原理进行了详细陈述。目前这些标准的最终
定稿已经得到了Cambridge Semantics、Expert System、Revelytix、Endeca、Lexalytics、Autonomy和Topquadrant等主要语义网平台厂商的支持。谷歌、雅虎和微软必应等主要网络搜索引擎已经开始使用语义元数据区分搜索结果,并开始支持RDF等W3C标准。如今甲骨文、企业软件厂商和IBM也加入到语义网的研发中,并分别推出了甲骨文Database11g语义技术、SAS本体管理工具和IBM InfoSphere BigInsights工具。W3C标准的推出目的是解决不同机构在组织、描述、呈现信息中的不一致性,为跨域语义查询和联合搜索铺平道路。本体管理工具制造商Revelytix的首席执行官Michael Lang为我们描述了使用W3C标准的好处。他称,如果200家网上家用电子产品销售商使用诸如RDF的语义网标准描述他们产品库,Revelytix的软件则可以让这些信息通过SPARQL查询方式被访问。网络商家可以使用兼容W3C标准的浏览器工具在不同网站搜索产品,如通过输入“根据价格排列并显示所有42-52英寸平板电视”进行查询。搜索引擎和一些第三方网络购物网站可提供产品对比,不过这些对比仅限于所搜索到的结果的属性。购物者经常发现由第三方所提供数据已经过时,甚至不正确,如无法准确提供有效的尺寸和颜色信息。基于标准的跨网站查询可为购物者提供由商家自己提供的更为丰富的对比信息和更新的介绍信息。W3C SPARQL工作组联合组长Lee Feigenbaum称,W3C SPARQL工作组目前正在研发SPARQL服务描述,旨在标准化SPARQL“终端”或信息源提供数据的方式,特别是详细规定了如何描述
数据的类型和数量。模块和软件工具工具、平台、预置组件和服务均可有效缩短部署时间,降低技术复杂性,减少成本。Jena为开发语义网应用的开源Java架构,其包括有RDF、RDFS和OWL的API,一个SPARQL查询引擎和一个推理引擎。Sesame为存储、推理和查询RDF数据的开源架构。主流语义网平台都带有用于描述常用术语、概念、缩略语的“知识库”,让用户在使用时创建本体知识库。Lexalytics产品管理副总裁Seth Redmore称:“客户的需求往往相互矛盾:让平台能够反馈精确信息,对这些信息进行整编让其更适合自己的业务。”为了解决这一矛盾,Lexalytics选择将他们的语义平台主要销售给服务提供商,由服务提供商再对特定商业领域和应用进行微调。汤森路透的机器可读新闻服务就是一个很好的例子。部分平台厂商推出了专门针对商业的解决方案。比如,Endeca推出了用于电子商务和企业语义应用的应用开发工具包。此外,还有一些可以自动将语义元数据和W3C标准整合到现有信息库中的工具。据Lang称,Revelytix的Spyder工具可自动将结构化和非结构化数据转换成RDF。作为能够被兼容SPARQL 的浏览器访问的SPARQL终端,其可在网页上显示这些信息。名为D2RQ的开源工具可以将所选择的数据库映射到RDF和OWL本体知识库中,让兼容SPARQL的应用访问这些数据,Revelytix还推出了名为的兼容W3C的知识库模块。该模块为基于维基的架构,主要是帮助技术专家和商业用户共同开发一个语义词汇表,描述和引导不同网站中的特殊信息。Lang称,相关社区可以通过