一种基于语义匹配的Web信息提取方法研究
基于语义的Web服务发现研究的开题报告
基于语义的Web服务发现研究的开题报告一、研究背景及意义近年来,随着互联网的普及和应用场景的不断扩展,Web服务已得到广泛应用,其带来的方便和效率极大地推动了现代化的进程。
然而,随着Web服务规模的不断增大和多样化,已经形成的Web服务描述语言及其相应的Web服务发现方法面临着诸多问题。
传统的方式仅仅基于服务的语法属性来实现Web服务发现,很难满足人们在查询服务时的个性化需求。
如何引入语义信息来辅助服务描述、匹配及发现成为当前Web 服务研究领域内的热点。
本研究基于语义的Web服务发现方法,通过分析服务的描述信息,提取其中的义元,并利用义元构建服务语义模型,再利用这个语义模型来解决服务发现中的问题。
这种方法具有良好的适应性和定制化,能够满足用户对于服务的不同查询需求,缩小用户和Web服务之间的距离,为用户提供更好的WebService服务体验。
二、研究内容及方法本研究的主要内容包括以下几个方面:1. 建立基于语义的Web服务描述模型。
研究服务语义描述方法,建立<Service,Operation,Parameter>三元组用以描述服务,利用关联规则挖掘算法来发现服务之间的潜在语义关系,最终建立服务的语义模型。
2. 探究基于语义的Web服务匹配算法。
对每个Web服务描述模型使用词向量模型对其进行数字编码,依据两个列表的相似度定义,改进Jaccard 相似度算法,并将其适用于基于语义的 Web 服务发现匹配场景中。
3. 实现基于语义的Web服务查询系统。
开发Web服务查询系统并在其上面实现所提出的方法,比对语义 Web 服务发现方法和大量传统的语法 Web 服务发现方法。
实验方法包括:在实验室内搜集学术界和工业界现有Web服务描述和标注,将其构造成数据集并随机选择部分进行训练;将基于语法和基于语义两种方法的查询时间、匹配时间、查询准确性等指标进行对比。
三、预期成果及应用前景本研究通过使用方法一:基于语义的Web服务描述模型,对Web 服务属性中的细节进行挖掘,建立具有语义的Web服务描述模型;再使用方法二:基于语义的Web服务匹配算法,通过非常简单的Jaccard算法来计算Web服务之间的相似性,从而支持基于语义的Web服务发现;最后整合两种方法,研制基于语义的 Web 服务查询系统,实验显示其比传统的Web服务发现方法准确率更高,能够针对不同的用户个性化需求进行服务发现,达到更好的用户体验。
基于语义的Web服务匹配算法设计与实现
I t -
二 元 关 系
… … … … .-- - “ -
-
中两个 We b服 务 的相 对 匹 配程 度 。本 文 引入 语 义 距 系 类 型进 行 加 权 , 定 义关 系 权 重 : 等 价 关 系 的 权 重 为 离 的概念 , 更细 致地 刻 画服 务和请 求之 间的匹配 度 。 忽 略 了类 间 的二元 关 系 。 本 体概 念 间不仅 有类 间 和“ 轮子 ” 概 念 之 间可 以存 在 一个 谓 词“ 有轮子” 联 系
义 距离 小 。解决 这个 问题方 法 是根据 各种 对不 同的关
等 价 关 系
●卜 ——— —— ———
现 有 的 We b服 务规 范 U D D I 由于缺 乏语 义 信 息 ,
只 是基 于分 类规 范 和关 键 字查 询 来 实现 服 务 的发现 , 导致服 务 的查全 率和 查准 率 明显不 足 。目前研 究 者们 将 语义 技术 引入 We b服 务领域 , 为服务 的发 现提 供语 义层 次上 的支持 。但 仍然 存在 以下 问题 : 匹配 等级划 分粗 糙 。用离 散 的值来 区 分不 同匹配
2语 义距 离
语义 距 离 : 语 义 距 离是 指 同一 本 体 中 的两个 不 同 义距 离 为 0时 , 相似 度 为 1 。 2 ) 函数 的值 随着语 义距 离 概 念 间 基 于 相互 关 系 ( 继 承 关 系 或 二 元 关 系) 链 中最 的增大 而减 小 , 呈 递减 变化 。3 ) 此 函数 的返 回值 必 须 短 的关 系链 长度 的度 量 。
务 和请 求之 间的 匹配程度 , 从 而方便 用 户选择 需要 的服 务 。本 文设计 了一 种基 于服 务 功能性 描 述 为主
基于语义的Web服务匹配算法的研究
Ke r y wo ds:s ma t e ni c;W e e ie;OW L— b s n- c S;s r ie mac i g e vc th n
We 务作为一 种 新 的 We b服 b应用 模式 , 以动 可 态按需协 同 工作 , 完成 任 务 , 提供 信 息 , 足 了 用 户 满 按需交换 动态 信息 的需 求 U D 是 当前 最 主 要 。. D I 的服务 注册 机 制 , 由于 采用 WS L描 述 服务 和 使 但 D
用X ML描述 数据 结 构 , 乏 针对 应 用 的语 义描 述 , 缺
步提供语义 级的 互操作 』作 为集成 了语义 We . b技 术 和 We 服 务技 术 而产 生 的语 义 We 务使 人们 b b服 有 望构造新 的 We b服务发 现机制 . 为此 , 本文 提出了
G O We -n ,L nj , E G La -n U nj g I i We -e D N inj i i
( col f o p t cec n eh o g , i j nvri f ehooy Taj 0 11 C ia Sho o Cm u r i eadT cnl eS n o Ta i U i syo cnl , i i 3 09 , hn) y nn e t T g nn
基 于语 义 的 We b服务 匹配算 法 的研 究
郭 文 静 ,李 文 杰 ,邓 连 瑾
( 天津理工大学 计算机科学与技术学院 , 天津 30 9 ) 0 11
摘 要 : 务 匹配是 We 服 务 发 现 中一 个很 重要 的 部 分 , 一 个动 态的 环境 中尤其 更 需要 有效 的 匹 配算 法. 对 目 服 b 在 针
一种基于语义的服务搜索与匹配方法
一种基于语义的服务搜索与匹配方法随着云计算和服务化的发展,越来越多的软件需要从服务市场中获取各种服务,开发人员也需要在服务市场中寻找合适的服务进行开发。
然而,服务市场中的服务数量往往过多,而且服务质量也参差不齐,为开发人员带来了很大的困难。
因此,如何快速准确地找到所需的服务就成为了一个重要的问题。
目前,主流的服务搜索方法基本上是基于关键字匹配的。
这种方法通过根据用户提供的关键字进行服务搜索,然后返回搜索结果。
然而,这种方法存在很多问题。
首先,由于服务提供者和服务消费者使用的关键字不一定相同,因此可能会出现搜索结果不准确的情况。
其次,关键字匹配不考虑服务之间的语义关系,因此无法在深层次上匹配服务,从而限制了服务发现的准确性。
为了解决这些问题,一种基于语义的服务搜索与匹配方法逐渐受到研究者的关注。
基于语义的服务搜索与匹配方法可以通过语义分析技术来发现与用户需求相关的服务,从而提高搜索的准确性。
该方法通常包括两个步骤:语义建模和语义匹配。
在语义建模方面,该方法通常将服务描述信息转换成一种公共的语义模型。
在这个模型中,每个服务都被表示为一组语义属性,这些属性代表了服务的特征和其与其他服务的关系。
在语义匹配方面,该方法在语义模型上执行匹配算法,以确定哪些服务最符合用户需求。
该方法的优势在于能够找到具有相似语义的服务,而不仅仅是满足关键字匹配的服务。
例如,如果用户需要一个电子邮件服务,根据关键字匹配,搜索结果可能包括与邮件相关的各种服务,例如邮件存储服务、邮件发送服务或邮件过滤服务等。
但是,基于语义的方法能够确定用户需要的电子邮件服务,例如Web邮件服务或IMAP邮件服务。
据研究者称,这种基于语义的服务搜索与匹配方法可以显著提高服务发现的准确性和效率,但是这种方法仍然需要解决一些问题。
首先,需要建立一个公共的语义模型,这需要花费大量的时间和资源。
其次,语义匹配算法需要高效和准确的实现,以快速对大量的服务进行匹配。
语义Web服务匹配算法的研究
也加入了语义本体对服务进行发布和查询匹配。
基金项 目: 四川省教育厅 自然科学青 年基金 (0 4 o 2 。 2oB 1 ) 作者简介 : 崔晓红 (9 1)女 , 18 一 , 硕士研究生 , 主要从事语义 we 服务研究 。 b
应 用 发展具 有十 分重 要 的意义 。
卡内基 ・ 梅隆大学 的 o _ 肋 I t ma. wLS c k Ma h e 是有名 的语义 We 服务匹配算法 , r b 它在配有 WS .
D 和 D L DI基 础 上 扩 展 了 一 个 OWL S - 脚 I
Ma h kr其 中 Ma h ae t mae, c t m kr由信息 交 换 模块 、 c
本 体对 切 ] I D 注册 中心 进 行 语 义 划分 , 并在 此 基 础
上实现 了半 自动语义 we 服务的搜索机制。 b
清 华 大 学提 出 的 W e b服务 模 型 采 用 了 完全 分 布式 的发 现架 构 _ , 有 采 用 通 用 的 UD 规 范 , 7 没 j DI 也没 有 保 留 获 得 业 界 广 泛 支 持 的 服 务 描 述 标 准 WS 。同时在 构建 P P网络 时 , DL 2 以每 个 P e er的相 似 度为 依据进 行 组 的创 建 , 样 可 能 造成 客户 在 发 这 布服 务 时定 位 的 P e 组 不 够 精 确 , 必 要 对 每 个 er 有
中心, 而且只是依靠关键字而不是信息内容进行服务的查询, 这样容易造成单点错误和形成回络瓶颈。作者提出
一
种分布式 UD 注册库 网络模型 , 在此 基础 上提 出一 种基 于语义 的两层服 务匹配算 法 。性 能分 析表 明 , DI 并 匹配
基于语义Web的信息检索技术研究
而语 义 we b 及 其 相 关 理 论 技 术 的 出 现 为 解 决 这 一
问题 提供 了可 能 。
笔者 以信 息检 索为应 用 背景 , 引入 We b语 义 与 Ag e n t技 术 。 通 过 语 义 W e b 丰 富 的 描 述 能 力 和 强 大 的逻 辑 推理 能 力 来 准 确 的描 述 信 息 资 源 , 以 A— g e n t组 织 完 成 用 户 交 互 、 信 息检 索 、 信息过滤、 结 果 返回, 构建 了一 种 基 于 语 义 We b的 信 息 检 索 的 模 型, 从 而 满 足 用 户 对 信 息 检 索 的需 求 。
海 量数 据 中 获 取 用 户 所 需 信 息 , 已成 为 关 键 问题 。
来 描述文 档 结 构 , 但 XM I 不 能 对 文 档 结 构 进 行 语 义 描述 , 计算 机 仍 不 能理 解 信 息 , 所 以 语 义 we b采
用 RDF 来 描 述 结 构 的 语 义 。 RDF 定 义 了 元 素 问 的 关 系 并 采 用 三 元 组 集 来 表 示 。 XM I 加 上 RDF 可 进
行 简单 推理 , 但要 计算 机相 互理解 , 还 需 要 一 套 标 准 概 念体 系 , 即 本 体 。 XM L- t - RDF4 - 本 体 构 成 计 算 机
相 互 理 解 的 基 础 。语 w e b的 体 系 结 构 如 图 1 。
2 A gent
产 生 这 些 问 题 的 实 质 是 由 于 传 统 检 索 技 术 只 停 留 在
基 于语义 W e b的 信 息检 索 技 术 研 究
薛 玉倩 , 刘丽华 , 李 丽平 , 石 彦 芳
( 河 北 软件 职业 技 术 学 院 软 件 工 程 系 , 河北 保定 0 7 1 0 0 2 ) 摘 要 : 以信 息检 索为 应 用背景 , 引入 W e b语 义 与 Ag e n t 技 术 ; 通过 语 义 We b丰 富 的 描 述 能 力 和 强 大的逻 辑推 理 能力 来准确 地描 述信 息 资源 , 以 Ag e n t完 成 用 户 交 互 、 信 息检 索 、 信 息过 滤 、 结果返 回 , 构建 了一种基 于语 义 we b的 信 息 检 索模 型 , 从 而满足 用 户对信 息检 索的 需求 。 关键 词 : 语 义 We b; Ag e n t ; 本 体 中 图分类 号 : G3 5 4 . 2 文献标 识码 : A 文章 编 号 : 1 0 0 7 … 6 9 2 1 ( 2 0 1 4 ) O 6 ( ) 0 9 7 0 1
基于语义分析的关键词提取算法研究
基于语义分析的关键词提取算法研究一、前言在网络时代,信息爆炸导致人们越来越难以从浩瀚的信息中快速筛选到自己需要的内容。
在这样的背景下,关键词提取算法就显得尤为必要。
关键词提取是一种将文本转化为结构化信息的技术,通过自动提取文本中重要、具有代表性的词汇,快速准确地理解文本主题,给信息检索、数据挖掘等领域带来了极大的便利。
本文旨在介绍实现关键词提取的一种常用算法——基于语义分析的关键词提取算法。
文章主要分为以下四个部分:第一部分介绍问题所在,第二部分简述算法原理,第三部分详细阐述算法步骤及其缺点,第四部分总结并展望未来。
二、算法原理基于语义分析的关键词提取算法是一种基于自然语言处理技术的算法,其核心原理是通过对文本进行语义分析,找出文本中频繁出现的、反映文本主题的词汇。
与传统的基于频率统计的算法不同,基于语义分析的关键词提取算法能够挖掘文本中的隐含信息,提取出更加准确的关键词。
算法的主要流程如下:(1)分词在进行关键词提取前,首先需要对文本进行分词。
分词是将文本中的一段内容分成若干个基本词汇,即分段、分句、分词。
分词的目的是将自然语言转化为计算机可以理解的形式,为之后的处理做好准备。
(2)去除停用词在分词后,文本中会包含着构建句子、表达意思所需要的词汇和虚词。
虚词是语法上不必要的词汇,如“的”、“是”等。
这些虚词对于提取关键词没有实质性的帮助,因此需要将其去除掉,以加快后续的处理速度。
(3)构建语料库在进行关键词提取前,需要通过大量文本的训练构建出语料库。
一般情况下,常用的语料库包括新闻、广告和博客等文本数据。
构建语料库的目的是为了提高算法对文本主题的理解能力,从而提取出更加符合文本主题的关键词。
(4)根据文本主题计算词语权重在构建出语料库后,对于一篇新的文本,算法会根据其所属主题,计算文本中出现的每个词汇在当前文本中的权重。
取这些权重值最高的一些词汇作为关键词。
三、算法步骤及其缺点基于语义分析的关键词提取算法的实现步骤如下:(1)输入待处理文本(2)对文本中的词汇进行分词(3)去除分词结果中的停用词(4)构建语料库(5)对文本中的每个词汇计算权重(6)取出权重值最高的一些词汇作为关键词但是,基于语义分析的关键词提取算法也存在缺点。
一种基于语义匹配的Web信息提取方法研究
相 似 度 . 而提 出 了一种 基 于语 义 的信 息 匹配 方 法 来识 别 和提 取 网 页 信 息 项 。基 于这 种 We 进 b信 息提 取 方 法 的 网上 药品
信 息 监 管 系统 We — N 能 够提 取 出网上 药品 广 告 的 信 息 项 , b MI D 并具 有 较 高的 准 确 率 。
E mal z d a n 6 .O - i :my r g @1 3 C r u n
摘
要 为 了较 好 地 解 决 信 息 过 量 难 以消 化 、 汉语 词 的歧 义 划 分 、 b信 息形 式 不 一致 并且 难 以辨 识 的 问题 , 章提 出 We 文
了一 种基 于语 义 匹配 的 We b信 息提 取 方 法 。该 方 法 融 合 了 网 页分 类 、 语 分 词 、 义信 息 匹 配 方 法 , 给 出 了一 种 义 素 汉 语 并
n n p t f wad a n v l e n i mac i g me d o n r t n, h c s s o r o n z n xr t t n a d te u r r o e s ma t th n t o f i o a o w ih i u d t c g ie a d e t c e i - h s o c h f m i e e a h
一种基于语义的Web服务组合算法研究
服 务 中 的所 有 输 入 参 数 用 户 都 可 满 足 .这 样 的 中 间 服 务都 称 为源 服 务
对 于一个服务请求 S,它的输 入集 合记为 Ii i 。 o ,, (
we b服 务 组 合 算 法 的 思 想 . 出服 务 组 合 框 架 和 算 法 的 工作 流程 。 它的 核 心 是 通 过 语 义 I 给 /
o 和 P E的 匹配 来 实现 自动 化 W e / b服 务 组 合 .本质 是通 过 交 互 不 断地 寻 找 合 适 的 前 继 服 务 , 满足 用 户的 服 务 请 求 。 以 关 键 词 :语 义 ;服 务 :W e b服 务 组 合 算 法
首 先 . 择 一个 满 足请 求 输 参 数 的 服 务 . 是 该 选 但
服 务 的输 人 参 数 用 户 无 法 满 足 或无 法 完 全满 足 ,把 该
若 由输 入 集 合 I 。 过 s.+n一 … s 得 到 的 ,经 n- s, - - i后 1 输 出集 合 包 含 O ,则 s.+n一 …s 所 求 的服 务 组 n- . -s n为 合。 其 实 这 也 可 以把 服 务 的组 合 结 果 看 成 是 一 张 网 .
\
研 究 与 开发
、 、 、 、 、 、
_____________________________________.______u_____. - J _ _JJ_____ - u . _-‘- ‘ ‘‘ J f .f .^ 1,__r_1_^__^_,______________________________________J___u______.__一 — —
基于语义的web服务匹配算法研究与实现
相关 , 文件 中关于 w b e 服务的描述信息越详尽 , 在服务匹配时精确度越高 , 因此 , 要提高服务匹配 的精度 , 实现 快速 和有 效 匹 配 , 一种 方 法是 在 该 文件 中添加 更 多 的关 于该 w b服务 的功 能 和非 功 能语 义信 息 . 后基 于 语 e 然 义实 现服 务 匹配 . 由于 篇 幅的 限制 , 何 添加更 多 的语 义信 息在 本文 中不 给 出具 体介 绍 . 如 U D 的 中文 意思 是统 一描 述 、 现集 成 , D I U i r l ec pi i oe t rt DI 发 U D 是 n es sr tnDs vr I e a d的缩 写 ,U D 的 v aD i o c yn g e DI 功能 是实 现对 w b 务 的注册 , e服 因此也 可 以将 U D 看作 一个 用于查 找 和 注册 W DI EB服务 的注册 器 , 通过 U D DI 可以为服 务提 供者 提供 发 布服务 的方 式 , 同时 U D 也 负 责管 理 由服 务提 供 者 已经 发 布 的 We DI b服务 . D I U D 是
是 wb e 服务实现服务调用的基础 , 当网络上的 wb e 服务要调用其他服务时 ,O P提供相应 的通信机制 .O SA SA P 将 wb消息 体 封装使 wb服务 之 间的调用 与具 体平 台和 操作 系统无 关 . e e
WS L是 We ev eD sr t nL nug 的缩 写 , D D bSr c ec pi agae i i o WS S是一 种 w b服务 描述 语 言 , e 它通 过 X L文件 格 式 M
收稿 日期 :0 2 1 5 2 1 —1 —0 ;修 回 日期 : 02— 1 2 2 1 0 —1
基于语义的Web服务匹配研究
e epe odt nadps cn io hc h ri smut eme s d e th re a ndticnsedu em th 8t r—cnio ot o dtnw ihte evc s b t j g c i cir ,a s a pe pt c i h i n i s e a a u ma n g t i h h a g n
o evie n mp v h t i c ua y n rv h fetv n s ftemeh nt ep at a p l ain fsr c sa d i r etema& n ac rc ,a d po eteefcie eso h t o i h rci l pi t . o g d c a c o
0 引 言
we 服 务… b 1是具 有 自包容 、 自描 述 性 的 应 用 模 块, 它可 以通 过 we 来 发布 、 b 查询 和调用 。用 户 可 以 将在 网上发布 的 We b服务集 成到 自己的应 用程 序来
相关的服务 有多个 , 如何从 如此 多的信息 中过 滤 出相 关信息 就是服务匹配急需解决 的问题 。现有的行业标
灵活性 , 使得在服务 匹配时只能采 用简单 的关键字搜 索方法 , 显然不能满 足服务 发现 的需 要。文 中提 出一 种基于 O WL—s的服务描述和 服务匹配方法 , 能够较 好地解决服务 发现 中的服务 匹配问题。
1 语 义 化 We 务 b服
We 服务作为 We 技术 的最新发展成果 , 的出 b b 它 现及推广将 变革 现有 的 We 应 用模式 。但 是要 想使 b
S u y o a c n f W e e v c s Ba e n S m a is t d n M t hi g o b S r i e s d o e ntc
基于语义Web技术的智能信息检索研究的开题报告
基于语义Web技术的智能信息检索研究的开题报告一、研究背景和意义随着互联网的快速发展,越来越多的信息被发布到网络上,如何高效地检索到自己想要的信息成为了互联网用户面临的一个普遍问题。
传统的文本检索技术主要基于关键词匹配,效果难以满足用户的需求。
近年来,语义Web技术的发展给信息检索带来了新的思路和方法。
语义Web技术是一种用于描述、共享和结构化信息的技术,其核心是RDF(资源描述框架)和SPARQL(RDF查询语言)。
语义Web技术的应用可以将数据从简单的文本转换为更加结构化的表达形式,提供更加灵活和精确的查询方法。
将语义Web技术应用于信息检索中,可以实现更加智能化的检索过程,满足用户的多样化需求。
本研究旨在探究基于语义Web技术的智能信息检索方法,通过对语义Web技术的研究和应用,提高信息检索的效率和准确性,提升用户体验。
二、研究内容和方法本研究主要包括以下内容:1. 语义Web技术的基础知识:学习RDF、OWL、SPARQL等关键技术,了解语义Web技术在信息检索中的应用。
2. 语义建模和标注技术:探究将现有文本信息转换为符合语义Web 技术的模型和标注方法,研究如何将模型和标注应用于信息检索中。
3. 智能查询和推荐技术:研究基于语义Web技术的智能查询和推荐方法,包括基于关系的查询、语义匹配查询等方法,探究如何利用推理机制和本体知识表达信息之间的语义关系,提供更加智能化、精确的查询服务。
4. 实验验证和性能评估:基于实际数据集,验证所提出方法的性能和效果,通过评估指标比较不同方法的优劣。
本研究将采用文献综述、实验研究等方法,探究基于语义Web技术的智能信息检索方法和应用。
三、预期结果和创新点本研究的预期结果是设计并实现一种基于语义Web技术的智能信息检索系统,该系统可以提供更加准确、灵活、智能化的查询服务,满足用户的多样化需求。
同时,本研究还将对语义Web技术在信息检索领域的应用进行深入探究,提出相应的解决方案和方法,为进一步推广语义Web技术在信息检索领域的应用提供参考。
基于功能语义的Web服务匹配算法研究
算符( 算术运 算符或 比较运算符) 和字面量组成 。由于操 作可 能具有零个 以上 的多个 约束,所 以这里将约束 定义为 由逻辑 操 作符 a d连 接 起 来 的 多个 原子 谓 词 所 组 成 的复 杂 表 达 式 。 n 如 (O <o e < 0 ) (t r 3 是操作预定酒店的约束 ,它包 10 m n y 2 0 s a = )
含 两方 面含 义 :1 定 义 酒 店 的价 格 在 10 2 0之 间 ;2 定 义 . 0 ̄ 0 . 酒店为 3 级。 星 按 照 上 述 定 义 , 实现 五 星 级 酒 店 预 定 功 能 的操 作 可 以用 三 元 组 (o e ,b o ,s a = )来 描 述 。根据 上述 分析 ,采 h t l o k tr 5 用 定 义 1所 示 的三 元 组 可 以描 述 W b服 务 的功 能 。但 这 种 描 e 述 方式 不够全面 ,这 是由于 W b服务包含着多个操作 ,具有 e 相 似 功 能 语 义 描 述 的 W b 服 务可 能 提 供 了 不 同 的操 作 。W b e e 服 务 的 功 能 语 义 描 述 应 该 在 描 述 服 务 自身 功 能 的 同时 ,表 现 出 服 务 由多 个 操 作 组 成 的特 性 。
最大效能,更好地满足用户需求 。现有 的可实现的服务发现 方法 主 要 是 语 法 级 的 服 务 发 现 , 要 采 用 W D 标 准 描 述 服 务 , 主 SL 通过 关 键 字 匹 配 进 行 服 务 搜 索 , 如 U D D I和 e Xl r g sr bb eity L 就都提供 了基于预定义分类 的服务 发现机制 。这种发现机制 着重定义服务的接 口和实现细节 ,而 忽略了对服务功能与行 为 的 语 义 描 述 。所 以其 实 现 简 单 ,但 查全 率 和 查 准 率 较 低 , 且不 能有 效 地 支 持 用 户 基 于 功 能 语 义进 行服 务发 现 。 针 对 以上 的 问 题 , 本 文 提 出 了一 种 简 单 灵 活 的 基 于 功 能 语 义 的 W b服 务 匹配 算 法 。 本文 在 研 究 W b服 务 功 能描 述 模 e e 型 基 础 上 ,提 出 了对 功 能语 义描 述 三 元 组 中 客 体 、操 作 和约 束条件的匹配算法 ,并通过 实验对 该匹配算法 的有效性进行 了验 证 。
语义Web本体匹配算法研究
1 概
述
配 和 元 素 级 匹 配。典 型 的 算 法 有 : L E , — G U J S
方法 , 方法为每 个概 念结点增加虚拟 实例 , 该 并综合 考虑 了本体 的结构特 点, 用 Wod e 调整相似 度。我们把 该方 法 使 rN t
运 用到 P O P 本 体 匹配算法 中, 实验得 到 了 好的准确率和查全率。 R MT 通过 较 关键 词 : 匹配 ; 本体 语义 We ; b 虚拟 实例 ; 相似度计算
20 年第 l 期 08 l
文章编号 :0 62 7 ( 0 8 1-0 50 1 0 -45 2 0 ) 10 1 -3
计 算 机 与 现 代 化 JS A J I N A H A IU N IYU X A D I U
总第 19期 5
语 义 We 体 匹配算 法 研 究 b本
中图分类号 : 9 1 文献标识码 : A
Re e r h o e a t e t lg a c i g Alo i m s a c n S m n i W b On oo y M t hn g rt c h
P n — iXU Tn —o g J 汀荣 , 徐 靳 涛
( 苏州大学计 算机科 学与技 术学院, 江苏 苏州 250 ) 106
摘要: 随着语 义 We b不断发展 , 本体数量不 断增加。 由于不 同领域专 家构 建的本体存在 不 匹配的 问题 , 需要 对本体进 行
匹配、 并和 比较 。本 体 匹配作为其他工作的基础 , 合 具有十 分重要 的意义。本 文提 出了一种基 于实例的本体 相似度计 算
基于语义相似度的Web服务匹配研究
t sa n o c p s i mo g c n e t .On t i a i ,a W e e ie mac i g ag r m a e n s ma t i l r y i p o o e .T i g r h r f csW e e hs b ss b s r c t h n l o t b s d o e n i smi i s r p s d v i h c at h sa o t m e e t l i l b s r i e mac ig d g e sb a c lt g t e s ma t i lrt mo g c n e t .A a t h rp s d ag r h i p o e o b e i l a d e v c th n e e y c u a i h e n i s r l n c mi i a n o c p s tls ,t ep o o e o t m s r v d t e f a b e n a y l i s e e t e b o a a ie e p r n . f c i y a c mp r t x e i v v me t Ke wo d y rs W e e ie ma c i g On oo y P u a im ea in S ma t it c S ma t i lrt b s r c t hn v tl g lr s r lt s l o e n i ds c n a e e n i smi i c a y
配 的领域本体概念 间的子 类关 系 , 略 了概 念间存在 的其 它多 忽
0 引 言
近年来 , 随着 We 服务相关标准 的持续完善 和支持 We 服 b b
务 开发 的软件 平 台的不 断成熟 , t nt 的 We Ie e上 nr b服务 数量 正
基于语义的web服务发现方法的研究
服务技术没有利用语义信息, 对服务描述缺少灵活 性, 使得在服务匹配时只能采用简单的关键字搜索 方法 , 显然不 能满足 服务发 现 的需 要 。 O WL— S是 目前发 展 最成 熟 的对 We b服务 语 义描述方法。用 O — 创建 w b WL S e 服务语义本体
开发 工具 , 我们 只有立 足在现 有基础 上 引入 语 因此 义改造 传统 的 w b服务 应 用 。我们 提 出 了一 种 基 e 于语义 的 We 务发现模 型 , b服 它是建 立在 U D 和 D I 语 义 We 上 的 , 过 在 它 们 之 间加 入 代 理 ( . b之 通 A gn) 实 现基于语 义 的 We 服 务发 现 ,将 w b服 et来 b e 务本体 映射 到 U D 中 的 t dl D I Moe 以扩展 w b服 务 e
is, c ) 是用 O 语言描述 的 We e i 的本体。 e WL bSr c ve
它 也是一 种具有 显 式 语 义 的无 歧 义 的机 器 可理 解 的标记语 言 , 用来描 述 We e ie的属 性和 功能 。 bSr c v O WL—S的早 期 版 本 是 D ML—S D R A A et A ( A P gn
代 理输入 We 务 的 b服 描述 信息 , 如 : — 例 WS D L文 档 的位 置 , 入 输
务发 现的效 率 和 精 确 度 ; 可 以利 用 工 业 上 的标 又 准、 通讯 协 议 、 有 的工 具 和 We 务 , 现 b服 以实 现 基 于机器 的 w b服 务 自动 发现 。 e
检索。
维普资讯
基于语义的web服务匹配算法研究与实现
收稿日期:2012-11-05;修回日期:2012-01-12基金项目:湖南省教育厅科研项目(10C1237)作者简介:李发英(1972-),女,湖南郴州人,讲师,硕士,研究方向:分布式计算.基于语义的web 服务匹配算法研究与实现李发英,陆武魁(湘南学院计算机科学系,湖南郴州 423000)摘 要:随着Internet 信息的迅速增长,快速而有效地查找网络信息成为获取网络信息的基础.为了实现高效查找web 服务,提出一种基于语义的三阶段匹配算法,首先对web 服务进行基于关键字的分类筛选,然后实现web 服务基于语义的功能匹配,最后实现web 服务的非功能匹配.实践证明,该算法能够提高web 服务匹配效率.关键词:web 服务;匹配算法;分类;功能web 服务匹配中图分类号:TP393.027 文献标识码:A DOI:10.3969P j.jssn.1672-8173.2012.02.0121 引言当今Internet 迅猛发展,个人和企业对Internet 上的资源需求也在大幅度增长,如何有效利用网络上的海量资源和信息成为一个关键问题.Web 服务是对Internet 环境下资源的统称,指具有自治性的软件实体,在实现上,web 服务由服务提供者提供并发布到网络上,网络上的服务注册中心统一管理各类web 服务,需要web 服务的对象包括团体或个人或是其他web 服务称为服务请求者,服务请求者通过注册中心寻找web 服务.要实现web 服务的发布与调用,涉及到三个基本对象和三种基本操作,其中的关键技术分别是SOAP,W SDL 和UD -DI,三个基本对象是服务提供者Provider,服务请求者Requester 以及服务注册中心Register.三种基本操作是发布(publishing),绑定(binding)和请求(request).SOAP 的中文意思是是简单对象访问协议,对应的四个英文单词分别是Simple Object Access Protoc ol,SOAP 是web 服务实现服务调用的基础,当网络上的web 服务要调用其他服务时,SOAP 提供相应的通信机制.SOAP 将web 消息体封装使web 服务之间的调用与具体平台和操作系统无关.WSDL 是Web Service Description Language 的缩写,WSDS 是一种web 服务描述语言,它通过XML 文件格式来描述服务基本信息以及服务调用的相关信息,其中最基本的信息是某一个web 服务可以实现那些方面的功能,调用该web 服务的具体方法等,本质上,web 服务匹配的精确度跟WSDL 文件中描述信息的丰富程度紧密相关,文件中关于web 服务的描述信息越详尽,在服务匹配时精确度越高,因此,要提高服务匹配的精度,实现快速和有效匹配,一种方法是在该文件中添加更多的关于该web 服务的功能和非功能语义信息.然后基于语义实现服务匹配.由于篇幅的限制,如何添加更多的语义信息在本文中不给出具体介绍.UDDI 的中文意思是统一描述、发现集成,UDDI 是Universal Description Discovery Integrated 的缩写,UDDI 的功能是实现对web 服务的注册,因此也可以将UDDI 看作一个用于查找和注册WEB 服务的注册器,通过UDDI 可以为服务提供者提供发布服务的方式,同时UDDI 也负责管理由服务提供者已经发布的Web 服务.UDDI 是服务请求者和服务提供者之间联系的桥梁,UDDI 将服务提供者和服务请求者绑定在一起,从而便于服务请求者调用所需要的web 服务.Web 服务赖以实现的这三大核心技术以XML(eXtensible Markup Language)可扩展标记语言为基础,相互作用,共同完成web 服务的描述、发布、管理和调用,在整个SOA 体系架构中起到关键性的作用.2012年4月第33卷第2期 湘南学院学报Journal of Xiangnan University Apr.,2012Vol.33No.2Web 服务的实质是/共享资源、交互通信、协作研究0.通过分布在全球各地web 上的各种资源,在SOAP 协议下达到共享的目的.服务的内涵十分广泛,从计算服务、查询与检索、信息处理到自动完成服务服务查找和合成的语义web 服务时代.因此,要实现语义环境下的WEB 服务查询与处理,服务的自动合成,服务匹配算法至关重要,特别是算法本身的效率高低,直接影响到服务查找与合成的速度,决定了用户利用网络资源和访问网络资源的快速性和高效率.2 Web 服务的体系结构要实现SOA 体系结构中的WEB 服务匹配,首先了解体系结构中的基本组成部分,从体系结构实现的功能来看,Web 服务体系结构包含必须的三个对象以及三种基本操作.三个对象分别是:服务请求者Requester:在SOA 体系中,服务请求者可以是最终用户也可以是实现某个特定功能的应用程序.服务提供者Provider:能够提供服务的软件实体.服务注册中心Registry:保存服务并对服务进行管理的机构.三种基本操作是:发布(Publish):发布操作将服务提供者对象与注册中心联系起来.发现(Find):发现操作将服务提供者与服务请求者联系起来.绑定(Bind):绑定操作将注册中心与服务请求者联系起来,为实现服务发现提供了支撑作用.在SOA 体系结构中,三个对象和三种基本操作互相连接,密不可分,三个对象对三个基本操作有重要作用,由图1可知,服务提供者将WEB 服务发布到服务注册中心,服务请求者通过查找服务注册中心来查找并发现所需要的W EB 服务,服务提供者通过棒定操作与服务请求者联系在一起.图1 SOA 架构下的WEB 服务体系结构图如图1所示,SOA 体系结构中的三个对象分别实现以下功能,这三个对象与三个核心操作紧密结合,共同实现WEB 服务的发布、发现和绑定,以及在动态环境下为企业和个人实现动态服务选择和服务组合.(1)服务提供者(Service Provider):该对象在SOA 体系结构中是一个关键部分,它通过因特网向企业或个人提供应用服务.通过使用一种服务描述语言来描述和定义应用程序的功能,服务描述语言的描述能力直接关系到WEB 服务的查找和调用,当前比较流行的服务描述语言是W SDL,在SOA 结构中,任何一个服务提供者可以在网上发布一个或者多个应用服务,应用服务的基本信息通过UDDI 服务注册中心发布,这样其他应用程序或用户可以通过网络接收和调用满足需要的Web 服务.(2)服务请求者(Service Requester):服务请求者对象也称服务用户(Service User).服务请求者可以是最终用户,也可以是一个由其他任何一个服务提供者提供的WEB 服务.从服务调用和服务使用的角度看,服务请求者可以是任何一个发现并调用其他应用程序,或启动与服务交互的应用程序.(3)服务注册器(Service Registry):服务注册对象的主要作用是实现WEB 服务的注册.并发布服务基本信息的对象,主要负责将服务提供者对象和服务请求者对象联系起来.在SOA 体系结构中,实现WEB 服务的发现、查找和调用,必须发生的基本操作有:(1)发布服务(Publishing):在W EB 服务,服务提供者为了将自身提供的WEB 服务描述信息及时发布到网络上,可以通过发布服务的操作将服务基本信息,如何调用该服务的相关信息通过服务注册器对象进行发布.发布后,WEB 服务保存在服务注册器中,供服务提供者在需要的时候调用.(2)发现服务(Finding):在服务匹配系统中,服务请求者通过服务注册中心查找需要的WEB 服务,在服务注册中心查找并获取要调用WEB 服务的相关描述信息,为调用该WEB 服务奠定基础.通过发现操作,服务提供者和服务注册中心可以很方便地联系起来,最后将需要的W EB 服务通过服务注册中心查找并实现成功调用.李发英,陆武魁:基于语义的web 服务匹配算法研究与实现湘南学院学报(自然科学版)2011年4月(第33卷)第2期(3)绑定服务(Binding):服务提供者将自身所提供的WEB服务发布到服务注册器后,服务请求者可以直接使用服务描述信息中的服务绑定信息来定位、联系以及调用所需要的WEB服务,从而完成与某个特定的需要Web服务的交互.3基于语义实现三阶段WEB服务匹配算法当前对WEB服务研究中,WEB服务匹配算法的研究在学术界已经有多种不同的实现方法.大概有语法级和语义级服务匹配.语法级服务匹配基于UDDI技术和WSDL技术,并运用本体论思想,根据领域本体对已发布服务实现逻辑划分.语义层次上的服务匹配算法则通过在WSDL描述文件中添加了更多语义信息,或者通过人工标注的方法添加了丰富语义信息,最终可以实现服务的自动查找和自动合成.一种方法是通过使用OWL-S基于本体的服务描述语言,该本体描述服务可以有更强的信息表达能力,并且支持语义推理功能[3].另一种方法是将UDDI技术与OW L-S本体结合来实现语义服务匹配功能[4],但没有提及非功能匹配特性.我们给出的三级服务匹配算法很好地将语法级关键字匹配与语义层次上的服务匹配结合,同时也很好地实现了服务的功能特性和非功能特性,既全面又可以提高服务匹配效率.3.1基于关键字的服务筛选如前所叙,要高效利用Internet网上的资源,个人或企业以及其他软件实体能够有效地访问网络上的web 服务,需要使用一种有效的用于语义环境下高效发现和查找web服务的服务匹配算法,在面向语义的WEB服务环境下,我们提出一种三阶段服务匹配算法,该算法的第一步是实现语法级的基于关键字的服务匹配,第二阶段是基于语义的功能WEB服务匹配,第三阶段是基于语义的非功能WEB服务匹配.由于服务请求者需要的web服务是在整个全球性的Internet中查找,Internet是一个拥有海量信息的资源库,我们考虑到首先从大量的web服务中筛选出一部分,以便缩小web服务查找范围.在这个阶段,我们采用了基于关键字的服务筛选,即根据服务请求者的服务需求,直接根据服务请求web服务关键字来匹配网络中的web服务,将匹配web服务保存在一个缓冲池中,然后再从该缓冲池取出筛选出来的服务,这部分服务将作为第二阶段基于语义的功能性服务匹配和第三阶段基于语义的非功能性服务匹配的很多可选WEB服务.基于关键字的服务匹配如图2 .所示Array图2服务匹配系统的第一阶段关键字匹配在上述的图2中,第一步将服务请求者预期需要的web服务转化为与服务提供者相同的服务描述,本文中,假设给定的服务描述语言为OWL(Ontology Web Language),代理B1获取服务请求者的描述信息,代理B2负责将描述信息包含的主要关键字提取出来,然后将此关键字与服务提供者提供的服务进行匹配,将关键字能够匹配成功的服务作为下一阶段进行功能性匹配的侯选服务,如果匹配不成功,则舍弃该web服务,依次选择下一个web服务进行匹配.通过模块2匹配成功的服务将作为匹配结果保存在匹配结果存储器中.3.2三阶段服务匹配在执行了第一步给出的基于关键字服务匹配算法后,取出通过语法层次的服务匹配算法选出的语法上与服务请求者需求一致的WEB服务,而这样的服务在语义上是否满足服务需求者,需要作进一步的服务匹配.也就是对那些满足语法级服务匹配的WEB服务再一次执行语义级别的服务匹配.语义级别的服务匹配算法的实现对于智能化服务组合及动态服务组合至关重要.在整个服务匹配算法中,语义级服务匹配是核心,也是关键.为了能够更好地实现服务匹配高效精确的效果,我们将这一阶段的匹配细分为两个方面,一是根据服务能够最终为用户提供的实际功能,根据是否满足需求者的预期功能为目标的匹配,功能级服务匹配.二是根据服务是否满足除核心功能外的其他指标如服务费用,服务所需时间,服务所能达到的质量指标等,者类服务匹李发英,陆武魁:基于语义的web服务匹配算法研究与实现配我们称为服务的非功能匹配.3.2.1功能级服务匹配过程在整个服务匹配过程中,功能级WEB服务匹配的目标是针对服务提供者所提供的WEB服务,使得服务请求者能够找到满足自身需要的服务,最基本的需要就是所查找到的服务能够满足最基本的功能需求,这种功能就是在服务描述文件中所描述的服务能够实现的基本功能.另一方面,我们所提到的服务匹配是在语义级别上的服务匹配,因此,针对服务描述文件中大量的语义信息,我们要设法利用描述文件中的语义信息来实现功能级服务匹配.在海量的服务中查找和定位一个预期的WEB服务需要一个高效的服务匹配算法,从服务描述到算法的实现需要很多工作要做.再有,功能级服务匹配在服务的动态组合中是一个关键因素,因为服务匹配算法决定了能否在查找到动态组合中所需要的WEB服务,一个不合适的服务对于服务组合来说是不利的,使用这样的服务影响组合服务的功能,组合服务根本不能实现其功能,如果一个WEB服务不能在基本的功能上满足服务请求者的需求,那么这项服务不再参与第三阶段的非功能级服务匹配,实际上,判断功能级服务匹配是否匹配成功的最简单的方法是,给定一个特定的输入in,能否获得预期的输出out,如果有预期的输出则说明该WEB服务满足基本的功能.然而在语义环境下,需要结合本体中的概念来实现功能级语义匹配. 3.2.2功能级服务匹配的描述在基于语义的服务匹配系统中,需要引入本体这一概念,在SOA体系结构中,本体描述了特定领域中的概念及概念之间的关系,这种关系涉及到其中的类与子类关系,属性关系,包含关系和被包含关系,继承关系以及二元关系等.在本体中,这些概念及其关系表现为具有明显层次的树状结构,通过树状结构的概念集,本体至少在概念层次上表明了特定领域中任意两个概念之间有多少相似点,如果两个概念不同,可以通过本体表明这两个概念的差异程度.从软件设计的角度看,本体中的概念(concept)与面向对象程序设计中的类(class)相似,假设我们用in表示要执行服务的输入,用out表示进行执行服务后的输出.在基于本体的服务匹配系统中,由于本体给出了特定领域中相关的类及其关系,把输入、输出参数与本体中的类相关联,服务的输入信息可以表示成本体中的一个类,服务执行后的输出结果表示成本体中的另一个类,通过本体实现服务功能的语义描述,再通过描述逻辑将本体中的概念及其关系形式化,这样服务匹配的功能级匹配在服务调用和服务动态组合中可以由软件代理来实现,这种基于本体的服务匹配算法是实现自动服务组合和语义匹配的基础.在功能级语义服务匹配中,根据匹配结果与请求者预期服务之间的关系,综合有关文献大致有以下几类:A.匹配结果包含需求服务.即可以通过匹配算法找到满足服务需求者需要的服务.对以上的匹配结果进一步细分,又可以将匹配成功的结果划分为两种.(1)完全满足需要的匹配.指匹配算法所返回的WEB服务完全满足服务需求者的预期结果;换句话说,返回的W EB服务都能够满足服务请求者,实现请求者需要的预期功能.(2)不能完全满足需要的匹配.指在经过匹配算法得到的所有返回的W EB服务中,有少部分WEB服务不能满足服务需求者预期的功能,要么返回的服务包含太多的不能起任何作用的无用信息.这些无用信息对服务请求者来说既不能实现预期功能又不具备非功能特性如服务质量、可靠性和价格等的需求;二是不能返回需求者完全的预期的WEB服务,也就是需求者需要的服务不能完全通过这种不完全匹配得到满足,只能满足请求者的部分功能需求.B.匹配结果不包含需求服务:指服务匹配结果不满足服务需求者预期的服务请求,意味着通过功能级匹配后不可以为服务请求者找到预期的WEB服务.如果出现这种情况,也就是在第二阶段被过滤掉的WEB服务,不能参与第三阶段即非功能服务匹配.3.2.3功能级服务匹配算法在当前服务匹配算法研究中,对服务匹配算法的描述有多种方法,文献1通过本体实现功能级服务匹配算法,这种方法能够将概念及其关系详尽体现在树形结构上,并通过树的层次关系表明概念之间的包含与被包含关系,继承关系等,在基于推理的服务匹配算法中,基于本体的描述方法特别有效.但本体的创建是繁琐的,并且对于一个特定的领域,由于概念数目多,关系复杂,要构建符合本领域的通用本体比较困难,这不是一个人能够完成的工作,通常要涉及到领域专家的参与.文献2给出了面向对象的服务匹配描述方法,在面向对象中,通过类的构建及其与子类的继承关系来描述整个算法,但这种方法没有包括类与子类除继承关系外的其他关系,如二元关系,并且这种方法比较抽象,不是很只管.集合论是比较直观也是比较简单的描述方法,基于集合论的方法来描述服务匹配算法的基本思想是:给定两个集合,判断集合中概念之间的相似程度,由于功能级服务匹配是基于语义的,因此概念之间的相似程度是指概念的语义相似度.为了很好地描述基于集合论的服务匹配算法,可以给出以下定义:对于服务提供者提供的服务可能的输出用用集合X表示,服务请求者预期的输出服务用集合Y表示.从集合Y中取出任意一个元素y,使用深度规则,在集合X进行深度遍历,查找到与元素y的语义相似度最大的元素x(x指X中与y最匹配的元素),可以得到y的最大语义相似度,这个值是集合X与元素y的语义相似度.X与Y的相似匹配结果可以通过集合X与集合Y中的每个元素的语义相似度执行几何平均计算求得.用sim(x,y)表示集合X中的任何一个实例x与y之间的相似度,ma x表示X集合中的x与y的最大语义相似度,该算法用伪代码描述如下:For I=1to N P P取集合X中的某个元素For J=1to N P P取集合Y中的某个元素If sim(xi,yj)>max将X中的元素x与Y中的元素y的语义相似度跟max比较ma x=sim(xi,yj) elseoutput xi通过上述服务匹配算法可知,对于任何一个返回服务,如果该服务的语义相似度大于其他任何一个相似度,则返回给服务请求者的服务就是取服务相似度值最大的一个.因为服务相似度值越大,说明该服务越接近服务请求者的需求,服务匹配精度和准确度越高.3.2.4非功能级服务匹配算法的实现要在理论上判断服务匹配算法返回的WEB服务是否完全满足服务请求者的预期目标,在执行了概念级服务匹配和功能级服务匹配后,还有一个比较重要的因素,即服务的非功能因素,如执行服务或调用服务所需的时间、获取该服务所需的成本即服务费用、服务质量等.如何实现服务非功能匹配、如何衡量非功能匹配算法的有效性、高效性和完备性是值得关注的问题.一个通用的方法是,在服务的功能匹配模式中,通过添加外部高级约束条件的方式来实现服务的非功能匹配,也就是说,我们可以将服务费用、服务质量等非功能因素作为一些附加条件来判断服务匹配是否成功.这种综合了功能匹配和非功能匹配的服务匹配算法对于一个实际应用型的系统很重要,单独考虑服务的非功能因素远远不够,原因是服务的非功能因素总是在动态变化的,这些因素随着服务执行过程中的外部条件变化而发生很大的变化.由于综合匹配模式包括功能匹配和非功能匹配,在具体的服务匹配可以将服务非功能性匹配的实现作为服务关键匹配模式的一个组成部分,在这里,使用SHI Q描述逻辑,将服务的功能级匹配和非功能级匹配的交集作为关键匹配模式的主要组成部分,这样一来,整个关键匹配模式可以用下面的表达式来表示: KE YMT1=(服务类型类.task(服务约束类.(执行时间类.time(服务对象.object))))KE YMT2=(服务类型类.task(服务约束类.(服务价格类.time(服务对象.object))))KE YMT3=(服务类型类.task(服务约束类.(服务质量类.time(服务对象.object))))、KE YMT=KEYMT1H KEYMT2H KE YMT3其中,服务类型有:企业类服务,个人服务;服务约束类包括执行时间,服务费用和服务质量通过以上的关键匹配表达式,可以很好地综合功能匹配和非功能匹配,实现满足服务请求者的高精确度匹配,实践证明,这种匹配模式是可行的而且是高效率的.4算法性能分析本文提出的三阶段服务匹配算法与单独的基于关键字的匹配算法及功能级匹配算法相比,在以下两个方面有了极大的改进.一是提高了服务的查准率.查准率是指匹配的返回给服务请求者的WEB服务在多大程度上满足服务请湘南学院学报(自然科学版)2011年4月(第33卷)第2期李发英,陆武魁:基于语义的web服务匹配算法研究与实现求者需要的W EB服务.查准率是服务匹配返回的满足服务需求的WEB服务数量与返回的WEB服务总数量的比值.如果返回的服务完全满足请求者的需求,则查准率为100%.二是提高了服务的查全率.查全率是指所返回的WEB服务包含了需求者期望的W EB服务的数量.查全率是服务匹配返回并且满足服务需求的WEB服务数量与服务请求者预期需要的WEB服务数量的比值.为了更好地说明本文提出的服务匹配算法在算法性能和查找效率方面的优越性,通过实验数据进行说明.实验环境为:CPU1.5HZ,内存1G,操作系统WI NXP,推理机Jena,本体构建平台Protege3.2,数据库Mysql6.0.测试用W EB服务;生物信息领域的100个本体.通过读取部署在服务器上的服务描述信息进行实验,实验过程中对原有WEB服务不作任何修改.实验数据表明,该算法与单独使用本体推理和单独使用几何距离相似度计算两种算法相比,在一定程度上可以提高服务匹配系统的查全率和查准率.单独概念级的服务匹配算法在三种算法中查全率和查准率最低,三阶段服务匹配算法查全率最高,但该算法所需要的匹配时间相对长,因为要进行三次匹配,下一步研究的重点是讨论如何缩短三阶段服务匹配算法的匹配时间,以便使该算法具有更好的实用性和灵活性.5结束语基于关键字、功能和非功能服务匹配的三级服务匹配算法是一种语义web服务匹配.将此匹配系统应用于各种查询系统中可以提高服务查全率和查准率,既可以避免有用信息的遗漏,又可以防止大量无用信息呈现在用户面前,导致无用信息的泛滥.这是有效整合系统、实现服务自动组合的必要措施.后续研究的重点是研究相似度匹配精确算法,此外,结合一个典型实例说明服务匹配方法在查询系统中的实际应用.参考文献:[1]Paolucci M,Kawamura T,Payne TR,et al.Importing the Semantic Web in UDDI[C].Web Services,E-Business and Semantic WebWorkshop,2002.[2]高振国,杨孝宗.服务发现技术中的服务描述和服务匹配技术[J].计算机工程与设计,2005,4(12):3313-3316.[3]任波.基于功能的Web服务语义相似匹配[J].计算机工程,2006,6(2):206-208.[4]侯冕.基于语义Web本体语言的推理机引擎的实现[J].学术论文,2005,4(7):41-43.[5]尹晓璐.基于语义的Web服务查询[J].实验科学与技术,2005,5(1):31-34.Research and Realization of Web ServiceMatching Based on SemanticsLi Faying,Lu Wukuei(Department of Computer Science of Xiangnan University,Chenzhou423000,C hina)Abstract:With the development of the internet,it is of primary importance for us to find network information quickly and efficiently.So in this essay,a three stage web matching algorithm based on semantic is provided.Firstly,category and choice based on key words are performed,secondly,function web service matching is rea-l ized,lastly,non-function web service matching is realized.This algorithm has been proved to improve web ser-vice efficiency.Key w ords:web service;matching algorithm;category;function web service matching。
网页正文提取方法
网页正文提取方法
网页正文提取是指从网页中提取出主要内容部分的一种技术方法,常用于网页内容分析、文本挖掘和搜索引擎等领域。
以下介绍几种常用的网页正文提取方法:
1. 基于HTML结构分析:利用网页的HTML结构和标签信息,通过分析标签的层次结构和属性特征,提取出可能的正文区域。
常用的方法有基于文本标记的算法(如正文段落的密度、标签嵌套深度等),和基于行块分布函数的算法(如正文行的长度、行距等)。
2. 基于文本密度分析:通过计算网页上文本的密度,提取出文本密度较高的区域作为正文区域。
常用的方法有基于文本行分割的算法(如基于文字行的密度变化、连续空行的数量等),和基于文字块分割的算法(如基于文本块的字数、字符密度等)。
3. 基于机器学习的方法:通过训练一个机器学习模型,将正文区域分类为正文和非正文区域。
常用的方法有基于支持向量机(SVM)的分类算法、基于朴素贝叶斯分类(NB)的算法、和基于深度学习的算法(如卷积神经网络CNN)等。
4. 基于文本特征的方法:通过分析正文和非正文区域的文本特征差别,提取出正文区域。
常用的方法有基于关键词匹配的算法(如正文区域的关键词覆盖度、
连续关键词的数量等),和基于语义相似度的算法(如正文区域的语义相似度、文本主题相关度等)。
根据具体应用场景和需求可选择适合的方法进行网页正文提取,通常需要结合多种算法和技术手段进行综合分析和提取,提高提取的准确性和可靠性。
一种基于语义的Web服务匹配算法
图 2 转换 图
维普资讯
Mi oo ue p l ain i2 , o 1 ,0 6 c c mp trA pi t s . 2 N . 2 2 0 r c o Vo
2 2 基 于 语 义 描 述 的 匹 配 .
技 术交流
微 型 电脑应 用
出租车 一
上 客
(公交车 、
起 点
下 客 车 费
终点
车 票
图 1 替代 图
2 基 于语 义描 述的 匹配
基 于语 义 的 描述 是 一 种采 用 模 拟 本 体 语 对 术 语 及术 语 之
间关系描述的 , 计算机能识别 的语言 。用来描述 We b资源 , 如
DA L D r aA e t ak pL n u g r e v e ) 面 对 M ( a p g n r u a g a e o r i s 下 M f S c
一
技 术 交 流
微 型 电脑 应 用
20 第 2 0 6年 2卷 第 l 2期
种 基 于 语 义 的 We b服 务 匹 配算 法
梁 咏 , 张 志 浩
概
要 : 当前we 在 b服务发现过程 中, 采用基于数据类型和关键词 的搜 索匹配算法 , 而忽略 了人 类语 言表 迭的 多样 性。通 常
有效 的条件 。
法。 它忽略了人类语 言的多样性 , 主要匹配对象是服务接 I 的 = I 描述 , 不考 虑服务请求者对接 口行 为的约束 , 而 其次服务请求 者 一般 不能对服务请 求进行准确 描述 , 是造成 服务 匹配率较 低 的主要原 因。 义网采用本体语对We 语 b资源的功能 、 行为进 行语义描述 , 使其 可被计算 机识 别 , 这种语 言能 同时表达数据 以及 根据数据进行 推理 的规则 , 从而为 准确 描述服 务请求 和 提高服 务匹配率提供可能性 。 本 文提出一个基于语义 的We 务匹配算法 。服务 提供 b服 者提供 基于语 义的服务描述文档 和发 布 We b服务 ; 注册 中心
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1引言面对Web信息的飞速增长,人们迫切感到需要新的技术和工具以便从Web数据源中智能地、自动地抽取有价值的知识信息。
如何快速、准确地获得有价值的网络信息,如何从这些海量数据中发现知识,这就要求有一个高效、高准确率的Web信息提取工具[1]。
Internet在飞速地发展的同时,不仅使人们获得大量信息,也给Web信息提取带来了一些问题:(1)信息过量难以消化。
Web信息以网页的形式存在,而Web上网页的数量超过3亿。
因此Web信息提取需要对网页进行分类,过滤掉不需要的网页,从而缩小要处理的网页集合。
(2)汉语词的歧义划分。
Web信息有西文信息,也有汉语信息。
西文的词与词之间有分隔符,但汉语的词与词之间没有分隔符。
由于词在一定程度上可以体现信息的语义,因此汉语分词的正确率在一定程度上可以影响Web信息提取的正确率。
(3)Web信息形式不一致,并且难以辨识。
各个网站在发布网页信息时,不采用统一的网页风格,而采用各自喜好的网页风格来制作网页,并且有的网站会不定期地更换自己的网页风格。
因此对变化的网页信息结构,需要研究它的适应能力和信息项的匹配方法,来提高Web信息提取的准确率。
Web信息提取中词匹配的方法可分为基于词频的方法和基于词分类关系的方法。
基于词频的词匹配方法[2~4],用词在文档中出现的共同程度来体现词间的相似度。
这类方法体现词在出现分布上的语义关系,但未考虑词分类学中的结构关系。
基于词分类关系的方法是建立在词汇语义网络中的分类关系层次上。
一种基于实体论的词相似法[5]和一种基于语义的模糊匹一种基于语义匹配的Web信息提取方法研究张茂元1,2邹春燕3卢正鼎11(华中科技大学计算机科学与技术学院,武汉430074)2(华中科技大学管理学院,武汉430074)3(华中师范大学外国语学院,武汉430079)E-mail:zmydragon@163.com摘要为了较好地解决信息过量难以消化、汉语词的歧义划分、Web信息形式不一致并且难以辨识的问题,文章提出了一种基于语义匹配的Web信息提取方法。
该方法融合了网页分类、汉语分词、语义信息匹配方法,并给出了一种义素相似度,进而提出了一种基于语义的信息匹配方法来识别和提取网页信息项。
基于这种Web信息提取方法的网上药品信息监管系统Web-MIND能够提取出网上药品广告的信息项,并具有较高的准确率。
关键词信息提取语义匹配文章编号1002-8331-(2006)23-0141-03文献标识码A中图分类号TP391AnInformationExtractionBasedonSemanticMatchingforWebPagesZhangMaoyuan1,2ZouChunyan3LuZhengding11(DepartmentofComputerScienceandTechnology,HuazhongUniversityofScienceandTechnology,Wuhan430074)2(SchoolofManagement,HuazhongUniversityofScienceandTechnology,Wuhan430074)3(SchoolofForeignLanguage,HuazhongNormalUniversity,Wuhan430079)Abstract:SomeproblemsexistinalltheseWebinformation,forexample:difficultyinprocessingexcessiveinformation,Chinesewordsegmentationfortheambiguouswords,theinformationofvariableformats,andtherecognitionofinforma-tion.Inordertosolvethoseproblems,aninformationextractionofwebpagesbasedonsemanticmatchingisproposedinthispaper.TheextractionmethodintegratestheclassificationmethodofWebpages,segmentationmethodofChinesewordsandsemantic-matchingmethodofinformation.Moreover,theextractionmethodproposesasememebasedsimilarityandthenputsforwardanovelsemanticmatchingmethodofinformation,whichisusedtorecognizeandextractthein-formationitemsofWebpages.Basedontheextractionmethod,themonitorsystemforWebinformationofdrugscanex-tracttheinformationitemsofdrugadvertisementinWebwithhighaccuracy.Keywords:informationextraction,semantic,matching基金项目:国家自然科学基金资助项目(编号:60403027)作者简介:张茂元(1975-),博士后,讲师,主要研究方向为信息检索与提取、自然语言处理和信息管理。
邹春燕(1978-),硕士,讲师,主要研究方向为语义学。
卢正鼎(1944-),教授,博导,主要研究方向为信息系统。
141计算机工程与应用2006.23配方法[6],建立在词汇语义网络中层次关系间的距离因素,但未考虑层次关系中的深度因素。
基于不同实体论的词相似法[7]考虑了层次关系中的深度因素,并获得了较好的效果,但面对新出现的词,词汇语义网络就需要扩充。
目前已有的Web信息提取方法[8~11]主要致力解决Web信息形式不一致的问题,为了较好地解决信息过量难以消化、汉语词的歧义划分、Web信息形式不一致并且难以辨识的问题,文中第2节提出了一种基于语义匹配的Web信息提取方法,该方法融合了网页分类、汉语分词、语义信息匹配方法。
针对语义信息匹配,文中第3节给出一种义素相似度,并在此基础上提出一种基于语义的信息匹配方法。
文中第4节给出了基于语义匹配的Web信息提取方法的实验,从实验结果上看,该方法具有较高的准确率。
2基于语义匹配的Web信息提取2.1系统结构如图1所示,基于语义匹配的Web信息提取模型由模糊网页分类、基于学习的网页信息提取、语境汉语分词、语义信息匹配和分布式主动数据库五个部分组成。
其输入是搜索到的网页,输出是要得到的网页中的信息项。
图1Web信息提取的系统结构模糊网页分类模块对网页进行模糊分类,初步过滤掉不相关的网页,缩小处理集合;基于学习的网页信息提取模块,分析网页标记,用树型结构(DocumentObjectModel)表示HTML网页的布局,并用该模型来学习和识别网页结构模式,从而依据模型来提取HTML网页中的丰富数据部分;语境汉语分词模块为模糊网页分类模块、基于学习的网页信息提取模块进行汉语分词预处理;语义信息匹配模块对提取到的信息进行语义匹配,识别信息中各个信息项所属的信息项目类别,并提取出信息项;提取出的Web信息项存入到分布式主动数据库中,由数据库主动地处理这条信息,如比较历史信息来检测信息的一致性、合法性等处理,这就使系统能够为信息预测、信息预警等后期处理提供一定的及时性。
2.2信息监管系统Web-MIND在这种提取模型基础上,自主研发了网上药品信息监管系统Web-MIND。
该系统能够完成Internet上广告信息的查找、过滤、提取、违法内容的审定。
该系统用作者已研究出的一种基于特征选取及模糊学习的网页分类方法[12]对网页进行分类,过滤掉非药品广告的网页,并用作者已研究出的一种基于语境的汉语分词方法[13]进行汉语分词预处理。
然后系统采用DSE(Data-richSectionExtraction)算法[14]提取出药品网页信息。
接着系统用下一节提出的基于语义的信息匹配方法对提取到的药品广告信息进行语义匹配,识别信息中各个信息项所属的信息项目类别,并按所属的项目类别提取出各信息项,然后存入到数据库。
最后系统把提取到的药品广告信息与国药局的法规,用下一节提出的基于语义的信息匹配方法对广告信息项和法规进行语义匹配,来检测药品广告信息的合法性,并把药品广告信息和检测结果存入到数据库中。
当药品广告信息一旦存入主动数据库时,数据库就能立即、主动地把信息与它的历史信息进行分析,这样得到的分析结果对网上药品广告信息监管的预防和预警是有所帮助的。
在分布式主动数据库模块方面,作者已从理论上研究了一种面向Agent的分布式主动数据库框架[15]。
3基于语义的信息匹配方法3.1义素网络《知网》(HowNet)是一个网状的有机知识系统,以汉语和英语的词语所代表的概念为描述对象,来表示概念与概念以及概念属性之间的关系。
在知网中,“义素”是从所有汉语词汇中提炼出的可以用来描述其它词汇的不可再分的基本元素,每一个概念是通过一组义素来表示的。
从药品信息的特征词(如功能、治疗等)中,提取出每个义素,组成药品信息义素集合。
然后按照HowNet的构建原理,对义素集合构建药品信息的语义网络HowNet—medicine。
3.2义素相似度函数3.2.1基于语义路径的相似度由于语义网络的构建应用了词汇分类法,义素间的语义距离可以用义素间连接边的数量来表示,所以义素相似度可以用语义路径长度来计算。
定义1设两个义素seme1和seme2之间的路径长度为L,基于语义路径的相似度为:Sim1(seme1,seme2)=f1(l)=e-!l(1)其中α>0是常数,l∈[0,+∞)。
3.2.2改进的语义相似度尽管基于语义路径的相似度在一些问题上取得了较好的结果,但在大型或通用的语义网络应用中,这种计算方法在准确度上存在一定的误差。
为了改进这个不足,相似度计算还需引入更多的语义网络结构信息。
从直观角度上,位于语义网络中较高层次的义素含有较通用的语义和较弱的相似度,而位于语义网络中较低层次的义素含有较具体的语义和较强的相似度。
所以,在计算相似度时,义素的层次深度应当得到考虑。
定义2f2(h1,h2)=e"(h1+h2)2-e-"(h1+h2)2e"(h1+h2)2+e-"(h1+h2)2,其中β>0是常数,h1,h2∈[0,+∞)。
定义3设两个义素seme1和seme2之间的路径长度为L,且它们的层次深度分别为h1和h2,则改进的义素相似度为:Sim2(seme1-seme2)=f(f1(l),f2(h1,h2))=f1(l)×f2(h1,h2)(2)3.3基于义素的词相似度定义4设词w含有n个义素seme1,seme2,…,semen,则该词可以用义素向量semeV=(seme1,seme2,…,semen)表示。