基于Deep Web数据查询接口的抽取与集成

合集下载

基于Deep Web数据查询接口的抽取与集成

基于Deep Web数据查询接口的抽取与集成

基于DeepWeb数据查询接口的抽取与集成作者:刘超刘妍来源:《硅谷》2008年第23期[摘要]针对Deep web数据集成系统架构,对其中关键的接口的抽取与集成提出思路。

[关键词]Deep web 查询接口抽取集成中图分类号:TP3文献标识码:A 文章编号:1671-7597(2008)1210040-01根据数据的分布状况,Web数据可以分为:Surface Web和Deep Web。

Surface Web是指可以通过超链接或者传统网页搜索引擎访问到的网页、文件等资源,它一般以静态网页构成为主;而Deep Web可以简单的概述为那些难以通过普通搜索引擎发现的资源的集合。

主要包括存储在Web数据库里大量资源,需要通过动态网页技术才能访问。

Deep Web后台的数据库一般为结构化的关系数据库,质量都比较高,因此通过DeepWeb的数据集成来更有效地利用Deep Web丰富的数据是十分有意义的。

在Deep web数据集成系统中,主要有以下3个步骤:(1)发现Deep Web;(2)查询接口抽取与集成;(3)结果抽取与整合。

其中查询接口抽取与集成是关键步骤,本文就此提出思路。

用户通过查询接口来获得Deep Web的数据信息,一个查询接口物理上通常包括一些HTML元素,比如:Textbox,Button,Checkbox,Radio等等,还包括一些有语义的文本标签,而在逻辑上,一个查询接口包括了很多的逻辑属性值,如“淘宝”查洵接口就包括了“关键”、“类别”等属性;而每个不同的逻辑属性又包括了一些特定的元数据信息,比如:属性名称、数据类型、数据范围、数据单位、默认值、查询条件等,如“拍拍网”的“价格范围”属性就包括了这些元数据信息:名称--价格,数据类型--货币,单位--元,查询条件--最大与最小范围查询等等。

我们把接口的逻辑形式称为接口模式。

从不同的接口模式中抽取出特定的逻辑属性,并根据相关性把他们集合成为一个通用的逻辑属性,这是查询接口抽取的主要目的,而通过对通用逻辑属性的集成,将得到一个统一的查询接口。

基于Deep Web数据集成系统的预取系统的设计

基于Deep Web数据集成系统的预取系统的设计

图 1D p b e We 数据 集成 系统预 取体 系结构 2 基于 D e b 据集 成系统 的预取模 型 e p We 数 本文 提出了一 种基 于 D e b 询语 句访 问频率 而建立 的多项 式 回归 ep We 查 模型, 以此来 预测该语 句未 来的访 问频率 , 中包括 预测模 型 的建立和 预取 队 其 列的生 成两部 分 。 1预 测模型 的建立 : 型建立 的基 本思路 : ) 模 以每天 (4 2 小时 ) 一个 统计 时 为 间 , 每个周期 内每一条语 义缓存 的访 问概率 , 统计 将统计 结果保 存在数 据表 中, 系统统 计最 近 N 个周期 内每 条议 语义缓 存的访 问概 率 , 以该结 果建立 多 项式 回归模 型 , 而预测 该条语 义缓 存项 在即将 到来 的下一 个周 期的 访 问频率 。 从 在 缓存 中建立一 个数据 表 s, 具有 N个 表项 , 来保存 该语义 缓存 项最 它 用 近 N 个统 计周期 的访 问频率 统计( 如表 l 示) 所 。 表 l数据表 S 表 2 数据 L S

在回归 中, 对模 型通常 假定误 差 项为独 立的 N(,: 布 。对参数 用最 小 0d) 分 二 乘法进 行估 计。 模型 的 向量 矩阵可 表示 为() 2:

参数 向量 的最小二乘估计为 ( ) 3: 概率预测 值 可 由公式 ( )得到 4
甘 …"
() 4
语鲻 1 N 语姑 P OP
a )当 P P ,=I T在有 效时 间内 , 明该语 义缓 存项 存储在 内缓 存 O >a Z 且 表 有效语 义缓 存 区内 , 与其对 应的结 果集 存储在 外缓 存的有 效数 据 区, 条语 义 该 缓存 及其 对应 结果集 处于 有效 期 内, 预测 值大 于 a 不需要 重 新预取 。 且 , b )当 P P a Z 0 T在有 效时 间 内, 明该语 义缓 存项 存储在 外缓 存 O > ,= 且 表 临 时语义 缓存 区内 , 与其对 应的结 果集 存储 在临 时数据 区 , 该条语 义缓 存项 满 足 预取条 件 , 因为数 据在 有效 期内 , 只需将 该 条语义 缓存 项移 动到 内缓 存 的有 效语 义缓 存 项存储 区 中, 其对应 的结 果集 移动 到外 缓存 的有 效数 据区 中。 c )当 P P a Z I T 已超 出时间有 效期 , 明该 条语 义缓存 项满 足预 O > ,= 且 表 取 条件 , 但数据 失效 , 要通 过 Dep We 需 e b数据 集成 系统 重新预 取 , 该条 语 将 义 缓存 项填 加到预 取 队列 中。 d )当 P >a Z O T已超 出时间有 效期 , 明 该条语 义缓 存项满 足预 OP ,= 且 表 取 条件 , 数据保 存在 临时 数据 区 , 但数 据失 效 , 需要 通过 D e b数据 集成 ep We 系统重 新预 取 , 该条语 义 缓存项 填加 到预 取 队列 表 中 。 将 3 、缓 存替 换策 略 对于 内缓存 , 当新 周期到 来时 , 采用如 下替换策 略 :) 1更新有 效语义缓 存存 储 区( 内缓 存) 各条语 义缓 存项 的P P ,) P <a预 取阈值 ) T在 有效期 O 值 2当 OP ( 且 内, 将该 条语义 缓存项 及其对 应的 结果集 移动 到临 时数据 存储 区 ) OP 3当P <a ( 取 阈值) 预 且T己超 出有效 期 , 除该 条语 义缓 存项 及其在 外缓 存有效 数据 区 删

基于语义支持的Deep Web数据抽取

基于语义支持的Deep Web数据抽取
控 件 赋 值 的 方 式 来 为 表 中添加 相应 的元 组 , 据 返 回 结果 的情 况 , 根 即数 据 抽 取 成 功 或 抽 取 失 败 , 为指 导进 行 分 类 学 作
习, 最终依 照学习的结果来 自动构造请求字符 串完成数据 的抽取 。实验表明算法具有较好 的效果 。
关键词 数据抽取 , 义, 器学习, 网 语 机 深 T 31 P 9 文 献标 识 码 A 中图 法 分 类 号
第 3 7卷 第 3期 21 年 3 00 月



机 科

Co p e Sce c m ut r in e
Vo . . 1 37 No 3 Ma 0 0 r2 1
基 于 语 义 支 持 的 D e b数 据 抽 取 ep We
高 明 王继成 李 江峰 ( 同济大 学 电子与信 息工程 学 院 上 海 2 1 0 ) 0 8 4
摘 要 在 分 析 D e e 询 实现 机 制 的基 础 上 , 出 了在 语 义本 体 的 支持 下 , 过 机 器 学 习来 实现 自动 填 充 查 询 epW b查 给 通
接 口, 以实现 自动数据抽取 的算法 : 构造二 维表 , 的列为通过 D e b查询接 口页面提取到 的各 个控件 , 表 epWe 通过 为各
Kewo d Daae tato S ma tc M a hn a nn De pW e y rs t xr cin, e ni, c iel r ig, e b e
1 引 言
随着 万 维 网的 发 展 , 别 是 w e2 0的 出现 , 来 越 多 的 特 b. 越 网 页使 用 即 时 生 成 的 方 式 来 产 生 。数 据 存 储 在 后 台 数 据 库 中 , 要 时 根 据 用 户 提交 的请 求 返 回结 果 , 需 然后 根据 模 板 格 式 化 返 回 的结 果 即时 生 成 相 应 的 页 面 。 这 些 存 储 在 数 据 库 中的 内 容 通 常 被 称 为 D e e , 种 epW b 这 页 面 的 一 个 显 著 特 点 是 , 们 不 能 由传 统 的搜 索 引 擎 通 过 静 它

Deep Web信息资源的查询接口集成研究

Deep Web信息资源的查询接口集成研究
分 类号 T 24 P 7
Qu r ne fcs I tg aig o e e ey I tra e n e r t n Dep W b n
LN Aq n X n i I iu I Wa qu
(irr f G a g o g Unvri f B s e s Su is Lbay o u n d n iest o u i s tde ,Gu n z o ,G a g o g 5 0 2 ) y n a gh u u n d n 3 0 1
t e e aa s u c n e a in. he De p W b d t o r e i tg t r o
Ke wo d sh ma i tg ai n ;d e b ;s fc b ;q e n e f c y r s c e ne to r e p we r u a e we u r itra e y
1 数 据库 信 息资 源检 索
造 成传 统 的 W b信息 检索 工具性 能低 下 的原 因 e
主要 有 两 个 : () e 1 W b信 息 资 源 十 分 庞 大 ,搜 索 引
1 1 信 息检 索工 具的 查全 率和 查 准率 .
对 于互 联 网 中的 w b信 息检 索来 说 . 目前传 统 e 的 w b信 息检 索 工具 均 存在 查 全率 (。 l 和查 准 率 e R 1 ) (r i。) P 。i 不高 的问 题 S a i S M 针 对 生 物技 术 的 e h f . 信 息 检 索 . 比较 了 A t V s a和 G o l la it o g e等 5种 搜 索 引 擎 的查 全 率 和查 准率 卜 ,如 表 1所示 。从 中 可 以看 出 . 目前常 用 的搜索 引擎 其查 全 率 和查准 率

DeepWeb环境下数据抽取及模式识别的研究的开题报告

DeepWeb环境下数据抽取及模式识别的研究的开题报告

DeepWeb环境下数据抽取及模式识别的研究的开题报告摘要:随着互联网的不断发展,深网和暗网等非常规网络环境中包含了大量有价值的信息资源。

而这些信息大部分又是以非结构化的形式存在。

因此,如何有效、准确地抽取这些信息并进行模式识别,对于数据挖掘和网络安全等领域都具有十分重要的意义。

本文将对DeepWeb环境下数据抽取及模式识别的相关研究进行分析,并探讨其在现实世界中的应用。

关键词:DeepWeb,数据抽取,模式识别,非结构化数据背景:DeepWeb(深网)是不被搜索引擎所检索的网页,包括数据库查询结果、在线表单、动态页面等。

而暗网则是DeepWeb下的一部分,它只能通过特殊的软件和协议进入,主要用于保护用户隐私和网络安全等目的。

在这些非常规网络环境中,包含了大量有价值的信息资源,但这些信息大部分又是以非结构化的形式存在,如何有效、准确地抽取这些信息并进行模式识别,对于数据挖掘和网络安全等领域都具有十分重要的意义。

研究问题:如何在DeepWeb环境下实现对非结构化数据的有效抽取和模式识别?研究目的:1. 分析DeepWeb环境下数据抽取及模式识别的现状。

2. 探索DeepWeb环境下数据抽取及模式识别的方法及其应用。

3. 针对DeepWeb环境下数据抽取及模式识别的问题,提出相应的解决方案。

方法:1. 系统性地收集DeepWeb环境下数据抽取及模式识别的相关研究文献,并分析其方法和应用。

2. 通过实证研究,针对DeepWeb环境下的特点,提出有效的数据抽取和模式识别的算法和工具,并进行实践验证。

3. 针对当前研究中存在的问题,提出相应的解决方案。

预期结果:1. 深入了解DeepWeb环境下数据抽取及模式识别的现状和研究热点。

2. 提出可行的方法和工具,实现对非结构化数据的有效抽取和模式识别。

3. 探索DeepWeb环境下数据抽取及模式识别的应用领域,并提出相应的解决方案。

创新点:本文将DeepWeb、数据抽取以及模式识别三个领域结合起来,研究非结构化数据在DeepWeb环境下的抽取和模式识别,并探讨其在现实世界中的应用。

基于查询接口的Deep Web模式匹配方法研究的开题报告

基于查询接口的Deep Web模式匹配方法研究的开题报告

基于查询接口的Deep Web模式匹配方法研究的开题报告一、选题背景及意义Deep Web指的是不能被通常的搜索引擎所索引的Web内容,包括需要用户权限的Web站点、表单、动态生成的内容等等。

Deep Web对于互联网资源的利用和发掘具有重要的意义,但是由于其特殊的数据存储方式和访问方式,Deep Web的数据集是非常庞大且分散的,同时其搜索技术也相对复杂。

因此,如何高效地从Deep Web中获取所需信息以及如何实现高效的Deep Web搜索技术成为了互联网研究领域的热点问题。

本研究选题基于Deep Web模式匹配技术,旨在解决Deep Web搜索时模式匹配效率低下和召回率低的问题,以提高Deep Web搜索的效率和准确性。

二、研究目的和内容本研究主要目的是研究基于查询接口的Deep Web模式匹配方法,以提高Deep Web搜索的效率和准确性。

具体内容包括:1. 探究Deep Web查询接口的特点和原理,分析其数据存储和访问方式,从而确定Deep Web模式匹配技术的研究方向。

2. 研究常见的Deep Web模式匹配技术,包括基于查询接口的表单填充技术、基于DOM解析的技术和基于自然语言处理的技术等。

3. 对比分析不同Deep Web模式匹配技术的优缺点,从而确定本研究所采用的技术路线。

4. 实现和评估基于查询接口的Deep Web模式匹配方法,包括对查询接口进行参数解析和数据爬取,对页面进行DOM解析和匹配,以及对结果进行排序和过滤等。

5. 对基于查询接口的Deep Web模式匹配方法进行性能测试,并与其他常见Deep Web搜索技术进行对比,从而评估该方法的优劣。

三、研究方法和步骤本研究采用的研究方法主要包括文献综述、理论分析、软件设计与实现、性能测试等。

具体步骤如下:1. 文献综述:通过查阅相关文献,了解Deep Web模式匹配技术的研究现状和发展趋势,分析各种技术的优缺点,为研究方法和方案确定提供参考。

基于规则的Deep Web查询接口的抽取

基于规则的Deep Web查询接口的抽取
l SN 1 0 ~ 0 4 S 9 3 4 0
E m i h ccn t n ~ ahj @c c . . s eo
h t /www. z .e .l tp: / dn sn tel Te: 1 +86 5l 69 63 5 0 4 —5 一5 09 69 96
C m ue n we g n e h o g o p tr o ld ea dT c n l y电脑 知 识 与技术 K o
Y AN G i L mp tr He e Unv r t, a dn 7 0 2 C ia Co e e h ma c a dCo ue, b i i sy B o i 0 1 0 , hn ) o Ma i ei g
A bsr t t ac :Ta e f roni e-boo sor ,t e pa r p o k o ln k t e h pe r possa m ehod f re ta to ng t ue y i e a e faursbae on t x se ~ e t o x rc ini he q r ntr c e t e sd he e itd do f m an d e e ou c s i e p w b s r e .U sn e ulre prsin ue o e ta tq r ntra e ncu n e xta ton a on r se ta to ig rg a x eso r l st x rc uey i ef c ,i l dig txte r ci nd c tol x rci n,a he nd t t x st e sm a tc if r ai n aj c ntd t h on r l.The e e iss e n s n r ai n t e txte ta to wih f tc ort l e ti h e n i n o m to d a e e o t e c tos r xst om oiei f m t o on i h e x rci n t on ol o f 、 i . t rn he e if r ai o a h e h oa.Atls,t e xp rm e a e u t s o he m e h a bti h xp ce eul ih g d ei g t s n m t o on t c ive t e g 1 at h e e i ntlr s ls h w t t od c n o an t e e e td r s t w t oo s

DeepWeb论文:特定领域的DeepWeb数据抽取与语义标注研究

DeepWeb论文:特定领域的DeepWeb数据抽取与语义标注研究

Deep Web论文:特定领域的Deep Web数据抽取与语义标注研究【中文摘要】随着Internet技术的飞速发展,隐藏在Web后台数据库中的信息资源因为其数据量大、结构完整受到了广泛关注,这些信息资源通常是由用户在Web查询页面提交查询请求后,以HTML页面为中介展示给用户的。

学者们通常将这些信息资源称之为Deep Web 资源。

为了最大程度的利用这些Deep Web资源,需要通过各种技术手段将网页中的无结构或者半结构化信息抽取出来。

同时为了使抽取到的信息具有更高的使用价值,应该对这些数据进行语义标注,使其能够被机器所理解。

本文对特定领域的Deep Web的数据抽取与语义标注进行了研究,将节点的类型信息引入到数据记录的抽取中来,并基于本体实现了语义标注,最后结合自身参与的项目设计了一个原型系统。

本文的研究工作主要包括以下几点:1)简要概述了信息抽取的发展历史、评价标准和所涉及的相关技术,并对现有的信息抽取方法进行了深入的分析。

2)结合Deep Web结果页面自身的特点,利用页面布局的视觉特征和内容特征,提出了一种利用标签过滤器、视觉特征过滤器、内容规则过滤器的页面净化方法。

实验结果表明,该方法可以有效提高后续数据抽取的效率与精度。

3)提出一种基于节点类型的数据记录抽取方法,该方法首先将HTML标签节点分为块、样式、文本、图片四种类型,并对每一种类型赋予一个权值,其次根据不同的节点类型来计算结果页面数据记录中各属性节点的熵值,最后通过此熵值来确定代表数据记录的节点,实现数据记录节点的抽取。

与其他方法相比,该方法具有更高的效率。

4)将领域本体作为Web数据库所遵循的全局模式,通过核密度、K-L距离等方法来实现本体与模式间的映射,从而实现数据的语义标注功能。

实验结果表明该方法具有一定的优越性。

5)在上述研究的基础上设计了一个面向生物医药领域的信息集成平台。

【英文摘要】With the rapid development of Internet technology,information resources which are hidden in web databases have received extensive attention because of its large amount of data and structure integrity.These information resources are displayed to users in the form of HTML pages after users have submitted search queries on web query page.And researchers usually call these information resources Deep Web. To maximize the use of these Deep Web resources,thosesemi-structured and unstructured data on the web page need to be extracted through a variety of technical means. Meanwhile, in order to make the extracted data possess a higher use value, semantic annotations must be added to these data so that they can be understood by machines.This paper studies the technology of information extraction and data annotation in Deep Web for specific field. At first, lead type information of nodes into extraction of data records and then achieve the semanticannotation based on ontology. Finally, a prototype system is designed combined with my project experience. The main research work of this paper include:1) This paper gives a presentation about the development history、evaluation criteria and related technologies of Web information extraction in brief and analyses existed information extraction method in depth.2) Combined with characteristics of result page itself in Deep Web and using the features of vision and content on page layout, a page purification method is proposed which involves tag filter, visual feature filter and content rule filter. The experiments show that the approach can effectively improve the efficiency and precision of subsequent data extraction.3) This paper has proposed a new extraction method of data record based on node type. First, the HTML node is divided into four types: block type, style type, text type and image type. And then assign each type a weight value. Thirdly, calculate entropy value for each property node in data records of result page according to different node type. Finally determine the nodes which represent corresponding data records with the entropy value and achieve extraction of nodes in data records. Compared with other methods, this method has higher efficiency.4) View the domain ontology as the global schema followed by webdatabases and achieve mapping from ontology to schema through the methods such as kernel density and K-L divergence and so on. The experiment shows that the approach has some certain advantages.5) Design an information integrated platform oriented to the biomedical field based on above work.【关键词】Deep Web 信息集成网页净化数据抽取语义标注【备注】索购全文在线加好友:1.3.9.9.3.8848同时提供论文写作一对一指导和论文发表委托服务【英文关键词】Deep Web Information Integration Page Purification Information ExtractionSemantic Annotation【目录】特定领域的Deep Web数据抽取与语义标注研究中文摘要4-5Abstract5-6第1章引言10-16 1.1 研究背景10-12 1.2 国内外的研究动态12-13 1.3 研究难点13 1.4论文主要研究内容13-14 1.5 论文的结构安排14-16第2章Web 信息抽取16-31 2.1 Web 信息抽取的发展历史16-18 2.2 Web 信息抽取方法的分类18-23 2.3 Web 信息抽取相关技术介绍23-29 2.3.1 HTML、XML、XHTML 介绍23-25 2.3.2 DOM 模型25-27 2.3.3 字符串匹配技术27 2.3.4 树匹配技术27-29 2.4 Web 信息抽取评价标准29-30 2.4.1 Web 信息抽取结果的评价29-30 2.4.2 Web 信息抽取性能的评价30 2.5 本章小结30-31第3章 Deep Web 结果页面数据记录抽取31-48 3.1 相关概念定义31-32 3.2 Deep Web 结果页面净化32-38 3.2.1 研究意义33-34 3.2.2 相关研究34-35 3.2.3 网页净化算法35-38 3.3 针对数据记录的自动抽取方法38-44 3.3.1 基本思路38-39 3.3.2 相关研究39 3.3.3 抽取方法描述39-44 3.4 实验44-47 3.4.1 实验数据44 3.4.2 页面净化算法实验结果及分析44-46 3.4.3 数据记录抽取算法实验结果及分析46-47 3.5 本章小结47-48第4章基于领域本体的数据项抽取及语义标注48-68 4.1 问题描述48-51 4.1.1 数据项抽取与语义标注的关系48-49 4.1.2 常见的语义标注方法与缺陷49-51 4.2 本体知识概述51-54 4.2.1 本体的定义51-52 4.2.2 本体的作用52-53 4.2.3 本体的描述语言53-54 4.3 研究思路54-55 4.4 领域本体的构建55-57 4.5 本体与接口/结果模式的映射57-63 4.5.1 接口模式与结果模式特征分析57-58 4.5.2 基于多相似度的映射模型58-63 4.6 语义标注算法实现63-64 4.7 实验结果及分析64-67 4.8 本章小结67-68第5章原型系统设计68-78 5.1 系统背景68-69 5.2 系统架构及流程69-71 5.3 核心模块设计71-77 5.3.1 Deep Web 聚焦爬虫71-73 5.3.2 数据记录抽取子系统73-74 5.3.3 数据标注子系统74-75 5.3.4 基于Lucene 的全文检索子系统75-77 5.4 本章小结77-78第6章总结与展望78-81 6.1 工作总结78 6.2 特色与创新78-79 6.3 工作展望79-81参考文献81-87攻读学位期间公开发表的论文与参与的科研项目87-88致谢88-89。

基于关联规则的Deep Web查询接口集成

基于关联规则的Deep Web查询接口集成

复杂模式匹配处理方法。以图书、房产等领域为实验对象 ,模式 匹配 的平均准确率达到 9 . ,匹配中能准确发现复杂模式匹配 ,表 明该 1% 6
方法具有较好的可行性 和有效性 。 关键词 :接 口集成 ; 式匹配 ;关联规则 ;复杂匹配 模
DepW e eyI tra e ne r t nBae nAso it nRue e bQu r nefc s tg ai sd0 scai l I o o
据 G ol 2 0 o ge 0 7年 估 计 ,D e b数 据 源 已经 迅 速 增 长 到 ep We 25 0万个0 0 。大量的 DepWe e b数据源蕴藏着海量 的信息资 源 ,且 大 量 的结 构 化 数 据 存 在其 中 ,具 有 很 高 的 研究 价 值 。
文 献标识码: A
中 图分类号: P9 T31
基 于 关联 规 则 的 DepWe e b查询接 口集成
岳 亮 ,王海龙 ,赵朋朋 ,崔志 明
( 苏 州 大 学 智 能 信 息 处理 及应 用研 究 所 ,江 苏 荪 州 2l0 6 1 50 ;
2 江苏省现代企业信息化应用支撑软件工程技术研 发中心 ,江苏 苏州 2 5 0 ) . 1 14 摘 要 :论述查询接 口集成 的相关工作 , 出基于查询单项 间关联规则的接 口 式匹配 方法解决查询接 口集成中模 式匹配 问题 ,同时给 出 提 模
d ma n y r a.a d t e a e a e e a t e si . % .As t h o l x s h m a mac i g e p r me t l e u t h w h t he meh d i r a i e o i sa e g e t n h v r g x c n s s 916 o t e c mp e c e t h n . x e i n a s l s o t a t o s e sbl r s t

Deep Web接口集成及查询结果排序方法研究的开题报告

Deep Web接口集成及查询结果排序方法研究的开题报告

Deep Web接口集成及查询结果排序方法研究的开题报告一、研究背景及意义随着互联网的不断发展,越来越多的信息以及服务被数字化,使得人们的生活变得更加便利和高效。

然而,互联网上的信息和服务只占了很小的一部分,而隐藏在其中的Deep Web更是巨大的信息宝库,其中包含着丰富的、有价值的但是不易被搜索引擎所发现的信息。

为了可以更好地利用这个巨大的信息资源,很多机构和研究人员已经开始了Deep Web采集和查询的研究。

在Deep Web的采集与查询研究中,集成Deep Web接口以及有效地排序检索结果是当前的热点和难点问题。

Deep Web中的接口是各个网站或应用程序提供的一种数据交互接口,除了常见的RESTful接口以外,还有一些特殊的接口,如SOAP、XML-RPC等。

这些接口具有调用方便、格式规范、数据可控等特点,可以帮助我们轻松获取Deep Web的信息。

但是在Deep Web的集成与查询过程中,由于数据来源的异构性,多个接口之间存在的数据结构和编码不一样,查询语句不一致等原因,会造成对接的难度较大。

另外,Deep Web中的信息的数量浩瀚,且不同的信息质量和所表达的含义也不尽相同。

目前的大多数Deep Web查询系统都使用了关键词查询等基本的查询方式,在查询结果的返回、排序上都存在着一些局限性,如难以实现精确匹配,排序不够准确等问题。

基于此,本文旨在深入探究Deep Web接口集成和查询结果排序的问题,进一步完善Deep Web的查询系统,以更好地满足Deep Web的查询需求,提高Deep Web的信息利用率。

二、研究内容和方法1. Deep Web接口集成本文将使用Python语言作为主要的开发语言,采用pipelines设计模式,建立统一的Deep Web接口调用框架。

具体地,首先需要对Deep Web中的各个接口进行调查和研究,探究接口调用方式、数据格式、编码方式等相关信息。

然后根据接口的异构性,设计一套通用的数据转换方案,使得不同接口的数据能够被整合在一起。

基于N-Gram的Deep Web接口属性抽取

基于N-Gram的Deep Web接口属性抽取
i 算 f j 脱 代 化 JS』 N IY I N A I【 I( J U X A D IIA A J
第 14 8
文章 编 号 : 0 — 7 (0 0 1-150 1 62 5 2 l )20 3 - 0 4 4
基 于 N G a 的 D e b接 口属 性 抽 取 — rm epWe
W ANG n Ho g,YU Ja — io in qa ( c o l fCo ue n f n ain S in e o twetUnvri S h o mp tra d h o n t ce c ,S nh s o o iest y,C o g ig4 0 h n qn 0 7I 5,Chn ) ia
超级链 接 能 检 索 到 的表 层 网 ( ufc b 、 度 『 S r e We ) 深 a 敢 J
N G a 算 法是 一种 快速 计 算 字 符 串 相 似度 的 — rm 方法 , 但仅 能用 于英 文字符 之 问。通 过将 汉字 翻译 成 为英 文与 汉语拼 音利 用 的 N—rm算 法 . 表 单 中元 Ga 将 素进 行分解 , 计 算表单 元 素之 问的相 似度 抽 取 中文 并
WD B查询 接 口是 指 向用 户 提 供 查 询 WD 信息 B 的 We b表单 。女 图 l为卓 越 的 图 书 检 索 查 询 界面 。 ¨
0 引 言
随 着 www 的发 展 ,互联 网 中 蕴 涵 了越 来 越 多
通过 大量 的观察 , 现大部 分 的接 口都 可 以归 结 为某 发 种 隐藏 的文法 , 过 找 出隐藏 的方法 定 义并 与现 在 的 通
接 口进 行区别 于传 统 搜 索 引擎 依 靠
查询 接 口的属性 。
( e pWe ) - 中包 含更 丰 富更 全 面 的 信息却 无 法 D e b 1] 2 被检索 到 。2 0 0 4年 4月 , 伊 利 诺 斯 大 学 的 一 个 科 在 研报告 中 ,该研 究小 组对 D e b做 了一 次较 为 epWe 全 面的测算 , 称整个 We 据 b上 有近 3 70 0 0 0个 在线 数 据 库 的 网 站 、 5 0 0个 WD 400 B,这 一 结 果 是 Bih r t g Pa e 在 2 0 l t 0 0年估 计结果 的 6倍 还多 。 n

54龙华、粟琳、王秋菊、王霞、王...

54龙华、粟琳、王秋菊、王霞、王...

基于Hadoop的Deep Web查询结果自动抽取研究重庆大学硕士学位论文(学术学位)学生姓名:***指导教师:冯永教授专业:计算机软件与理论学科门类:工学重庆大学计算机学院二O一四年四月Hadoop-based Automatic Deep Web Data ExtractionA Thesis Submitted to Chongqing Universityin Partial Fulfillment of the Requirement for theMaster’s Degree of EngineeringByHuijuan WangSupervised by Prof. Feng Yong Specialty: Computer Software and TheoryCollege of Computer Science ofChongqing University, Chongqing, ChinaApril, 2014摘要随着互联网技术的快速发展与广泛应用,网络提供给用户的资源与日俱增。

特别是不能被传统搜索引擎通过静态链接而获取的海量信息资源规模增长显著,这部分资源称为深层网(Deep Web)。

关于Deep Web的研究,是近年来Web数据管理方向的研究热点。

Deep Web中的信息是通过在特定查询接口提交查询后,以结果页面的方式显示,对Deep Web查询结果进行抽取,将信息资源进行集成,使其以统一的模式进行存储,才能为用户提供更好的、统一的索引服务。

因此,Deep Web查询结果抽取是Deep Web数据集成系统中的关键步骤。

本文主要对基于DOM树结构与模板方法相结合的抽取算法进行了深入的研究,主要研究及成果如下:①深入研究比较了几种主要的抽取技术,重点对基于DOM树结构与基于模板的抽取算法进行了详细的介绍,并对各种技术在复杂性、适用范围和自动化程度等方面进行了分析与比较;②综合基于DOM树结构与基于模板抽取算法的优点,提出了基于DOM树结构与模板方法相结合的抽取算法FIME(Filtering, Iterating, Matching, and Extracting)算法,FIME算法在进行DOM树结构比较之前,首先对页面进行预处理操作,使页面遵守XHTML规则,同时清除页面中对于抽取信息无用的标签及部分属性元素,使得页面更精简,以提高后续匹配算法的效率;③针对基于DOM树结构抽取算法中回溯处理页面中冗余迭代项导致匹配算法复杂度高的问题,FIME在进行匹配之前首先对页面中的迭代项进行合并,降低了后续匹配算法的时间复杂度;④结合基于模板抽取算法的思想,FIME将在匹配算法中通过比较DOM树结构而获得的待抽取数据的位置信息作为同一网站页面的模板Wrapper,对所有同源页面进行待抽取信息的自动抽取,而不是对同源结构相似的页面做重复的处理,提高信息抽取的效率和自动化程度。

DeepWeb数据抽取及精炼方法研究开题报告

DeepWeb数据抽取及精炼方法研究开题报告

DeepWeb数据抽取及精炼方法研究开题报告一、研究背景和意义随着互联网的发展,信息爆炸式增长的时代已经到来,其中深网(DeepWeb)数据占据了网络数据的很大一部分。

深网是指无法通过搜索引擎或其他普通链接方式搜索到的信息,包括但不限于电子商务网站、数据库、论坛等。

这些隐藏的信息具有重要价值,可供政府、企业和个人使用,并且目前无法从透明网络中获取对应的信息。

因此,深网数据的抽取和精炼研究就显得尤为重要。

现有的深网数据抽取和精炼方法主要依靠爬虫技术和机器学习技术。

然而,由于深网数据的特殊性质(如多层加密、反爬虫等),传统的爬虫技术并不总是有效的;而机器学习技术又需要大量的标注数据支持,但深网的大部分数据都是未标注的,因此这些方法在实际应用中存在很大的局限性。

因此,本项目旨在研究深网数据抽取和精炼方法,探索一种针对深网数据的有效的数据获取和处理技术,提高深网数据的价值,为政府、企业和个人提供更加丰富的信息资源和决策支持。

二、研究内容和方法1. 研究深网数据的特征和抽取难点。

分析深网数据的组成结构、访问方式和反爬虫技术等特点,确定深网数据抽取的难点,为后续的研究提供基础。

2. 探索深网数据的抽取技术。

综合运用分布式爬虫技术、多层次解析技术和反反爬虫技术等方法,设计一种针对深网数据的高效的数据抽取技术,将所获取的信息整合成结构化的数据格式。

3. 研究深网数据的精炼方法。

通过分析和挖掘深网数据,使用自然语言处理、数据挖掘和深度学习等技术,对深网数据进行分类、聚类、关键词抽取、命名实体识别等处理,提取其中有价值的信息,并去除干扰性的信息,最大限度地提高深网数据的价值。

4. 基于实际应用场景的实验验证。

根据实际应用场景,收集不同类型的深网数据样本,对所提出的深网数据抽取和精炼方法进行实验验证,以验证其可行性和有效性。

三、预期成果和意义本项目将在深网数据抽取和精炼领域进行研究,预期可以获得以下成果:1. 一种针对深网数据的高效的数据抽取技术。

基于结果模式的Deep Web数据集成关键技术研究的开题报告

基于结果模式的Deep Web数据集成关键技术研究的开题报告

基于结果模式的Deep Web数据集成关键技术研究的开题报告一、研究背景及意义随着互联网的不断发展,越来越多的数据得以保存在网络上,其中包括我们常说的“深网”(Deep Web),也称为“隐藏网络”(Hidden Web)。

相比于浅网(Surface Web)中的页面和数据,深网的数据不对普通搜索引擎可见,需要使用特定的技术和工具才能访问和获取。

近年来,随着深度学习、自然语言处理、分布式计算等技术的发展,利用深度网络和机器学习技术来挖掘和整合深网数据逐渐成为热门研究领域。

然而,由于深网数据的分散性和异构性,如何进行数据集成是一个复杂的问题。

此外,由于深网数据的特殊性质,传统的数据集成方法不太适用,而基于结果模式的数据集成方法则可以有效地解决这一问题。

因此,本课题旨在通过研究基于结果模式的深网数据集成关键技术,构建一个高效、可扩展的深网数据集成系统,旨在进一步促进深网数据的智能化应用和发展。

二、研究内容和目标本研究将围绕以下内容展开:1. 深网数据集成技术的研究现状分析对当前深网数据集成技术的研究现状进行分析和总结,包括基于元数据的集成,基于模式匹配的集成,以及基于结果模式的集成等方法的优缺点比较。

2. 基于结果模式的深网数据集成算法设计针对深网数据的异构性和分散性,设计一种基于结果模式的数据集成算法,并研究其实现方法和关键技术,如结果匹配、结果合并和结果去重等。

3. 基于结果模式的深网数据集成系统实现根据设计的算法和关键技术,实现一个高效、可扩展的深网数据集成系统。

该系统应具有数据抽取和集成、数据归一化和整理、数据存储和索引、以及用户查询和显示等核心功能,并能与其他系统集成。

4. 系统性能测试和优化进行系统性能的测试和评估,包括对系统的准确性、可靠性、响应速度和扩展性等方面进行测试,并进行相应的系统优化和改进。

三、研究方法和技术路线本研究将采用以下方法和技术:1. 文献研究法通过查阅相关文献和研究报告,深入分析深网数据集成技术的研究现状和发展趋势,以及已有研究的优缺点和不足之处。

基于DOM的Deep Web查询接口属性抽取方法

基于DOM的Deep Web查询接口属性抽取方法
E2节点路径:
path2=/form/div[2]/div[3]/div[1]/div[2]/div[1]/div[2]/input。
E3节点路径:
path3=/form/div[2]/div[4]/div[2]/select。
定义4 步径指链接组成节点路径的形如“/xx”的部分,如/div[1]。
1 属性抽取相关概念
查询接口一般指可以填写和提交查询的、能够访问Deep Web网络数据库的Form 表单(简称表单),它是获取Deep Web信息的通道。图1所示是一个查询接口的界面,接口表单中所包含的所有用户看得见的用以与Web服务器交互的控件、功能控件和一些文本信息等,即表单元素。
图1 中国东方航空机票查询接口Fig.1 Query interface of airfare on China Eastern Airlines website
【中图分类】TP391.1
Web分为Surface Web和Deep Web。Deep Web又称深网,主要指深藏于网络数据库(WDB),只能通过动态网页技术访问的Web资源集合[1],其所蕴涵的信息量是Surface Web的500倍左右[2],而且仍以惊人的速度增长。为此,Deep Web信息获取及集成成为当前网络信息处理领域的研究热点问题之一。
ComPath=VoteCommonPath(Paths)。
步骤3:获取元素分歧路径:
1)创建一个Hash表用以存放分歧路径聚簇对_hashtab;
2)使用元素节点路径集与公共路径创建分歧路径DisPath;
3)创建分歧路劲对应的聚簇C,tab=〈DisPath,C〉,把tab存放入_hashtab;
定义5 节点公共路径是指2个元素节点路径之间存在位于根步径到开始出现分歧的步径之间的公共部分。例如,上述元素E1和E2的节点路径存在的公共部分/form/div[2]/div[3]/div[1]。

基于Deep Web检索的查询结果处理技术的应用

基于Deep Web检索的查询结果处理技术的应用

基于Deep Web检索的查询结果处理技术的应用
周二虎;张水平;胡洋
【期刊名称】《计算机工程与设计》
【年(卷),期】2010(031)001
【摘要】针对当前Deep Web信息检索中Web数据库返回的查询结果页面内容多样、形式各异、有效信息难以提取等不足,将信息抽取与数据融合技术加以改进,
提出了对查询结果页面进行处理的技术.该技术通过对HTML页面解析、信息过滤、分块、剪枝、提取抽取规则,实现了有效信息的自动抽取.通过建立合并规则、去重
规则、清洗规则,实现了数据的有效融合,并最终以统一的模式进行存储.最后,通过相关项目应用,验证了该技术的有效性和实用性.
【总页数】4页(P106-109)
【作者】周二虎;张水平;胡洋
【作者单位】空军工程大学,电讯工程学院,陕西,西安,710077;空军工程大学,电讯工程学院,陕西,西安,710077;空军工程大学,电讯工程学院,陕西,西安,710077
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于矩阵分解的Deep Web查询接口相似性研究 [J], 景永霞;苟和平;刘强;
2.基于 XML Schema的 Deep Web 查询接口分类研究 [J], 苟和平;景永霞;吴多

3.基于矩阵分解的Deep Web查询接口相似性研究 [J], 景永霞;苟和平;刘强
4.一种基于XML分析的Deep Web查询接口分类研究 [J], 苟和平;景永霞;刘强
5.基于最小可查询模式的Deep Web查询 [J], 刘均;蒋路;吴朝晖;郑庆华;潘军因版权原因,仅展示原文概要,查看原文内容请购买。

基于语义支持的Deep Web数据抽取

基于语义支持的Deep Web数据抽取

基于语义支持的Deep Web数据抽取
高明;王继成;李江峰
【期刊名称】《计算机科学》
【年(卷),期】2010(037)003
【摘要】在分析DeepWeb查询实现机制的基础上,给出了在语义本体的支持下,通过机器学习来实现自动填充查询接口,以实现自动数据抽取的算法:构造二维表,表的列为通过Deepweb查询接口页面提取到的各个控件,通过为各控件赋值的方式来为表中添加相应的元组,根据返回结果的情况,即数据抽取成功或抽取失败,作为指导进行分类学习,最终依照学习的结果来自动构造请求字符串完成数据的抽取.实验表明算法具有较好的效果.
【总页数】4页(P156-158,174)
【作者】高明;王继成;李江峰
【作者单位】同济大学电子与信息工程学院,上海,201804;同济大学电子与信息工程学院,上海,201804;同济大学电子与信息工程学院,上海,201804
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于云计算面向网络舆情的Deep Web数据抽取关键技术研究 [J], 陈巧;丁卫泽;施佺
2.基于结果模式的Deep Web数据抽取 [J], 马安香;张斌;高克宁;齐鹏;张引
3.基于本体和语义相似度的Deep Web数据源发现技术 [J], 卓林
4.基于CPN网络的Deep Web数据语义标注 [J], 马安香;高克宁;张晓红;张斌
5.基于语义相似度计算的Deep Web数据库查询 [J], 夏海峰;陈军华
因版权原因,仅展示原文概要,查看原文内容请购买。

基于本体的Deep Web查询接口分类

基于本体的Deep Web查询接口分类

基于本体的Deep Web查询接口分类
徐和祥;王述云;胡运发
【期刊名称】《小型微型计算机系统》
【年(卷),期】2008(29)10
【摘要】目前对于分类问题,主要工作集中在文本或Web文档的分类研究,而很少有对deep Web查询接口的分类研究.deep Web源包括查询接口和查询结果,大量的deep Web源的存在,对它们查询接口的分类是通向deep Web分类集成和检索的关键步骤.本分提出一种deep Web本体分类方法,包括:分类本体的概念模型和由此产生的deep Web空间向量模型(VSM).试验表明,这种分类方法具有良好的分类效果,平均准确率达到91.6%,平均查全率达到92.4%.
【总页数】4页(P1889-1892)
【作者】徐和祥;王述云;胡运发
【作者单位】复旦大学,计算机与信息技术系,上海,200433;复旦大学,计算机与信息技术系,上海,200433;复旦大学,计算机与信息技术系,上海,200433
【正文语种】中文
【中图分类】TP181
【相关文献】
1.基于本体的 Deep Web 查询接口语义扩展 [J], 田祎;刘爱军;李巍
2.基于本体的Deep Web查询接口集成 [J], 王英;左祥麟;左万利;王鑫
3.基于查询接口文本VSM的Deep Web数据源分类 [J], 石龙;强保华;谌超;吴春

4.基于 XML Schema的 Deep Web 查询接口分类研究 [J], 苟和平;景永霞;吴多智
5.一种基于XML分析的Deep Web查询接口分类研究 [J], 苟和平;景永霞;刘强因版权原因,仅展示原文概要,查看原文内容请购买。

Deep Web数据抽取及集成技术研究的开题报告

Deep Web数据抽取及集成技术研究的开题报告

Deep Web数据抽取及集成技术研究的开题报告一、研究背景随着互联网的普及,人们越来越依赖于互联网进行信息获取。

然而,对于企业、学术机构等组织来说,所需要的信息往往并不仅仅局限于公开的信息,更需要从深网中获取所需的数据。

深网,指的是隐藏在互联网之下,无法通过传统的搜索引擎所搜到的网页或数据。

深网中存储的数据通常是高质量、高价值的数据,对于组织的决策和研究具有重要意义。

然而,由于深网中的数据并非公开的,因此获取这些数据的成本相对较高,需要一定的技术手段才能够实现。

当前,深网数据的获取方法主要有两种,一种是使用网络爬虫对深网进行抓取,另一种是通过采购数据来获取。

然而,网络爬虫所能够获取的深网数据通常非常有限,因为大部分深网数据都是隐藏在动态网页中的,难以被爬虫获取。

而采购数据则需要支付高昂的费用,且所获取的数据可能并不完整或准确。

因此,如何更有效地从深网中获取所需的数据,成为了一个研究热点。

数据抽取及集成技术可以帮助我们解决这个问题,它可以自动地从深网中提取目标数据,并将其集成到我们需要的数据中,为组织的决策和研究提供支持。

二、研究内容本研究旨在探究深网数据抽取及集成技术的实现方法,并对其进行优化,以提高深网数据的获取效率和准确性。

具体来说,本研究的研究内容包括以下方面:1.深网数据的来源分析:本研究将分析深网中数据的来源,了解深网中数据的分布和组成,为后续的数据抽取和集成打下基础。

2.数据抽取技术的研究:本研究将探究数据抽取技术的实现方法,包括静态网页数据抽取和动态网页数据抽取。

静态网页数据抽取主要涉及到HTML解析和正则表达式匹配;动态网页数据抽取则需要使用模拟浏览器或JavaScript引擎,以模拟用户的操作获取动态网页中的数据。

3.数据集成技术的研究:本研究将探究数据集成的实现方法,包括数据格式转换、数据清洗和数据融合等技术。

数据格式转换主要是将不同格式的数据转换为统一的格式;数据清洗则是针对数据中的噪声和错误进行处理;数据融合则是将来自不同数据源的数据整合在一起,以得到更完整、准确的数据。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息科学
SI L I C O N
L LE Y■_g
基于D e ep W eb数据查询接11的抽取与集成
刘超1刘妍2
(1.九江学院信息技术中心江西九江332005:2.九江学院信息科学与技术学院江西九江332005)
【摘要】针对D eep w eb数据集成系统架构,对其中关键的接口的抽取与集成提出思路.[关键词]D eep w eb查询接口抽取集成
中图分类号:T P3文献标识码:^文章编号:1671—7597(2008)i210040-01
根据数据的分布状况,W eb数据可以分为:Sur f ac e W e b和D eep W eb。

Sur f ace W e b是指可以通过超链接或者传统网页搜索引擎访问到的网页、文件等资源,它一般以静态网页构成为主;而D ee p W eb可以简单的概述为那些难以通过普通搜索引擎发现的资源的集合。

主要包括存储在W e b数据库里大量资源,需要通过动态网页技术才能访问。

D e ep W eb后台的数据库一般为结构化的关系数据库.质量都比较高,因此通过D ee pW eb的数据集成来更有效地利用D eep W eb丰富的数据是十分有意义的。

在Deep w eb数据集成系统中,主要有以下3个步骤:(1)发现D e ep-eb;
(2)查询接口抽取与集成;(3)结果抽取与整合.其中查询接口抽取与集成是
关键步骤,本文就此提出思路。

用户通过查询接口来获得D e ep W eb的数据信息,一个查询接I Z::l物理上通常包括一些HT M L元素,比如:Text b ox,But t o n,Check box,R ad i o等等,还包括一些有语义的文本标签,而在逻辑上,一个查询接口包括了很多的逻辑属性值,如“淘宝”查洵接口就包括了“关键”、“类别”等属性;而每个不同的逻辑属性又包括了一些特定的元数据信息,比如:属性名称、数据类型、数据范围、数据单位、默认值、查询条件等,如“拍拍网”的。

价格范围”属性就包括了这些元数据信息:名称一价格,数据类型一货币,单位一元,查询条件~最大与最小范围查询等等。

我们把接口的逻辑形式称为接口模式.
从不同的接口模式中抽取出特定的逻辑属性,并根据相关性把他们集合成为一个通用的逻辑属性,这是查询接口抽取的主要目的,而通过对通用逻辑属性的集成,将得到一个统一的查询接口.
.一、童囊接口的抽一
一个接口模式的逻辑属性可以用一组特定的元数据信息来确定,而这些信息都是分散在接口的物理元素中的,因此有必要通过搜寻这些元数据信息,对某个逻辑属性进行确切的定义,从而准确地表达这个接口模式。

在抽取查询接口的过程中。

引入了接口表达式的概念,通过对接口表达式的改进,可以很方便地完成对接口模式的抽取.如淘宝网查洵接口的接口表达式为:I{T E T T E E EE T E T E T E I髓}其中:。

T”(T ex t—l abel)代表接口中的文字标签,。

E”(El em e nt)代表接口中的H T札元素,但不包括按钮,按钮用。

B”(B u t t on)来表示,“I”表示表格的一行或者换行符号。

接口表达式可以对网络中大部分查洵接口做出形象的描述,它对我们下一步接口抽取起着重要的作用。

通过对接口表达式的分析抽取.可以得到该接口模式的逻辑属性,下面给出了2种抽取方法:
(一)基于T(文本标签)的抽取方法(T e xt-I abeI base d.简称TB)
对于一个接口模式,找到其中的所有文本标签并逐个进行如F分析:在某个标签T l的同一行或者下面临近行中往下找寻与之相邻的H'I Z也元素(E),直到另一个文本标签T2为止:把这些E与T l合并成一组进行启发式的分析(比如比较文本标签与H T M L元素的名称),将不匹配的E抛弃;如果最终没有任何E与Tl匹配,那么T l将被抛弃,否则T l和与其相匹配的{E t l,E l z.E l r}构成一个逻辑属性^I。

(二)基于E(H Tt元素)的抽取法(EI em ent based。

简称臼)
该法与上述法刚好相反,首先找到E-,然后往上找寻T,进行启发式分析,如果匹配则停止找寻并将他们合并逻辑属性^1,否则继续往上找寻T,直到另一个E2。

通过以上方法对接口的逻辑属性进行抽取后,通过进一步分析,可以把一个逻辑属性表示为:A[N am e,T y pe,R an ge,L ayo ut…],其元信息包括属性名称、数据类型、值域、捧列位置等等。

于是,一个查询接口经过抽取和分析后可以形象地表示为:I{A l,^2,A s。

…,A n),Ai代表接口的若干逻辑属性。

=、童■接口的集成
对于查询接口的集成有2个步骤:首先将不同接口中的特定逻辑属性集成为通用的逻辑属性:然后将这些通用的逻辑属性集成为一个统一的接口。

在不同的查询接口中,语义相似或相同的属性可能会被表示成不同的模式.比如不同的文字标签,不同的H T M L元素格式,不同的排列布局等等。

为了得到通用属性,本文提出了2种集成的思路:(1)基于本体知识相关库的集成,通过建立知识相关库。

对文本标签、属性名称进行相关性判断,然后集成.这种方法的结果比较准确,但成功率不高,容易造成资源浪费。

(2)基于属性模式的集成,通过对不同接口的逻辑属性A i[N am e,T ype,R a nge,L ayo ut.]中的元信息(名称、类型、值域、捧列位置等)进行语义关系分析、模式匹配,然后确定出不同属性问的相似度,最后根据相似度进行集成.这种方法的效率和成功率都较高,准确率也比较乐观。

在通用属性的集成过程中,需要增一个重要的元信息:集成度.通用属性的集成度是对所有被集成的逻辑属性的量化反映,另外我们还需要建立每个逻辑属性到该通用属性的映射信息(域名、名称等)。

流程如下:w hi l e(C a nB eI n t egr a t ed(At,A i))//判断逻辑属性A i是否能集成通用属性A t
{A t=I n t egr at or(A t,A i);//集成A i到A t
A t.i nt egr a ti on++://A t的集成度加1A t.
m appi ng=M appi ng(A t,A i)://建立^t到A i的映射信息
i++:j//循环判断下一个逻辑属性)
通过以上对通用属性的集成,可以很方便地得到统一接口.将集成度>n的通用属性挑选出来作为该统一接口的逻辑属性,并根据它的映射信息得到该属性与其他接口的关系.最后根据各个通用属性的排列位置元信息对该属性进行位置捧列.
三、结柬膏
本文针对D e ep W eb数据集成其中的关键问题“接口的抽取与集成”进行了讨论.提出了自己的解决思路。

随着互联网技术的不断发展,网络中W e b数据库的数目不断增加。

近几年来,国内外专家在这个领域中做了大量的工作,但是关于D e ep W eb的研究仍处于起步阶段,后续还有许多闯题需要我们更深入的研究,比如D e ep W eb多数据源的聚类与分类等等.
◆考文献:。

[I]B er gm an V.T he dee p w eb:Sur f aci ng hi dden val ue[J].Jour nal of E l ect roni c Pub l i s hi ng,2001.7(1).
[2】赵乃真,电子商务网站建设实例.北京:清华大学出版社,2005:61.。

相关文档
最新文档