Deep Web框架结构和关键技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Part Two
1、深网的关键技术
Deep Web蕴含着着大量的信息,但由于受限于传统搜索引擎的限制, 用户想通过较为直接的方法获得Deep Web的数据一直受限。为了从大规 模、动态Deep Web中准确获取用户所需要的信息,研究者展开了Deep Web数据集成方面的研究,到目前已经逐渐成为数据库领域的一个研究热 点。 ※ Deep Web数据集成 在06年,我国的学者发表文章, 提出了Deep Web数据集成框架,该 框架共分为三个主要的模块: (1)查询接口集成模块 (2)查询处理模块 (3)查询结果处理模块
※获取实时数据问题 Deep Web中存在着一些实时更新的数据,如天气预报,列车时刻 表等实时更新的数据,搜索引擎抓取的频率很难跟上更新频率。但是用 户总是需要最新的数据,存在着供求问题。
(2)中国深网的规模 由前面的分析可知,几乎所有的Web数 据库可以在站点的前3层找到。对一百万个 IP样本进行深度为3的爬行,共发现2,837 个Web Server,其中有302个Deep Web站点。 由此通过Ip数量样本和我国大陆IPv4的地址 总数估算我国共有的Deep Web站点数。 (3)Deep Web的数据库领域分布 在查询接口集成模块曾经指出,为例使 得查询出来的结果能够更加清晰,更能合理 地把结果返回给用户。由此可以把Web数据 库按领域分类,可以分成:计算机与英特网, 教育,人文与艺术,商业与经济,社会科学 等11个领域。 由右图不但可以看出,Deep Web的数 据库领域分布的多样性,而且在商业领域和 非商业领域的分布大致相等。
(3)基于Semantic Web架构的Deep Web搜索引擎 这里主要引用的是蒋运承老师所带的学生的两篇硕士毕业论文,一 是基于本体的Deep Web语义搜索引擎,二是基于本体的旅游领域Deep Web查询接口集成。 通过对Deep Web查询接口进行元数据提取,将查询接口看作后台数 据库的元模式,利用元数据描述语言RDF对查询接口进行RDF描述,然后 结合领域本体对查询接口的RDF元数据进行RDF检索,从而实现查询接口 的语义搜索。 其实还有更多…例如基于神经网络的Deep Web数据合并技术等等。
2、Deep Web 发展中的一些问题
任何事物的发展都具有两面性,Deep Web也不例外...... ※访问的速度问题 不同于传统的搜索引擎,有缓存,容易受制于其他因素,如数据 库分类不精确,网络问题等。 ※数据库性能问题
这里涉及到数据库的选择问题,数据库 性能涉及到内容的相关性, 访问的代价,运转性能和数据质量等,因此Deep Web要对数据库的性 能作出评价。
Web数据库的选 择
查询转换 查询提交
(3)查询结果处理模块
查询结果处理就是抽取各Deep Web数据库的返回结果,并将它们 进行语义标注、除重和合并,以统一的视图、统一的排序返回给用户。
结果的抽取
结果的注释
结果的合并
※整合后理想的模型
2、中国的深网现状
本部分主要是介绍中国目前深网的一些现状,在07年我国学者针对中 文Deep Web进行了研究,通过IP取样分析,对Deep Web站点进行了分 析统计,并以此为依据对中国Deep Web的规模、分布和结构进行评估。 (1)查询接口的深度 查询接口的深度为从根页面到查询接 口所在页面的最短路径。为了获取Web 数据库,必须先获取其查询接口。查询 接口在站点内哪一层页面中出现,也就 是查询接口的深度是多少。 观察发现查询接口一般存在于站点的 浅层, 如右图所示,在79个查询接口中 没有一个深度超过5,而且大部分查询接 口的深度不超过3。
调查结果显示,Google索引了50%的Deep Web页面,Yahoo总 的覆盖率为59%。
Part Three
1、Deep Web的发展前沿
至今,虽然国外的一些学者提出了一些关于Deep Web数据集成系统, 但它们只是属于研究性的原型系统,因此确切地说至今还没有一个真正可以 作为实际应用的Deep Web数据集成系统。 (1)在接口发现方面 JARED Cope等人提出了一种基于查询接口的特征,利用C4.5决策树算法 自动发现Web查询接口的方法。 高岭等人提出了一种基于页面自身特征,利用 朴素贝叶斯分类算法自动判定网页表单是否为Deep Web查询接口的方法。 还有基于启发式的接口发现等。 (2)在数据库分类方面 李三义等人提出的基于模型匹配的Deep Web数据库分类 ,通过分析网 页结构,根据标记之间的深度特征来自动抽取查询接口的特征词,进而形成特征 向量。同时采用一种新的向量模型来构建一个数据库查询接口,然后利用模型 匹配的分类方法按深度遍历的顺序对其进行分类。
2、Deep Web所包含的内容
传统认为,深网就是传统搜索引擎搜索不 到的网络信息 未被链接的网页,动态生成的网页,受 限制的内容,非网页文件,实时数据等 等
3、Deep Web的特点
2000年7月,Bright planet公司对Deep Web做了一个全面的调查研究, 并发布了Deep web白皮书,调查的主要结果是: 1、Deep Web信息大约是Surface Web信息的400到500倍,Deep Web信息 容量大约为7500T,而Surface Web信息大约为19T; 2、互联网中约有5500亿的Deep Web页面,而Surface Web页面仅10亿左 右; 3、60个最大的Web数据库所包含的信息就近750T,仅此就超过Surface web页面40倍; 4、平均来说,Deep Web信息的访问量超过Surface Web的15%,同时也被 更多的站点所链接。然而,Deep Web却不被传统Internet搜索引擎所检索; 还有更多…. 据美国伊利诺伊大学厄巴纳香槟分校(UIUC)在2004年对整个Deep Web的估算表明:整个互联网中大约有307000网站提供了约450000个Web 数据库,在2000年所估计的数目在4年内增长了3到7倍。
采样结果 Deep Web 站点 Web数据库 ---结构化 ---非结构化 查询接口 302 360 130 230 741 总量统计 24000 28000 10000 18000 74000
(4)搜索引擎对Deep Web的覆盖率 前文提到,传统的搜索引擎不 能很好地收录Deep Web的数据, 对此,学者调查了主要搜索引擎 对Deep Web数据的覆盖情况, 调查中选择了增长速度快!
4、深网的分析过程
深网的限定、深网数量的估计、深网的容量分析、内容分布和类型分析 页面扫描和链接分析、增长分析、质量分析
※深网的数量估计
深网容量的估计使用了一种比较基本的技 术,称作重叠分析法(Overlap Analysis) 如右图,首先设N为深网的总体数量,然 后部署两台随机的、独立的、互不干扰的 搜索引擎。假设我们在搜索引擎一中找到 了na数量的深网页面,在搜索引擎二中找 到了nb数量的深网页面,其中重叠部分为 n0,由此我们可以估计总的数量N为 N=na*nb/n0。 不足:实际的应用中,由于深网的数量巨大,内容之间的关联性强,所以在以上 独立性假设是不现实的。因重叠分析法也只能够指出了深网数量的下界(lower bound)。
(1)查询接口集成模块
所谓查询接口的集成是在多个Deep Web数据库的基础上构造统 一的查询界面,尤其对于不同类型、大规模、异构的Web数据库。
Web数据库的 发现 查询接口模式 的抽取 基于领域Web 数据库的分类 查询接口集成
(2)查询处理模块
查询处理模块,主要完成的是当用户在集成查询接口上填写并提交查 询时,同时从多个Web数据库中获取符合该查询的果,并把这些异构的数 据以统一的模式存储或展现。
Deep Web
框架结构和关键技术
报告的目的
1、让大家了解什么是Deep Web以及它的一些特点
2、Deep Web的关键技术
3、中国Deep Web 的现状 4、Deep Web 的发展前沿
5、Deep Web发展中的一些问题
Par国学者Dr.Jill Ellsworth首先使用“看不见的网络”(Invisible Web) 这个词来指通过传统搜索引擎搜索不到的网络信息。国外的学者认为使用 Invisible Web这个词是不准确的,因为通过对数据库提问就能检索出这些信息,这 些信息就变得可见所以他们就提出了深网(Deep Web)和表面网(Surface Web)的 概念。
相关文档
最新文档