《面向领域的深层Web搜索技术研究与实现》论文摘要编写

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《面向领域的深层Web搜索技术研究与实现》论文摘要编

关键词:元数据;搜索引擎;检索模型;组织模型;模板;提取规则随着Internet规模的迅猛发展,web信息海量增加,用户要在浩瀚的信息海洋里找到准确的信息十分困难。

搜索引擎是随着网络信息的增长逐渐发展起来的技术,但是目前的网络搜索技术只是停留在互联网的表面,搜索的仅仅是通过超链接形成的网页,而有很多动态的、结构化的信息隐藏在深层的互联网中,是由存放在网络数据库中的数据通过特定程序的调用而实时生成的,需要有用户的直接请求才能动态地返回结果页面,在调用之前页面并不存在,所以传统的搜索引擎对这些深层信息无法搜索和分析。

而深层信息的数据富有潜在的价值,且增长速度比表层信息快的多,因此提出深层web信息搜索技术。

同时,传统搜索引擎都是基于关键字查找和全文的检索技术,返回的结果过于庞大,且很多都是无用的信息,用户很难从中挑选他们所需要的资源,如何针对各种领域的需要从网页中提取结构化信息也是目前深层Web搜索的热点技术。

本文首先介绍了深层信息搜索的概念及相关技术,以国家科技基础条件平台门户应用系统集成的五大子平台为研究对象,针对科技资源种类的多样性、数据的复杂性及其各子平台资源组织方式的不同,研究Web深层信息搜索和信息提取技术,提出了Web信息组织模型和相应的检索模型,设计了深层Web搜索系统框架,通过对子平台科技资源的深层搜索及网页结构化信息的提取,实现了科技资源元数据的获取,并为用户提供了Web查询界面。

本文主要的工作和取得的成果包括:研究与分析了深层信息搜索的原理和相关技术,通过对子平台网页结构的分析,提出了多种web信息组织模型,且模型具有一般性,同时支持对更多网站的深层信息搜索。

根据不同的web信息组织模型设计了相应的信息检索模型,实现对不同类型网站信息的检索和信息获取。

基于正则表达式的结构化信息提取方法,通过分析网页结构,从网页中提取元数据信息,能够对名称,标题等属性信息进行正确的筛选,提高总体的查准率,方便快速。

深层web信息搜索系统的实
— 1/2 —
— 1/2 —
现,结果和性能测试,并集成到科技门户应用系统中。

综合以上方法和技术,设计并实现了深层web信息搜索系统。

并在门户网站的搜索系统中进行了大量的实验和测试,分析验证了本系统的正确性和有效性,满足深层web信息搜索的实际需求,搜索的结果准确性较高。

— 2/2 —。

相关文档
最新文档