如何通过垂直搜索引擎构建自己的学术搜索引擎

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

如何通过垂直搜索引擎构建自己的学术搜索引擎
课题背景
随着因特网的发展，网上信息资源日益丰富且呈现出以下特点：
(1)信息量大而且分散；
(2)自治性强；
(3)信息资源多种多样；(4)不一致和不完整性。

这些给信息挖掘带来了挑战。

一方面使其实用性不断加强，越术越多的人从网上获取信息：
另一方面，人们经常会感到通过一般的搜索引擎难以找到自己想要的信息，对于具体专业或某一领域的内容尤其如此，如学术文献. 所以，要从Internet上获取有价值的专业信息，就必须有专门的搜索引擎来获取专业性的信息。

垂直搜索引擎是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。

垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式，通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。

其特点就是“专、精、深”，且具有行业色彩，相比较通用搜索引擎的海量信息无序化，垂直搜索引擎则显得更加专注、具体和深入。

学术搜索引擎
学术搜索引擎顾名思义就是搜索学术资源的引擎，资源以学术论文、国际会议、权威期刊、学者为主，随着新一代搜索引擎的快速发展，学术搜索引擎应具备个性化、智能化、数据挖掘分析、学术圈等特色。

2．3垂直搜索引擎的结构
本文根据常用的搜索结构，
有机地将分类目录式搜索引擎和基于查询串的搜索引擎结合起来，设计了一个垂直搜索引擎的体系结构，如图所示。

其各部分功能简述如下：
l、爬虫软件：也称为spider，crawler和robot等，定向搜索各类信息前
十名的网站，并负责将这些Web文档搜集到原始数据库中。

2、索引器：负责对原始数据库的文档构造索引，并且存储在索引数据库中。

索引是检索的有利工具，好的索引机制会导致检索效率的提高。

3、检索器：是垂直搜索引擎的核心。

检索器利用索引数据库中的索引来查
找与用户查询相匹配的文档，计算各个文档和查询关键词的相关度，并将相关度大于阈值的文档按照相关度递减的顺序排列，返回给用户。

4、用户接口：提供可视化的查询输入和结果输出界面。

一般来说，在输出
界面中，垂直搜索引擎将检索结果展示为一个线形的文档列表，其中包含了文档的标题和超链等信息。

从图可以看出：垂直搜索引擎系统包括搜集子系统、索引子系统和检索
子系统三个组成部分。

2．3．1搜集子系统
搜集子系统的功能是在互联网中漫游、发现和搜集信息。

它常常是一个计算
机程序(也称为spider，crawler和robot等)，日夜不停地运行。

它要尽可能多、尽可能快地搜集各种类型的新信息，同时因为互联网上信息更新很快，所以还要定期访问已经搜集过的旧信息，以避免死链接和无效链接。

由于互联网中存在海量信息而且复杂多变，Web搜集器的实现常常采用分布式、并行计算技术，以提高信息发现和更新速度。

本文设计的web搜集器能够根据某一类信息需求，从互联网上的各个信息网
站(主要是独立制作发布信息的网站)，收集围绕着某个(或某类)主题的相关信息资料。

它是垂直搜索引擎的核心部分．
2．3．2索引子系统
索引予系统包括索引器和索引数据库。

索引器将原始数据库的内容重新组织，建立索引数据库，以提高检索效率．索引子系统如图2—7所示。

索引予系统的第一步就是为原始网页建立索引，实现图2-7中索引网页库；
接下来对索引网页库进行分析，它包括提取正文信息和把正文信息切分为索引项两个阶段；最后将网页到索引项的映射转化为索引项到网页的映射，形成倒排文件(包括倒排表和索引项表)，同时将网页中包含的不重复的索引项汇聚成索引项表。

2．3．2．1索引网页库
索引网页库的任务就是完成给定一个URL，在原始网页库中定位到该URL所
指向的记录旧。

如果不对网页库建立索引信息，可以通过顺序查找的方法完成URL到指定记
录的过程，但是会消耗大量的I／O，数据量增大的时候不能满足垂直搜索引擎的快速响应要求，所以需要创建索引。

对原始网页集R，索引网页库算法描述如图2—8所示。

网页索引文件以ISAM(索引顺序访问模式)存储。

这种结构可以保证数据
的紧凑性和O(1)的检索能力。

为节省空间，索引文件中的每一行记录不保存文档的长度，因为文档长度可以通过后续文档起始位置偏移和当前文档起始位置偏移的差获得。

URL索引文件以ISAM存储，包含了URL的摘要和文档编号。

为了能够快速
地给指定的URL找到对应的文档编号，URL索引文件按照URL摘要排序，这样就
可以根据二分查找算法在URL索引文件中查找到对应的文档编号。

2．3．2．2分析网页
分析网页包括提取正文信息和把正文信息切分为索引项两个阶段。

形成的结
果是文档号到索引项的对应关系表。

每条记录中包括文档编号，索引项编号，索引项在文档中的位置信息。

提取正文信息是本文研究的重点之一，垂直搜索引擎采用的是基于语法的信
息抽取技术，详细内容将在第三章介绍。

得到网页正文信息，调用分词程序，获得正向索引。

垂直搜索引擎采用的分
词算法——全二分最大匹配快速分词算法将在第五章详细介绍。

2．3．2．3建立倒排文件
垂直搜索引擎面临大量的用户检索请求(几十～几千点击／秒)，要求垂直搜
索引擎在检索程序的设计上要高效，尽可能地将大运算量的工作在索引建立时完成，使检索时的运算尽量的少。

一般的数据库系统不能快速响应如此大量的用户请求，本文采用倒排索引技术。

创建倒排索引包括建立正向索引和反向索引。

分析完网页后，得到以网页编
号为主键的正向索引表。

当索引建立完成后，得到索引项到网页的编号的反向索引。

这是一个表的重组的过程。

倒排文件机制是一种面向索引项的机制，利用它可以提高检索速度。

倒排文
件结构由索引项和索引项出现情况两部分组成。

对于每个索引项，都必须有一个列表(称为词汇表)来记录索引项在所有文本中出现的位置。

2．3．3检索子系统
检索子系统包括检索器和用户接口。

用户接口在接收用户的查询请求后，将
它转发给检索器，检索器根据查询项和索引数据库的内容，找到匹配的网页后，进行排序，然后通过用户接口返回给用户。

2．4本章小结
本章首先介绍基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结
构，然后在此基础上，设计了垂直搜索引擎的系统结构，并介绍了各部分应完成的工作。

其中涉及的关键技术：Web搜集器、信息抽取技术、中文分词和检索技术方面的内容。