垂直搜索引擎技术指标
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
垂直搜索引擎技术指标
一、什么是垂直搜索
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
二、垂直搜索技术概述
垂直搜索技术主要分为两个层次:模板级和网页库级。
模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。
网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的网页进信息采集信息抽取……。这就导致这种方式数据容量上和模板方式有质的区别,但是其灵活性差、成本高。当然模板方式和网页库级的方式不是对立的,这两者对于垂直搜索引擎来说是相互补充的,因为技术只是手段,目的是切反用户之需。本文谈及的技术主要是指网页库级别垂直搜索引擎技术。下图为垂直搜索引擎结构的拓扑图。
三、垂直搜索引擎的主要技术指标
<1>、信息采集技术:
垂直搜索引擎spider和网页库的spider相比应该是更加专业,可定制化。可定向性的采集和垂直搜索范围相关的网页忽略不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页深度优先采集、对页面有选择的调整更新频率……,采集可通过人工设定网址和网页分析url方式共同进行。垂直搜索对信息的更新有着特别的要求,根据这些特点可以从以下几点考虑1.信息源的稳定性(不能让信息源网站感觉到spider的压力)2.抓取的成本问题3.对用户体验改善程度。根据以上几点制定一种比较好的策略,要做到恰到好处。策略上可以评估网站/网页更新的系数、网站/网页的重要系数、用户点击系数(或曝光系数)、网站稳定系数……,根据这些系数来确定对这些网站/网页更新的频率。再由于新信息和更新了的信息list页面前面或者首页,所以对网页进行很好的分级可以以低成本很好的解决更新问题,系数比较低的网页一月update一次,稍微高点的一周update一次、中等的几天到一天一次、高的几小时到几分钟一次。类似搜索引擎的大库、周库、日库,小时库……
聚焦、实时和可管理
一般互联网搜索面向全网信息,采集的范围广、数量大,但往往由于更新周期的要求,采集的深度或说层级比较浅,采集动态网页优先级比较低,因而被称为水平搜索。而垂直搜索带有专业性或行业性的需求和目标,所以只对局部来源的网页进行采集,采集的网页数量适中。但其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。在实际应用中,垂直搜索的网页采集技术能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加聚焦、纵深和可管控的需求,并且网页信息更新周期也更短,获取信息更及时。
一般信息采集软件(爬虫)的基本结构包含以下模块:
(1)保存种子的URL和待取的URL的数据结构。
(2)保存已抓取过的URL的数据结构,防止重复抓取。
(3)页面获取模块。
(4)对已经获取的页面内容的各个部分进行抽取的模块。
以下为其他可选模块:
(5)负责连接前处理模块
(6)负责连接后处理模块
(7)过滤器模块
(8)负责多线程模块
(9)负责分布式的模块
信息采集实质上也就是搜索引擎对页面的收录
页面收录-就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储的过程,为搜索引擎开展各项工作提供数据支持。(包括:域名列表、URL列表、网页快照页面)
1)页面收录方式:广度优先、深度优先、用户提交等三种方式。
广度优先–如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页面,直至抓取完同一层次上的所有页面后才进入下一层。因些,在对网站进行优化的时候,我们应该把网站中相对重要的信息展示在层次较浅的页面上(例如,在首页上推荐一些热门产品或者内容)。
如下图所示(广度优先抓取流程)。首先,搜索引擎从网站首页出发,抓取首页上所有链接指向的页面,形成页面集合(A),并解析出集合(A)中所有页面的链接;再跟踪这些链接抓取下一层的页面,形成集合(B)。递归地抓取完所有浅层页面,再进一步抓取深层页面。
深度优先–是一种纵向的页面抓取方式,首先抓取浅层页面中的某一个链接,然后顺着该链接进一步抓取该链接的下一层页面,直至抓取完最深层次的页面后才返回浅层页面再继续抓取。使用深度优先的抓取方式,搜索引擎就可以抓取到网站中较为隐蔽、冷门的页面,以满足更多用户的需求。
如下图2-3所示(深度优先抓取流程)。首先,搜索引擎从网站首页出发,提取首页中的所有链接;再沿着其中的一个链接抓取到页面1-1,同时提取页面1-1 中的所有链接;接着,沿着页面1-1中的一个链接A-1抓取到页面2-1,同时提取页面2-1中的所有链接;再沿着页面2-1中的一个链接B-1继续抓取更深一层的页面。递归地抓取到网站最深层次的页面,才返回首页继续抓取。