全文检索技术在网络发布系统中的研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

研究·网络与传播72
1 .引言
全文检索技术能有效地管理大量的非结构化数据,这是关系型数据库技术所不能比拟的,尤其在网络发达的今天,各种类型的门户发布网站功能日益强大,非结构化的数据量也大量增加,再用以往的关系型数据库已不能有效地、快速的提供服务,必须使用全文检索技术来管理这些数据以及提供服务支持。

在使用全文检索系统前,需要对非结构化数据的先进处理技术,特别是自然语言的处理技术。

在检索平台领域中,以拓尔思公司的相关技术和产品,构建整个的智能检索平台,在全文检索、文本挖掘等非结构化信息处理领域有深厚的技术积累,其技术实现和产品应用一直处于行业领先地位。

2. 搜索集群
采用搜索集群技术,构建多级集群体系。

满足搜索引擎高并发、高可用的检索服务。

采用搜索集群可以实现以下目标:
2.1 实现海量数据的无限扩展。

2.2 实现高并发用户的高性能访问。

2.3 实现高可靠性的检索服务(无单点故障)。

2.4 实现本地管理(Manage Locally)和联邦检索(Federated Search)。

2.5实现对检索服务器硬件资源的合理分配与调度。

2.6 实现对全文检索服务器的灵活扩展,以及索引数据的自动均衡。

3.基本搜索服务功能
基本搜索服务功能是以关键词检索为主的全文检索,在本系统中主要
通过TRS全文检索系列的产品来实现。

首先,在底层的数据存储中,通
过TRS 全文数据库实现对检索数据的
全文索引分析和存储,从而为关键词
检索提供底层支撑。

而用户的检索请
求与交互则由TRS检索应用系统,通
过提供简洁易用的检索界面,获取用
户的检索请求,再将检索请求通过检
索接口提交到TRS全文数据库中,由
TRS数据库返回相应的检索结果,最
终呈现到页面上。

基本搜索服务中实现的具体功能
如下:
3.1相关度排序技术
搜索结果的相关度排序技术,是
搜索引擎的核心技术之一。

目前在
搜索结果排序方面有影响力的方法
主要有空间向量模型、网页权重和
最新微软提出的BrowseRank三种。

TRS全文数据库的排序技术方案是
综合利用这三种算法,获得较优的
排序结果。

3.2空间向量模型
传统IR技术中判断查询条件与文
档的内容相关性,最为通用的方法是
采用空间向量模型(VSM)进行计算。

V(d)=(t1,ω1(d);…;tn,
ωn(d)),其中ω1(d),ω2(d),…,
ωn(d)分别代表文档d特征项t1,t2,
…,tn的特征项权重。

如果存在两个特征向量,显然可
以采用两个向量的余弦函数作为它们
的相似度
这个就是著名的tf-idf公式,其中
N为所有文档的数目,ni为含有词条ti
的文档数目。

通过这个公式,可以计
算查询词与文档内容的相关度。

3.3网页权重
目前搜索引擎判断网页权重的一
个重要方法是使用超链接分析。

Google
使用PageRank算法进行网页权重判断,
由于PageRank在网页相关性排序方面
表现出来的良好效果,使得它成为搜
索引擎发展过程中具有里程碑意义的
算法,基本算法被主流搜索引擎普遍
采用,只是各家搜索引擎在计算时所
采用的计算参数有所差异。

PageRank方法根据链接分析算法
来确定网页的相对重要性,链接到某
网页的链接越多,则权重值越高。


之类似,在网页链接图中,从网页A
到网页B 的一条链接被认为是网页A
的作者对B 的一次推荐。

由于科学文
献都是经过严格评审的,质量有一定
的保证,所以可以通过简单的引用计
数来大致评价文献的价值。

而网页的
质量参差不齐,入度高的网页不一定
具有高质量,一个人就能通过作弊的
方法轻易地造出入度很高的网页;
它的计算式如下:
全文检索技术在网络发布系统中的研究
摘 要:在现代的网络发布系统中,检索功能的好坏成了关键,直接影响到用户的使用感受,是否成为合同用户,关键看检索结果的友好性,能否根据用户提供的检索条件检出合适的结果等等因素,都成设计者考虑的内容。

本文主要研TRS全文检索技术在有关网络发布系统中的应用,包括构建集群集群,优化检索结果集等,以便为今后搭建更加友好的发布系统打下基础。

关键词:TRS;全文检索;向量模型
中图分类号:TP37 文献标识码:A
■文/
薛海清
其中,false代表第j个网页的权值;
false只取0、1值,代表从网页i到网
页j是否存在链接;false代表网页i有
多少个连向其他网页的链接;d代表“随
机冲浪”中沿着链接访问网页的平均
次数。

选择合适的初始数值,递归的
73网络与传播·研究
使用上述公式,即可得到理想的网页权值。

3.4 BrowseRank
最新的研究表明,微软和一些亚洲研究机构一起提出新的搜索引擎Web页面等级排序方法BrowseRank,该方法在评定页面重要性中增加了“人为因素”,就是根据用户实际浏览行为对网页进行权重分级。

页面被用户访问次数越多,用户在该页面上花的时间越多,则该页面的权重值就越高。

页面的PageRank排名很高,这是由于数以万计的站点链接到来下载Acrobat Reader和Flash Player。

然而,用户并不实际经常访问Adobe的页面,所以不能把其重要性排在那些用户经常访问的站点比如和前面。

微软指出,BrowseRank方法根据用户实际浏览网页的浏览图像变化来评定其重要性,这样可以反应用户实际的浏览行为。

而用户行为数据可以通过浏览器加以记录,并通过Web服务器加以收集。

3.5 相关度排序的改进
相关度排序技术主要是根据上述三种算法来提供的。

但在实际的应用中,往往需要根据用户数据检索的实际效果来进行调整。

TRS全文检索允许对排序的因子进行调整,可以调整的排序因子包括:
a)检索词在文章中出现的频度(TF);
b)词在整个库中出现的频度倒序(IDF);
c)检索词在文章中出现的位置加权;
d)在文章中出现的检索词之间的距离和顺序;
e)检索词在不同字段域出现,分配予不同的权重。

比如关键词字段分配最高权重,标题第二,摘要第三,正文最后。

但是,这种排序算法上还存在如下不足:
3.5.1没有真正解决相关性
相关性是指搜索词和页面的相关程度。

仅仅通过链接、字体、位置等表面特征,不能真正判断搜索词和文
章的相关性,更何况许多时候这些特
征不会都同时存在。

这也是许多对搜
索引擎做弊方法能有效的原因。

另外,
有些文章中没有出现搜索词,但说的
就是和搜索词十分相关的内容,搜索
引擎就无法搜索到该网页。

表面特征
只能治标,不能治本。

治本的方法应
该是增加语意理解,得出搜索词和网
页的相关程度,分析的越准,效果就
会越好。

3.5.2搜索结果的单一化
在搜索引擎上,任何人搜索同一
个词的结果都是一样。

这样明显不能
满足访问者,需要对搜索结果的个性
化。

国外vivisimo公司就是想解决这个
问题,他们采用对搜索结果自动聚类
的办法来满足不同类型客户的需要。

搜索结果排序如果要实现从单一化到
个性化,vivisimo已经迈出了一步,但
最理想的结果应该是针对每个访问者,
排序结果直接和他们的搜索习惯和意
愿有关。

搜索“体育”,对喜欢足球
的人应该把足球的相关结果排在前面,
对喜欢篮球的人应该把篮球的相关结
果排在前面。

目前排序有两种方式,一种是在
检索前,作为检索条件的排序单选钮,
共有三中(日期倒序、日期正序、相
关度)。

一种是检索后,在购物车旁
边的一个小钮,这个是支持检索后,
对结果集的排序,共有三中(日期倒序、
日期正序、相关度)。

3.6 多维度检索技术
近年来,随着信息种类以及信息
内容的不断丰富与具体,使得全文检
索手段不得不随之进行革新与进步,
而多维度检索技术以其高效的检索速
度,准确的检索精度,直观的检索体
验和简单的用户操作成为全文检索实
施中的重要手段。

多维度检索技术通过设定针对应
用系统所面向环境领域的内容维度,
将内容维度进行逐步分类,细化,层
次化,最终得到符合该领域或该受众
群的多维度元素集合。

多维度可以为
多个层级,层级之间为包含关系,例如:
一级维度为“地点”,“地点”的二
级维度可为“餐饮地点”和“住宿地点”
等等,其中“餐饮地点”下的三级维
度为“餐馆”、“西餐厅”、“食堂”
和“面包房”等等。

再如:一级维度为“体
育”,则二级维度可为“体育类别”、
“体育项目”和“体育组织”等等,“体
育类别”包含的维度为“竞技体育”、“群
众体育”和“名族体育”等等,而体
育组织所包含的维度为“赛事组委会”、
“FIFA”和“国际足联”等等。

由此,
我们可以针对自身系统所面向的领域
来定义更符合自身特点的多维度信息。

在设定好对应的多维度元素后,
将信息数据按照这些维度元素进行各
个维度的维度化设置,使得每一条信
息都息都加上了符合其自身内容属性
的维度印记。

这种多维度技术一方面
使得信息管理方面得到了更加细化深
化的辅助,也使信息搜索方面的高效
性和准确性得到进一步的支持。

在多维度检索体验上,系统可将
一级维度和热门维度展现给用户面前,
随着用户的维度的逐步深入,则更加
细化、立体的将下级维度元素友好的
提供给用户选择。

而用户方面,无论
自身对所期许的信息内容比较清晰还
是相对模糊,都可以按照逐步细化并
提示出的多维度元素,只需要简单的
将系统提供的各个维度按照自己想获
取的信息内容进行组合,便可将属于
这些维度元素的信息精确高效的搜索
出来。

(作者单位:新华通讯社技术局网络
技术部)。

相关文档
最新文档