Web信息检索技术的探讨

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

科技情报开发与经济
SCI-TECH
INFORMATION
DEVELOPMENT&
ECONOMY
2010年第
20卷第
5期

文章编号:1005-6033(2010)05-0105-05收稿日期:2010-01-07


Web信息检索技术的探讨


赵静,张鸿业

(河海大学,江苏南京,210098)

摘要:随着互联网技术的蓬勃发展,基于
Web的信息成指数增长,如何在海量信息中
获取自己真正需要的信息成为巨大挑战。因此,基于
Web信息检索技术随之孕育产生。
详细介绍了基于文本的和基于图像的检索技术,并对几种传统的文本检索模型进行了
对比,指出了它们各自研究的焦点。
关键词:Web信息检索技术;文本检索技术;文本检索模型;图像检索技术
中图分类号:G354文献标识码:A

随着信息时代的到来,尤其是互联网技术的高速发展,网络
中各种类型的
Web网站数量成倍增长,这些
Web信息形成了巨
大的信息资源。但是随之也出现了许多问题,例如,低价值信息
和高价值信息混杂在一起,大量重复性信息出现在不同网站中,
大量不准确甚至是错误的、垃圾信息充斥在各个
Web站点中。因
此,如何快速有效地提取出人们所需要的信息,成为当前迫切需
要解决的问题。在学术界,信息检索技术成为一门新兴学科,发
展极为迅速。在产业界,当前各种信息搜索引擎也不断涌现,如
百度、雅虎、Google等。


Web信息资源大体可以分成两类:纯文本格式的信息和多
媒体(图像、影视频)信息,本文主要探讨基于文本检索的原理和
相关技术、基于图像检索的一些关键技术等。


1基于文本的检索技术


1.1基于文本检索的工作流程
在海量的信息中获取真正需要的信息,顺序搜索的响应时
间将变得不可忍受。解决搜索响应时间的办法是对文本文档库
中的文本进行预处理,为文本文档库建立一种便于搜索的数据
结构—
———索引。基于索引的检索技术非常适用于大规模、稳定的
或周期性变化的文本文档库,如今绝大部分搜索引擎采用的都
是基于索引的检索技术。基于索引的检索过程见图
1。

文本文档库文档文本提取文本字符串文本预处理

查询索引查询系统索引

用户

相关文档列表排序结果排序系统


(1)检索系统将所有的检索对象收集起来,构建集中的本地
文本文档库,例如,对于
Web搜索引擎,其检索对象主要是
Web
网页,因此搜索引擎需要从互联网上抓取尽可能多的网页保存
到本地文本文档库中,一般这个过程由程序(网络爬虫)自动完
成。
(2)本地文本文档库构建完成之后,检索系统提取文本文档

1基于索引的检索技术

库中文档的文本字

符串,并进行文本预处理。文本提取过程主要
是提取各种格式文档中的字符串。文本检索系统不仅面向互联
网的
Web网页,还面向各种文档类型,例如
XML,PDF,Microsoft
Word或者
Excel等类型的文档。

(3)提取出文本字符串后,还需对文本字符串进行预处理以
选择合适的词来建立索引。对文本字符串的预处理包括分词(将
文本中包含的词分析出来)、停用词删除(删除冠词、介词等)、词
干提取、索引词的选择和建立词典等。
(4)在有了文本预处理结果后,需要建立文档的索引。利用
文档索引可以大大提高信息检索的速度。文档索引是一种便于
用词检索的数据结构。
(5)在建立文档索引后,就可以对文档库中文档进行检索。
用户提交查询后,检索系统将直接访问索引。由于索引是一个可
以便于搜索的数据结构,检索系统可以通过索引快速获得与查
询相关的文档集合。
(6)在获取与查询相关的文档后,由排序系统评价相关文档
与查询的相关程度并对其排序,最后返回给用户。
1.2文档索引的工作原理
文档索引是一种便于用词检索的数据结构。常见的索引数
据结构有
3种:倒排文件[1](inverted
file),后缀树[2](suffix
tree)
和签名文件[3]在

(signature
file)。倒排文件对词的搜索非常有效,
大多数应用中比后缀树和签名文件的效果好,因此在文本检索
中应用最为广泛。

我们以倒排文件为例来探讨文档索引的工作原理。倒排文
件,或称倒排索引、倒排表,是一种索引数据结构,用来提高查询
速度。倒排文件一般由词汇表和词出现情况两部分组成(见图


2)。词汇表一般采用特殊的数据结构(Hash技术、trie树或B-树)
存储来提高词的查询速度。对于词汇表中的每个词,在词汇出现
情况中都有一个列表来记录词在所有文本中的出现位置。基于
倒排文件的搜索一般分为如下
3个步骤:
(1)词汇表查询:将用户提交的查询语句分割成独立的词,
在词汇表中查找这些词。
(2)查找词出现情况:获取与查询串中所有词相关的出现情
况列表。
(3)词出现情况的操作:主要是通过对上一步中获取的词出
现情况列表的操作来实现短语查询、近似查询和布尔查询等。
每当本地文档库发生添加和删除时,检索系统也必须对文
档索引进行相应的维护。当本地文档库中增加新的文档时,只需
要对新文档建立一个倒排索引,并将新的倒排索引与原索引归


赵静,张鸿业
Web信息检索技术的探讨本刊
E-mail:bjb@sxinfo.net信息工作研究



2倒排文件数据结构

T






关键词


出现情况记录

词汇出现情况


并。当删除一个文档时,就遍历整个索引,把与该文档相关的所
有词出现情况全部删除,若某个词的出现情况已经删除至零,则
将该词也从词表中删除。


1.3文本检索模型
基于索引的搜索大大提高了大规模文本文档集的搜索速

度,用户提交查询语句后可快速获得查询结果。然而用户在搜索

信息时,由于
Web资源十分庞大,返回的查询结果往往会包含上

万条信息。而用户希望获得与其需求密切相关的搜索结果,并且

越是与自己查询相关的信息越应该排在前面。因此,需要衡量查

询结果与用户所提交查询的相关程度,进而对查询结果进行排

序。查询结果的排序工作对任何一个信息检索系统来说,都是非

常关键的。

而文本检索模型就是用来严格确定文本的表示方式、查询

的表示方式以及查询与文本的匹配程度的。传统文档的文本检

索模型有布尔模型、向量空间模型和概率论模型等[4],互联网中


Web页面的文本检索模型有
PageRank模型等。


1.3.1布尔模型
布尔模型是文本检索系统中使用最普遍的模型[5]。在布尔

模型中,一个文本用一个词的集合来表示,这些词主要是名词。
布尔模型认为一个词在一个文本中要么出现要么不出现,因此
用以表示词的权重要么为
1要么为
0。查询由布尔逻辑操作符号
(如
AND,OR和
NOT)和词组成的规范布尔表达式组成,例如


“(书
OR杂志)
AND计算机
AND网络
”。整个布尔模型的检索

策略都是基于二值决策准则,在将查询与文本进行匹配时,布尔

模型只是判断文本相关或不相关。

布尔模型的优点是模型表达的形式化和简单性,而且计算
的代价相对较少,易于实现。布尔模型的缺点也是显然的。一是
不能够在文本和查询中说明词的相对重要性,所有的词是同等
看待的;二是在布尔模型中很难将文本按照与查询串的相关性
来排序,难以提高用户对检索结果的满意度。


1.3.2向量空间模型(
Vector
Space
Model,VSM)
设本地文档库文本的集合为D={d1,d2,…,dn},词的集合为
T={t1,t2,…,tm},VSM将文本
dj表示为一个
m维稀疏向量
:
dj=
{d1j,d2j,…,dmj},j=1,2,…,n。这
n个
m维稀疏向量组成一个
词—文本矩阵D=(dij)m×n,其中,
dij为第
i个词
ti在文本
dj中的权
重,即词
ti在文本
dj中的重要程度。目前,有多种词权重的计算
方法,通常的词权重计算方法是tf-idf加权策略[6],其中,
tf(term
frequency)表示某个词在某个文本中出现的次数,
idf(inverse
d

ocument
frequency)表示某个词的反向文本频率,例如,考虑词
ti

在文本
dj中的权重:


tf(ti,dj在文本
dj

)为词
ti中出现的次数;


idf(ti)即词
ti
的反向文本频率,其中 n为文本库

)=log(n/n,

中文本的总数,为文(ti) 本库中出现词
ti的文本数。


tf和
idf结合起来,定义词
ti在文本
dj中的权重为:


)×log(n/n

dij=
姨Σti∈
tf(
djti,
tf(
djti,djt)
i)∈

∈)×log(n/n2

ti


分母为归一化因子,其中
ti∈dj表示词必须在文本
dj中出现

过,对于没有出现过的词,其相应的权重直接设为
0。由上式知,

词在文本中出现的次数越多,则权重越大;如果出现该词的文本

数越多,则表明该词对于文本库中文本的区分能力相对较差,权

重就越小。权重越大,则相应的词对于该文本来说越重要。

查询向量与文本向量类似,只不过查询向量中的权重表示

词对用户的重要程度,权重为
1表示期望在文本中出现的词,而


0表示不希望出现的词。例如,查询
q用向量(
q1,q2,…,qm)表示,




qi=0查询中不包含词t姨i


1查询中包含词
ti

知道文本向量和查询向量后,就可以计算文本向量与查询
向量之间的相似度,

进而评价文本与查询的相关程度。有多种计

算向量之间相似度的方法,一般用两个向量之间的夹角余弦值

来计算:


dj·q

sim(q,di=




q

dj


其中,dj·q表示两(×) 个向量的点积,
dj

表示向量
dj
的模。

由于每篇文本往往仅与某个主题有关,文本只包含
m个词

中的一小部分,这样大多数的权重都为
0,因此,在实际存储文本

向量时只将那些权重不为
0的词与对应的权重存放在一起。这

样在计算过程中不需要太多的内存空间。

向量空间模型的优点是可以对查询向量中的词赋予权重,

从而改善检索的性能,并可以利用量化的相似度对检索结果进

行排序。向量空间模型的主要缺点是假设词彼此之间是相互独

立的,这种对词之间相关性的忽略,实际上会损害文本检索系统

整体的性能。


1.3.3概率论模型
概率论模型的基本准则是文本按照与查询的概率相关性大
小排序,排在前面的文本是最有可能被获取的文本[7]。即如果文
本满足如下公式则该文本被获取:


p(rel|Doc)≥p(Notrel|Doc)
其中,
p(rel|Doc)表示文本
Doc与查询有关的条件概率,p(Notrel|Doc)表示文本
Doc与查询不相关的条件概率。根据贝叶
p(Doc|Rel)p(Rel)斯规则,上述公式可以改写成
p(Doc|Notrel)p(Notrel)≥1
所获取的

文本可以利用上述公式的左端进行排序。

利用概率论模型的典型系统有
Kwok[8]与
Robertson[9]等,它

们在利用样本计算词权重的过程中考虑了词在文档中出现的频

率,其中,
Kwok系统还考虑了词在整个样本集合中出现的频率。

概率论模型的效果要明显优于布尔模型,但比向量空间模型略

差。


1.3.4
PageRank模型
互联网上的
Web网页与一般的文档不同,网页之间的超链
接构成了一个庞大的拓扑结构,常规文档的检索模型对网页的
排序效果并不理想。PageRank模型通过对互联网超链接拓扑结
构进行挖掘以获取网页的重要度,并把重要度用于网页排序。


赵静,张鸿业
Web信息检索技术的探讨本刊
E-mail:bjb@sxinfo.net信息工作研究


Google在实践中使用了PageRank模型,并取得了非常好的效
果,成为全世界被使用最广泛的搜索引擎。
PageRank模型基于这样一个假设:如果从其他网页链接到
一个网页的数量越多,那么,这个网页就越重要;越是重要的网
页链接到一个网页,则这个网页就越重要。在PageRank模型中,
网页的PageRank值由与它链接的网页的PageRank值决定。一
个网页的PageRank值越高,就可以认为它的重要度或者质量就
越高,它在搜索结果中的排名就越靠前。
网页A的PageRank值计算公式如下:
PR(A)=
(1-d)
N+dPR(T1)
C(T1)+PR(T2)
C(T2)+…+PR(Tn)
C(Tn)
!"
其中,PR(A)为网页A的PageRank值;N为网页的总数;Ti,
为指向A的网页;PR(Ti)为网页Ti的PageRank值;C(Ti)为网页
Ti
指向其他网页的链接总数;d为阻尼系数,0<d<1。
从公式中可以看出,一个网页的重要度会均匀地贡献给它
所指向的所有网页,一个网页的重要度越大,且它所指向的其他
网页越少,则贡献给它所指向的网页的重要度就越大。阻尼系数
的使用,调整了其他页面对当前页面A的排序贡献。
文献[10]提出的随机冲浪模型可以更好地解释PageRank
值计算公式的含义。在随机冲浪模型中,假设有一个用户在互联
网上随机冲浪,随机冲浪的过程是这样的:
(1)随机访问一个网页;
(2)以概率d在当前页面中随机点击一个链接继续访问,以
概率1-d随机跳至一个网页;
(3)不断重复步骤(2)。
网页的PageRank值则描述了访问次数在网页上的概率分
布。若在随机冲浪过程中共访问全部网页的总次数为M,则网页
A被访问次数的期望为M×PR(A)。
基于文本的检索技术已经发展较为成熟,并且在实践中取
得了巨大的成功。例如,搜索引擎巨头Google迅速跻身IT业龙
错误[11,12]。20世纪90年代初期,随着大规模数字图像库的出现


上述的问题变得越来越尖锐。为克服这些问题,基于内容的图像
检索技术(content-basedimageretrieval,CBIR)[13]应运而生。
基于内容的图像检索系统将依赖图像的视觉特征(颜色、纹
理、形状、空间位置等)进行检索。在过去的十几年中,已经开发
出一些商业产品和实验原型系统,例如,QBIC[14],Photobook[15],
Virage[16],VisualSEEK[17],Netra[18],SIMPLIcity[19]。而EakinsJ等
人将基于内容的图像检索划分为3种不同的层次[20]:基于视觉
特征的图像检索、基于对象类型的图像检索、基于图像抽象属性
的图像检索。后两个层次的检索常被称为基于语义的图像检索。
YingLiua等人将第一层次与后两层次之间的“鸿沟”称为“语义
鸿沟”[21]。
2.1基于视觉特征的图像检索
基于视觉特征的图像检索技术自动提取每幅图像的视觉特
征作为其索引,如色彩、纹理和形状等,查询将根据图像的视觉
特征进行相似性计算。用户通过选择具有代表性的一幅或多幅
例子图像来构造查询,然后,由系统查找与例子图像在视觉内容
上比较相似的图像,按相似性大小排列返回给用户。
另外,基于视觉特征的图像检索系统一般通过可视化界面
和用户进行频繁的交互,以便于用户能够方便地构造查询、评估
检索结果和改进检索结果。图3是基于视觉特征的图像检索系
统的总体架构。系统的主要模块包括:图像分割模块、特征选择
抽取模块、索引模块、特征向量索引库、用户界面、图像检索模
块、相似性度量模块、相关反馈模块和显示模块。
图像检索模块用户界面
显示模块
图像

图像分
割模块
特征选择
抽取模块
索引
模块
特征向量
索引库
相似性
度量模块
相关反
馈模块
头行列等。但是基于文本的检索技术只是信息检索技术的很小
一部分,目前,图像、音频和视频等多媒体信息逐渐成为资讯情
报的主流。下面我们将详细探讨基于图像的检索技术。


2基于图像的检索技术

近年来,随着多媒体技术和计算机网络的飞速发展,全世界
的数字图像的容量正以惊人的速度增长。这些数字图像中包含
了大量有用的信息。然而,由于这些图像是无序地分布在世界各
地,图像中包含的信息无法被有效地访问和利用。这就要求有一
种能够快速而且准确地查找访问图像的技术,也就是所谓的图
像检索技术。

自从
20世纪
70年代以来,在数据库系统和计算机视觉两
大研究领域的共同推动下,图像检索技术已逐渐成为一个非常
活跃的研究领域。数据库和计算机视觉两大领域是从不同的角
度来研究图像检索技术的

,前者是基于文本的,而后者是基于视
觉的。

基于文本的图像检索技术(text-based
image
retrieval)就是将
图像作为数据库中存储的一个对象,用关键字或自由文本对其
进行描述。查询操作是基于该图像的文本描述进行精确匹配或
概率匹配,有些系统的检索模型还有词典支持。然而,完全基于
文本的图像检索技术在图像信息飞速增长的今天有着很大的
缺陷:手工标注不仅费时费力,且由于标注人员的主观性,使得
标签的质量无法保证,也就是说,不同的人对同一幅图像有不
同的理解方法,这种主观理解的差异将导致图像检索中的失配


3基于视觉特征的图像检索系统的体系结构

基于视觉特征的图像检索系统可以采用全局或局部的视觉
特征进行相似性计算。全局的视觉特征不对图像进行分割,直接
抽取整幅图像的视觉特征。局部的视觉特征则需要对图像进行
分割,为下一步图像局部视觉特征的抽取做准备。

对图像分割算法的研究已经有几十年的历史,至今借助各
种理论已经提出了数以千计的分割算法,而且这方面的研究仍
然在积极进行。目前已经提出的分割算法大都针对具体的问题,
并没有一种适合于所有图像的通用分割算法。实际上由于不同
领域的图像千差万别,也不太可能存在万能的通用算法。图像分
割算法大体上可以分为基于特征空间分割法、基于图像域分割
法、基于模糊理论的分割法以及基于特定理论工具的分割方法。

在基于视觉特征的图像检索过程中,图像的相似性本质上
就是图像视觉特征的相似性。虽然基于视觉特征的图像检索取
得了一定的成果,但由于图像视觉特征与高层语义之间固有的


“语义鸿沟
”决定了仅仅从图像视觉特征这一方面着手的检索方
式无法取得满意的结果,因此人们提出了交互式的相关反馈技
术。其中心思想是将人类理解的主观性融入图像检索过程,并且
给用户以评价检索结果的机会,在用户评估的基础上再进一步
改进检索过程。近年来,这一研究主题已成为基于视觉特征的图
像检索研究者所关注的焦点。

基于视觉特征的图像检索技术已经经取得了长足的发展,
迄今已有许多图像检索系统面世。例如
IBM的
QBIC系统是第一
个商品化的图像检索系统,其系统框架与技术对后来的图像检


赵静,张鸿业
Web信息检索技术的探讨本刊
E-mail:bjb@sxinfo.net信息工作研究


它是一套交互式图像数据库浏览和查询工具。除此之
Virage公司开发的


基于对象类型的图像检索

基于对象类型的图像检索查找图像中所包含的特定类型的

索系

统有深远的影响。另外,还有
MIT的媒体实验室开发的
Photobook,
外还有哥伦比亚大学开发的
VisualSeek,
Virage系统等。


对象,通常需要对图像中所描述的内容进行一定程度的逻辑推
理。例如,
不是卡车。


“寻找双层巴士的图片”,首先要搞清楚对象是巴士,而
基于对象类型的图像检索的前提是图像库中的图像都被标
注上了若干合适的语义标签。图像标注方式
包括手工标注和自动标注两种。在手工标注
方式中,每幅图像都需要人工阅读,通过人
工的评判对图像分组,并添加语义标注。人
工标注方式不仅费时费力,且由于标注人员
的主观性,使得标签的质量无法保证。自动
标注方式根据某种标注模型,由计算机自动
地阅读并标注图像。其优点是速度快,代价
低,可以实现图像标注的自动化,适合于软
输入图像
特征抽取
图像标注
图像分割
结果输出
件集成。因此,要实现基于对象类型的图像

检索首先需要解决图像的自动标注技术。图


4图像标注
像标注系统的工作原理见图
4。

系统的工作原理
(1)图像分割。图像分割是将图像分成
一组同质区域或对象,然后针对每个同质区域或对象抽取图像
的视觉特征。在有些标注系统中,不包括图像分割。

(2)特征抽取。抽取图像的全局或局部的视觉特征,采用具
有较强识别能力的特征集描述图像。
(3)图像标注。采用某种标注模型和学习算法建立图像的视
觉特征和标注内容之间的联系。自动图像标注的关键在于建立
视觉特征与关键词之间的关联,这可以被看作一个标准的多类
分类问题。假设有一组训练图像,每幅训练图像都标有表达图像
语义内容的关键词,首先抽取训练图像的视觉特征;然后根据视
觉特征构建并训练分类器;最后,将训练好的分类器对新图像分
类,自动地给没有标签的图像进行标注。因此,自动图像标注的
性能主要取决于图像视觉特征的抽取和分类器的构建。
图像自动标注技术是多种学科、多种技术的交叉结合,包含
了计算机、图像处理、机器学习、计算机通信、数据库管理等技术
的研究与应用。它同时涉及多个领域,如,多媒体(
Multimedia,
MM)、信息检索(
Information
Retrieval,IR)、人机交互(
Human-
Computer
Interaction,HCI)、语言处理(
Language
Processing,LN)、
人工智能(
Artificial
Intelligence,AI)、计算机视觉(
Computer
Vision,CV)等领域。

自动图像标注一般都是借助机器学习技术,在图像视觉特
征和图像语义内容之间建立关联。标注系统根据这种关联来构
建分类器,计算和度

量新图像与各个类别图像之间的相似性,然
后将新图像归类于相似性最高的类别中,因此如何构建多类分
类器成为自动图像标注的关键。当前构建多类分类器的主要手
段包括语义模板、统计模型、人工神经网络、k-最邻近、决策树和
支持向量机以及集成学习等机器学习方法。

许多大学、研究机构都开展了图像标注技术的研究,并且开
发了一些图像标注系统。ALIP(Automatic
Linguistic
Indexing
of
Pictures)系统是斯坦福大学的
Wang等研制的、最早的图像标注
系统之一。在对新图像进行标注时,该系统通过计算新图像属于
每个图像类别的概率,从而实现对新图像的自动标注。纽约大学

的Show&Tell系统是一个利用区域分割对整幅图像进行自动标
注的系统。该系统使用物体之间的空间位置关系和目标识别技
术来建立高层语义和视觉特征的联系,主要用于分析地图。

尽管目前已经出现了一些图像标注系统,并逐步走上实用
阶段。但总的来说,图像标注系统还完全没有成熟,绝大部分系
统只是针对特定的领域,当用于非特定领域时,其性能并不令人
满意。


2.3基于抽象属性的图像检索
基于图像抽象属性的图像检索涉及对图片的整体理解,根
据图像中的对象和情景抽象出图像作者所要表达的是一种什么
样的情感,因此需要有关的复合知识、复杂的推理,把图像的内
容和抽象的概念描述联系起来,具有一定的抽象概括能力。例
如,查询
“快乐的人群
”,检索系统很难推理出哪些人物图片是符
合“快乐
”要求的。目前基于图像抽象属性的图像检索的研究工
作还很少见到[22]。目前的研究工作和系统大多集中在第二层次,
即基于对象类型的图像检索。


3结语

评价一个检索系统优劣的通用指标主要有查准率、查全率

以及响应时间等。

假设查询得到的相关文本或图像数目为
a,查询得到的不相

关的文本或图像数目为
b,而在整个
Web资源库中与查询相关的

但没有返回给用户的文本或图像数目为
c,这样查全率和查准率

可以表示为:查全率Rcall=a(/
a+c);
查准率Precision=a(/
a+b)。查全

率和查准率越高且响应时间越短则表明该检索系统性能越好。

总之,新一代的
Web信息检索系统应该朝着搜索速度更快、

精度更高并且能够满足用户的个性化需求的方向发展。这就需

要我们在自然语言处理、数据挖掘和机器学习等方面有所突破,

并将这些技术充分地应用到信息检索中去,从而使人们更好地

感受到
Web信息的便利。

参考文献

[1]
Harman
D,Fox
E,Baeza-Yates
R

,et
al.
Information
retrieval:
algorithms
and
data
structures[M].
Englewood
Cliffs:
Prentice
hall,1992:28-43.
[2]
Baeza
Y
R,
Navarro
G.Block-addressing
indices
for
approximate
text
retrieval[M]//Proceedings
of
the
6th
CIKM
Conference.
Las
Vegas:
Nevada,1997:1-8.
[3]
Richrdo
B
Y,Berthier
R
N.
Modern
information
retrieval[M].
Addison-Wesley:
Longman
Limited,1999.
[4]徐宝文,张卫丰
.搜索引擎与信息获取技术[
M].
北京
:清华
大学出版社,2003.
[5]
Chang
C
C,Hector
G
M,Paepcke
A.
Boolean
query
mapping
across
heterogeneous
information
sources[J].
IEEE
Transactions
on
Knowledge
and
Data
Engineering,1996,8(4):515-521.
[6]
Salton
G,Salton
C.Term-weighting
approaches
in
automatic
text
retrieval[J].
Inf.
Process.
Manage,1988,24(5):513-523.
[7]
Robertson
S
E,Sparck
Jones
K.
Relevance
weighting
of
search
terms[J].
Journal
of
the
American
Society
for
Information
Science,
1976,27(3):
129-146.
[8]
Kwok
K
L.
Experiments
with
a
component
theory
of
probabilistic
information
retrieval
based
on
single
terms
as
document
components
[J].
ACM
Transactions
Information
System,1990,8(4):363-386.
[9]
Robertson
S
E,Walker
S,Beaulieu
M
M,et
al.
Okapi
atTREC-4[M]/
/
Proceedings
of
the
the
4th
Text
Retrieval
Conference.

赵静,张鸿业
Web信息检索技术的探讨本刊
E-mail:bjb@sxinfo.net信息工作研究


Gaithersburg:
MD,1996.

[10]
Page
L,Brin
S,Motwani
R,et
al.
The
pagerank
citation
ranking:
bringing
order
to
the
web.
Stanford
Digital
Library
Technologies
Project[EB/OL].
(1998-07-01).http://www-diglib
.
/diglib/index.html.
[11]
Eakins
J,Graham
M.Content-based
image
retrieval[R].
Newcastle:
University
of
Northumbria
at
Newcastle,1999.
[12]
Sethi
I
K,Coman
I
L.Mining
association
rules
between
low-
level
image
features
and
high-level
concepts[J].
Proceedings
of
the
SPIE
Data
Mining
and
Knowledge
Discovery,2001(3):
279-290.
[13]
Smeulders
A,Worring
M,Santini
S.Content-based
image
retrieval
at
the
end
of
the
early
years[J].
IEEE
Transactions
on
Pattern
Analysis
and
Machine
Intelligence,2000(22):
1349-1380.
[14]
Faloutsos
C,Barber
R,Flickner
M,et
al.
Efficient
and
effective
querying
by
image
content[J].
J.
Intell.
Inf.
Syst.,1994,3(3-4):
231-262.

[15]
Pentland
A,Picard
R
W,Scaroff
S.
P

hotobook:contentbased
manipulation
for
image
databases[J].
Int.
put.Vision,
1996,18(3):
233-254.
[16]
Gupta
A,Jain
R.
Visual
information
retrieval[J].
Commun
ACM,1997,40(5):
70-79.
[17]
Smith
J
R,Chang
S
F.
VisualSeek:a
fully
automatic
content-
based
query
system[G]/
Proceedings
of
the
Fourth
ACM
International
Conference
on
Multimedia.
Boston,
MA:
ACM
Press,
1996:87-98.

[18]
Ma
W
Y,
Manjunath
B.
Netra:
a
toolbox
for
navigating
large
image
databases[G]/
Proceedings
of
the
IEEE
International
Conference
on
Image
Processing.
Santa
Barbara,CA:IEEE
Signal
Processing
Society,
1997.568-571.
[19]
Wang
J
Z,
Li
J,
Wiederhold
G.
SIMPLIcity:semanticssensitive
integrated
matching
for
picture
libraries[J].
IEEE
Trans.
Pattern
Anal.Mach.
Intell.,
2001,
23(9):947-963.
[20]
Eakins
J,
Graham
M.Content-based
image
retrieval[R].
Newcastle:
University
of
Northumbria
at
Newcastle,
1999.
[21]
Ying
Liua,
Dengsheng
Zhang,
Guojun
Lu,
et
al.
A
survey
ofcontent-based
image
retrieval
with
high-level
semantics[J].
Pattern
Recognition,
2007,
40:262-282.
[22]
Hamid
O
A,
Qadir
M
A,
Iftikhar
N,
et
al.
Generic
multimedia
database
architecture
based
upon
semantic
libraries[J].
Informatica,
2007,18(4):
483-510.(责任编辑:郑光)
────────────────

第一作者简介:赵静,女,
1983年
9月生,现为河海大学
2008级硕士研究生,江苏省南京市鼓楼区西康路
1号河海大学
档案馆,210098.

The
Discussion
on
Web
Information
Retrieval


ZHAO
jing,ZHANG
Hong-ye


ABSTRACT:
With
the
rapid
development
of
Internet,the
volume
of
the
Information
based
on
Web
increases
exponentially.
How
to
retrieve
the
information
in
real
need
of
people
becomes
a
huge
challenge.So
the
Web-based
Information
Retrieval
technologies
come
out.This
paper
discusses
text-based
Retrieval
and
Image-based
Retrieval,in
thepart
of
text-based
retrieval,describes
the
work
flow
of
text
retrieval
based
on
the
index
and
also
presents
some
traditional
information
retrieval
models,and
in
the
part
of
image-based
retrieval,discusses
the
retrieval
based
on
the
content
at
threedifferent-levels,and
points
out
focus
of
their
own
research.
KEY
WORDS:
Web
Information
retrieval;text-based
retrieval
;
information
retrieval
model;image-based
retrieval


(上接第
98页)多少读者,如何迅速地

满足读者对图书的一切要
求。随书光盘管理的目的就是让有限的资源达到最大的利用率,
从而充分地实现资源共享。对于读者来讲,不仅节约时间,而且
方便使用。对于图书馆来讲,只利用一台服务器存储数据,就可
以服务全社会,不仅大大节省了人力、物力和财力,而且也促进
了图书馆整体工作水平的提高,同时随书光盘的管理也加速了
图书馆的数字化建设,为图书馆的进一步发展奠定坚实的基础。
参考文献

[1]张丽娟,冀军,黄闽
.关于图书馆附件著录格式的一点思考
[J].
现代情报,2002(7):1-2.
[2]全勤
.论光盘的著录[
J].
图书情报工作,1999(2):1.
[3]吴菁
.随书光盘数据网上检索服务系统的研究与实现[
J].

书馆工作与研究,2004(2):57-59.
[4]夏文秀
.随书光盘的上网管理及应用实践[
J].
图书馆学刊
,
2005(2):1-2.
(责任编辑:邱娅男)


────────────────

第一作者简介:盖奇文,男,
1974年
9月生,
1996年毕业于
抚顺石油学院工业自动化专业,馆员,抚顺市图书馆技术部,辽
宁省抚顺市,113006.


Probe
into
the
Treatment
of
the
Books
with
Attachments


GAI
Qi-wen


ABSTRACT:
This
paper
briefly
introduces
the
features
of
the
books
with
attachments
in
the
library,
and
probes
into
thetreatment
of
the
books
with
CD
and
the
copyright
problem
ofon-line
management
of
CD
attached
with
books
.
KEY
WORDS:
books
with
CDs;
circulation
management;
online
management




相关文档
最新文档