网络信息检索技术(5篇材料)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网络信息检索技术(5篇材料)
第一篇:网络信息检索技术
网络信息检索技术
网络信息检索中,基本的检索技术有布尔逻辑检索、截词检索、位置检索、限制检索等。

一、布尔逻辑检索
逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。

布尔逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索方法,目前最常用的布尔逻辑运算符主要包括逻辑“与”(AND)、逻辑“或”(OR)、逻辑“非”(NOT)。

(一)逻辑“与”
逻辑“与”,也称为逻辑乘,用AND表示,是用来组配不同含义检索词之间的限定关系。

检索词A、B以AND(或“*”)相连,即A AND B(或A*B),表示同时包含A、B两词的文献才是命中记录,因而逻辑“与”运算用于对检索词进行限定,从而缩小检索范围,提高检索结果的查准率。

例如,要查找children education(儿童教育)方面的文献,检索逻辑式可表示为“children * education”或者“children AND educa tion”。

运算的结果是同时含有检索词children和检索词education的文献才被检索出来。

(二)逻辑“或”
逻辑“或”,也称为逻辑加,用OR或者“+”表示,是用来组配同义或者同族检索词之间的并列关系。

检索词A、B若以OR或“+”相连,即A OR B(或A+B),表示只要含有A、B之一或者同时包含A、B的文献都是命中记录。

因而逻辑“或”运算可用于扩大检索范围。

例如,要查找“汽车”方面的文献,因为汽车在英语中可以用car 或者automobile表示,所以为了将有关汽车的文献全部检出,避免漏检,检索逻辑式就可表示为“car OR automobile”或者“car + automobile”。

运算的结果是含有car或者automobile任意一个或
者同时两个的文献均被检索出来。

(三)逻辑“非”
逻辑“非”用NOT或者“-”来表示,是用来组配概念的包含关系,可以从原检索范围中排除一部分,因而使用逻辑“非”运算可以缩小检索范围。

检索词A、B若以NOT(或“-”)相连,即A NOT B (或A-B),表示只含有检索词A而不含有B的文献才是命中记录。

逻辑“非”可用于缩小检索范围,但是不一定能提高文献命中的准确率。

在使用时要注意,避免将相关的有用文献排除在外。

例如,要查找有关“energy(能源)”,但又不涉及“nuclear (核能)”方面的文献,检索逻辑式可表示为“energy NOT nuclear”“energy-nuclear”。

运算的结果是含有energy,但不含有nuclear的文献将被检索出来。

这三种逻辑式的文氏图如下:
图3-1布尔逻辑文氏图
上面三种检索逻辑式是最为简单的布尔逻辑运算。

在检索实践中,可以根据实际需要,组合使用多个布尔运算符,以准确表达检索主题。

布尔逻辑检索与人们的思维习惯一致,表达清晰,方便用户进行扩检和缩检,而且易于计算机实现,因此,在计算机信息检索系统中得到广泛使用。

但是它无法反映检索词对于检索的重要性,无法反映概念之间内在的语义联系,因而检索结果不能按照用户定义的重要性排序输出。

使用布尔逻辑运算符的注意事项:
布尔逻辑检索在联机检索、光盘检索和网络检索中都有广泛的应用,但是不同的检索工具的布尔逻辑检索技术存在一定的差异,因此,使用布尔逻辑检索需要注意以下问题:
1、布尔逻辑检索的执行顺序。

三种布尔逻辑检索运算符之间的运算顺序为NOT、AND、OR。

有括号时,先执行括号内的逻辑运算。

2、不同检索工具的布尔逻辑检索有不同的表现形式和使用规则。

首先,不同检索工具表示布尔逻辑关系的符号不同,有的用“+”、“-”表示AND、NOT,有的用ANDNOT代替NOT(如Excite搜索
引擎),有的要求运算符必须大写,有的则要求为小写形式;其次,不同检索工具的检索词之间的默认布尔逻辑关系不同,有的检索工具检索词之间的默认关系是AND,有的检索工具的检索词之间的默认关系是OR;此外,不同检索工具支持布尔逻辑的方式不同,有的检索工具使用符号来实现布尔逻辑关系,一些检索工具则完全省略了任何符号,直接用文字和表格来体现不同的逻辑关系,如用All of These Words表示AND,用Any of These Words表示OR,用None of These Words表示NOT。

二、截词检索
截词检索是指在检索式中使用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化,用检索词的词干或不完整的词形查找信息的一种检索方法。

并认为凡满足这个词局部中的所有字符的文献,都为命中的文献。

在实际检索的过程中,为了减少检索词的输入量,同时又扩大检索范围,保证查全率,可以使用截词检索。

截词的方式有多种。

按截断的位置来分,可分为后截断、中截断和前截断;按截断的字符数量来分,可分为有限截断和无限截断。

有限截断是指说明具体截去字符的数量,通常用“?”表示;而无限截断是指不说明具体截去字符的数量,通常用“x”表示。

(一)后截断
后截断是最常用的截词检索技术,是将截词符号放置在一个字符串右方,以表示其右的有限或无限个字符将不影响该字符串的检索,是一种前方一致的检索。

这种方法可以省略输入各种词尾有变化的检索词的麻烦,有助于提高查全率。

例如,输入“inform x”,则前6个字符为inform的所有词均满足条件,因而能检索出含有informant、informal、information、informative、informed、informer等词的文献。

而输入“inform??”,可检索出含有inform、informal、informed、informer的文献。

(二)前截断
前截断是将截词符号放置在一个字符串左方,以表示其左方的有限或无限个字符不影响该字符串检索,是一种后方一致的检索。

这种
检索方法在各种词头有变化的复合词的检索中应用比较多,有助于提高查全率。

例如,输入“x magnetic”,可以检索出含magnetic、electro-magnetic等词的文献。

(三)中截断
中截断是把截断符号放置在一个检索词的中间。

一般地,中截断只允许有限截断。

中截断主要解决一些英文单词拼写不同,单复数形式不同的词的输入。

例如,输入“c?t”,可以检索出含有词cat、cut的文献;输入“mod?ation”可以检索出含有词moderation、modernization、modification的文献。

利用截词检索技术可以减少检索词的输入量,简化检索,扩大检索范围,提高查全率。

但是,不同的检索工具有不同的截词规则,使用的截词符号也没有统一的标准,如Dialog系统用“?”,BRS系统用“$”,ORBIT系统用“#”等。

三、位置检索
位置检索,也称临近检索,主要是通过位置运算符来规定和限制检索词之间的相对位置或者检索词在记录中的特定位置来实施检索的技术。

这里我们只介绍位置检索中的词位置检索。

词位置检索主要是利用位置逻辑算符限定检索词之间的位置,来反映要检索的信息概念。

常用的词位置算符有(W)与(nW)、(N)与(nN)以及(X)与(nX)三类。

(一)(W)算符与(nW)算符
(W)算符是Word和With的缩写,它表示在此算符两侧的检索词必须按输入时的前后顺序排列,而且所连接的词之间除可以有一个空格、一个标点符号或一个连接号外,不得夹有任何其他单词或字母,且词序不能颠倒。

(nW)算符的含义是允许在连接的两个词之间最多夹入n个其他单元词。

例如,“VISUAL(W)FOXPRO”可以检出
VISUALFOXPRO 或VISUAL FOXPRO;“control(1W)system”
可以检出含有contro1 system、control of system和contro1 in system的文献。

(二)(N)算符与(nN)算符
(N)算符是Near的缩写,它表示在此算符两侧的检索词必须紧密相连,所连接的检索词之间不允许插入任何其他单词或字母,但词序可以颠倒。

(nN)算符表示在两个检索词之间最多可以插入n个单词,且这两个检索词的词序任意。

例如,“control(1N)system”不仅可以检出含有control system、control of systcm和control in system 的文献,还可以检出含有system of control、system without control等的文献。

(三)(X)算符与(nX)算符
(X)算符要求其两侧的检索词完全一致,并以指定的顺序相邻,且中间不允许插入任何其他单词或字母。

它常用来限定两个相同且必须相邻的词。

(nX)算符的含义是要求其两侧的检索词完全一致,并以指定的顺序相邻,两个检索词之间最多可以插入n个单元词。

例如,“side(1X)side”可以检索到含有side by side的文献。

四、限制检索
限制检索是通过限制检索范围,从而达到约束和优化检索结果的一种方法。

限制检索的方式有多种,常用的有字段限制检索和限制符限制检索。

(一)字段检索
数据库记录是由若干个字段组成的,字段检索是把检索词限定在数据库记录的特定字段中的检索方法,如果记录的相应字段中含有输入的检索词则为命中记录。

字段限制检索可以缩小检索范围,提高查准率。

数据库中提供的可供检索的字段通常分为基本索引字段和辅助索引字段两大类。

基本索引字段表示文献的内容特征,有TI(篇名、题目)、AB(摘要)、DE(叙词)、ID(自由标引词)等;辅助索引字段表示文献的外部特征,有AU(作者)、CS(作者单位)、JN(刊物名称)、PY(出版年份)、LA(语言)等。

在检索提问式中,可以
利用后缀符“/”对基本索引字段进行限制,利用前缀符“=”对辅助索引字段加以限制。

例如,“(information retrieval/TI OR digital library/DE)AND PY=2006”所表达的检索要求是,查找2006年出版的关于信息检索或数字图书馆方面的文献,并要求information retrieval一词在命中文献的TI(篇名)字段中出现,digital library一词在DE(叙词)字段中出现。

(二)限制检索
限制符检索是使用AU(作者)、CS(作者单位)、JN(刊物名称)、PY(出版年份)、LA(语言)等限制符号从文献的外部特征方面限制检索范围和检索结果的一种方法。

限制符的用法与后缀符相同,而它的作用则与前缀符相同。

例如,“aircraft/TI,PAT”表示检索结果只包含aircraft这一主题的专利文献。

限制符还可以与前、后缀符同时使用,这时字段代码与限制符之间的关系是逻辑“与”,即最终的检索结果应同时满足字段检索和限制符检索两方面的要求。

第二篇:论网络信息检索技术
论网络信息检索技术
摘要:20世纪以来,人类创生的信息量高速增长,浩如烟波。

如何从这海量的信息里找出所需信息就成为信息检索的重任。

随着网络技术的飞速发展,越来越多的人把因特网作为获取日常信息的重要手段。

掌握信息检索的方法与技巧是非常有必要的,人们对快速、准确、有效地获取网络信息资源的需求是急切的,人们对网络信息的检索技术及其发展趋势进行探讨和研究,也是迫切而实用的。

针对网络信息检索的各种方法与技巧进行了客观的分析与思考,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。

关键词:网络、信息检索、检索技术、工具
0 引言
进入20世纪90年代以后,互联网的发展风起云涌,人类社会的信息化、网络化进程大大加快。

与之相适应的信息检索的交流平台也迅速
转移到以WWW为核心的网络应用环境中,信息检索步入网络化时代,网络信息检索已基本取代了手工检索。

什么是信息?信息是消息,人们在学习、工作、日常生活中随时随地都在接受和利用信息;信息是资源,它具有使用价值和价值;信息是财富,且是无价之财富;信息是生产力要素,更是一种不可估量的促进生产力发展的新动力。

因此,人类社会的发展,科技技术的进步,都离不开信息资源的开发和利用。

而且,信息资源的真实状况及开发利用程度,已经成为衡量一个国家经济、文化、科技以及综合国力的重要指标。

我们怎样快速的查找信息和有序的整理信息?信息检索是最快的途径。

信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。

人们获取信息源的方式主要有:①传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动;②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点;③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。

网络信息检索的现状以及策略
在这个高速发展的信息时代的社会,随着网络技术的飞速发展,越来越多的人把因特网作为获取日常信息的重要手段。

用网络搜索一些信息,如了解时事、生活疑惑、寻医问病、自娱自乐等,通常都比较方便快捷。

然而,网络信息资源相当丰富,多种多样,当人们进行专业信息检索时,结果往往不尽如人意。

即便是经常上网高校的老师与学生也有常常搜索不到专业文献信息的时候。

由于信息资源数量庞大、各信息间又相互交叉渗透,使得一些科研课题资料的检索相当的有难度,因此,我们必须掌握合理的检索策略,这样才能保证我们能有满意的检索效果。

所谓检索策略,就是正确的选择检索词、科学合理的提问等。

首先应对要检索的内容进行细致的分析,将完整的主题分为一个个独立的检索概念,然后要注意选全、选好相关词。

在检索英文资料时,还要注意英美不同的拼写形式以及检索词的单复数形式、缩写形式等,然后采用布尔逻辑的原理,
将表达相关概念的各检索词组配起来,以转换成搜索引擎可以理解的信息提问式,在对其数据库进行搜索后,便可获得相应的结果。

因特网上的信息浩繁庞杂,一些有价值的专业信息被大量无用信息所淹没,要想系统的、全面的、准确的获取有价值的信息,就需要学会科学的制定信息技术策略。

2网络信息检索的原理及方法
网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。

网络信息检索工具是网络信息检索技术的实物体现。

目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。

①布尔逻辑模型——这是一种简单而常用的严格匹配模型。

用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询结果。

标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。

利用这种模型进行查询,其查询结果一般没有按照内容的相关特性排序。

②模糊逻辑模型——它在查询结果处理中引进了模糊逻辑比较,并且按照相关的优先次序排列查询结果,这样就可以克服布尔逻辑模型信息查询结果的无序性。

③ 概率模型——它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性来进行信息检索。

要在网上获取信息,我们就需要找到提供信息源的服务器。

首先找到各个服务器在网上的地址,然后通过该地址去访问服务器提供的信息。

大致有以下几种方法: 2.1漫游法
这是在因特网上发现、检索信息的原始方法。

即在日常的网络阅读、漫游过程中,意外发现一些有用信息。

这种方式的目的性不是很强,具不可预见性和偶然性。

用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页。

此方法类似于传统手工检索中的追溯检索,即根据文献后
所附的参考文献追溯查找相关的文献,从而不断扩大检索范围。

这种方法可能在较短的时间内检出大量相关信息,也可能偏离检索目标而一无所获。

2.2直接查找法
直接查找法是已经知道要查找的信息可能存在的地址,而直接在浏览器的地址栏中输入其网址进行浏览查找的方法。

此方法适合于经常上网漫游的用户。

其优点是节省时间、目的性强、节省费用,缺点是信息量少。

2.3搜索引擎检索法
此方法是最为常规、普遍的网络信息检索方法。

搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。

用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。

它一般支持布尔检索、词组检索、截词检索、字段检索等功能。

利用搜索引擎进行检索的优点是:省时省力,简单方便,检索速度快、范围广,能及时获取新增信息。

其缺点是:由于采用计算机软件自动进行信息的加工、处理,且检索软件的智能性不很高,造成检索的准确性不是很理想,与人们的检索需求及对检索效率的期望有一定差距。

2.4网络资源指南检索法
此方法是利用网络资源指南进行查找相关信息的方法。

网络资源指南类似于传统的文献检索工具————书目之书目或专题书目,其目的是可实现对网络信息资源的智能性查找。

它们通常由专业人员在对网络信息资源进行鉴别、选择、评价、组织的基础上编制而成,对于有目的的网络信息检索具有重要的指导作用。

其局限性在于:由于其管理、维护跟不上网络信息的增长速度,使得其收录范围不够全面,新颖性、及时性不够强,且用户还要受标引者分类思想的限制。

2.5 在线数据库查询
利用网上的在线数据库进行查询。

访问网络数据库是用户获取学术性信息的最有效方法。

网上在线数据库有很多,比如:超星数字图书馆、万方数据库资源系统、中国维普数据库、CNKI中国期刊网数据库等。

3网络信息检索详论
3.1网络信息检索方式
其检索方式有:浏览器方式和搜索引擎方式。

(l)浏览器方式
只要能够进入html就能够通过浏览器,利用HTTP协议提供的万维网服务,浏览接触页面和通过Web页面提供的检索方式访问数据库。

(2)搜索引擎方式
搜索引擎是internet提供公共信息检索服务的Web站点,它是以一定的技术和策略在internet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以web形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。

搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。

搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。

3.2网络信息检索工具
从20世纪80年代起人们就开发了诸如Archive、WAIS、Veronica等检索工具,从90年代中期起又出现了检索万维网络信息资源的搜索引擎技术,并以此构造检索所有各类网络信息资源的集成化支撑体系。

据统计,各种各样的Internet网络信息检索工具已有数千个,按这些工具的检索机制、检索内容范围,以及检索工具的数量、检索资源类型,可将它们划分为以下各类:
(l)按检索机制划分
根据检索工具的数据检索机制,可将检索工具分为检索型、目录型和混合型检索工具。

(2)按检索内容划分
根据检索工具的数据内容,检索工具可分为综合型、专题型和特殊检索工具书。

(3)按包含检索工具数量划分根据检索工具数量划分,检索工具可分为单独型和复合型检索工具。

(4)按检索资源类型划分根据检索工具针对的数据资源类型,可将检索工具分为万维网检索工具和非万维网检索工具。

3.3网络信息检索技巧
目前常用的信息检索方法有两种:一种是利用搜索引擎进行关键词、主题词或自然语言检索。

最著名的搜索引擎有AltaVista、Excite、
HotBot、Infoseek等;另一种是按主题分类指南进行检索,如Yahoo!就是按主题组织资源、逐次分类,供读者按需查词的;有的检索工具两种方式可以随时切换使用, 如Info seek。

相比之下, 前者信息的获取太杂乱, 鱼龙混杂, 精确度太低, 需通过多次筛选才能找到所需信息。

而后者的信息组织系统性较强,精确度较高。

但主要问题在于获取率较低且很难反映信息之间的关联性。

由此可见, 两种方法各有利弊, 读者要根据检索的目的来挑选和使用检索工具,同时要学习一些提高检索效果的方法和技巧。

(l)检索关键词具体化;(2)运用词组检索;
(3)巧用Boolean逻辑词:AND、OR 和NOT。

4网络信息检索的技巧
在中国,用来获取中文信息的搜索引擎,主要是扬名华人世界的百度搜索引擎和全球闻名的Google搜索引擎。

Google在外文信息搜索方面有绝对的优势,并较早推出了中文信息搜索,而百度专攻中文搜索,并在汉语特点研究等方面做出来很大贡献,近几年又推出了多种特色搜索服务,从而在中文网络搜索领域占据了绝对的优势。

另外,我们常见的搜索引擎还有雅虎、网易有道、百度等。

掌握网络信息搜索技巧对于很好地利用这些搜索引擎很有帮助,对自己搜索信息更是简单至极。

通过互联网获取信息,如何避免在浩瀚的互联网海洋中迷失方向,掌握一些基本的网上搜索技巧可以说是必需的。

网上的信息搜索技术如此的多,怎样才能高效迅速地找到问题的答案呢?有几种技术可以帮助你更加快捷地找到所需网页。

没有一种技术是万能的,但将几种技术巧妙地结合起来使用会大大加快网页搜索进程。

网上的内容虽然很丰富,但必须先有人放上网。

搜索引擎本事再大,也搜索不到网上没有的内容,而且,有些内容虽然存在网上,却因为各种原因,很可能成为漏网之鱼。

所以在使用搜索引擎之前,应该先花几秒钟想一下,我要找的东西网上可能有吗?如果有,又可能在哪里?网页上会含有哪些关键字?
一次成功的搜索由两个部分组成:一个设计优秀的搜索请求和一个准确可信的搜索结果。

在你点击任何一条搜索结果之前,快速地分
析一下你的搜索结果的标题和网址,会帮你节省大量的时间。

比较大的搜索引擎都支持使用逻辑词进行更复杂的搜索界定,常用的有:AND和OR或NOT,恰当应用它们可以使搜索结果非常精确。

另外,也可以使用括号将搜索词分别组合。

如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最少、最精确。

通过添加英文双引号来搜索短语词,这一方法在查找名言警句或专有名词时显得格外有用。

很多搜索引擎都支持在搜索词前冠以“+”限定搜索结果中必须包含的词汇,用“-”限定搜索结果不能包含的词汇。

在Internet上进行查询时如果能注意一些细节问题,常常能增加搜索结果的准确性,如许多搜索引擎都区分字母的大小写,因此,如果您正在搜索人名或地名等关键词,应该正确使用它们的大小写字母形式。

如果只给出一个单词进行搜索,经常会出现数以千计甚至以百万计的匹配网页。

然而如果再加上一个单词,那么搜索结果会更加切题。

在搜索时,给出两个关键词,并将两个词用AND与逻辑结合起来,或者在每个词前面加上“+”,这种与逻辑技术大大地缩小了搜索结果的范围,从而加快了搜索。

幸运的是,所有主要的搜索引擎都使用同样的语法。

一个带引号的词组意味着只有完全匹配该词组,包括空格的网页才是要搜索的网页。

把这几种符号结合起来使用,能大大提高搜索效率。

网络信息检索发展
5.1网络信息检索的现状与发展
1990年以前,网络信息检索的现状与发展没有任何人能够检索互联网上的信息。

应该说,所有的网络信息检索工具都是从1990年的Alan Emtage等人发明的Archie开始的,虽然它当时只可以实现简单意义上的FTP文件检索。

随着World Wide Web的出现和发展,基于网页的信息检索工具出现并迅速发展起来。

1995年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Eric Solberg 等发明。

伴随着网络技术的发展,网络信息检索工具也取得了十足的发展。

5.2 影响网络信息检索质量的因素。

相关文档
最新文档