Internet信息检索

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

各个阶段,每个阶段、每种检索方式都有它的特点与局限性。Internet信息检索所具有的多样性、灵活性远远超出了传统的信息检索,我们需要继承与沿用在传统信息检索中业已形成的某些检索思维模式及一些已成定势的检索方法,更需要掌握Internet信息检索所具有的特点、了解影响信息检索的因素,通过实践提高获取信息的能力。

一、 Internet信息检索方法

要想在Internet上获得自己所需要的信息,就必须知道这些信息存储在那里,也就是说要知道提供这些信息的服务器在Internet上的地址,然后通过该地址去访问服务器提供的信息。在Internet上,www信息资源的一般查询方法有:基于超文本的信息查询、基于目录的信息查询和基于搜索引擎的信息查询。

1.基于超文本的信息查询

通过超文本链接逐步遍历庞大的Internet,,从一个www服务器到另一个WWW服务器,从一个目录到另一个目录,从一篇文章到另一篇文章,浏览查找所需信息的方法称为浏览,也称基于超文本的信息查询方法。

基于超文本的浏览模式是一种有别于传统信息检索技术的新型检索方式,它已成为Internet上最基本的查询模式。利用浏览模式进行检索时,用户只需以一个节点作为入口,根据节点中文本的内容了解嵌入其中的热链指向的主题,然后选择自己感兴趣的节点进一步搜索。在搜索过程中,用户会发现许多相关的节点内容根本没被自己所预想到,而是在浏览过程中不断蹦出来,提醒用户注意它。

随着www服务器的急剧增加,通过一步步浏览来查找所需信息己非常困难,为帮助用户快速方便地搜寻所需信息,各种www信息查询工具便应运而生,其中最有代表性的是基于目录和基于搜索引擎的信息查询工具,而利用这些工具来查找信息的方法就被称为基于目录和基于搜索引擎的信息查询方法。

2.基于目录的信息查询

为了帮助Internet上用户方便地查询到所需要的信息,人们按照图书馆管理书目的方法设置了目录。网上目录一般以主题方式来组织,大主题下又包括若干小主题,这样一层一层地查下去,直到比较具体的信息标题。目录存放在www服务器里,各个主题通过超文本的方式组织在一起,用户通过目录最终可得到所需信息的网址,即可到相应的地方查找信息,这种通过目录帮助的方法获得所需信息的网址继而查找信息的方法称为基于目录的信息查询方法。

有许多机构专门收集Internet上的信息地址,并编制成目录提供给网上用户。如Yahoo 就是一个非常著名的基于目录帮助的网址,其目录按照一般主题组织,顶层按经济、计算机、教育、政治、新闻、科学等分成14大类目录,每一大类又分成若干子类,层层递进。

3.基于搜索引擎的信息查询

基于搜索工具的检索方法接近于我们通常所熟悉的检索方式,即输入检索词以及各检索词之问的逻辑关系,然后检索软件根据输入信息在索引库中搜索,获得检索结果(在Internet上是一系列节点地址)并输出给用户。

搜索引擎实际上是Internet的服务站点,有免费为公众提供服务的,也有进行收费服务的。不同的检索服务可能会有不同界面,不同的侧重内容,但有一点是共同的,就是都有一个庞大的索引数据库。这个索引库是向用户提供检索结果的依据,其中收集了Internet 上数百万甚至数千万主页信息,包括该主页的主题、地址,包含于其中的被链接文档主题,以及每个文档中出现的单词的频率、位置等。

二、影响Internet信息检索的因素

影响Internet,信息检索的因素很多,如信息资源质量、检索软件、用户水平等。1.信息资源质量对信息检索的影响

丰富的信息资源为Internet信息检索系统提供了庞大的信息源,但由于其收集、加工、存储的非标准化,给信息检索带来难题。

(1) 信息资源收集不完整、不系统、不科学,导致信息检索必须多次进行,造成人力、物力和时间上的浪费。

(2) 信息资源加工处理不规范、不标准、使信息检索的查全率、查准率下降。

(3) 信息资源分散、无序、更换、消亡无法预测,因此用户无法判断网上有多少信息同自己需求有关,检索评价标准无法确定。

(4) 信息资源由于版权和知识产权问题,也给信息检索带来麻烦。由于Internet,是一个非控制网络,所有网上公用信息均可以自由使用、共同分享,网上电子形式的文件极易被复制使用,这样就容易引起知识产权、版权及信息真伪等问题。

(5) 信息的语言障碍问题。目前Internet上800亿以上的信息是以英语形式发布,英语水平低和不懂英语的人很难利用Intemet上庞大的信息资源。

对中国用户来说,虽然网上中文信息剧增,但还是需要查询西方国家先进科技信息,由于缺乏汉化软件、自动翻译系统尚未成熟,因此,语言障碍也影响了广大用户对网上信息资源的开发与应用。

2.检索软件对信息检索的影响

Internet将世界上大大小小、成千上万的计算机网络连在一起,成为一个没有统一管理的、分散的,但可以相互交流的巨大信息库,这意味着人们必须掌握各种网络信息检索工具,才能检索到自己所需要的网络信息资源。但是由于Internet信息组织的特殊性和目前检索工具自身存在的一些问题,给信息检索带来一些问题。

(1) Internet上的信息存放地址会频繁转换和更名,根据检索工具检索的结果并不一定就能获得相应的内容。

(3) 每种检索工具虽然仅收集各自范围内的信息资源,但也难免使各种检索工具的信息资源出现交叉重复现象。

3.用户水平对信息检索的影响

在Internet这个开放式的信息检索系统中,用户不仅要自己检索信息资源,同时还进行信息资源的收集、整理、存储工作。因此,Intemet用户的信息获取与检索能力对信息检索有着直接的影响。

(1) 用户对信息检索需求的理解和检索策略的制定关系到信息检索的质量。

(2) 用户的计算机操作能力及网络相关知识的掌握程度影响着信息检索的效率。

(3) 用户对网络信息检索工具的应用熟练程度影响着信息检索的效果。

(4) 用户的外语水平影响着信息检索的广度与深度。

Chapter 2 搜索引擎的使用

一、关键词

选择合适的关键词是最基本、最有效的搜索技巧。选择查询词是一种经验积累,在一定程度上也有章可循,表述准确搜索引擎会严格按照您提交的查询词去搜索,因此,关键词表述准确是获得良好搜索结果的必要前提。

1、一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。

例如:要查找2008年国内十大新闻,查询词可以是“2008年国内十大新闻”;但如果把查询词换成“2008年国内十大事件”,搜索结果就没有能满足需求的了。

2、另一类典型的表述不准确,是查询词中包含错别字。

例如:要查找林心如的写真图片,用“林心如写真”,当然是没什么问题;但如果写错了字,变成“林心茹写真”,搜索结果质量就差得远了。

主流搜索引擎对于用户常见的错别字输入,有纠错提示,比如:在Google中若输入“林心茹写真”,在搜索结果上方,会提示“您要找的是不是: 林心如写真”。

3、查询词的主题关联与简练

目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。

例如,某家长想给三年级小孩,想查一些关于时间的名人名言,他的查询词是“小学三年级关于时间的名人名言”。这个查询词很完整的体现了搜索者的搜索意图,但效果并不好。

原因:绝大多数名人名言,并不规定是针对几年级的,因此,“小学三年级”事实上和主题无关,会使得搜索引擎丢掉大量不含“小学三年级”但非常有价值的信息;“关于”也是一个与名人名言本身没有关系的词,多一个这样的词,又会减少很多有价值信息;“时间的名人名言”,其中的“的”也不是一个必要的词,会对搜索结果产生干扰;“名人名言”,

相关文档
最新文档