信息检索工具
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅谈信息检索工具
————————————————————————————————作者:————————————————————————————————日期:
2
摘要
文章由信息检索的分析和发展状况出发,阐述了一些常用的信息检索工具和相关技术。然后对常用的信息检索工具做了一个简要的评价,并由此讨论了信息检索工具的现状和发展趋势。
关键词:信息检索工具、技术、评价标准、发展趋势
Abstract
Post by information retrieval and analysis of development, and expounds a number of commonly used information retrieval tools and related technologies.Then used the information retrieval tools to do a brief evaluation, and then discuss the status of information retrieval tools and trends.
Keywords: information retrieval tools, techniques, evaluation criteria, trends
第一章信息检索分析及发展状况
步入21世纪,人们对信息检索的完备、准确、快捷会有更加严格的要求和期盼,与时俱进、不断完善的信息检索技术将得到越来越广泛的应用,信息的检索与访问方式无疑将发生深刻的变化。然而网上的信息浩如烟海,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各个主题都做得精确又专业,使得检索结果中出现太多无用的信息。如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了一个迫切需要解决的问题。
信息检索主要是指信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索与之有关的信息资料。信息检索的目的是获取所需信息,而这要基于比较完善的检索工具和技术。
1.1从传统检索到信息分析
目前,随着信息检索技术的发展,信息检索已经由手工检索、计算机检索发展到了网络化、智能化、认知化阶段,这一阶段的信息检索平台具备了初步的信息分析功能,从而使传统检索信息向信息分析层次发展。例如,在ISIWeb of Science检索平台上,当某一主题的检索结果出来后,检索者还可以利用该平台提供的信息分析功能,对检索结果从以下几个方面进行深入分析:①按照论文发表时间进行分析,了解不同时间阶段课题研究的状态;②按照国家分析,了解该领域的主要研究国家以及国内该领域研究情况;③按照机构分析,了解领域的主要研究机构;④按照作者分析,了解该领域的核心研究人员;⑤按照来源期刊分析,了解该领域研究论文发表的重点期刊以及对某刊物收录论文情况进一步了解;⑥按照学科进行分析,了解该课题涉及哪些学科领域以及对感兴趣学科进行更深入的分析。很显然,通过对检索结果从6个方面进行深入分析,将使读者对检索结果作进一步的深入了解。
1.2信息检索的发展状况
信息检索经过先组式索引检索、穿孔卡片检索、缩微胶卷检索发展到计算机信息检索。计算机信息检索大致可分为脱机检索、联机检索、国际联机检索、光盘检索、超文本的网络检索几个阶段。
目前,以文献单元描述体结构为基础、手工检索方式为主导的传统文献检索已发展到以信息单元组织结构为基础、网上浏览式信息查询方式的信息检索,计算机信息检索呈现联机检索、光盘检索以及网络检索多元并存的格局,面对用户群体、互相竞争、互相融合,谋求个性化基础上的共同发展。如下表所示,传统检索技术和网上检索技术无论是在检索策略还是在检索手段上都发生了本质的变化。
传统检索技术与网上检索技术的比较
传统检索技
网上检索技术
术
概念模型布尔逻辑概率推理、空间向量
前期处理赋词、自动抽
词超文本标记语言、标准通用标记语言
文档结构顺/ 倒排文
档
超文本链接
访问方式单向检索双向交互式检索
后期处理文字编辑用输出方式输出结
果
第二章信息检索工具及相关技术
2. 1 网上检索工具及相关技术
为了快速、有效地获得信息,人们非常注重信息检索工具及相关技术的研究。现在,因特网上著名的搜索引擎有Yahoo 、Alto vista 、Infoseek和Lycos等;中文搜索引擎有Sohoo (搜狐) 、Robot(若比邻)等。搜索引擎是Internet上提供公共检索服务的Web网站,它是新一代信息检索工具。搜索引擎的关键技术主要是“自动跟踪技术”和“指引库”。
目前,网上检索工具正向多语种化、综合化、专业化方向发展,已出现元检索工具(即检索工具的检索工具),对选择和评估更新检索工具有着不可替代的作用,多元搜索引擎(集成式的搜索引擎) 具有去重功能,对检索结果进行统一的相关评估,能实现搜索引擎间的优化组合,通过电子邮件向用户随时提供网上信息。检索界面简洁、易学易用,检索结果格式清晰、内容充实、数据更新及时,检索所提供的网页链接可靠。
2.1文本检索与多媒体检索
按照检索的信息形式,信息检索分为文本检索和多媒体检索。即使在文本信息检索领域,全文本和超文本检索技术的作用和重要性也正在超越二次文献文本信息的检索。文本检索现在比较实用的技术是全文检索和自然语言检索。全文检索采用对全部文本内容建立索引信息的方法实现对海量文本信息的秒级查询。自然语言检索是指使用文献作者和文摘提要的编写者原来使用的语言,利用计算机进行自动标引(或少量人工干预)和自动检索文献的方法,包括文本检索、关键词检索、自然语言和自然语言与人工语言并用的检索方法。目前面向中文的全文检索已是一种成熟的技术,得到了广泛的应用。自然语言检索方面也取得了进展,主要问题集中在中文语词的切分技术上。