信息检索基本理论
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
章节:第二章信息检索基本理论学时:2学时教学目的:
1 了解信息检索工具的概念、类型。
2 了解检索语言的分类,掌握分类语言、主题检索语言的概念、特点、使用方法。
3 了解《中国图书分类法》、《汉语主题词表》的主要结构。
4 了解信息检索的原理和途径,学会信息检索的方法和检索步骤。
5 掌握信息检索效果的主要评价指标,了解提高检索效果的策略。重点难点: 1 简述信息检索工具的类型。 2 论述分类语言、主题检索语言的原理与特点。 3 简述信息检索的主要步骤。 4 论述提高信息检索效果的方法。教学进程: 1 信息检索工具(15分)。 2 信息检索语言(30分)。 3 信息检索的步骤(25分)。 4 检索效果的评价(25分) 5 小结(5分)。思考题:1 简述信息检索工具的种类。 2 简述分类语言与主题语言的含义及其特点。 3 简述信息检索的步骤、方法。 4 简述查全率、查准率的概念,分析影响查全率和查准率的因素,并提出解决办法。参考资料: 1 沈固朝.信息检索(多媒体)教程.北京:高等教育出版社 2 华薇娜.网络学术信息资源检索与利用.北京:国防工业出版社 3 刘俊熙,王立义.信息检索.北京:北京图书馆出版社备注: 1
第二章信息检索基本理论 1 信息检索工具信息检索工具是指人们用来存储、报道和查找文献信息的工具或系统。在文献检索里面就是我们前面讲到的二次文献。按照对收录文献的提示方式划分,信息检索工具可分为目录、题录、文摘、索引。检索工具的作用:1、存储作用检索工具将分散的不同种类、学科文献经过压缩加工系统排列组织到一起。只有先进行了存储我们才能进行查找。这样我们不必在查找资料时阅读大量原始文献,只需利用检索工具查找相关主题的目录介绍等来
确定我们所需的资料。在有限时间内提高了工作效率。 2、检索作用存储在检索工具中的资料,可根据我们的需要按一定的方法和规则进行查找。既然是检索工具集必然具有检索的作用。 3、报道作用检索工具搭建了文献管理者和文献利用者之间沟通联系的桥梁。它可以向我们使用者展示管理者所收藏的文献类型、数量等情况,提高了文献的利用率。例:图书馆的门口专供检索的机子,他将图书馆的馆藏数据存在一套图书馆专用管理系统中,我们可以通过利用这套系统,来检索图书馆都有哪些书,书名作者是什么?放在什么地方?借出去基本几本?还有几本在库里,甚至你们读者证的一些信息,包括超期没有,罚金多少等等都可以查询。他也是一个检索工具。检索工具类型: 1.1 目录目录是揭示出版物外部特征的检索工具,如书名、作者、出版社等等,并不涉及书中的具体章节或期刊中的具体文章。他以“本”为单位报道文献。目录的种类主要有:书名目录:如《全国总书目》、《全国新书目》;著者目录:;分类目录:;主题目录:。 1.2 题录题录是以单篇文献作为报道单位,揭示文献外部特征的检索工具。内容包括文献号、文献篇名、作者及工作单位、原文出处等,他也不涉及文献内容,没有内容摘要。文献深度比目录大,是用来查找最新文献的重要工具。 1.3 文摘 2
文摘也是以单篇文献为报道单位,是描述文献外部特征和主要内容特征的检索工具。我们可以通过文摘内容了解文献基本内容,从而决定文献的取舍,起到筛选文献的作用。因此其检索功能强于题录,是检索工具的主体性类型。 1.4 索引索引是将文献中某些主要的、具有检索意义的内容特征标识或外部特征标识按某种顺序排列,并注明文献条目线索的检索工具。如主题索引、著者索引。索引常附于检索工具的后部,是检索工具的主要组成部分,它为查找文献提供了多种检索途径。有的本身全由索
引构成,如美国《科学引文索引》(SCI),美国工程索引EI。
索引的组成主要有索引款目和参照系统两部分。索引款目是索引的主要部分,每条索引款目通常由文献特征标识(标目)、说明语、地址三项组成。标目:识别特定款目的主要标志,他控制款目在索引中的位置,检索者可以通过他迅速找到有关款目。作者姓名、主题词等都可作为标目。采用不同形式标识,就构成不同类型索引。如关键词索引、分类号索引、作者索引。说明语:用来限定和进一步细分同一标识下的文献,达到改善索引的功能。文献题名、自编的短语或短句都可作为说明语。材料出处:指明了索引中款目的文献线索,如页码、题录或文摘的顺序号等。一般文献描述项和索引之间常用文摘号相连,文摘号是检索系统编织者给每篇文献确定的一个能代表该篇文献的号码,我们可通过所引种的文摘号的指引检索文献的描述项,从而获得文献详细信息。 5、搜索引擎他是以网页为著录单元,在Web 中自动搜索信息并将其自动所引到Web服务器。索引信息包括文档地址,文档中单字出现的频率、位置等。网络搜索引擎很多,著名的有Yahoo! Google百度、搜狐、网易、新浪等。 2 信息检索语言 2.1 信息检索语言的概念举例:每天经邮局寄出的信件来自四面八方,杂乱无章。而代表地址的邮政编码和文字确使这些信件成为有序。邮政编码使邮件分检速度加快,有序化程度提高。他不是随意组合的,而是代表了一定的编号。信息也是如此,全世界每年产生的信息何止千万,信息中心将这些信息搜集起来,制定出有关规则,如使用哪种信息系统,使用哪种分类法和主题词表,著录信息的标准是什么等等。信息人员根据规定的规则将信息加工后按一定的排序送入信息系统。用户可以按一定得条件去检索信息了。因此说信息的有序化是由信息著录标准、信息系统的排序方法及检索语言等决定的。 3
检索语言(Retrieval Language)是保证存储和检索的一致的一种共同性的人工语言,它把文献的存储与检索联系起来,使文献的标引者和检索者取得共同理解,从而实现检索。就检索语言的实质而言,它是从自然语言中精选出来并加以规范化的一套词汇符号,是概括信息内容或外在特征及其相互关系的概念标识体系。检索语言由词汇和语法两部分组成。词汇是指登录在类表、词表中所有的标识(分类号、检索号、代码等),是可识别的语词;语法是指如何运用标识来准确表达信息内容和特征,以有效实现信息检索的规则。在存贮和检索过程中,检索语言起着重要的语言保障作用。它既是编制检索工具的依据,也是计算机信息存储及检索系统用以表达文献主题概念的人工语言。如果没有检索语言作为标引人员与检索人员的共同语言,就很难使得标引人员对文献主题内容的表达(文献标引)与检索人员对相同内容的课题文献需求(课题标引)取得一致,文献检索也就不可能顺利实现,甚至根本无法实现。 2.2 信息检索语言的分类检索语言的种类很多。按描述文献特征不同,检索语言分为描述文献外表特征的检索语言和描述文献内容特征的检索语言,见下图。分类语言关键词语言描述信息内容特征的语言单元词语言主题语言标题词语言叙词语言检索语言书/刊名著者描述信息外表特征的语言出版事项代码/序号图2-2 信息检索语言题名语言:是按文献题名字顺逐字排检,西文起首冠词一律不排。著者语言:是按著者姓名,按姓前名后的字顺逐字排检。号码语言:是按文献代码,发专利号、标准号、报告号、ISBN号、ISSN号等的顺序排检。2.3 分类语言 4
2.3.1 概述分类语言是一种直接体现学科知识分类的等级制概念标识系统,是通过对概括性文献信息内容及某些外表特征的概