计算机检索基础
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机信息检索基础知识
一、布尔逻辑与检索功能
当人们使用计算机在数据库检索系统或互联网中进行检索时,常常需要用多个概念所对应的多个关键词的组合进行检索,仅用一个概念对应的关键词很难完成复杂内容关系的检索要求。通常,一个检索要求中涉及到的多个概念之间与布尔逻辑的
“与”、“或”、“非”都可以通过分析找到明确的对应关系。即使用关键词和反应关键词之间关系的布尔逻辑运算符、通
配符等相关组配符号(含逻辑算符、优先符即括号、位置算符以及英文检索时常用的截词符或通配符),我们就可以将现实
中需要检索的内容或翻译成计算机、网络能够认识的形式或语言,输入到计算机中进行检索,得到我们所要的信息资料,完
成检索。下面简单介绍布尔逻辑中的三个基本运算“与”、“或”、“非”。
1、逻辑“与”
计算机检索中“与”逻辑关系的常见表示有:“与”、“AND”、“and”、“*”等。
逻辑“与”关系的含义:表示概念A和概念B之间的相交关系,经过“与”运算处理后的表达式:“概念A”AND“概念B”
表示一种同时含有概念A和概念B成份的内容,它已经既不是概念A,也不是单纯的概念B了,该操作使关注的范围缩小
了。如下图所示公共的阴影部分。
例如:概念A=艺术,概念B=舞蹈,则概念A、概念B的“AND”逻辑表达式:“概念A”AND“概念B”也即“艺术”
AND “舞蹈”则表示要检索那些既讲艺术同时又提到舞蹈的信息资源,或者主要讲舞蹈同时又提到艺术的文献信息资源。
2、逻辑“或”
计算机检索中“或”逻辑关系的常见表示有:“或”、“OR”、“or”、“+”等。
逻辑“或”关系的含义:表示概念A或概念B本身或者两者之间的叠加关系。经过“或”运算处理后的表达式:“概念A”
OR“概念B”表示含有“概念A”或含有“概念B”或两个概念都包含,该操作使关注的范围扩大了。如下图所示所有的
阴影部分。
例如:概念A=艺术,概念B=舞蹈,则概念A、概念B的“OR”逻辑表达式:“概念A”OR“概念B”也即“艺术”OR “舞蹈”则表示要检索那些含有艺术,或者含有舞蹈,或者两者都涉及的文献信息资源。
3、逻辑“非”
计算机检索中“非”逻辑关系的常见表示有:“非”、“NOT”、“not”、“-”等。
逻辑“非”关系的含义:表示除去概念A中所包含的概念B之成份的运算。经过“非”运算处理后的表达式:“概念A”
-“概念B”表示排除“概念A”中“概念B”后,剩下部分的运算,该操作使关注的范围缩小了。如下图所示剩下的阴影
部分。
例如:概念A=艺术,概念B=舞蹈,则概念A、概念B的“NOT”逻辑表达式:“概念A”NOT“概念B”也即“艺术”
NOT“舞蹈”则表示要检索那些没有涉及舞蹈的艺术文献信息资源。
二、信息资源的计算机检索
1、信息资源的计算机检索
信息资源的计算机检索即电子信息资源的检索是指根据要进行检索的问题或课题的要求和目的,认真分析其内容实质,明确检索范围,确定检索词及其关系,选择合适的检索工具,构造检索表达式,上机检索,通过试检和反馈进行调整,以最大
限度体现检索
目标要求之检索结果的过程。电子信息资源检索一般有以下几个步骤:
(1)分析问题,明确检索目的和要求
通过问题的分析,明确该问题的检索要求是属于广泛的、全面探索摸底型的一次初检还是属于较明确的、攻关型检索,或是科技查新类的检索。要明确该问题所涉及的领域和学科有哪些,有没有明确的、隐含的时间范围或时间点要求,是否需
要中文以外的其它语种或地域内的信息等。
(2)确定检索点、检索词及检索词之间的关系
在问题分析时,原则上与问题密切相关的任何特征都可以成为检索点,并通过检索词表现出来。一般,有反映文献信息内容特征的主题词(属于人工语言标识)、关键词(属于自然语言标识)、分类号(属于人工语言标识)等,有反映文献信息外部特征的责任者(著者、译者、编者等)、题名(篇名、书名等)、机构、出版日期、出版地等。
在问题分析的基础上,具体选择检索词时,应当注意以下几点:避免使用抽象、泛指的概念(研究展望前景处理等)以及没有实际含义的连词、虚词等。例如:
剔除检索问题中的没有实际含义的连词、虚词等,留下所包含的有完整意义的最小单元词。例如检索问题为“北京大学的
艺术社团情况调研”,其中“的”为虚词、“研究”太宽泛应剔除,它们都不属于核心词干。“北京大学”应作为有完
整意义的最小单元词保留,不能分为“北京”和“大学”,但是“艺术社团”需要拆分为“艺术”、“社”、“社团”,
因为有的艺术社团的名称中并不包含“艺术”字样,可能名字起的很另类,与“艺术社团”无法匹配,因此造成漏检。
对表达不清晰、容易造成误检的词要进行替换。例如“绿色包装”中的“绿色”应替换为“环保”、“可降解”等表达明
确、不容易混淆的词汇。例如“城市生活垃圾的处理”中处理应具体化为“回收”、“再生”等。(喻萍P51)
去检例如,一个查找欧洲投资流向的题目,在列出检索词时就存在整体与部分的关系,如果用EUROPE AND INVESTMENTS 索,就会有大量文献漏检,原因在于“欧洲”指一个整体地理概念,无法代表通常意义上的英、法等各发达国家,而后者往其
…)他国家和地区投资的情况正是我们所需要的。因此,检索时应用:(EUROPE OR BRTAIN OR FRANCE OR ITALY OR SPAIN OR 。
AND INVESTMENTS
使用关键词检索时,补充同义词、近义词、相关词以降低漏检率。例如,检索“毛泽东”的相关文献信息时,加入“毛润
之”可以减少文献中只用到“毛润之”没有“毛泽东”字样的文献信息。例如“冰箱”与“制冷”。例如“计算机”、“微机”、“电脑”、“PC机”等。例如“大学中的艺术社团研究”,“艺术社团”中的“社”、“团”可以添加近义词“协
会”。
(3)选择检索工具,确定检索途径或检索入口
目前数据库检索工具有很多,侧重点也不同。有以经营图书为主的书生之家、超星数字图书馆,有著名的cnki、维普、万方期刊数据库,有cnki、万方学位论文数据库,有万方专利数据库,有音乐数据库检索系统KUKE数字音乐图书馆,台湾的故宫在线数据库,世界美术数据库以及国外的GALE、PROGUEST参考书、期刊、文摘等数据库检索工具。
在明确文献要求的基础上,综合考虑目前可用的检索工具及其数据库中学科收录范围、文献类型、存储年限、使用方法、检索
费用等因素,选择合适的数据库检索工具进行检索。同时根据不同数据库检索工具提供的检索途径或检索口确定使用哪些相应
的检索项进行组合检索。例如书生之家的检索途径有:图书名称、出版机构、作者、丛书名称、ISBN、摘要和主题。超星只有作者、书名、主题词三个检索途径或检索口,外加出版年代的选择。Cnki的检索途径比较多一些,有责任者、题录、关键词、主题词、ISSN等系列检索途径供选择。
(4)编写检索式或提问式
检索式是指将检索词用逻辑符号、通配符等组配符号连接起来能够准确反应检索要求的表达式。在编制检索式时需要遵循以下几点:
同义词、近义词、相关词属于同一内容层面,一般用OR联接,扩大检索面,减少漏检。
检索问题涉及的不同领域、学科内容的检索词,构成不同层面的关键词组,通常用AND联接。
有蕴涵关系的词不能用“与”关系联接。例如检索“计算机容错技术”方面的资料
不能同时使用“计算机”AND“软件”,会漏检。例如“豆科植物”中的“植物”不应该出现了。
(5)上机进行检索,若检索出来的结果太多、太少,都需要根据情况不断调整检索策略,很少会一次就能达到检索要求。
2、检索结果的评价
查全率=(检索出的相关文献总数/系统中的相关文献总数)*100%
查准率=(检出的相关文献总数/检出文献总数)*100%