第二讲 计算机检索技术及搜索引擎应用
第二讲计算机检索优秀课件
光盘检索
网络化 联机检索
引入
■ 数据来源自CNNIC2011年1月19日发布的《第27次中 国互联网络发展状况统计报告》
截至 2010 年底,我国网民规模已占全球网民总数 的 23.2%,亚洲网民总数的 55.4%。
引入
■ 数据来源自CNNIC发布的《中国互联网络发展状况统计报告》
互联网普及率最高的省份或地区?
“市场经济*(信息咨询+信息检索)*信息服务”
第一节 运算符
1. 布尔逻辑算符
布尔运算符优先级比较
有括号时:括号内的先执行;
无括号时:NOT > AND > OR
例:检索“明清小说”的有关信息。
关键词:明、清、小说;
请选择下列正确的表达式: A. 明OR 清AND小说; B. 明 AND 清AND小说;
第一节 运算符
2. 位置算符
Ø(N)算符:
Ø(N)是near的缩写,表示此算符两侧的检索词必须紧密相连, 词序可变,词间不允许插入其他词或字母,但允许有一空格或 标点符号。
Ø(nN)算符:
Ø(nN)表示两词间可插入最多n个词,词序可变。
Øinformation(1N)retrieval
可检出: information retrieval retriveal of information
第二讲计算机检索
上一讲重点回顾
1、 《中图法》 2、工具书的类型及使用 3、手工检索的方法
第三讲 计算机检索
每节技巧 引入 第一节 运算符 第二节 搜索引擎及搜索技巧 第三节 搜索引擎及举要
引入
脱机检索 联机检索
从用备进对8出盘检检信6中索是理0与行远户0漫从现检索索成年年提集,期长检人距可行从可索域使遍长5及索系指本代代0问中且,,索机离以检8借系人世限的年发的统令却,息0中立大进特人系对之通索助统们界制年手代展数一与大C资期即批行点机统话外过的国联可各的D代工中大,据样远源到-作提处是不中,的检目际机以国国初R检期降使结,程共7出问理不能心从数索的O通,在的际到索0到低得构但联享M年回后的对对计而据终。讯从很信联现阶6。光、通机的成代答进时一话算实库端0网而短息机在段年为初,行间个。机现进设络实的资信,代可,而处较检直 现 时 料息信能接 不 间 ,检息。与 受 内 使索用检 地 查 信,户
《计算机检索概论》课件
计算机检索系统组成
硬件
包括服务器、存储设备 、网络设备等,用于支 持系统的运行和数据存
储。
软件
包括检索软件、数据库 管理系统等,用于实现 信息检索和数据管理功
能。
数据库
存储各种信息资源的数 据库,是计算机检索系
统的重要组成部分。
人员
包括系统管理员、信息 检索员等,负责系统的
维护、管理和使用。
计算机检索系统分类
系统响应时间
衡量系统性能的重要指标,反 映系统处理速度和网络传输速 度。
用户友好性
包括界面设计、操作便捷性、 个性化服务等,影响用户的使 用体验和满意度。
数据质量与更新频率
反映数据资源的可靠性和时效 性,对检索结果的质量有重要
影响。
03 计算机检索技术
CHAPTER
布尔逻辑检索
布尔逻辑检索是计算机检索中最基本的技术之一,它利用布尔运算符( AND、OR、NOT)对检索词进行逻辑组配,以缩小检索范围,提高检 索的准确性和查全率。
学术研究领域应用
1 2
学术论文检索
计算机检索系统能够快速、准确地检索学术论文 ,为学者和研究人员提供丰富的学术资源。
学科发展趋势分析
通过计算机检索和分析学术论文,可以了解学科 发展趋势和热点,为研究提供方向和思路。
3
学术评价体系构建
基于计算机检索的学术评价体系能够客观地评价 学术成果的质量和影响力,促进学术健康发展。
云存储
利用云计算存储技术实现海量数据的分布式存储和管理,提高数据 的安全性和可靠性。
云安全
通过云计算技术提供安全可靠的数据保护和隐私保护,保障用户的信 息安全和隐私权益。
谢谢
THANKS
计算机检索基础知识
第二章 计算机检索基础知识
第三节 计算机检索步骤
四.选择检索途径 确定检索词后,根据课题性质、 确定检索词后,根据课题性质、范围以及检索系统所提供的可检 标识等选择适当的检索途径,检索途径主要有以下几种: 标识等选择适当的检索途径,检索途径主要有以下几种: 以文献的著者(包括个人和团体著者、编者、 (1)著者途径 以文献的著者(包括个人和团体著者、编者、 ) 译者、专利权人等)姓名为检索标识来进行检索的途径。 译者、专利权人等)姓名为检索标识来进行检索的途径。 从文献信息内容相关的主题词角度来检索文献, (2)主题途径 从文献信息内容相关的主题词角度来检索文献, ) 这是一种常用的途径。 这是一种常用的途径。 从文献所属学科类别角度来检索。 (3)分类途径 从文献所属学科类别角度来检索。 ) 以文献所附有的号码特征来检索,如专利号、 (4)号码途径 以文献所附有的号码特征来检索,如专利号、 ) 报告号等。 报告号等。
A NOT B A―B 数据库中凡含词A 数据库中凡含词 而不含词B的记录 而不含词 的记录 被检出
逻辑关系 的说明
逻辑关系图 图中红色部分) (图中红色部分)
A
B
第二章 计算机检索基础知识
第二节 计算机检索技术
布尔逻辑算符的优先级顺序为NOT、AND、OR,另外可以使用 、 布尔逻辑算符的优先级顺序为 、 , 括号改变它们之间的运算顺序。 括号改变它们之间的运算顺序。 如可以编写( 如可以编写(A+B)*(C+D)检索式,先运算 A+B,C+D再运 )( )检索式, , 再运 )。但应注意 算(A+B)*(C+D)。但应注意,对于同一个布尔逻辑提问式 )( )。但应注意, 来说,不同的运算顺序会有不同的检索结果。 来说,不同的运算顺序会有不同的检索结果。
计算机信息检索 计算机应用技术
计算机信息检索计算机应用技术计算机信息检索是一种广泛应用于各个领域的技术,它可以帮助我们在海量的信息中快速地找到我们需要的内容。
计算机信息检索技术的发展,不仅在搜索引擎、电商平台等领域发挥着重要作用,同时也为科学研究、医疗保健、社会管理等领域提供了便利。
一、计算机信息检索的概念计算机信息检索(Computer Information Retrieval)简称IR,是指在计算机上对一定范围内的信息进行检索、过滤和组织,并根据用户需求提供相应的信息服务的过程。
计算机信息检索技术主要包括文本检索、图像检索、音频检索和视频检索等多种形式,其中文本检索是最为常见的一种。
文本检索是指通过计算机对文本信息进行检索,以满足用户需求的过程。
在文本检索中,用户可以通过关键词、短语、句子等方式输入查询条件,计算机将根据用户输入的条件在已索引的文本数据库中进行搜索,最终返回与用户需求相关的文本信息。
二、计算机信息检索的原理计算机信息检索的核心原理是建立索引。
索引是一个包含关键词和对应文档的列表,它是计算机检索过程中的重要组成部分。
索引的建立过程包括文本预处理、词项提取、词项归一化和索引构建等步骤。
1. 文本预处理文本预处理是指对文本进行清理和转换的过程,包括去除标点符号、停用词、数字等无关信息,将文本转换为小写字母等统一格式,以便于计算机进行处理。
2. 词项提取词项提取是指从文本中提取出有意义的词项,以便于建立索引。
常用的词项提取方法有基于规则的方法和基于统计的方法。
基于规则的方法是指通过人工编写规则来提取词项,而基于统计的方法则是利用统计模型来自动提取词项。
3. 词项归一化词项归一化是指将不同形式的词项归一为同一形式,以便于计算机进行匹配。
常用的词项归一化方法有词干提取和词形还原等。
4. 索引构建索引构建是指将提取出的词项和对应的文档信息建立起索引,并将其存储在计算机上。
常用的索引结构包括倒排索引和向量空间模型等。
三、计算机信息检索的应用计算机信息检索技术的应用非常广泛,主要包括以下几个方面。
2017第二讲(1)-信息检索概述 二
6. 输出检索结果
根据检索系统提供的检索结果输出格式,选择需要的 记录以及相应的字段(全部字段或部分字段),将结果显 示在屏幕上、存储到磁盘或直接打印输出,网络数据库检 索还可以提供电子邮件发送,整个检索完成。
第三节 检索效果的评价
• 检索效率 检索效率是衡量检索效果好坏的指征,一般通 过查全率和查准率两方面来反映。 查全率:指系统在进行某一检索时检索出的相关文 献与系统文献库中的相关文献总量之比率。 查准率:指系统在进行某一检索时,检索出的相关 文献量与检索出的文献总量之比率。 与查全率和查准率相对应的指标是漏检率和误检率。
检索效果的评价公式
查全率=被检出相关文献量/相关文献总量 =(a/a+c)×100%
例如:查有关“雷尼替丁的含量测定”的文献
运用布尔逻辑技术的检索式可写成: 雷尼替丁 AND 含量测定
其作用是缩小检索范围,提高查准率。
逻辑或:是一种具有概念并列关系的组配
用OR(or)或 +算符表示 A OR B:表示让系统查找含有检索词A或B,或同时包 括检索词A和检索词B的信息。
如:查有关 “维生素C”的文献 (“维生素C”: vitamin C 又称 L-ascorbic acid抗坏血酸)
例: 自行车(模糊) 扩展概念:脚踏车、单车等
精确检索
也称精确匹配或完全匹配,结果中包含与检索词完全相同的内容。
提示
目前计算机数据系统除了提供专业检索要 写检索表达式检索外,更多的会提供其他 检索途径如基本检索、高级检索等,其检 索界面以检索输入框及检索条件限定框的 格式让用户根据已知条件一步步构建检索 表达式来检索文献(构建原理是一致的)
trace elements not zone 微量元素 not 锌
信息检索与利用第2讲章计算机检索技术共97页
AB
A
B
A
B
逻辑或 A+B
逻辑与 A*B
逻辑非 A-B
18
2.2.1 布尔逻辑
运用“布尔算符”的注意事项:
• 布尔逻辑运算符运算顺序为: not→and→or • 运算符遵循数学运算法则;
(a) 括号优先;(A or B) and C not D (b) 在检索式中只有and或or前后的检索标识可
• 逻辑“非”算符,是具有概念包含关系的一种组 配,可以从原检索范围中排除某一内容。
• 表达形式:A not B、A-B • 具有缩小命中范围,提高查准率,增强检索的
专指性,减少输出量的作用。
• 例:Energy not nuclear
A
B
17
布尔逻辑检索技术
• 逻辑或(OR): 扩大检索范围,有利于提高查全率。 • 逻辑与(AND):缩小检索范围,有利于提高查准率。 • 逻辑非(NOT):缩小检索范围,有利于提高查准率。
• 单元词:指从信息内容中抽出的最基本的词汇。 • 关键词语言:关键词是从文题、文摘或正文中
抽出,具有实质意义,能够代表文献内容主题 的名词术语。关键词可直接用于文献标引。
6
叙词语言
• 叙词:指从信息的内容中抽出的、能概括表达 信息内容基本概念的名词或术语,它是经规范化处 理的自然语言词汇。
• 叙词受叙词表控制,有组配功能。 运输飞机设计
• 截词符具有“OR ”运算符的功能,能够扩大检 索范围,而且减少了输入检索词的时间,节约 了机时。
22
截词的分类
• 按位置分类: 前截词 中间截词 后截词
• 按取代数量分: 有限截词 无限截词
23
15
逻辑或
第二讲计算机信息检索基础知识
举例:
【题 名】信息检索技术在网络数据库中的应用研究 【作 者】邹小筑[1] 缪红梅[2] 【机 构】[1]南京大学信息管理系,南京210093 [2]南京航空航天
大学,南京210016 【刊 名】图书情报工作.2007,51(2).-104-106,131 【ISSN号】0252-3116 【关键词】信息检索技术 网络数据库 检索平台 【文 摘】以信息检索技术为脉络,结合Ei Village2、ISI Web of
Knowledge、CSAIDS、EBSCOHost、ProQuestordjne等多个著名 检索平台综合分析布尔逻辑、位置逻辑、模糊检索技术、网络叙 词表构建技术在网络数据库的应用,研究表明信息检索技术已深 深植入网络信息资源管理之中,深入剖析信息检索技术,可以清 晰揭示提问表达式的构建机理,掌握网络数据库的原理及使用方 法,为网络信息资源评价和建设提供依据。
2.选择信息资源
是否与检索课题相关的资源都要检索 选择哪些学科的信息资源 选择哪些语种的信息资源 信息资源覆盖的年限是否符合需求 信息资源的特点及其针对性如何
3、构造检索式 选择检索点
检索式 是表达用户检索提问的逻辑 表达式,由基于检索概念产生的检 索词和各种组配算符构成。
检索点 即检索途径或检索入口、检 索字段。检索点正确与否,决定着 检索结果的数量与质量。
3、字段限制
▪ 指将检索词限定在特定的字段中进行。
• 同样的检索词,选择在不同字段中进行检索, 得到的结果是不同的。
• 检索系统通常都会设置默认的检索字段,如 “所有字段”。如果想指定在特定的字段中 查找检索词,就需要调整检索字段,进行字 段限制。
缺省字段 为“篇名”
缺省字段为 “关键词”
缺省字段为 “All fields”
第二讲 计算机检索技术ppt课件
T 工业技术 TP 自动化技术 计算机技术
TP3 计算机技术 TP39 计算机的应用 TP393 计算机网络 TP393.4 国际互联网
精选PPT课件
索书号: TN911/846 TN911/855 TN912/123
图书排架规律: 奇数列的书架先以两列书架为一单元,最后再以三列 书架为一单元,按从左至右,由上而下的规律排架。
检索原理示意图精选PPT课件
检索过程
文献
分析 文献特征
情报工 作人员
用检索语言对 文献进行描述
文献标识
检索工具(系统)
检索者怎样才
能找到自己需
要的资料呢?
否
是否匹配
检索需求 分析
课题特征
用检索语言对 课题进行描述
检索表达式 (提问标识)
输出结果为零
是
得到检索结果☺
5
精选PPT课件
二、检索语言
1. 检索语言的定义
2
精选PPT课件
第二讲 计算机检索技术
一、 检索的含义 二、 检索语言 三、 检索工具 四、 检索技术 五、 检索步骤与策略
3
精选PPT课件
一、检索的含义
文献检索是检索者使用某种手段(手工、计算机 或其他),借助某种工具(印刷型检索工具、计算 机检索系统等),查找所需文献信息的的活动和过 程。
文献存储过程
例如:超星数字图书馆、中国期刊全文数据库、 万方博硕论文全文数据库、PQDD、EBSCO、IEEE、 ScienceDirect 、 Emerald 、Springer
23
精选PPT课件
三、检索工具
(4)数值、事实数据库
计算机检索技术
02
信息检索基础
信息检索原理
信息检索是利用计算机技术实现信息 查询和获取的过程,通过输入关键词 、主题等检索条件,从大量数据中快 速、准确地获取所需信息。
信息检索的基本原理包括信息标引、 索引和匹配等环节,通过建立索引数 据库,对信息进行分类、标引和索引 ,实现信息的快速检索和获取。
信息检索语言
发展阶段
20世纪80年代以后,随着计算机技术的飞速发展,计算机检索技术也取得了突破性进展。数据库技术、网络技术、 人工智能等领域的成果被广泛应用于信息检索领域,使得信息检索更加高效、准确。
成熟阶段
进入21世纪,计算机检索技术已经逐渐成熟,并渗透到各个领域。云计算、大数据、物联网等新技术的 应用,为计算机检索技术的发展带来了新的机遇和挑战。
大数据环境下的信息检索
01
02
03
数据挖掘技术
通过数据挖掘算法,从海 量数据中提取有价值的信 息,为信息检索提供更多 数据支持。
分布式存储与检索
利用分布式存储技术,将 大规模数据分散存储在多 个节点上,提高数据存储 和检索效率。
实时分析处理
对大数据进行实时分析处 理,快速响应检索请求, 提供实时的信息检索服务。
学术论文检索的优缺点
03
学术论文检索的优点在于能够快速、准确地找到相关论文,缺
点在于需要使用专业数据库,且可能存在版权问题。
案例三:数字图书馆的计算机检索技术
数字图书馆的特点
数字图书馆具有资源丰富、易于检索和共享 的特点,能够满足用户对知识的需求。
数字图书馆检索的关键技术
数字图书馆检索的关键技术包括元数据、数据挖掘 和语义网等,这些技术能够提高检索的准确性和效 率。
03
信息检索与搜索引擎技术
信息检索与搜索引擎技术信息检索与搜索引擎技术在当今信息爆炸的时代中起着重要的作用。
随着互联网的普及和快速发展,人们要从浩瀚的信息海洋中找到所需信息已成为一项艰巨的任务。
因此,信息检索与搜索引擎技术的发展成为解决信息过载问题的关键。
一、信息检索技术概述信息检索是指从大规模的信息资源中获取用户需求信息的一种技术手段。
其目标是通过对信息的组织、索引和检索等处理,将用户提供的查询与信息资源进行匹配,并将相关的信息进行有效的排序和展现。
信息检索技术可分为两个主要方面:信息检索建模和信息检索算法。
信息检索建模是指对信息进行表示和刻画,以便于有效地检索。
常用的建模方法有向量空间模型、概率模型和语言模型等。
向量空间模型将文档和查询表示为向量,通过计算它们之间的相似度来进行匹配。
概率模型基于统计方法,估计查询和文档之间的概率关系。
语言模型以语言为基础,通过对查询和文档进行语言建模,来判断它们的相关性。
信息检索算法是指根据信息的表示和查询的需求,设计和实现高效的检索方法。
常见的算法包括倒排索引、布尔模型、TF-IDF等。
倒排索引是一种将词项映射到文档列表的数据结构,能够快速查找包含查询词的文档。
布尔模型通过逻辑运算符AND、OR和NOT对查询进行处理,确定满足条件的文档。
TF-IDF是一种根据词频和逆文档频率来评估词项重要性的算法。
二、搜索引擎技术概述搜索引擎是指通过检索技术,从互联网上采集和组织信息,并提供相应服务的系统。
搜索引擎技术的目标是提供高质量、准确的搜索结果,满足用户的信息需求。
搜索引擎技术主要包括信息采集、预处理、索引构建和查询处理等步骤。
信息采集是指通过网络爬虫等技术,从互联网上获取信息资源。
网络爬虫是一种自动化程序,按照一定的规则和策略,自动访问网页并提取页面内容。
信息采集过程中,需要进行数据过滤、去重和规范化等处理,以确保爬取到的信息的质量和准确性。
预处理是指对采集到的信息进行处理和转换,以适应后续的索引构建和查询处理。
2检索原理和搜索引擎
26
搜索引擎的工作原理就像超市
因 特 网
爬行器 蜘蛛) (蜘蛛)
索引生成器 网页数据库) (网页数据库)
27
查询检索器 (用户查询) 用户查询)
第一步: 第一步:从互联网上抓取网页
利用能够从互联网上自动收 集网页的Spider系统程序,自 系统程序, 集网页的 系统程序 动访问互联网, 动访问互联网,并沿着任何网页 中的所有URL(统一资源定位器, 统一资源定位器, 中的所有 统一资源定位器 俗称“网址” 爬到其它网页, 俗称“网址”)爬到其它网页,重 复这过程, 复这过程,并把爬过的所有网页 收集回来。 收集回来。
10
检索语言的类型 分类语言 描述文献内 容特征 检索语言 描述文献外 部特征 主题语言 关键词语言 单元词语言 标题词语言 叙词语言
题名 著者/团体作者名 著者 团体作者名 出版事项 代码/序号 代码 序号
11
6、信息检索的要领 、
What? 信息需求 Where?信息源 How?检索技术
12
17
2、网络信息资源的特点 、
信息量大、 信息量大、传播广泛 信息类型多样、 信息类型多样、内容丰富 信息时效性强、 信息时效性强、变化频繁 信息分散无序、 信息分散无序、但关联程度高 信息缺乏管理、 信息缺乏管理、良莠不齐 所以在网络信息检索中, 所以在网络信息检索中,我们常常要借助于 搜索引擎来帮助我们“大海里捞针” 搜索引擎来帮助我们“大海里捞针”。 来帮助我们
23
第三代搜索: 第三代搜索:网页搜索
它们都属于网页自动搜索 引擎, 引擎,有的还带有智能分 析或FTP P2P搜索功能 FTP、 析或FTP、P2P搜索功能
24
5、搜索引擎的工作原理 、
第2章 计算机信息检索技术PPT精品文档96页
2019/12/11
3
国外计算机信息检索发展阶段(P5)
脱机检索阶段(20世纪50-60年代) 联机检索阶段(20世纪60-80年代) 光盘检索阶段(20世纪80年代中-90年代) 网络信息检索阶段(2019-)
2019/12/11
4
1.2 计算机信息检索的定义
计算机信息检索的实质就是由计算机将输入的检索策略与 系统中存储的文献特征标识及其逻辑组配关系进行类比、 匹配的过程,需要人——机协同作用来完成。
第二章 计算机信息检索技术
郑州大学信息检索教研室
2019/12/11
1
第1节 计算机检索概述 第2节 计算机信息检索系统组成 第3节 计算机信息检索的分类 第4节 计算机信息检索技术 第5节 信息检索的方法* 第6节 信息检索的策略*
2019/12/11
2
1.1 国内外计算机信息检索发展阶段
1975年,从国外引进数据库开展机检服务; 1980年,建立国际联机终端开展检索服务; 20世纪80年代中后期,自建数据库; 90年代初,发展光盘检索; 90年代中期,Internet网络化检索阶段。
顺排文档是数据库的主体,又称主文档,按每条记 录的顺序号大小排列,检索结果都来自于顺排文档。 倒排文档是从顺排档中抽取有检索意义的检索标识, 如主题词、著者姓名、化学物质名、刊名等,并 按索引词的字顺排列,同时在检索标识后注明入 藏顺序号,这就是常见的数据库中的主题词索引、 著者索引、刊名索引。
2019/12/11
2019/12/11
10
信息检索过程
用户对检索课题加以分析,明确检索范围,弄清主题 概念,然后用系统检索语言来表示主题概念,形成检 索标识及检索策略,输入到计算机进行检索。计算机 按照用户的要求将检索策略转换成一系列提问,在专 用程序的控制下进行逻辑运算,选出符合要求的信息 输出。
计算机信息检索基础
4. 短语检索符 (phrase)
检索符
“ ”
用于检索固定短语或专有名词 在短语或专有名词前后加双引号,系
统将其按词组对待,不再将其分割按
单词检索。
示例
“4-methoxy-salicylaldehyde”(4-甲 氧基水杨醛) “文科文献信息检索”
运算符小结
计算机信息检索技术是用户信息需求和文 献信息集合之间的匹配比较技术。
示例
胃炎、胃溃疡、胃肿瘤与幽门螺杆菌 的相关性 (不要 cagA ,vagA)
(胃炎 or 胃溃疡 or 胃肿瘤) and (幽门螺杆菌 or 幽门弯曲杆菌)not (cagA or vagA)
布尔逻辑的运算可以进行同类项的合 并。 如:A*B+A*C=A*(B+C) 然而,在使用布尔逻辑时,必须 注意以下几条交换规则: A*B=B*A A+B=B+A A-B≠B-A
2. 截词检索
以符号取代检索词(中、尾)的部分字符,从而 检出相同词干和相同词根的词。 截词包括后截、中截、前截等。用?作为截词符 (有些系统用*),主要包括下列情形: 截词符? 中截一字符,后截断n个字符 如 wom?n 可以检索出: woman, women 又如 computer?——以computer词干开头的 词 可以检索出:computer、computers、
理能力来实现信息的存储与检索。
一、 计算机信息检索原理
计算机信息检索:用户利用数据库获取所 需信息的过程。
即:计算机将输入机检系统的用户提问标识 (检索词)与已存贮在系统中数据库内的 文献特征标识(标引词)进行匹配比较, 凡符合给定的比较原则和逻辑运算条件者 即为命中文献。
最新第二讲 盘算机检索基础道理16303教学讲义ppt课件
v 1983年,出现了一种新的存储器,CD-ROM光 盘。光盘检索具有储量极大而体积微小,要求设 备简单,可随地安装,使用方便、易于操作,检 索费用低(不需要昂贵的联机检索通讯费用), 因可随时修改检索策略而具有很高的查全率和查 准率等优点。 例:Chemical Abstracts Index光盘(1987-1991):由美国化学文摘 社与美国剑桥光盘公司联合研制,收录19871991年《化学文摘》的全部内容。
2.1 计算机检索基本原理概述
v 第四阶段:网络化检索阶段
v
进入90年代,随着卫星通讯、公共数据通讯、
光缆通讯技术以及信息高速公路事业在全世界的
迅猛发展,计算机情报检索走向了全球大联网。
v
网上资源具有信息的时效性、内容的广泛性、
访问的快速性、搜索的网络性和资源的动态性五
大特点,那么要及时、准确、有效地获取与自身
2.2 计算机检索基本原理
v 2.2.2 信息检索 v 1、检索者对检索课题进行主题分析、明确检索
范围,形成能代表情报需求的若干主题概念。 v 2、把这些主题概念转换成计算机信息检索语言,
即用数据库检索工具书对各概念选词和进行逻辑 组配,编制成检索提问式。 v 3、用计算机检索系统功能在文献资料数据库中 将信息需求主题概念和数据库内文献主题概念标 识进行匹配,找到命中文献。 v 用图表示如下:
2.3 文献信息数据库的基本概念
v (2) 指南数据库(reference databases) 指存储关于某些机构、人物、出版物、项目、
程序、活动等对象的简要描述,指引用户获取更 详细的信息的一类数据库。亦称指示性数据库。 例如,各种机构名录数据库、人物传记数据库、 产品数据库、软件数据库、研究开发项目数据库、 基金数据库等,均属此类。 v 2. 源数据库(source databases):
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(L)举例
检索式 control(L)stability 命中
标题含有control和stability两 标题含有control和stability两 control 个检索词的文献记录。 个检索词的文献记录。
返 回
(F)举例
检索式 economic(F)knowledge 命中
标题为“ 标题为“the Economic Impact Knowledge-Based” of Knowledge-Based”的文献记 录。 原因: 原因: 算符两侧的检索词在同一标题字段中
1.2 位置逻辑检索技术
Dialog系统中的几种位置算符
同词位检索 (W)——(With / Word)、 (nW) (N)——(NEAR)、(nN) 同字段检索 (F)——(Field) (L)——(Link) 其他位置算符 (S)——(Subfield) (C)——(Citation)
1.2.1 同词位检索
返 回
(W)/()举例
检索式 American () Literature 命中
有关American Literature或 有关 或 American,Literature的文献 , 的文献
返 回
(nW)举例
检索式 knowledge(1W)economy 命中
有关knowledge economy或 有关 或 knowledge-based economy的文献 的文献
后截断注意事项
后截断主要使用于如下几种情况:
检索词的单复数的描述; 如:book? 同根词的表达; 如:chemi*可以检索出chemical、 chemistry、chemist等同根词 年代的表达; 如:20??(21世纪),199?(20世纪90年代) 作者 如:Moyer*可以检索出所有姓Moyer的作者
A and B 或 A*B A B
词必须同时出现 在检索字段中
1.1.1 逻辑“与” 逻辑“
作用 缩小检索范围,提高查准率。 举例 检索“人口控制”或者“控制人口”方面的 文献信息。 人口 and 控制
返回
1.1.2 逻辑“或” 逻辑“
运算符:OR 或 + 用于检索词并列关系(同义词、近义词)的 检索出的记录含有检 组配,实现检索词概念范围的并集。 索词A或者检索词B 表达式: 在文献记录中只要
(W)/() ) ()
(nW)
此算符两侧的检索词必须 按输入时的前后顺序排列 ,而且所连接的词之间除 可以有一个空格或一个标 点符号或一个链接号外不 得夹有任何其他单词或字 母
举例
允许在连接的两个词之 间最多夹入n 间最多夹入n个其他单 元词, 元词,只强调插入单元 词个数没限定插入单元 词的具体范围, 词的具体范围,同时词 序不能颠倒
有限截断 指限定截去有限个字符。 截断符号 ??——截断1个字符 ??—— 1 ???——截断2个字符 依此类推。 举例 输入:product?? 结果:含有product、products的记录
1.3.1 按截词数量截断
无限截断 检索词词干可变化两个以上字符时,连续 使用若干个“ ? ”或“ * ”代替变化字符。 用法 可同时查找含有该词干的所有文献记录, 亦可用于年代的查找。
1.2.3 其他位置逻辑检索
(C)——(Citation)
表示两侧的检索词只能出现在同一条记录 同一条记录中, 且对它们的相对位置或次序没有任何限制,作 用和布尔算符and完全相同
1.2.4 位置逻辑检索技术
(W) )
(N) )
严谨
(S) S (F)
位置逻辑算符 的优先顺序
C
宽松
返回
1.3 截词检索技术
返 回
2.2.2 同字段检索
举 例
表示此算符两 侧的检索词必 须同时出现在 同一字段内。 同一字段内。 如:篇名字段 、文摘字段、 文摘字段、 叙词字段等, 叙词字段等, 但两词的词序 中间插入的次 数不限。 数不限。
(F) ) (L) )
举 例
表示两个检索 词之间存在从 属关系或限制 关系。 关系。如果其 中一个为一级 主题词, 主题词,另一 个就为二级主 题词。 题词。
简 单
检索词 检索词
组 配
复杂概念的 检索式
检索词
1.1 布尔逻辑检索技术
常用的布尔逻辑运算符:
逻辑“与(AND)” 逻辑“或(OR)” 逻辑“非(NOT)”
运算顺序
1.1.1 逻辑“与” 逻辑“
运算符:AND 或 * 检出同时含有检 索词A和检索词 索词 和检索词B 和检索词 用于交叉概念或限定关系的组配,实现检 的记录 索词概念范围的交集。 表达式: 两侧的检索 And两侧的检索 And
检索式 chemistry(N)physics 命中
含有chemistry physics或physics 含有 或 chemistry的文献 的文献
返 回
(nN)举例
检索式 economic(2N)recovery 命中
含有economic recovery或recovery 含有 或 of the economic的文献 的文献
返回
1.1 布尔逻辑检索技术
• 布尔逻辑运算符的运算顺序
NOT
AND
OR
优先级高
优先级低
返回
1.2 位置逻辑检索技术
位置逻辑检索 利用位置逻辑算符限定检索词之间的位置,或指 定检索词在记录中某一特定位置进行检索。位置 算符又称邻接运算符。 位置逻辑检索的作用 表达各个检索词之间的顺序与相对位置关系。 与布尔逻辑检索的区别 使用布尔逻辑检索时,计算机只判断参加运算的 检索词在数据库记录中出现与否,不能确定检索 词之间的相对位置关系。而通过与位置算符配合 使用可以减少检索误差。
举例
严密性强
严密性差
1.2.1 同词位检索
(N) )
(nN)
此算符两侧的检索词必 须紧密相连, 须紧密相连,所连接的 词间不允许插入任何其 他单词或字母, 他单词或字母,但词序 可以颠倒
允许两个检索词之间最 多可以插入n个单词 个单词, 多可以插入 个单词, 且这两个检索词的词序 任意
举例
举例
(N)举例
1.3.2 其他截断方式
1.最常用的 1.最常用的 截词检索技 术; 2.放在字符 2.放在字符 串右方, 串右方,表 示其右有限 或无限个字 符不影响该 字符串的检 索; 3.实质 实质: 3.实质:后 截断是前方 一致检索
后截断
前截断
1.将截词符 1.将截词符 号放在一 个字符串 左方, 左方,表 示其左的 有限或无 限个字符 不影响该 字符串的 检索; 检索; 2.实质 实质: 2.实质:后 方一致检 索
第二讲 计算机检索技 术及搜索引擎应用
必须找? 哪里找? 如何找?
第一节 计算机检索技术
分 子
识别
键 词
检 索
连 接 组
种 运 算
检 索 表
计算机检索的实质:匹配运算 式 、 词
检索提问
计算机检索技术
检 索
数据库 配 符 达 等 名 : 。 , 扫描、 式 扫描、匹配 检索表达式 。 称 主 把 : 、 题 检 运 分 词 索 用 类 、 词 各 号 关
返回
1.1.3 逻辑“非” 逻辑“
运算符:NOT 或 一种排斥关系的组配,用来从原来的检索范 检索出的记录含有检 围中排除不需要的概念。 索词A 索词A,但同时不含 表达式: 适用于排除含有某个
指定检索词的记录
A not B 或 A-B A
检索词B 检索词B
B
2.1.3 逻辑“非” 逻辑“
作用 缩小检索范围,增强检索的准确性。但使用不当, 易排除有用文献信息,从而导致漏检 举例 检索有关能源方面的文献信息,但不包括核能。 energy not nuclear 使用的注意事项 两个关系紧密的检索词不宜用not
返 回
1.2.3 其他位置逻辑检索
(S)——(Subfield)
表示在此算副辆车的检索词必须出现在同一个子字段 同一个子字段 中,顺序不变,中间可插入词数不限。
举例
(basic or cobol or pascal)(S)(program* or compil*) Basic (S) program* basic (S) compil* Cobol (S) program* cobol (S) compil* Pascal (S) program* pascal (S) compil*
返回
1.5 加权检索技术
与其他检索技术的区别
其他检索技术 判定检索词或字符串在数据 侧重点 库中,与别的检索词或字符 串是什么关系 加权检索技术 判定检索词或字符串在满足检索 逻辑后对文献信息命中与否的影 响程度
基本方法 1. 在每个检索词后面给定表示重要程度的数值,称为权 值。 2. 检索时,查找这些检索词在数据库记录中是否存在 3. 计算存在的检索词的权值总和。 4. 权值之和达到或超过预先给定的阙值,即为命中
实质 截词检索就是用截词符号将检索词截断,用 检索词的片段进行匹配运算。 注意 在截断时,截断的词干不能太短,词干一 般应在3个字符以上,以免增加检索时间, 产生误检。
1.3 截词检索技术
截词形式
按截词的字符数量 有限截断、无限截断 按截词的位置 右截断、左截断、中间截断
1.3.1 按截词数量截断
作用
扩大检索范围,提高检全率,减少检索词的输入量
返 回
1.4 字段限制检索技术
在检索系统中,通常有一些缩小或约束检 索结果的方法,称为限制检索。 限制检索的方式
1 2
字段限制检索
使用限制符检索
1.4.1 字段限制检索
特点及作用 使检索出的文献信息达到一定的专指度。将检索 词限制在记录的某个特定字段内检索,不但可以 减轻机器负担,提高运算速度,还可以使检索结 果更准确。 用法 将需要检索的内容限制在相关的字段内。 如:作者姓名 关键词 作者字段 关键词或题名字段