计算机信息检索技术(1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
词、上位词、下位词等。
计算机信息检索技术(1)
忽略词
• 一些常用的英语词汇,当它在检索式中出现时, 并不影响到检索内容。这些词就通常被系统所 忽略,即没有检索意义。
• 通常有: • a an the these this do have of up
have be too all had go to be is are am and not or 等 • 但有些系统将其赋予位置算符的作用。
数据库。
• 图像数据库: • QBIC:
• HTTP://
计算机信息检索技术(1)
数据库与检索系统
• 数据库与检索系统是两个不同的概念。 • 数据库是信息的集体体,是一种信息管理的方式。 • 检索系统是个软件。检索系统主要用于检索数据
库。 • 一个检索系统可以容纳上百个数据库,可同时对
计算机信息检索技术(1)
我们要掌握数据库和检索系统的什么?
• 一、检索系统的检索技术: • 1、逻辑算符 • 2、位置算符 • 3、截词符 • 4、字段符 • 二、数据库的情况: • 1、文献收录的范围:
• 农业:农业? • 龙头企业:定义。 • 竞争力:定义。 • 竞争力指标:有哪些? • 评价:评价的方法?评价的机构?评价机构必须具备
的要素?
计算机信息检索技术(1)
• 2、利用已知的主题词进行检索,在检索 过程中根据检索结果,确定研究内容, 同时再提炼出相应主题词,再进行检索。
计算机信息检索技术(1)
上百个数据库进行检索。 • 一个数据库可依存于不同的检索系统。
计算机信息检索技术(1)
• 检索系统: • 网络检索系统:检索系统嵌入在网页中,
检索界面是网页的一部分。
• 联机检索系统:
• 现在说的联机检索系统一般指使用专门 的软件实现本地机与服务器连接的检索系
统。
计算机信息检索技术(1)
检索方式
• AND、OR、NOT、*、+、- 称之为逻辑算符
计算机信息检索技术(1)
布尔逻辑运算
• 逻辑与: • AND -英文系统 • * -中文系统 • 若 A AND B:即表示被检索的文献记录中
必须同时含有A和B才算命中,AND两侧的检索 词必须同时出现在同一篇文献记录中,该篇文 献才算命中。 • 用于交叉要领和限定关系的组配,它可以缩少 检索范围,准确表达检索需求,有利于提高查 准率。
计算机信息检索技术(1)
字段限定--字段符
• DE= 限在叙词标引中查 • ID = 限在自由标引词中查 • TI = 限在题目中查 • AB= 限在文摘中查找 • CT= 限查受控词 • PA= 限查专利
计算机信息检索技术(1)
字段限定--字段限定表述
• 字段限定检索的表述: • 一般为以下几种形式 • 1、字段符=检索词 (主要用于中文系统) • 2、检索词 in 字段符 (主要用于英文系
(1)使用位置算符, (2)使用引号。
计算机信息检索技术(1)
• 位置算符:检索系统一般是采用位置算
符来实现位置检索。 • 常用的位置算符有:adj near with
within wn • 不同的系统采用的位置算符不同.用法也
不同
计算机信息检索技术(1)
截词运算—截词符
• 在截词运算中,一般采用截词符号来实 现检索。
• 检索系统一般提供了二种检索方式:
• 菜单式检索 • 命令式信息检索
计算机信息检索技术(1)
菜单式检索
• 是一种操作方便,界面友好操作简便的 检索方式。
• 用户只需输入检索词,根据菜单的指引, 通过确定适当的选项和功能鍵便能完成 检索。
• 菜单式检索是现阶段最受欢迎的检索方 式。
计算机信息检索技术(1)
计算机信息检索技术(1)
2020/12/7
计算机信息检索技术(1)
• 例:农业产业化龙头企业竞争力评价研究 • 主题词:农业产业化 龙头企业 竞争力评价
研究
计算机信息检索技术(1)
• 1、确定概念:相同的概念,不同的学者会有不同的理 解,我们需要确定一个或根据别人的观点提出自己的 观点。检索时,需要根据别人的观点提炼检索词,在 查全别人观点的基础上通过分析提出自己的观点。检 索者需要有一定的专业知识。
• 在计算机检索中,常用的检索技术与技巧有: • 1、分词 • 2、布尔逻辑运算 • 3、字段限定 • 4、位置限定
• 5、截词运算
计算机信息检索技术(1)
• 分词:
• 即在检索中,首先要将检索词分到概念上不可 再分为止,以保证查全。
• 如:华南农业大学 分为:华南 农业 大学

企业竞争力 分为:企业 竞争力

- --中文系统
• 若A NOT B,则表示文献记录中包含A 而不包含B。
• 这种组配用于从原来的检索范围中排除不需要 的和影响检索结果的概念,使检索结果更精确。
• 如;查找有关能源方面的文献,但不包含包括核能。
A (ENERGY)------78230 ENERGY B (NUCLEAR)----14778 NUCLEAR A not B ---- ----------63452 ENERGY not EUCLEAR
• 文献资源的出版、收藏和分布:我们需要清楚
某专业或某主题方面的文献的出版、收藏和分
布。要熟悉自己的专业出版社、专业图书馆、
文献的历史。
计算机信息检索技术(1)
• 文献管理:文献需要经过专业化的管理才能被人们所 检索、所利用。
• 现代管理文献的工具主要是计算机。 • 涉及到的技术主要是数据库技术、网络技术、软件技
计算机信息检索技术(1)
布尔逻辑运算
• 逻辑或:

OR -英文系统

+ -中文系统
• 若 A or B ,则表示在一篇文献记录中 只要含有A或者B中的任何一个即算命中。
• 用于并列关系的组配,可以扩大检索范围,防 止漏检,有利于提高查全率。
计算机信息检索技术(1)
布尔逻辑运算
• 逻辑非:

NOT --英文系统
eets/dialog blue sheets
计算机信息检索技术(1)
数据库类型
• 1.目录型数据库:只收集文献的题名、作者、出版者、价格、 收藏地址等信息。没有摘要和全文。
• 2.文摘型数据库:有文摘。收集范围广,语种多,文献类型多, 地理范围广。检索文字类资料从文摘数据库开始。
• 3.全文型数据库:提供摘要和全文。收集范围有限,主要用于 某个单位或某个主题的资料存贮。用于专业学习和检索原文。 可与全文数据库实现无缝链接。
• 查全某个课题或某个主题方面的资料,是全面 掌握知识、开展科研的基础。
• 资料:记载有参考价值的知识的文献。
• 文献:知识的载体。
• 知识的来源:人,实践,文献。
• 文献资源:图书、期刊、报纸、学位论文、会 议论文、科技报告、专利文献、标准文献、档 案、政府出版物、产品资料、图像、数据、网 页、其它。
计算机信息检索技术(1)
布尔逻辑运算
• 三者运算的优先级一般如下: • 逻辑非 > 逻辑与 > 逻辑或 • 在不同的系统中,三者的运算优先级可能
不同。
计算机信息检索技术(1)
布尔逻辑运算 • 逻辑运算优先级的限定: • 有时为了让优先级低的逻辑运算先进
行,使用括号来加以限定。 • 如:A OR B AND C • (A OR B) AND C

农业龙头企业 分为:农业农业 龙头 企

• 然后通过减少词来扩大检索范围,提高查全率。
计算机信息检索技术(1)
布尔逻辑运算
• 当需要用于多个检索词来表达检索内容时,我 们需要处理这些检索词的逻辑关系。
• 对检索词进行布尔逻辑运算 • 布尔逻辑运算共有三种: • 逻辑与:AND * • 逻辑或:OR + • 逻辑非:NOT -
术。 • 当我们需要查找某个课题或某个主题方面的资料,需
要先熟悉收集相关资料的网站和数据库。网站所提供 的网页资料大部分可通过搜索引擎查到。数据库则一 般是收费的,需要付费才能查找其中的资料。
计算机信息检索技术(1)
• 常用搜索引擎、专业搜索引擎:网页上有专业学术论文、图 像、视频等文献资料。
• 如:
命令式检索--专业检索方式
• 需要输入检索式来进行检索。 • 命令式检索的优势: • 检索式更能清晰地表达复杂的检索内容和要
求。 • 检索过程明了,便与检索者判断检索是否满
意。有利于掌握检索过程。 • 对于进行课题研究的文献检索,需要使用命令
式检索方式。 • 一些大型的检索系统都使用命令检索方式
计算机信息检索技术(1)
计算机检索原理
• 计算机检索过程:词形匹配 • 这是我们永远、时刻要记住的。 • 实质上,检索的过程就是一个如何保词(或符号、句子)保持一致。
计算机信息检索技术(1)
数据库信息管理
字段 TI AU PB
PY
PD
SB
SS AB
LA

字段 书名 作者 出版社 出版年 出版地 主题词 名称
internauci.pl的产品。
• www.echo.fr的产品。
• http://parker.vslib.cz
计算机信息检索技术(1)
• 学术类文献资源一般收集在文献数据库中: • 中文数据库有:
• , • , • • 英文数据库请见: • /dialog%20blue%20sh
计算机信息检索技术(1)
字段限定 • 对检索词的检索出现的检索字段进行限定 • 即确定检索词在哪一个字段中进行检索。
计算机信息检索技术(1)
字段限定—字段符
字段符:
• 每个字段均有其字段符。常用的检索字段 符有
• AU=限查特定作者 • LA=限查特定语种 • PY=限查特定年代
JN=限查特定刊名 PN=限查特定专利号 CS=机构名称
统) • 3、检索词 within 字段符(主要用于英文系统) • 4、检索词 wn 字段符(主要用于英文系
统) • 5、字段符(检索词) (主要用于英文系
统) • 表示检索词必须出现在指定的字段内
计算机信息检索技术(1)
位置限定 • 为了准确表达检索内容,提高查准率。
系统一般对检索词进行词位的限定。 • 限定检索词的位置一般有两种方式:
计算机信息检索技术(1)
布尔逻辑运算
• 逻辑运算的组合: • 当一个表达式中需要出现三种逻辑运算的多
个组合时,可使用括号来限定它们的运算优先 顺序。如:(A OR B) AND C • 有的系统支持双重括号,有的系统只支持单重 括。 • 一个检索系统对表达式中所包含的逻辑算符一 般是由限度的。如《BA》数据库中,表达式 中最多只能含五十个逻辑算符,即五十个逻辑 运算。
• 截词符一般 为?或 * • ?一般表示一个字符 • *一般表示0-n个字符 • 不同的系统使用的截词符不同,用法也
不同
计算机信息检索技术(1)
词库检索
• 一般的文献数据库,大都有自己的主题词库, 词库不仅用于标引文献,也用于辅助检索。
• 检索系统一般都附有自已的词库, • 词库一般按字顺排,或按概念层次来排。 • 词库一般向用户提供了同义词、近义词、相关


• 国外著名的FTP搜索引擎 •
全球最大的FTP搜索引擎。
• 的产品。

• Chertovy Kulichki Inc.的产品。 •
• 4.数据型数据库:数值、事实。用于检索文字类数据。如年鉴 数据库。
• 5.多媒体数据库:图像数据库,视频数据库,音频数据库等。 计算机信息检索技术(1)
文摘索引数据库 全文数据库
计算机信息检索技术(1)
• 年鉴数据库: • 年鉴数据库 • 中国年鉴网年鉴
分类 文摘 号
原文 语种
记录 三国 罗贯 人民出 2002 北京 1 演义 中 版社
中国古代 I22 三国演义 chi
小说
是…
记 毛泽 张三 北京大 2003 北京 毛泽东、 G25 毛泽东 chi
录2 东传
学出版
政治人物
是…

记……… … … …
录3
……

计算机信息检索技术(1)
计算机信息检索技术
相关文档
最新文档