第4章 信息检索技术
因特网上信息检索(检索与原理)
搜索 蜘蛛程序自动 用关键字 引擎 搜索后产生索 或关键字 引数据库 表达式检 索
网页
较短
较大
量大
元搜 本身一般不带 用关键字 数据库 索引 或关键字 擎 表达式检 索
网页
较短 较大 量大 命中率可 (视被引 (视被引 (视被引 能稍高 用的搜索 用的搜索 用的搜索 引擎) 引擎) 引擎)
搜索引擎的发展趋势
适合查找综合性、概括性的主题概念,或对检索准 确度要求较高的课题。 专题指南的局限性在于其信息更新速度慢,跟不上 网络信息的发展。
数据库的规模相对较小,收录的网页数量和深度都 相对不足,用户很难检索到较专深的信息,比较容 易遗漏交叉相关信息 。
全文搜索引擎(一)
使用自动索引软件来发现、收集并标引网页, 建立数据库。它的Spider自动在因特网上漫游, 不断搜集各类新网址及网页,形成数以千万乃 至亿万条记录的数据库;它以Web形式提供给 用户一个检索界面,供用户输入检索关键词、 词组或短语等检索项,以其特定的检索算法代
如:雅虎、/ 新浪、 /
搜狐、 /
网易、 /
目录索引类搜索引擎二
目录索引类搜索引擎特点
比较适合用户进行笼统或较笼统的主题浏览和检索。
查准率较高,查全率较低。
C.爬虫 D.CuteFTP
4.下列不属于元搜索引擎特点的是( B.可同时搜索多个数据库 C.一般支持AND、OR、NOT等操作 D.一般只使用简单、直接的搜索策略
)。
A.搜索时,用户必须多次提交搜索请求
判断题
1.常用的两种搜索引擎是目录类搜索引擎和元搜索引擎。 ( ) 2.为了适应不同搜索群体的需要,许多搜索引擎一般都提 供多语种检索功能。( )
各个网站上,把网页抓下来, 并顺着上面的链接,持续不断 地抓取网页。如“网络机器 人”、“爬虫”、“蜘蛛”。
信息检索技术(第二版)习题答案
《信息检索技术》(第二版)书后习题及参考答案(部分)第1章绪论【综合练习】一、填空题1.文献是信息的主要载体,根据对信息的加工层次可将文献分为_________文献、__________文献、___________文献和___________文献。
2.追溯法是指利用已经掌握的文献末尾所列的__________,进行逐一地追溯查找_________的一种最简便的扩大情报来源的方法。
3.用规范化词语来表达文献信息__________的词汇叫主题词。
主题途径是按照文献信息的主题内容进行检索的途径,利用能代表文献内容的主题词、关键词、叙词、并按字顺序列实现检索。
4.计算机信息检索过程实际上是将___________与____________进行对比匹配的过程。
5.无论是手工检索还是计算机检索,都是一个经过仔细地思考并通过实践逐步完善查找方法的过程。
检索过程通常包含以下几个步骤_________、__________、__________、__________、_________。
6.检索工具按信息加工的手段可以分文__________、____________、___________。
7.《中国图书馆图书分类法》共分___________个基本部类,下分________个大类。
8.索引包括4个基本要素:索引源、___________、___________、和出处指引系统。
答案1.零次,一次,二次,三次2.参考文献,引文3.内容特征4.检索提问词,文献记录标引词5.分析课题,选择检索工具,确定检索途径及检索式,进行检索,获取原文6.手工检索工具,机械检索工具,计算机检索工具7.五,228.索引款目,编排方法二、判断题1.在检索信息时,使用逻辑符“AND”可以缩小收缩范围。
()2.逆查法是由近及远地查找,顺着时间的顺序利用检索工具进行文献信息检索的方法。
()3.按编制方法划分,信息检索工具可以分为:手工检索工具、机械检索工具、计算机检索工具。
第4章 多媒体信息检索
基本步骤
(2) 多媒体数据流分割。是根据所提取的多媒体低层物理特 征来完成的,也可以是在其特征发生突变的地方进行分割, 把连续的多媒体数据流分成不同长度的数据片段。
所分割出来的数据片段只是一些物理单元,如视频流被分割 成镜头单元,使每个镜头单元的视频音频特征基本保持一致; 例如,由前一个拍摄屋内场景的镜头变化为拍摄屋外场景镜 头时,在两组镜头间,由于光照条件发生变化,会使这些视 频图像帧的颜色特征发生突变,根据这个突变,就可以把两 给镜头切分开;又如,把音频流分割成静音、音乐和语音等 不同片段。当从静音转变成语音时,音频能量会发生很大变 化,根据这个变化,可以将连续音频数据流切分成静音和语 音两部分。
海南省Internet信息检索重点实验室 海南大学信息科学技术学院
多媒体内容的模型元素
……
特征值
……
特征元
特征
媒体数据
模型元素及其关系
海南省Internet信息检索重点实验室 海南大学信息科学技术学院
多媒体内容的一般模型
如果借用数据库系统中的属性概念,用属性 来表述多媒体数据的内容,并进一步按是否是视 听属性来对内容进行划分,把多媒体内容分为一 般属性和视听属性,而视听属性是基于内容检索 的重要信息线索。视听属性又可以用语义、视听 特征和媒体数据三个层次来描述。综上所述,一 种多媒体内容的一般模型如下图所示。
(1) 基于文本的图像检索
基于文本的图像检索(Text-based Image Retrieval,TBIR),即利用文本的描述表 示图像的特征,其本质仍然是文本检索。
在早期的TBIR系统中,图像被作为数据库中 存储的一个对象,用文本对其进行描述。这 种方法简单易行,用DBMS就可以实现,但存 在两个缺点:一是需要人工对图像进行理解 和标注,工作量相当大,当图片数据量很大 时,人工标注是不切实际的;二是人工标注 不可避免的会带来主观性和不精确性,因为 不同的人对同一幅图像的理解可能是不相同 的。
3信息需求及其表达4信息检索基础
中国图书馆分类法的体系结构
大类( 22 个):
A 马克思主义、列宁主义、 毛泽东思想 B 哲学 C 社会科学总论 D 政治、法律 E 军事 F 经济
一个字母表示一个大类,称为一级类目
O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医学、卫生 S 农业科学 T 工业技术 TH 机械、仪表工业 TM 电子技术 TN 无线电电子学、电 讯技术 TP 自动化技术、 计算技术 TQ 化学工业 TS 轻工业、手工 业
结论:做科研、发明之前,应利用信息检索来避免重复的研究,从而少走弯 路。
2. 检索语言
2.1 定义
检索语言是文献信息存储和检索过程中共同使用
的一种专门语言,用于描述检索系统信息的内部及外
部特征和表达用户信息需求,是编制检索工具的依据。
2.2 类型——按照描述文献的基本特征划分
不同的检索语言构成不同的标目及索引系统,提供各种检索点(即检索途径)
查阅文献 计划思考 实验研究 书写报告
计划思考 15%
科 研 人 员 时 间 分 配 表
1.5 信息检索的意义
提高信息查询的效率
全世界每年出版的图书有80万种以上,科技期刊8万种以
上,发表期刊论文大于600万篇以上;公开的专利说明书100多
万件;国际会议文献1万多件;美、英、德、日等国产生的科 技报告达20万件左右。 具备一定的信息检索能力,才能在浩如烟海的文献中,快 速、有效地查找出有用的信息。
明确的因素:一个月内 不明确的因素:外观、用途、厂商品牌; 不十分明确的因素:①价格在15万元左右多大幅度(是10万-20万, 还是14万-16万);②较高的性价比是指在一定价格前提下哪些主要部 件的技术含量及其指标。
第4章 国内常用信息检索工具(系统)
4.1 文献检索-全国报刊索引
《全国报刊索引》:由上海图书馆编辑出版, 一种题录类综合性的检索工具,月刊分为:哲 学社会科学版和自然科学版两种。目前提供网 络版检索 《全国报刊索引》综合数据库从1993年开始编 辑发行 为了全面报道国内中文报刊资源,2004年起推 出了《全国报刊索引数据库-目次库》,收录 各类报刊近万种,几乎包括了国内(包括港台 地区)所有的中文报刊资源
4.2 常用系统-中文常用系统简介
这里主要介绍的是综合性检索系统
中国知网 万方数据 维普期刊 国家科技图书文献中心(外刊、外文资源)
4.2 常用系统-中国知网简介
中国知网:由清华大学、清华同方发起,始建于 1999年4月。以实现全社会知识资源传播共享与增 值利用为目标 /index.htm 经过十几年的发展,中国知网已经成为目前中国常 用的检索系统平台 它的检索功能与界面也几经更新,目前最新的知识 发现网络平台(简称KDN) /help/AssistDocument/KDN/ht ml/main.htm 知网概览:资源、导航、数字化学习研究以及个人 /机构图书馆
目前年鉴总计2000种
按行业分成二十一类行业,同时按照地方年
鉴按照区域分成34个省和区域 1949年至今 提供年鉴整刊导航
4.2 常用系统-中国知网工具书及知识元检索
除了上述常见文献及年鉴的数据库,知网还
提供工具书及知识元的检索。
4.2 常用系统-中国知网概念知识元检索
4.2 常用系统-中国知网其他服务
新版知网提供更多服务,例如数字图书馆系
4.1 文献检索-人大报刊复印资料
第四章网络信息检索
搜索引擎检索技巧 • 简单检索 • 双引号(“”)检索
• 加号(+)检索:强调某个词汇必须出现在搜
•
• • • • • •
索结果中。 减号(-)检索:强调某个词汇必须不出现在 搜索结果中。
括号()检索: 空格检索 通配符(*?)检索: 区分大小写检索 布尔逻辑检索 元词检索
(四)常用中文搜索引擎及特点
(二)网络信息检索的一般方法 • 浏览 • 通过网络资源指南查找信息 • 利用网络信息检索工具查找信息:Web 网检 索工具---搜索引擎。 将位于全世界不同地点的相关信息资源 有机地编织在一起,用户通过internet 调来 所希望得到的所有文本、图像、影视和声 音等信息。
(三) www搜索引擎
1996年2月提供服务的台湾蕃薯藤搜索引擎, 标志着中文搜索引擎的正式开始。之后哇 塞、奇摩、悠游等一批中文搜索引擎在港 台相继出现;在中国内地,继四通利方公 司(新浪网前身)开发出了国内最早的中 文搜索引擎Richsurf后,网易、搜索客、常中文搜索引擎:
定义: • 广义上的搜索引擎指基于因特网提供信息管理、 查询、检索等服务的工具、系统与网站。 • 狭义上的搜索引擎指利用ROBOT软件对因特网上 的见面或网站信息资源进行自动搜索服务而专门 设计的一种检索服务软件。 • 常用较为严谨的搜索引擎定义:?
2 搜索引擎的类型
按照信息搜集方法和服务提供方式的不同,搜索引 擎可以分为三大类: (1)目录式搜索引擎:早期的搜索引擎是把因特网 中的资源服务器的地址收集起来,由其提供的资 源的类型不同分成不同的目录,再一层层地进行 分类。信息大多面向网站,提供目录浏览服务和 直接检索服务。优点:信息准确、导航质量高; 缺点:需要人工介入,维护量大,信息量少,信 息更新不及时。代表: Yaho用语法规则)
第四章 信息检索模型
向量空间模型
➢ 向量空间模型(Vector Space Model,VSM) 是由G·Salton等人在1958年提出的
➢ 代表系统
SMART( System for the Manipulation and Retrieval of Text)
➢ 这一系统理论框架到现在仍然是信息检索 技术研究的基础
D={d1, d2 , … , dm} 为了满足检索匹配所要求的快速与便利,文档di通常由
从文档中抽取的能够表达文档内容的特征项(如索引 项/检索词/关键词)来表示 设K={k1, k2 , … , kn} 为系统索引项集合 则di ={ωi1,ωi2 , … ,ωin} (ωij≥0) ωij→索引词kj在文档di中的重要性(权值weight)
相当于识别包含了一个某个特定term的文档
➢ 经过某种训练的用户可以容易地写出布尔查询 式
➢ 布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型”
布尔模型存在的问题
➢ 布尔模型被认为是功能最弱的方式,其主要问题在于不支 持部分匹配,而完全匹配会导致太多或者太少的结果文档 被返回 非常刚性: “与”意味着全部; “或”意味着任何一 个
模型中的问题
➢ 怎样确定文档中哪些词是重要的词?(索 引项)
➢ 怎样确定一个词在某个文档中或在整个文 档集中的重要程度?(权重)
➢ 怎样确定一个文档和一个查询式之间的相 似度?
索引项的选择
➢ 若干独立的词项被选作索引项(index keys) or 词表 vocabulary
➢ 索引项代表了一个应用中的重要词项 计算机科学图书馆中的索引项应该是哪些呢?
例如:文档的统计特性 ➢ 用户规定一个词项(key)集合,可以给每个词项附加权重
【信息检索与利用考试题纲】信息检索与利用考试
【信息检索与利用考试题纲】信息检索与利用考试信息检索与利用考试题纲考试时间:11月5日,共90分钟考试形式:闭卷考试题型、题量、分值介绍:一、单项选择题﹙共8题,每题2分,共16分﹚二、不定项选择题(共6题,每题3分,共18分)三、判断题(共6题,每题1分,共6分)四、名词解释题(共4题,每题4分,共16分)五、简答题(共4题,每题6分,共24分)六、论述题(共2题,每题10分,共20分)第1章:检索基础知识文献,是用特定符号记录知识的一切载体的总称。
1.1信息概述文献的类型大致可以分为图书、期刊、研究报告、专利文献、科技报告、学位论文、会议文献、标准文献、科技档案、产品技术、政府出版物、报纸、声像资料、电子出版物、网络出版物、移动阅读设备等。
1.2文献检索的基本原理1.2.1检索工具的类型1.目录2.题录3.文摘4.索引5.搜索引擎1.2.2检索语言1.2.3文献检索的途径1.题名检索途径2.著者检索途径3.分类检索途径4.主题检索途径.1.2.4文献检索的步骤1.分析研究课题,明确检索要求、时间、范围2.确定检索策略(1)选择检索工具(2)确定检索途径(3)优选检索方法(4)制定、调整检索策略3.查找文献线索4.索取原始文献信息第2章:网络信息资源检索2.1网路信息检索技术信息检索技术是指应用于信息检索过程的原理、方法、策略、设备条件和检索手段等因素的总称。
2.1.1布尔逻辑检索技术布尔逻辑运算符有3种,逻辑与(AND)逻辑或(OR)逻辑非(NOT)。
2.2网络搜索引擎1.搜索引擎的工作原理搜索引擎的工作主要由两部分组成:信息收集处理和信息检索输出。
2.搜索引擎的分类(1)目录式搜索引擎(2)机器人搜索引擎(3)元搜索引擎2.2.2 常用的搜索引擎1.目录型搜索引擎(1)中文yahoo!(.yahoo..)(2)新浪搜索引擎(.sina..)2.机器人搜索引擎(1)Google搜索引擎(.google.)举例说明:例如用Google搜索引擎检索关于产品设计的幻灯片,可在高级检索页面中“包含以下全部的字词”栏键入“产品设计”,在“文件格式”栏选择“PPT”,同时为了缩小检索范围,可把检索结果限定在网页标题中执行检索。
第四章 搜索引擎与网络信息检索(二
A
B
雅虎搜索技巧
2、如何查找更精确的搜索结果? 实 例
使用空格(* 交叉 and) 与只使用单个查询词进行搜索相比,使用多个查询词搜 索,不同词语之间用一个空格隔开,可以找到更精确的 结果。 例如:想查询马云上福布斯封面的消息,如果只搜索马云, 会得到很多关于马云的搜索结果,很难找到想要的信息。 但是搜索马云 福布斯 封面,搜索结果中很容易找到我 们想要的。
雅虎搜索技巧
Site:或者 domain: 例如:想查询雅虎网站中报导的刘翔信息,可以有以 下两种方法:
1)、在搜索框中输入刘翔 site: 或者 刘 翔domain: ,(注意中间使用空格隔开)。 搜索引擎会搜索到在域名“”及其子 域名中的所有包含“刘翔”一词的网页。 2)、在搜索框中输入site: 刘翔也可以得 到相同的搜索结果。 备注:“site:”后面跟的站点域名,不要带 “http://”(与link不一样);另外,“site:”和站点 名之间,不要加空格。
第三章
搜索引擎与网络信息检索
(二)
雅虎、搜狐(搜狗) 搜索引擎的介绍
主讲:傅永慧
雅虎 () ()
中文雅虎主页
雅虎搜索引擎
英文雅虎主页
雅虎搜索的发展里程碑
1994年4月,斯坦福大学两位博士生杨致远和 David Filo共同创办了雅虎,通过著名的雅虎目录 为用户提供导航服务。雅虎目录有近100万个分 类页面,14个国家和地区当地语言的专门目录, 包括英语、汉语、丹麦语、法语、德语、日语、 韩文、西班牙语等。自问世以来,雅虎目录已成 为最常用的在线检索工具之一,并成功地使搜索 引擎的概念深入人心。
搜狗搜索引擎的发展历程
网页应用以网页搜索为核心,在音乐、图片、新 闻、地图领域提供垂直搜索服务,通过说吧建立 用户间的搜索型社区; 桌面应用则旨在提升用户的使用体验:搜狗工具 条帮助用户快速启动搜索,拼音输入法帮助用户 更快速地输入,PXP加速引擎帮助用户更流畅地享 受在线音视频直播、点播服务。
第四章网络信息检索(1)(1)
• 主要运用于集合型网络信息检索系统 • 技术关键:A、对标引机制和检索功能相异的网络系统 的使用 采用尽量简单的检索式 B、对来自不同网络系统的检索结果的整合 去重合并
检索技术对查准率和查全率的影响
截词检索
• 截词是指检索者将检索词在他认为合适的地方 截断。 • 截词检索就是用截断的词的一个局部进行的检 索,并认为凡满足这个局部中的所有字符的文 献,都为命中的文献。 • 截词可分为前、中、后截词,又可分为有限截 词和无限截词,通常用“*”表示有限截词, 用“?”表示无限截词。
相关反馈
• 根据对检得结果的分析和计算,抽取有助于提 高检索结果相关度的关键词,将它们用于原有 检索式的修改,然后再据些检索更多的相关结 果。
网络信息资源
• 通过计算机网络可以利用的各种信息资源的总和, 即以数字化形式记录的,以多媒体形式表达的, 分布式存储在网络计算机的存储介质以及种类通 信介质上,并通过计算机网络通信方式进行传递 的信息内容的集合。
网络信息资源特点
• 信息量大、传播广泛
• 信息类型多样、内容丰富
• 信息时效性强、动态和不稳定
• 整个过程由系统自动完成。
• 提高查全率
• 例:sogou
加权检索
• 根据检索要求,赋予同一检索式中各个 检索词以不同的权数。 • 以数字(如:1,2,3,其中3为最高权 数)或符号(如:*)表示。
• 例:金融危机影响:金融危机+影响
模糊检索
• 自动纠正在输入数据库信息和检索式过程中产 生的错误,以保证输入信息的正确性。
• 表达式: 检索词/基本索引字段
附加索引字段=检索词 例:Dialog联机检索系统中,基本索引字段代码: TI 题名、篇名 ID 标引词 AB 摘要 DE 主题词、叙词
第四章文献信息检索
第4章 文献信息检索
4.2.3
国际性期刊检索系统 1.期刊出版信息查询 (1)《乌利希国际期刊指南》 是著名的综合性国际在版期刊目录指南,它有 选择地报道世界各国期刊及其他连续出版物的出 版和销售情况,共有8万家出版商的出版物被收 录。除期刊外,它还包括年鉴、会议录等连续出 版物。自1974年以来停刊的47000种期刊也被收 录。 (2)Publist( ) 是一个基于因特网的国际性连续出版物指南。 数据来源于《乌利希国际期刊指南》。可免费检 索15万种期刊等连续出版物的出版信息。
第4章 文献信息检索
3.图书信息的检索 检索图书是人们经常性的查找需求,一般利用 上述各类型目录可以解决大部分的查找问题。关 键是要根据具体需求,选择合适的检索工具。另 外还应了解书目的检索途径,一般将检索途径划 分为两类:一类是从文献的形式特征进行检索, 主要包括文献的题名(书名、刊名、会议名等)、 责任者(著者、编者、译者、机关团体等)、号 码(国际标准书号ISBN、国际标准刊号ISSN、中 国刊号CN、中国书号,专利号等)、出版者等; 另一类是从文献的内容特征进行的检索,它包括 分类检索和主题检索(关键词等)。从文献的内 容特征进行的检索是书目检索的重要途径。
第4章 文献信息检索
对于图书的出版、发行单位而言,有如下特点: ① 出版速度更快 ② 发行成本低廉 ③ 可以实行按需印刷 ④ 不再以纸张为载体,减少了木材消费,更为 环保 ⑤ 可提供个性化的服务,读者可根据自己的喜 好组合搭配购买 电子图书也具有一定的局限性,需要借助计算 机等电子设备和相关的软件程序才能阅读,这对 它的普及和使用有一些制约作用。
第4章 文献信息检索 3.中国期刊检索系统 (1)中国期刊网(CNKI知识网站)简介 该数据库的文献全文以CAJ格式输出,阅读时需要特 定的阅读软件,可以在其主页上直接下载该浏览器软件 (CajViewer.zap),下)万方数据资源系统的数字化期刊子系统 该系统的数据库检索有两种方式:收费检索针对授权 用户,检索时需要输入用户名及口令,可以浏览、检索、 显示数据库中的全部信息;免费检索针对非授权用户, 浏览与检索功能同授权用户,但显示的检索结果信息不 完全,只有文献题目、关键词及分类号等。
第四章_中文文献信息检索
(7)OPAC书目数据库系统
• OPAC(Online Public Access Catalogue)即联
机公共检索目录,是供图书馆用户查询馆藏的联机 目录检索系统。 • 检索字段说明 • 题名--包括正题名、并列题名、从属题名、其它题 名、丛书名等等。责任者—即文献的编者、著者、 译者、撰者、校注者等。既包括个人责任者,也包 括团体责任者,出版者--是指文献的出版或印刷机 构。分类号--文献的学科属性标识。如:红楼梦, 分类号为I242.47。 • 查询古籍文献时,在“分类号”中输入部和类,中 间加间隔号“·”,例如“经部· 易类”,在检索时所 有“经部· 易类”的古籍或“易类”下各细类的古籍, 都为符合条件的书目信息。具体参见“中文古籍分 类简表”。
数据库检索
•
键入网址, 登录到CALIS联机公共数据库查询系统主页, 选择中文、英文或 日文联合目录数据库。 检索方式 高级查询界面: a.在第一个列单中选择检索字段:包括题名、著者、丛编题名、主题、 订购号、ISBN、ISSN等或在所有字段里进行全面检索。 b.确定检索词的匹配模式:选择开头为表示前方一致,选择结尾为表示 与检索词后方一致, 选择包含表示检索词出现在检索字段的任意位臵,严格 等于表示与检索词精确匹配,模糊匹配是指与检索词基本相同但不完全等于 的一种匹配方式。 c.在输入框里输入检索词。 d.如果要进行多个检索条件的复合检索,根据检索条件的逻辑关系,在第 四个选择框里选择并且、或者、非 e.点击查询按纽。 高级查询可以从更多选项进行进一步限制。 a.限定资料类型: • b.限定语言: • c.限定出版年 • 显示结果 点击想要查看的记录,系统显示详细书目信息,并显示CALIS院校的馆藏信 息。
• ISBN—International Standard Book Number国
第四章 计算机信息检索
三.数据库
1.数据库的概念 数据库是按一定要求存贮在计算机中的相互关 联的数据集合。 数据库的发展是随着文献信息自动化管理的发 展而发展的。当今社会,随着信息量的剧增和计 算机的广泛应用以及人们对文献信息的迫切需求, 电子文献资源的产生与发展就成为必然。而数据 库建设是文献信息自动化管理的基础和核心,是 建立信息网络不可缺少的信息资源,是资源共享 的物质基础,是方便有效地为社会提供信息的重 要渠道。 因此,数据库的飞速发展是信息社会发展的 必然结果。
计算机信息检索
刘 锋
本课内容 一、计算机信息检索的基本知识 二、计算机信息检索系统的构成 三、计算机信息检索原理与技术 四、计算机信息检索策略 五、我校图书馆电子资源概况
一、计算机信息检索的基本知识
1.计算机检索的概念 计算机检索是指工作人员在电子计算 机或计算机检索网络的终端机上,使用特 定的检索指令或检索逻辑关系,由计算机 从数据库中检索出数据或文献的过程。 优势: 提高查全率、查准率,数据资源较全 面丰富,检索功能强,检索质量高,资源共 享 ,内容更新快,服务方式灵活方便。
一、布尔逻辑检索 二、截词检索 三、原文检索 四、加权检索和聚类检索 五、限制检索
六、区分大小写检索 七、短语检索(精确检索) 九、模糊检索 十、概念检索 十、相关检索
1、布尔逻辑检索
布尔逻辑是表达不同概念之间关系的符号逻辑 系统。 利用布尔逻辑运算符进行检索词或代码的逻辑 组配,是现代信息检索系统中最常用的一种方 法。 常用的布尔逻辑算符有三种,分别是逻辑或 “OR‖、逻辑与“AND‖、逻辑非“NOT‖。 用这些逻辑算符将检索词组配构成检索提问式, 计算机将根据提问式与系统中的记录进行匹配, 当两者相符时则命中,并自动输出该文献记录。
信息检索-第4章(3)-CNKI中国知网-南大
2011-2012年
42
3. 检索结果的分组分析和排序
按照发表年度分组
将检索结果按照“发 表年度”分组,可以 帮助用户了解某一主 题各年度得发文量, 掌握该主题研究成果 随时间的变化发展趋 势,进一步分析出所 查课题的未来研究热 度走向。
3000 2500 2000 1500 1000 500 0 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 年度 系列1 系列2 系列3 系列4
信息素养-培训课件
CopyRight@CALIS三期建设咨询服务项目
2011-2012年
36
3. 检索结果的分组分析和排序
按照文献出版来源分组
按照文献出版来源分组,用户一是可以获得发文最 多的60种出版物,快速掌握该领域的文献分布状况; 二是可以根据自己的需要选择某一重要刊物阅读其 刊载的文献;三是帮助用户确定核心情报源,为投 稿经验较少的同学选择合适的期刊进行投稿提供参 考。
信息素养-培训课件
CopyRight@CALIS三期建设咨询服务项目 2011-2012年
文献类型:期刊、博硕士论文、工具书 、会议论文、
4
1. CNKI概况
跨库知网节:支持用户全面系统的科学研究
信息素养-培训课件
CopyRight@CALIS三期建设咨询服务项目
2011-2012年
5
CNKI的检索
CopyRight@CALIS三期建设咨询服务项目 2011-2012年
41
3. 检索结果的分组分析和排序
按照发表年度分组
按照发表年度分组,用户 可以了解到历年 “循环 经济”方面的发文数;也 可以选择某一年度,如 “2011年度” 的文献 2403篇来进行阅读或分析。
第4章-全文检索1
(1)智能检索 智能检索 (2)知识检索 知识检索 (3)基于 基于XML的信息检索 基于 的信息检索
全文检索算法
1.简单匹配全文检索 1.简单匹配全文检索 概述 简单匹配全文检索是开始研究全文检索的一种尝试, 简单匹配全文检索是开始研究全文检索的一种尝试, 早期处于试验阶段的单机全文检索系统基本上都是采用 的这种算法。网络兴起以后,与全文检索密切结合, 的这种算法。网络兴起以后,与全文检索密切结合,而 且Internet上的许多搜索引擎都是使用简单匹配全文检 上的许多搜索引擎都是使用简单匹配全文检 索技术。 索技术。最初该搜索引擎对检索结果的处理仅仅是简单 匹配,往往是查全率达到了,查准率却很低, 匹配,往往是查全率达到了,查准率却很低,出现大量 垃圾信息。 垃圾信息。
全文检索算法
1、简单匹配全文检索 简单匹配全文检索的优点 简单匹配全文检索算法描述简单。 ①简单匹配全文检索算法描述简单。 程序实现容易。 ②程序实现容易。借助三重循环就可以实现一个简单 匹配全文检索系统。 匹配全文检索系统。 简化了用户操作。由于没有主题词表, ③简化了用户操作。由于没有主题词表,用户甚至不 必学习提问逻辑式的书写, 必学习提问逻辑式的书写,因为用户只需要输入有实际 检索意义的词,通过与全文的匹配给出检索结果, 检索意义的词,通过与全文的匹配给出检索结果,从而 大大简化了用户的操作步骤。 大大简化了用户的操作步骤。 简单匹配全文检索系统便于维护。 ④简单匹配全文检索系统便于维护。
全文检索算法
2、单汉字索引全文检索 1.算法描述 算法描述 检索词串S的长度为 的长度为m, 的首字符S[1]与单字索引 ①检索词串 的长度为 ,取S的首字符 的首字符 与单字索引 库匹配,匹配成功记录P1j地址集合 ,转入步骤②,匹 地址集合D1,转入步骤② 库匹配,匹配成功记录 地址集合 配失败返回检索失败; 配失败返回检索失败; 取检索词串的下一个字符S[i]继续与单字索引库匹配, 继续与单字索引库匹配, ②取检索词串的下一个字符 继续与单字索引库匹配 匹配成功记录Pij地址集合 地址集合Di,反之返回检索失败; 匹配成功记录 地址集合 ,反之返回检索失败; 重复步骤② 直到检索词串S中的每一个字都遍历一 ③重复步骤②,直到检索词串过程 我国全文检索技术的研究起步于20世纪 年代末 我国全文检索技术的研究起步于 世纪80年代末,但 世纪 年代末, 发展速度较快。 发展速度较快。武汉大学陈光祚教授较早开展全文检索 技术的研究,主持开发了“ 技术的研究,主持开发了“湖北省地方志全文检索系 统”,并倡导用后控词表来改进全文检索技术的检索效 世纪80年代中期 果。在20世纪 年代中期,先后有经济日报全文数据 世纪 年代中期, 人民日报全文数据库等几个全文数据库投入使用。 库、人民日报全文数据库等几个全文数据库投入使用。 清华大学编辑制作的《中国学术期刊(光盘版 光盘版)》 清华大学编辑制作的《中国学术期刊 光盘版 》就是这 一时期投入使用的质量较高的全文检索数据库。 一时期投入使用的质量较高的全文检索数据库。
信息检索课件第4章
本作业要求从天网大学课程在线上下载一部指定的视频教程。这也将是本课程
期末考试的必考题目之一,请用心掌握下述操作技巧。
2013
用天网妹子搜索到的大学课程 在线
2013
大学课程在线项目理念
来源于如下一些理想中的场景:
场景一: 新疆石河子大学计算机系讲授《计算机体系结构》的张
老师对他的学生说:关于“指令流水线部分”的内容请大家 点播“大学课程在线”上北京大学李老师相关的视频,我们 的答疑时间是本周星期四。
的文件: 如文本文件、二进制的可执行程序、科学论文、图像文件、压缩文件、
声音文件等。因此有大量有价值的信息资源存储在Internet网上的FTP服务器上, 获
取这些资源也是信息检索的一项内容。
2013
4.1.2FTP的工作原理
FTP(File Transfer Protocol) 是 TCP/IP 协议的一种, 它是在Internet网上使用最广
泛的一种服务, 它可被用来在两台位于Internet网上的计算机之间传输文件, 它是一
种实时的联机服务, 使用时, 用户应首先登录到对方的主机上, 登录成功后, 可以进
行文件搜索和文件传送的操作, 如列文件目录, 改变当前目录, 设置传送参数等。
2013
4.1.3什么是P2P
P2P在IT界最初的含义是Peer-to-peer(点对点)。现在P2P已经被更广泛的 理解为Point-to-Point, PC-to-PC等等。 简单来说,P2P就是指数据的传输不再通过服务器,而是网络用户之间直接 传递数据 。
2013
作业4 迅雷在线搜索
本作业要求,对2006年最火爆的“明星学者” 易中天先生的力作:CCTV百家讲坛《易中天品 三国》在迅雷上进行搜索,将这套系列视频教 程的总目录列出来(据说有30多集),按演讲 顺序编号,并附上资源发布站点的屏幕抓图, 以使读者能够方便地下载自己需要的讲座内容。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如:?经济 则数据库中含有经济、工业经济、农业经济 等方面的文献均为命中文献。
3、中截断 (通用字符法或屏蔽)
是把截断符号置于一个检索词的中间,对词中 间出现变化的字符数加以限定。一般中截断仅允许 有限截断。
应用:用于英美单词的不同拼写方式或单复数的 特殊变化。
例如: defence defense
作用:扩大检索范围,增加命中文献量;提高检 索结果的查全率。3、逻辑“非”———————————————A
逻辑运算符: 逻辑表达式为: B
“not”或“-” A not B 或 A-B
其含义为:检索记录中含有检索词A,但不能
含有检索词B的文献,才算命中文献。
例如,在EI COMPENDEX(1998)文档中 检索提问式 SS PATENT NOT GERMAN 所得结果为: S1 S2 S3 110 325 108 PATENT GERMAN PATENT NOT GERMAN
1. 后截断 将截词符号放在一个字符串的右方,满足截词符左 方所有字符的记录都为命中记录。 无限截断:是在检索词词干后面加一个截词符,表 示不限制词尾可变化的字符位数,即查找词干相同的所有 词。例: comput* 表示允许其后可带有任何字符且数 量不限,相当于查找compute、 computed、 computes、 computing、 computer、 computers、computerize、 computerized、computation、 computations、 computational、 computationally 等词。
主题字段 (基本字段)
标题、叙词、关键词、文摘、 分类号等
字段 非主题字段 (辅助字段)
作者、作者工作单位、连续 出版物编号、使用语言、出版 者等
字段及相应的字段缩写代码
字段名称 Title Author Author affiliation Publisher Document type 字段代码 TI AU AF PN DT 字段名称 Language Abstract CODEN ISSN ISBN 字段代码 LA AB CN SN BN
六
优先算符
优先算符用(
)表达。将检索表达式的某一 部分用括号括起来,表示命令计算机首先运 算( )中的提问式,而不按计算机系统默认 的运算符优先级别运行。
第二节 、信息检索方法
检索方法
信息检索的方法是根据检索课题的需要 与检索系统的现状灵活选定的。常用的 信息检索方法有工具法、追溯法和综合 法
指定检索字段的方式:
1.检索命令方式,这需要使用系统规定的字 段检索符号及字段代码;
①前缀限制符(用于限定非主题字段) AU= 限定作者 JN= 限定刊物 LA= 限定文献语种 PY= 限定年代
②后缀限制符(用于限定主题字段) /TI 限在文献标题中查 /AB 限在文摘中查 /DE 限在叙词中查 例 :(minicomputer/DE OR personal computer/TI) AND PY=1990 2.菜单选择方式,这需要从检索界面上设置的 字段列表下拉菜单中进行选择。
可以检索出含有……economic recovery…… ……recovery from economic troubles…… ……recovery of the economy……等不同词 组的有关信息。
五 短语或词组检索
短语或词组检索常用运算符为“”。当用户 需要检索与输入形式完全相同的短语或词 组时,可以将其放入“ ”中,如“foreign trade”,系统将严格匹配,检出含有短语 foreign trade的记录。
作用:缩小检索范围,减少文献输出量。
检索式举例(结果筛选) 企业的开放性和合法性 特质研究
————————————
Corporation and (open* or legal*)
结果筛选
上海零售业的现状与发展趋势
上海 零售业 现状 发展趋势
上海 and 零售业 and (现状 or 发展趋势)
12
二
截词检索 (truncation)
•截词:是指检索者将检索词在他认为比较合适的地方截 断。 •截词检索:是指使用被截断的词汇进行检索匹配,并认 为凡满足这个词局部中的所有字符(串)要求的记录,都 为命中结果。
• 按 截 断 位 置 分: 前截断、后截断、中截断; • 按截断的字符数量分: 有限截断、无限截断。
四 位置检索
位置检索是一类针对自然语言文本中检索 词与检索词之间特定位置关系而进行的检索匹 配技术。
1、(W)与 (nW) 2、(N)与(nN)
1、(W)与 (nW)
————————————————
(W)算符 (W)算符中的 W 含义为“with”。 运算含义:在检索提问式中,它所连接的两 个检索词必须在文本信息中按照前后顺序紧 挨着出现,两个检索词之间除可以有一个空 格、一个标点符号或一个连接号外,不得夹 有任何其他单词、字母或汉字。
第4章 信息检索技术
第一节 信息检索技术 第二节 信息检索方法
第一节
信息检索技术
一、布尔逻辑检索 二、截词检索 三、字段限制检索 四、位置运算符
一
布尔检索
布尔逻辑(组配)算符:系统中采用的逻辑 组配算符是布尔代数中的逻辑运算符AND/*(与)、 OR/+(或)、NOT/—(非)。 布尔逻辑检索: 即运用布尔逻辑算符对检索 词进行逻辑组配,表达两个概念之间的逻辑关系。
追溯法,又称为引文法,主要有两种: (1)传统追溯法:利用一次文献所附的参考文献进行追溯 查找的方法,检索时,可以先查出几篇与课题相关的文献, 以此为起点来进行检索,就像滚雪球一样,直到满足检索 需要为止。 (2)引文追溯法:它是一种由远及近的方法,先找到一篇 与课题相关的论文后,查找该论文被哪些文献引用过。这 种方法需要借助专门的引文索引,例如SCI和CSSCI等。
(2)倒查法:倒查法与顺查法相反,它是利用选定的检索 工具由近及远、逐年逐卷地进行查找信息的方法。 当检索者的要求是获取近期文献时,最好采用倒查法, 倒查法的查准率较高,但查全率比顺查法要低。
(3)抽查法:抽查法是针对课题研究所处的发展高峰阶段 进行的信息检索,它往往用来解决要求快速检索的课题。
2、追溯法
表示系统可检索出含有“北京大学”、“北京医 科大学”、“北京的大学校园”、“位于北京的 一些大学”等词组的记录。
2、(N)与(nN)
————————————————
(N)算符 (N)算符中的 N 含义为“near”。 运算含义:在检索提问式中,它所连接的两个 检索词必须在文本信息中紧密相连着出现,两 个检索词之间除可以有一个空格、一个标点符 号或一个连接号外,不得夹有任何其他单词、 字母或汉字。
(一)检索方法的种类 1、工具法
即利用各类检索系统(工具),直接检索信息的 方法。
①顺查法:远→近
②倒查法:近→远
过去→现在
现在→过去
③抽查法:发展较快的、文献较多的一段时间
(1)顺查法 顺查法,就是利用检索工具、根据课 题研究的起始年代由远及近逐年查找信息 的方法。 例如,要查互联网方面的信息,要明 确互联网产生的时间,从这一年开始一直 查到当前有关互联网的信息为止。
2、(N)与(nN)
————————————————
(nN)算符 (nN)算符中的 N 含义为“near”。 运算含义:它所连接的两个检索词在检索结果 中出现时,相互距离不超过n个单词(或汉字), 且两个词出现的先后顺序也可以变换。
例1:
“money (N) supply”
可检出包含有money supply 和supply money 两个词组的有关信息 。 例 2: “econom?? (2N) recovery”
后截断主要使用在以下4个方面:
① 词的单复数,例如:book?,potato? ?; ② 年代,例如:199?; ③ 作者,例如:Lancaster*; ④ 同根词,例如:biolog*、physic* 。
2、前截断 是将截词符号放在一个字符串的左方,以表示其 左的有限或无限个字符不影响该字符串的检索。 从检索性质上讲,前截断是“后方一致”检索。 检索式“*magnetic” 它能够检索出含有 magnetic electromagnetic paramagnetic thermomagnetic 等词汇的结果。
“or”或“+” A or B 或 A+B
其含义为检索记录中凡含有检索词A或检索词B,
或同时含有检索词A和B的,均为命中文献。
例如,在EI COMPENDEX(1998)文档中 检索提问式: 所得结果为: S1 S2 S3 1834 2022 3642 PIPE TUBE PIPE OR TUBE SS PIPE OR TUBE
有限截断 在检索词后面加上一个或一个以上(最多4 个)的“?”,空一格,再加一个“?”。如: Comput??? ? 可检索出: Computer,Computers,Computing 截词检索在不同的计算机检索系统中规 定不同,请使用时注意。
如:信息? 则表示在数据库中含有信息、信息技术、信 息检索等方面的文献记录均为命中文献。
3 交替法
就是以追溯法和常规法交替使用来查找信息。 先利用检索工具查出一批相关信息,然后利用这些信息所附 的参考文献进行追溯,扩大线索。 交替法比前两种方法检索效果好,能够更灵活的调整检索策 略。
(二)选择检索方法的原则
1、要看检索条件 检索工具缺乏而原始文献收藏丰富宜用追溯法, 有成套检索工具则宜用工具法,其查全率、查准率都 比追溯法高。 2、要看检索要求 1)要求收集某一课题的系统资料,要求全面,不 能有重大遗漏,最好用顺查法 2)要解决某一课题的关键性技术,不要求全面, 只要能解决这个关键问题就行,要快,针对性强,要准, 宜用倒查法,迅速查得最新资料 3 、要看检索学科的特点 古老学科,开始年代很早,只好用倒查法,新兴学 科,起始年代不远,可用顺查法,波浪发展的学科,可 选择发展高峰,用综合法