第六章信息检索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引擎通过将关键词拍卖,让网站或网页所有者对其价格
进行竞争的办法来产生搜索结果的排序
60
6.4.1 搜索引擎的发展阶段
(4)基于知识共享的社区化搜索
机器搜索—社区搜索 百度知道 雅虎知识堂 新浪爱问
61
62
63
64
别摘录,并注明出处,以便检索的一种工具 文摘:把文献资料的主要内容,由有一定水平和经验的 编者将其准确简要地摘录出来,并注明出处后,经分类 排序而编制成的检索工具 年鉴:以描述和统计的方式逐年提供某一领域信息的工 具书 手册:汇集某一学科领域或业务部门专门知识的工具书 百科全书:荟萃一切门类或某一门类知识、以概要方式 介绍为主的多功能工具书
34
6.3.1 手工信息检索的技术与方法
2、手工信息检索工具的排检技术
字顺排检技术:将检索工具的内容按字、词的一定顺序
或规律,有系统地组织排列起来的技术。 分类排检技术:将信息素材按学科或事物性质系统地加 以排列。 主题排检技术:以规范化的自然语言为标识符号来标引 信息内容的排检技术 时序排检技术:按时间的顺序组合信息素材的技术,多 用于编制年表、年谱等检索工具。 地序排检技术:按一定时期的行政区域来排列信息素材 的技术。
43
6.3.5 大型综合性检索系统
大型综合性检索系统:
中国知识基础设施工程 (CNKI,http://www.cnki.net); 万方数据资源系统 (http://www.wanfangdata.com.cn); 维普资讯有限公司数据库系统; 中国高等教育文献保障系统CALIS (http://www.calis.edu.cn); 联机检索系统Dialog(http://www.dialog.com); 联机计算机图书馆中心OCLC(http://www.oclc.org);
51
6.4 搜索引擎
搜索引擎(Search Engine)
搜索引擎是提供给用户进行关键词、词组或自 然语言检索的工具,简言之,就是一种在互联网 上查找信息的工具。
工作的基本原理是:用户提出检索要求,搜 索引起代替用户在数据库中进行检索,并将检索 结果反馈给用户。 检索的结果:www上的主页、新闻组中的文章、 软件的存放地址及作者、企业网站、个人主页等。
40
6.3.3计算机信息检索技术与方法
(二)光盘信息检索
光盘信息检索系统由微机、驱动器及连接设备、
CD ROM数据库(光盘)及其检索软件构成。 选在驱动器时主要考虑以下性能: a 速度:一般在185ms-500ms之间 b 查找速度:一般在250ms-400ms之间 c 数据缓冲区越大,可直接从存储器存取的数据 就越多,节省查询时间 d 数据传送速度:有单速、双速乃至40倍以上的 驱动器。
52
6.4.1 搜索引擎的发展阶段
第一代:根据词频搜索的原理开发 第二代:“超链分析”技术 第三代:以竞价排名商业模式为特征 下一代:社区化搜素 “知识共享社区+搜索引擎”
53
6.4.1 搜索引擎的发展阶段
(1)基于web内容特征的排序技术
主要考虑用户所查询的关键词在结果网页中 的出现的频率和出现的位置等因素,并以此来评 价命中网页与用户查询请求之间的相关度大小, 作为排序依据。
信息管理概论
—— 第六章 信息检索
王爱
Wangai_001@163.com
2
6.1信息检索的沿革与发展
3
4
6.1.2 信息检索的类型与特征
5
6.1.2 信息检索的类型与特征
6
6.1.3 信息检索的发展历程
7
6.1.3 信息检索的发展历程
8
6.1.3 信息检索的发展历程
9
6.1.3 信息检索的发展历程
(片)的检索方式大致可以分为两种类型:
(1)寻址检索方式 (2)编码检索方式
37
6.3.3计算机信息检索技术与方法
一、联机信息检索
信息用户利用终端设备,通过通讯网络与世界各
地的信息检索系统联机,进行人机对话,从检索 系统的数据库中查找出用户所需信息的全过程。
优点:①检索速度快;②检索范围广而全面;③检索
循环法:先用检索工具查出一批文献,然后再利用这些
文献末尾所附参考文献的线索进行追溯查找的方法。
36
6.3.2机械信息检索技术与方法
机电信息检索系统 继手检穿孔卡片之后,出现了机检穿孔卡片和选卡机。
这就形成了机电信息检索系统。
光电信息检索系统 主要是以缩微胶卷(片)检索方式出现的。缩微胶卷
50
常用的大型数据库:
中国人民大学书报资料中心复印报刊资料全 文数据库; 国家科技图书文献中心(NSTL)数据库 (http://www.nstl.gov.cn); 北京文献服务处(BDS)全文信息检索系统 (http://bds.cetin.net.cn); 上海市图书馆全国报刊索引数据库; ProQuest系统全文数据库 (http://proquest.umi.com/pqdweb); EBSCO书目与全文数据库 (http://www.epnet.com);
联机信息检索系统的结构:
由检索服务机构、国际通讯网络及终端三部分构成。
联机信息检索的技术Fra Baidu bibliotek理:
一个典型的计算机信息系统,能完成数据收集、分 析、加工处理、存储、传递通信和检索信息的全过程。 a、定题信息提供 b、专题回溯检索 c、联机订购原文 d、电子邮件
39
联机信息检索的服务方式:
6.3.3计算机信息检索技术与方法
(二)光盘信息检索 特点:使用光盘检索系统,可免联系检索系统所必须
使用的电讯设备,节省了电讯费和联机系统使用费,还 可免除由通信线路传输过程中所造成的失误。 光盘系统向用户提供相当于联机信息检索系统功能的软 件。 光盘存储容量大、耐用、复制费用低 如果光盘数据库量不够多,则信息资源就显得有限,购 买大量光盘数据库,又受到经费限制。 光盘检索不如联机检索系统,因为光盘只能定期提供。 数据库费用大
41
6.3.3计算机信息检索技术与方法
(三)网络信息检索 特点:信息量更大
需要处理各种不同的语言(大多是自然语言)
信息检索的范围更宽(多学科、多领域) 信息检索的时效性要求更高 检全率较高,而检准率较低
42
6.3.4 信息检索技术演进
信息检索是一个具有浓重技术色彩的研究领域,
10
6.1.3 信息检索的发展历程
11
6.1.4 信息检索模型
12
6.1.4 信息检索模型
13
6.1.4 信息检索模型
14
6.1.4 信息检索模型
15
6.1.4 信息检索模型
16
6.2 信息检索的职能与程序
17
6.2.2 信息检索策略
18
6.2.2 信息检索策略
19
20
6.2.2 信息检索策略
54
6.4.1 搜索引擎的发展阶段
55
6.4.1 搜索引擎的发展阶段
(2)基于网页链接结构的排序技术
最早出现在1998年,主要根据网页被链接或 被引用的情况来判断页面信息的权威性和质量, 以此来优化对搜索结果的排序,如Google中的 PageRank算法。
56
57
58
59
(3)通过关键词竞价的排名搜索
途径多、质量高;④检索内容新、实时性强;⑤检索辅 助功能完善、使用方便,检索结果输出方式灵活、实用。
缺陷:①主机负担重,一旦出现故障,则整个网络都
将瘫痪;②信息组织方式以线性为主,不够灵活;③联 机检索不像Internet是面向最终用户的,操作也没有后者 方便。
38
6.3.3计算机信息检索技术与方法
35
6.3.1 手工信息检索的技术与方法
3、手工信息检索方法
顺查法:一种以信息检索课题起始年代为起点,按时间
顺序由远而近地查找信息的方法。 倒查法:一种逆时间顺序由近而远地查找信息的方法 抽查法:一种针对研究课题发展的特点,抓住学科发展 迅速、发表文献较多的年代进行查找的方法。 追溯法:又叫回溯法,是以某一篇文献末尾所附参考文 献的线索进行追溯查找。
21
6.2.3 信息检索效率的评价
22
6.2.3 信息检索效率的评价
23
6.2.3 信息检索效率的评价
24
6.2.3 信息检索效率的评价
25
6.2.3 信息检索效率的评价
26
6.2.3 信息检索效率的评价
27
6.2.4 信息检索的程序
28
6.2.4 信息检索的程序
29
6.2.4 信息检索的程序
44
45
46
47
48
49
常用的大型数据库:
中国人民大学书报资料中心复印报刊资料全 文数据库; 国家科技图书文献中心(NSTL)数据库 (http://www.nstl.gov.cn); 北京文献服务处(BDS)全文信息检索系统 (http://bds.cetin.net.cn); 上海市图书馆全国报刊索引数据库; ProQuest系统全文数据库 (http://proquest.umi.com/pqdweb); EBSCO书目与全文数据库 (http://www.epnet.com);
其技术经历了快速而巨大的演变和进步;
文文本—多媒体信息
体组织
检索对象:结构化书目信息—无结构化或半结构化全 信息组织方式:传统的线性文本组织—超文本/超媒
检索匹配技术:关键词(字面)匹配——基于概念
匹配——概念语义匹配与推理
检索方式:手工检索—计算机化—联机实时—网络 检索环境:单机—网络平台,集中网络—分布式网络
30
6.2.4 信息检索的程序
31
6.2.4 信息检索的程序
32
6.3 信息检索的技术与方法
6.3.1 手工信息检索的技术与方法 6.3.2 机械信息检索的技术与方法 6.3.3 计算机信息检索的技术与方法
33
6.3.1 手工信息检索的技术与方法
1、手工信息检索工具
目录:图书或其他单独出版物规律化、系统化的记载 索引:把一种或多种书刊里的具体内容按一定的方式分
进行竞争的办法来产生搜索结果的排序
60
6.4.1 搜索引擎的发展阶段
(4)基于知识共享的社区化搜索
机器搜索—社区搜索 百度知道 雅虎知识堂 新浪爱问
61
62
63
64
别摘录,并注明出处,以便检索的一种工具 文摘:把文献资料的主要内容,由有一定水平和经验的 编者将其准确简要地摘录出来,并注明出处后,经分类 排序而编制成的检索工具 年鉴:以描述和统计的方式逐年提供某一领域信息的工 具书 手册:汇集某一学科领域或业务部门专门知识的工具书 百科全书:荟萃一切门类或某一门类知识、以概要方式 介绍为主的多功能工具书
34
6.3.1 手工信息检索的技术与方法
2、手工信息检索工具的排检技术
字顺排检技术:将检索工具的内容按字、词的一定顺序
或规律,有系统地组织排列起来的技术。 分类排检技术:将信息素材按学科或事物性质系统地加 以排列。 主题排检技术:以规范化的自然语言为标识符号来标引 信息内容的排检技术 时序排检技术:按时间的顺序组合信息素材的技术,多 用于编制年表、年谱等检索工具。 地序排检技术:按一定时期的行政区域来排列信息素材 的技术。
43
6.3.5 大型综合性检索系统
大型综合性检索系统:
中国知识基础设施工程 (CNKI,http://www.cnki.net); 万方数据资源系统 (http://www.wanfangdata.com.cn); 维普资讯有限公司数据库系统; 中国高等教育文献保障系统CALIS (http://www.calis.edu.cn); 联机检索系统Dialog(http://www.dialog.com); 联机计算机图书馆中心OCLC(http://www.oclc.org);
51
6.4 搜索引擎
搜索引擎(Search Engine)
搜索引擎是提供给用户进行关键词、词组或自 然语言检索的工具,简言之,就是一种在互联网 上查找信息的工具。
工作的基本原理是:用户提出检索要求,搜 索引起代替用户在数据库中进行检索,并将检索 结果反馈给用户。 检索的结果:www上的主页、新闻组中的文章、 软件的存放地址及作者、企业网站、个人主页等。
40
6.3.3计算机信息检索技术与方法
(二)光盘信息检索
光盘信息检索系统由微机、驱动器及连接设备、
CD ROM数据库(光盘)及其检索软件构成。 选在驱动器时主要考虑以下性能: a 速度:一般在185ms-500ms之间 b 查找速度:一般在250ms-400ms之间 c 数据缓冲区越大,可直接从存储器存取的数据 就越多,节省查询时间 d 数据传送速度:有单速、双速乃至40倍以上的 驱动器。
52
6.4.1 搜索引擎的发展阶段
第一代:根据词频搜索的原理开发 第二代:“超链分析”技术 第三代:以竞价排名商业模式为特征 下一代:社区化搜素 “知识共享社区+搜索引擎”
53
6.4.1 搜索引擎的发展阶段
(1)基于web内容特征的排序技术
主要考虑用户所查询的关键词在结果网页中 的出现的频率和出现的位置等因素,并以此来评 价命中网页与用户查询请求之间的相关度大小, 作为排序依据。
信息管理概论
—— 第六章 信息检索
王爱
Wangai_001@163.com
2
6.1信息检索的沿革与发展
3
4
6.1.2 信息检索的类型与特征
5
6.1.2 信息检索的类型与特征
6
6.1.3 信息检索的发展历程
7
6.1.3 信息检索的发展历程
8
6.1.3 信息检索的发展历程
9
6.1.3 信息检索的发展历程
(片)的检索方式大致可以分为两种类型:
(1)寻址检索方式 (2)编码检索方式
37
6.3.3计算机信息检索技术与方法
一、联机信息检索
信息用户利用终端设备,通过通讯网络与世界各
地的信息检索系统联机,进行人机对话,从检索 系统的数据库中查找出用户所需信息的全过程。
优点:①检索速度快;②检索范围广而全面;③检索
循环法:先用检索工具查出一批文献,然后再利用这些
文献末尾所附参考文献的线索进行追溯查找的方法。
36
6.3.2机械信息检索技术与方法
机电信息检索系统 继手检穿孔卡片之后,出现了机检穿孔卡片和选卡机。
这就形成了机电信息检索系统。
光电信息检索系统 主要是以缩微胶卷(片)检索方式出现的。缩微胶卷
50
常用的大型数据库:
中国人民大学书报资料中心复印报刊资料全 文数据库; 国家科技图书文献中心(NSTL)数据库 (http://www.nstl.gov.cn); 北京文献服务处(BDS)全文信息检索系统 (http://bds.cetin.net.cn); 上海市图书馆全国报刊索引数据库; ProQuest系统全文数据库 (http://proquest.umi.com/pqdweb); EBSCO书目与全文数据库 (http://www.epnet.com);
联机信息检索系统的结构:
由检索服务机构、国际通讯网络及终端三部分构成。
联机信息检索的技术Fra Baidu bibliotek理:
一个典型的计算机信息系统,能完成数据收集、分 析、加工处理、存储、传递通信和检索信息的全过程。 a、定题信息提供 b、专题回溯检索 c、联机订购原文 d、电子邮件
39
联机信息检索的服务方式:
6.3.3计算机信息检索技术与方法
(二)光盘信息检索 特点:使用光盘检索系统,可免联系检索系统所必须
使用的电讯设备,节省了电讯费和联机系统使用费,还 可免除由通信线路传输过程中所造成的失误。 光盘系统向用户提供相当于联机信息检索系统功能的软 件。 光盘存储容量大、耐用、复制费用低 如果光盘数据库量不够多,则信息资源就显得有限,购 买大量光盘数据库,又受到经费限制。 光盘检索不如联机检索系统,因为光盘只能定期提供。 数据库费用大
41
6.3.3计算机信息检索技术与方法
(三)网络信息检索 特点:信息量更大
需要处理各种不同的语言(大多是自然语言)
信息检索的范围更宽(多学科、多领域) 信息检索的时效性要求更高 检全率较高,而检准率较低
42
6.3.4 信息检索技术演进
信息检索是一个具有浓重技术色彩的研究领域,
10
6.1.3 信息检索的发展历程
11
6.1.4 信息检索模型
12
6.1.4 信息检索模型
13
6.1.4 信息检索模型
14
6.1.4 信息检索模型
15
6.1.4 信息检索模型
16
6.2 信息检索的职能与程序
17
6.2.2 信息检索策略
18
6.2.2 信息检索策略
19
20
6.2.2 信息检索策略
54
6.4.1 搜索引擎的发展阶段
55
6.4.1 搜索引擎的发展阶段
(2)基于网页链接结构的排序技术
最早出现在1998年,主要根据网页被链接或 被引用的情况来判断页面信息的权威性和质量, 以此来优化对搜索结果的排序,如Google中的 PageRank算法。
56
57
58
59
(3)通过关键词竞价的排名搜索
途径多、质量高;④检索内容新、实时性强;⑤检索辅 助功能完善、使用方便,检索结果输出方式灵活、实用。
缺陷:①主机负担重,一旦出现故障,则整个网络都
将瘫痪;②信息组织方式以线性为主,不够灵活;③联 机检索不像Internet是面向最终用户的,操作也没有后者 方便。
38
6.3.3计算机信息检索技术与方法
35
6.3.1 手工信息检索的技术与方法
3、手工信息检索方法
顺查法:一种以信息检索课题起始年代为起点,按时间
顺序由远而近地查找信息的方法。 倒查法:一种逆时间顺序由近而远地查找信息的方法 抽查法:一种针对研究课题发展的特点,抓住学科发展 迅速、发表文献较多的年代进行查找的方法。 追溯法:又叫回溯法,是以某一篇文献末尾所附参考文 献的线索进行追溯查找。
21
6.2.3 信息检索效率的评价
22
6.2.3 信息检索效率的评价
23
6.2.3 信息检索效率的评价
24
6.2.3 信息检索效率的评价
25
6.2.3 信息检索效率的评价
26
6.2.3 信息检索效率的评价
27
6.2.4 信息检索的程序
28
6.2.4 信息检索的程序
29
6.2.4 信息检索的程序
44
45
46
47
48
49
常用的大型数据库:
中国人民大学书报资料中心复印报刊资料全 文数据库; 国家科技图书文献中心(NSTL)数据库 (http://www.nstl.gov.cn); 北京文献服务处(BDS)全文信息检索系统 (http://bds.cetin.net.cn); 上海市图书馆全国报刊索引数据库; ProQuest系统全文数据库 (http://proquest.umi.com/pqdweb); EBSCO书目与全文数据库 (http://www.epnet.com);
其技术经历了快速而巨大的演变和进步;
文文本—多媒体信息
体组织
检索对象:结构化书目信息—无结构化或半结构化全 信息组织方式:传统的线性文本组织—超文本/超媒
检索匹配技术:关键词(字面)匹配——基于概念
匹配——概念语义匹配与推理
检索方式:手工检索—计算机化—联机实时—网络 检索环境:单机—网络平台,集中网络—分布式网络
30
6.2.4 信息检索的程序
31
6.2.4 信息检索的程序
32
6.3 信息检索的技术与方法
6.3.1 手工信息检索的技术与方法 6.3.2 机械信息检索的技术与方法 6.3.3 计算机信息检索的技术与方法
33
6.3.1 手工信息检索的技术与方法
1、手工信息检索工具
目录:图书或其他单独出版物规律化、系统化的记载 索引:把一种或多种书刊里的具体内容按一定的方式分