信息检索:理论与方法 叶鹰 (1)
中国农业大学_839信息管理与情报学基础_《情报学基础教程》叶鹰 笔记
笔记1信息与情报1.1“信息链”信息与情报是情报学的核心问题。
什么是信息?什么是知识?什么是情报?对这些基本概念如果没有明确的认识,就不可能获得对情报学及其相关学科的科学理解。
“信息”和“情报”,英语都是“Information”。
英语的Information是一个连续体的概念,“信息链”由事实(Facts)→数据(Data)→信息(Information)→知识(Knowledge)→“情报”、“智能”(Intelligence)五个链环构成。
简单地说,“事实”是人类思想和社会活动的客观映射。
“数据”是事实的数字化、编码化、序列化、结构化。
“信息”是数据在信息媒介上的映射。
“知识”是对信息的加工、吸收、提取、评价的结果。
“情报”、“智能”则是运用知识的能力。
换句话说,“事实”、“数据”、“信息”、“知识”、“情报”五个链环组成“信息链”(Information Chain)。
在“信息链”中,“信息”的下游是面向物理属性的,上游是面向认知属性的。
作为中心链环的“信息”既有物理属性也有认知属性,因此成为“信息链”的代表称谓。
1.2“三个世界”模型英国科学哲学家卡尔·波普尔(K.Popper)提出的“三个世界”的理论,从哲学高度阐述了信息的属性。
波普尔认为,信息有“三个世界”:第一世界是物理领域,第二世界是主观现实领域,第三世界是客观知识领域。
根据这个理论,信息分为三大类:第一类是有关客观物理世界的信息,即本体论意义上的信息,它反映事物运动的状态及其变化的方式;第二类是有关人类主观精神世界的信息,即主体论或认识论意义上的隐性信息,它反映人类能感受的事物运动状态及其变化方式,处于意识、思维状态;第三类是有关客观意义上概念世界的信息,即主体论或认识论意义上的显性信息,它反映人类所表述的事物运动状态及其变化方式,用语言、文字、图像、影视、数据等各种载体来表示,汇成一个实在的自主的“信息世界”。
以“三个世界”的理论来研究信息、知识、情报,它们之间存在以下关系:并列关系。
信息检索
中文书本式的检索工具
《国内总书目》--《全国新书目》《科技新 书目》:查找国内出版的图书目录 《外文新书通报》:查找国外新书目录 《全国报刊索引》:查找国内期刊论文的工 具 科技 文献书目型数据库检索系统 事实型数据库检索系统 数值型数据库检索系统 全文数据库检索系统
“逻辑或”的组配种类
同义词 同一个人多个姓名 通用的英文缩写 化学物名称 Eg:CAD
逻辑非
用于排除含有不需要概念的信息,可缩小所 检索信息的范围。 逻辑运算符:“NOT”、“-” 逻辑表达式:“A NOT B ”“A-B” 语义表示:被检索文献中含有A而不含有B
4字段(限制)检索
在检索系统中,数据库设置的可供检索的字 段通常有两种: 表达文献主体内容特征的基本字段 表达文献外部特征的辅助字段 基本字段包括篇目(TI)、文摘 (AB)…… 辅助字段包括作者(AU)、语种 (LA)……
4字段(限制)检索
为了缩小检索范围,可利用字段代码来限制检索词 出现的字段,以提高检索速度和命中率。 如: economic models in ti(表示只在题 目字段中查找文献) economic models in de(只在主题词中 查找) economic models in ab(只在文摘中查 找) au = Smith,J.C (查作者为Smith,J.C 的 文章) py = 1998(只查1998年的文章) la =Chinese (只查语种为中文的文献)
位置算符检索即运用位置算符表示两个检索 词间的位置。 如果说布尔逻辑算符是表示两个概念之间的 逻辑关系的话,位置算符表示的是两个概念 在信息中实际物理位置关系。
检索时会经常遇到这样的问题?
信息检索的途径方法和步骤
5.3.1 手工检索策略
手工检索通常选使择用检的是印刷确型定检检索工具,检索过 程分是析通课过题手翻、索眼工看具、大脑判索断标来识完成的。手工
检索策略的制定一般包括分析课题、选择检索工 具、确定检索标识、选择检索途径、确定检索方 法选索、择 途进检 径行检索以确索及定方索检法取原始信进息行等检过索程。索 始取 信原 息
高的检索需求。这种方式的主要不足是检索不够系
定 检前出统特 某在索索提现义、一某到点某是或:全专一某:个用最面业阶一是它特户多,的段课根适定必出漏 发 很 题据合时 须 现检展突的研于期清的的阶出文究检文楚时可段的献课索献有间能很课信题某信关段性清题息的一息该。大晰。,实学的课。的此检际科方题、法索需研法的某能效要究。文一快率,高使献事速高利潮用信物、,用很该息出有但检明方最现效如索显法可频地果工的的能率检不具、
5.1.3 循环法
定义:循环法又称为综合法、交替法,它
是把工具法和引文法结合起来查找文献信息 的方法。循环法既要利用检索工具进行常规 检索,又要利用文献后所附参考文献进行追 溯检索,分期分段地交替使用这两种方法。
特点:综合工具法和引文法的优点。
.3 循环法
循环法的具体操作可以采用两种方式:
了解课题的历史背景就容易产生漏检。
5.1.2 引文法
定义:引文法又名追溯法,是查找某一篇
文献被哪些文献所引用,或者利用文献末 尾所附参考文献和注释为线索逐一地追溯 查找原始文献的方法。
特点:引文索引是采用引文法快速查找文
献信息的有效工具,但容易产生漏检。
5.1.2 引文法
1.由远及近地查找
指找到一篇有价值的文献后,进一步查找
(专业)类别进行检索
了的不途同径的,代对码课索引题,进在行已主知 代题码概的念前分提析下,,利提用炼代主码题途
中国农业大学_839信息管理与情报学基础_《情报学基础教程》叶鹰 课件
息来负载与传递,并准备发挥其效用。 (2)情报工作要搜集(筛选)、整理、存储、检索、咨
询、摘要、报导、概述评价各种信息和知识,使信息和 知识变成情报,可见情报工作是一种转化工作,使信息 和知识转化为情报的工作,而情报科学则是研究这种转 化规律及其组织和技术方法的科学。
那些保持不变的东西”。
2021/7/3
1.1 情报及其与信息和知识的关系
1.1.3 情报与信息和知识的关系
1. 信息 (2)信息科学 • 信息科学是随着信息概念广泛为人们所利用而兴起的研究
信息的一门新兴学科,它是研究各种信息的产生、交换、 处理、传递和控制的理论和技术的科学。 • 不同学科对信息科学的认识不同,例如哲学家认为信息科 学是认识论的一部分;物理学家认为它是熵的理论;数学 家认为它不过是概率论的发展;通讯工作者把它看成不定 度的描述,情报工作者习惯于把它看成情报传递的理论。
2021/7/3
1.1 情报及其与信息和知识的关系
1.1.3 情报与信息和知识的关系
2. 知识 (2)认知科学 • 以知识和人类取得知识的认知过程为研究对象的科学,
叫做认知科学(Congnitive Science)。 • 认知科学以“知识”为对象,它所研究的正是关于知识
的性质,关于知识如何获得,如何组织化,关于知识具 有怎样的结构这样一些自古以来的哲学问题。 • 研究知识如何变得有用,即知识变成情报的规律的科学, 是情报科学。“情报”与“知识”是存在区别的。
2021/7/3
1.1 情报及其与信息和知识的关系
1.1.3 情报与信息和知识的关系
2. 知识 (1)知识的概念 • 人脑对信息的加工形成了两种状态的知识,一种是显性知
中国农业大学_839信息管理与情报学基础_《情报学基础教程》叶鹰 复习题
第三模块复习题复习题一一、名词解释:1.信息资源2.信息政策3.竞争情报4.简牍5.校勘6.叙词表7.德尔菲法8.档案价值9.全宗10.档案证明二、简答题:1.信息资源管理的基本要素2.信息资源分类法的类型3.文献揭示的基本方法4.信息商品的特征5.数字档案馆与现行实体档案馆的联系三、论述题(每小题15分,共30分。
其中第1题必答,2、3、4题中任选一题作答,请在答题纸上表明所选题题号)1.网络信息检索流程2.文献的属性及基本要素3.咨询的类型及其作用4.电子文件管理的原则复习题二一、名词解释(每小题3分,共30分)1.信息资源政府配置2.零次信息资源3.国家书目4.检索点5.善本6.截词检索7.期刊影响因子8.现行档案9.档案价值形态10.《档案的整理与编目手册》(荷兰)二、简答题(每小题10分,共40分)1.信息资源具有哪些特征?2.简述中国历史文献学研究的主要内容。
3.简述信息市场的特征与功能。
4.《中华人民共和国档案法》的作用是什么?三、论述题(每小题15分,共30分。
其中第一题必答,2、3、4题中任选一题作答,请在答题纸上表明所选题号)1.试述信息资源管理的手段及其作用。
2.试论文献资源建设的原则。
3.试述信息系统的结构与功能。
4.试述档案整理理论中来源原则的基本内容、理论意义和实践价值。
复习题三一、名词解释(每小题3分,共30分)1.智力型信息资源2.知识管理3.版本4.藏书5.引文分析6.搜索引擎7.信息商品8.档案的本质属性9.开放档案10.档案的法律作用二、简答题(每小题10分,共40分)1.简述我国信息资源共享的模式。
2.简述史料的内容。
3.简述情报学的主要研究内容。
4.档案室的任务是什么?三、论述题(每小题15分,共30分。
其中第1题必答,2、3、4题中任选一题作答,请在答题纸上表明所选题题号)1.试述信息资源的功能。
2.试述图书文化的主要内涵。
3.试述情报检索的基本流程。
信息检索与分析讲稿
信息检索与分析讲稿(1)课程目录第一章信息检索与分析理论基础(4次)第二章文献信息源及其数字化发展(4次)第三章网络资源与搜索引擎(4次,其中2次上机;内容包括网络免费资源的获取和搜索引擎知识的介绍和运用)第四章中文数据库的使用(6次,其中2次上机;主要以本馆数据库为讲授对象)第五章外文数据库的使用(6次,其中2次上机;主要以本馆数据库为讲授对象)第六章基于图书情报平台的信息检索(4次,其中2次上机;)第七章文献信息的分析与利用(2次)第八章个人文献信息管理软件介绍与利用(4次;其中2次上机)第九章知识汇总与考试准备(2次)考试方式:统一考试(笔试、闭卷)+作业网上学习方式:下载课件和讲义的地址推荐网站:1、哈尔滨工业大学信息检索研究室2、中国科学院现代信息检索(Modern Information Retrieval)3、吉林大学《信息检索与利用》网络课程4、复旦大学《信息检索与利用》5、中文Web信息检索论坛(北京大学)6、大连理工大学信息检索研究室7、云南大学精品课程《信息检索》网站8、南京大学精品课程《信息检索》网站9、华东理工大学精品课程《文献检索》经典网站:1、中国国家图书馆2、中国科学院国家科学图书馆3、北京大学图书馆网站4、上海图书馆5、浙江大学图书馆6、中文维基百科7、温州大学图书馆网站:参考文献:1.叶继元.信息检索导论.北京:电子工业出版社,2003年2.黄如花.网络信息的检索与利用. 武昌:武汉大学出版社,2002年3.叶鹰.信息检索:理论与方法.北京:高等教育出版社,2004年4.焦玉英等.信息检索. 武汉:武汉大学出版社,2002年5.马费成.信息管理学基础. 武汉:武汉大学出版社,2002年6.沈固朝.信息检索(多媒体)教程. 北京:高等教育出版社,2002年7.王知津.科技信息检索.天津:南开大学出版社,2002年8.信息检索与利用,鄢春根主编,人民邮电出版社,2008年9.信息检索与利用,洪全主编,清华大学出版社,出版时间:2007年10.信息资源检索与利用(第2版),林豪慧,孙丽芳主编, 电子工业出版社, 2007年导言信息检索与分析解析一、对本课程的理解和解释:《信息检索与分析》1、信息检索课程的出现信息、能源和材料,并称为现代社会的三大支柱。
信息检索与分析利用 第1章 绪论.ppt
解能力的有限(人不可能将所有信息转化为自身有用的信息)
信息的多源性、可选性和易得性,这在便利人们的同时也 导致了信息污染、信息过载等问题。庞大复杂的文献信息 资源与人们的特定需求之间的矛盾,向我们提出了如何科 学地检索和利用文献信息资源满足个人的信息需求的问题。
8
课程背景
信息素质是终生教育一项基本人权
信息素质是一种终身学习和自主学习的意识、方法和 权力
信息素质是人有意识地利用各种信息工具(特别是多 媒体技术和网络技术工具),识别获取、评价判断、 加工处理、生成创造、参与交流信息的能力。
信息素质核心就是运用信息资源进行问题解决和创新 活动。
课程背景
知识分为两类:一类是我们所知道的 学科知识,另一类是关于在哪儿可以 获得这些知识的知识。 -[英]塞缪尔.约翰逊
如果我们把“检索工具” 比作知识的宝库,那么“信息 检索”就是打开知识的一把钥 匙。
课程背景
我们处的信息状态 1、信息爆炸——信息社会——掌握信息的人掌握机会,掌握信息
11
课程考核
考核方法
•上课出勤率 •作业完成情况 •上机练习情况 •期末考试成绩
12
本课程重点教学内容
1.掌握信息检索的基础知识; 2.掌握中文电子资源和一个本专业外文数据库的检索方法; 3.熟悉针对毕业论文、科研课题需求而进行的综合检索。 4.掌握文献管理软件NoteExpress、EndeNote等的用法 5.了解信息的统计分析的常用方法 6.熟悉提高查全率和查准率的常用方法
日本情报专家据此解开了 大庆油田的秘密
档案学考研
参考书目1、档案学方向:《信息检索教程》冯惠玲等编中国人民大学出版社2004版《档案文献检索》冯惠玲编高等教育出版社1999版《文社会科学信息检索》马文峰主编北京图书馆出版社2004版《档案管理学》(修订本)邓绍兴、陈智为编中国人民大学出版社1996版《档案学概论》冯惠玲、张辑哲编中国人民大学出版社2001版《科技档案管理学》(修订本)王传宇编中国人民大学出版社1998版《档案开发与利用教程》刘耿生编中国人民大学出版社2001版2、档案保护技术方向:《信息检索教程》冯惠玲等编中国人民大学出版社2004版《档案文献检索》冯惠玲编高等教育出版社1999版《人文社会科学信息检索》马文峰主编北京图书馆出版社2004版《档案保护技术学教程》郭莉珠主编中国人民大学出版社2000版《档案档案保护技术学》金波著高等教育出版社2000年版《文物保存环境概论》郭宏著科学出版社2001二、武汉大学(信息管理学院)2008参考书目607 文献信息管理(含信息管理学基础、档案管理学、图书馆学基础):马费成等著:《信息管理学基础》,武汉大学出版社2000年版王子舟著:《图书馆学基础教程》,武汉大学出版社2003年版或者档案管理学以及图书馆学基础的相关同类教材均可811 信息管理基础(含信息管理学、数据库原理):马费成:《信息管理学基础》,武汉大学出版社2002年版周宁:《信息资源数据库》(第二版),武汉大学出版社2006年版812 档案学基础(含档案学基础、文书学与电子文件管理):档案学基础、文书学与电子文件管理的同类教材均可三、南京大学(信息管理系)2008四、中山大学(资讯管理系)2008参考书目840信息资源组织①《信息组织的分类法与主题法》,曹树金、罗春荣编,北京图书馆出版社,。
②《档案管理学》,邓绍兴、陈智为编,中国人民大学出版社,1997。
628信息管理基础①《信息管理学基础》,马费成等编,武汉大学出版社,。
② 《图书馆学概论》(修订本),吴慰慈编,北京图书馆出版社,2002。
计算机信息检索02139自考资料
计算机信息检索02139自考资料第一章信息检索概述1.信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
2.根据检索手段的不同,信息检索能够分为手工检索、光盘检索、联机检索和网络检索。
3.信息检索的基本原理经过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并经过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
4.信息检索语言信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
5.五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三者统称为计算机信息检索。
6.与手工检索相比,计算机信息检索的特点表现在:(1)速度快、效率高,仅几分钟就能够从成千上万条记录中找到所需信息;(2)检索范围广,能够迅速而方便地浏览相关学科或主题的所有数据库中的记录,在网络中,几乎每一台个人计算机都能够成为信息源;(3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就能够在任何地方借助光盘和通信网络查询所需信息。
7.信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。
信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。
8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。
10.数据库由字段、记录和文档构成。
11.根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。
12.信息检索系统评价的核心是检索性能评价。
13.检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一步完善检索工作的过程。
信息检索的途径方法和步骤
5.3.2 计算机检索策略
① 分析检索课题 ? 了解信息需求,明确检索目的和意图 ? 明确检索课题的范围 ? 分析检索课题的概念组面
② 选择检索系统和数据库 ③ 确定检索标识 ④ 选择检索途径 ⑤ 构造检索表达式 ⑥ 提交检索
5.3.1 手工检索策略
手工检索通常使选用择的检是印刷确型定检检索工具,检索过 程分是析通课过题手翻、索眼工看具、大脑判索断标来识完成的。手工
检索策略的制定一般包括 分析课题、选择检索工 具、确定检索标识、选择检索途径、确定检索方 法选索、择途进检径行检索以确 索及定 方索检法取原始信进行息等检过索程。索始取信原息
5.3 信息检索步骤
检索策略(Information Retrieval strategy)是 指为实现检索目标而制定的全盘计划或方案。
制定检索策略,就是在分析课题内容概念,明确 信息需求的基础上,选择检索工具和检索系统,确 定检索词、检索途径、检索方法和技术,拟定检索 程序等。检索策略的制定一般包括手共检索策略的 制易产生漏检。
5.1.2 引文法
定义:引文法又名追溯法,是查找某一篇
文献被哪些文献所引用,或者利用文献末 尾所附参考文献和注释为线索逐一地追溯 查找原始文献的方法。
特点:引文索引是采用引文法快速查找文
献信息的有效工具,但容易产生漏检。
5.1.2 引文法
1.由远及近地查找
指找到一篇有价值的文献后,进一步查找
取分类号。
往往可以从代码判断文献的
种标类题、词出。版的年份等,有助
于文献检索的进行。
5.2.2 外表特征途径
外表特 征途径
题名途径 责任者途径 机构名称途径 编号途径 其他途径
责题其编机任名他号构者途名途径称径途径
信息检索概述(陈1章)
根据检索目标和工具的特点,制定相应的检索策略,包括关键词选择、 检索式构建、检索限制条件设置等。
实施检索并调整策略
按照制定的检索策略进行检索,并根据检索结果及时调整策略,以提 高检索效率和准确性。
网络环境下信息筛选和评价方法
信息筛选方法
通过浏览标题、摘要、关键词等信息,初步筛选出与需求相关的信息。进一步阅读全文 或详细信息,判断其是否符合需求。对于不确定的信息,可以查阅相关文献或咨询专家
提高个人信息素养途径探讨
加强信息基础知识学习
通过课程学习、自学等方式,提高计算机、 网络、数据库等方面的基础知识。
提高信息检索技能
通过实践锻炼,不断提高信息检索的准确性 和效率。
增强信息分析与Biblioteka 用能力学会对检索结果进行深入分析和挖掘,提取 有用信息并加以利用。
培养信息道德与规范意识
自觉遵守信息道德规范和法律法规,树立正 确的信息价值观。
03
公共服务
政府工作人员可以利用信息检索技术 快速查找国家和地方的政策法规,为 政策制定和执行提供法律依据。
通过信息检索技术对社交媒体、新闻 网站等平台的舆论信息进行收集和分 析,政府可以及时了解民意和舆情走 向,为政府决策提供参考。
信息检索技术可以帮助政府提高公共 服务的效率和质量,如为市民提供便 捷的政务信息查询服务。
VS
信息表达
信息表达是指将用户的信息需求以某种形 式表达出来,以便进行信息检索。常见的 信息表达方式包括关键词、自然语言描述 、可视化图表等。有效的信息表达能够提 高检索的准确性和效率。
检索系统构成及工作原理
检索系统构成
一个完整的信息检索系统通常包括信息源、 索引器、检索器和用户接口四个主要组成部 分。其中,信息源是原始信息的来源;索引 器负责将信息源中的信息进行加工处理,生 成索引;检索器根据用户输入的查询请求在 索引中进行匹配和排序;用户接口则提供用 户与检索系统交互的界面。
(档案管理)档案学研究生考试相关资料
(档案管理)档案学研究生考试相关资料《文献分类学》,俞君立,陈树年主编,武汉大学出版社,2001年版;¥18.00《目录学》,彭斐章等编著,武汉大学出版社,2003年版;¥15.00《网络信息的检索与利用》,黄如花编著,武汉大学出版社,2002年版。
¥17.00412信息管理基础(含信息管理学、数据库原理):《信息管理学基础》,马费成,武汉大学出版社,2002;《信息资源数据库》(第二版),周宁,武汉大学出版社,2002。
413档案学基础(含档案学基础、文书学与电子文件管理):档案学基础、文书学与电子文件管理的同类教材均可。
414图书营销与管理:《图书营销学》,方卿等,山西经济出版社,1998;¥19.80《书业法律基础》,黄先蓉,山西经济出版社,2001;¥16.80《现代书业企业管理学》,朱静雯主编,苏州大学出版社,2003。
¥26.00中国科学院文献情报中心2007年硕士研究生招生考试参考书目“图书馆学基础”参考书目1.《现代图书馆学理论》徐引篪等著,北京图书馆出版社(北京)1999年¥22.002.《图书馆学基础》吴慰慈主编,高等教育出版社(北京)2004年¥21.20“科技文献检索”参考书目1.《科技文献检索》赖茂生,北京大学出版社(北京)1994年¥13.80¥22.002.《互联网信息资源的检索利用与服务》董小英、马张华等著,北京大学出版社(北京)2003年¥21.00“数字图书馆概论”参考书目1.《数字图书馆概论》[美]WilliamY.Arms著,史伯乐等译,电子工业出版社(北京)2001年¥23.002.《数字图书馆原理与应用》李培主编,高等教育出版社(北京),2004年¥27.003.《数据库系统原理》王能斌编著,电子工业出版社(北京)2000年¥36.00“情报学概论”参考书目1.《信息管理学基础》马费城著,武汉大学出版社,2002年2.《信息分析基础、方法及应用》朱庆华主编,科学出版社(北京)2004年¥33.00“文献资源建设”参考书目1.《中国图书馆藏书发展政策研究》肖希明、袁琳著,南京大学出版社,2002年¥16.002.《信息资源共享》程焕文、潘燕桃主编,高等教育出版社(北京)2004年¥28.90“编辑学概论”参考书目1.《编学原论》蒋广学著,南京大学出版社(南京),1999年¥18.002.《知识传播学》倪延年著,南京师范大学出版社(南京)1999年¥18.003.《出版发行学基础》罗紫初等著,山西经济出版社(太原)2000年¥17.80“情报源与信息分析”参考书目1.《信息分析与决策》秦铁辉、王延飞等编著,北京大学出版社(北京)2001年¥15.002.《网络竞争情报源》李广建等,华夏出版社,2001年¥23.00“计算机软件基础”参考书目1.《数据结构与算法分析(C++版)》(第二版)CliffordA.Shaffer[美]著,张铭译,国外计算机科学教材系列,电子工业出版社(北京)2002年¥32.002.《软件工程》(原书第6版)IanSommerville(英)著,程成陈霞等译,计算机科学丛书,机械工业出版社(北京)2003年3.《数据库处理――基础、设计与实现》(第八版)DavidM.Kroenke[美]著,施伯乐顾宁孙未未译,国外计算机科学教材系列,电子工业出版社(北京)2003年¥49.00“程序设计”参考书目在“计算机软件基础”三本书的基础之上,参考下一本书1.《Java编程思想》(第3版)BruceEckel(美)著,陈昊鹏饶若楠等译,计算机科学丛书,机械工业出版社(北京)2005年“目录学概要”参考书目1、姚名达《中国目录学史》,上海、商务印书馆、1957年版及重印版。
信息检索第一、二讲
1、Sellis T. Performance of DBMS implementation of production systems. Proceedings of the 2nd International IEEE Conference on Tools for Artificial Intelligence. Herndon, VA USA, 6-9 Nov.1990, (Alamitors, CA, USA:IEEE Computer Society Press 1990), 393-9
技术报告
技术报告(Sci-Tech Report):也称科 技报告、研究报告,它是科学研究工作和开 发调查工作成果的记录或正式报告,这是一 种典型的机关团体出版物。 技术报告的特点是内容新颖、详细、专 业性强、出版及时、传递信息快,每份报告 自成一册,有专门的编号(即报告号,通常 由报告单位缩写代码+流水号+年代号构 成),发行范围控制严格,不易获取原文。
识别特征:一般有书名、作者、版次、出 版地、出版社、出版年、总页数(PP)等 项目,有时还有国际标准书号ISBN 。
1、J.K. White,Relaxation techniques for the simulation of VLSI circuits,Kluwer Academic Pulishers,Boston,MA,x+202pp,1987. [ISBN 0-898-38186-X]
4、Electrodynamics of particles and plasmas. Redwood City, CA, USA:Addison-Wesley (1990) ,xx+457 pp. [ISBN 0 201 51500 8]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
传统布尔检索模型的具体缺陷主要表现在以下五方面: ① 布尔检索式的非友善性,即构造一个好的检索式是不容易的。 ② 易造成零输出或输出过量。 ③ 无差别的组配元,不能区分各组配元的重要程度。 ④ 匹配标准存在某些不合理的地方。对于文献中标引词的数量没有评判, 都一视信息检索模型
(3)向量空间检索模型:向量检索是以向量的方式确定检索内容 的方法,系统中的每一篇文献和每个提问均用等长的向量表示。如: 文献集合中的第i篇文献用Di = ( T1, T2, T3, …, Tm )表示,其中T1, T2, T3, …, Tm为系统中所有标引词集合;提问集合中的第j个提问用Qj = ( T1, T2, T3, …, Tm )表示;Tk表示文献向量或提问向量中的第k个分量, 即文献表示或提问式中所含的第k个标引词或检索词。
(2)信息检索的基本原理,是对信息集合与需求集合的匹配 和选择。信息集合是有关某一领域的文献或数据的集合体,它是一 种公共知识结构,可以弥补该用户的知识结构缺陷。而匹配与选择 则是一种机制,它负责把需求集合和信息集合进行比较,然后根据 一定的标准选出符合需求的信息。
(3)在社会科学化的进程中,信息检索经历了从手工检索到 机械检索再到计算机化检索的发展过程。
信息检索原理—信息检索模型
与采用布尔模型的普通检索系统相比,该系统有以下几个特色: ① 采用自动标引技术为文献提供标引词; ② 改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度 可在[0,1]闭区间中取值; ③ 由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与 否,从而使检索更趋于合理; ④ 检索结果可按与提问的相关度排序输出,便于用户通过相关反馈技术 修正提问,控制检索量; ⑤ 布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。 向量模型也存在着某些明显的缺陷。如检索过程转化为向量的计算方法, 不能反映出文献之间的复杂关系;由于对任何一个提问都需要计算全部文献库 中的每一篇文献,计算量大、算法复杂性较高;由于标引加权和检索加权是分 离的,随意性较大,难以保证质量。
信息检索原理—信息检索模型
在传统的布尔模型中,每一文献用一组标引词表示。如,表达式Di = ( T1, T2, T3, …, Tm ),为文献i,式中T1, T2, T3, …, Tm表示文献i中的所有标引词集合。 每个提问式Q除表示用户需求中的标引词组合外,还有各标引词的布尔组配。 系统在对提问进行处理时,输出一个包含有该提问式的组配元(标引词)且符合 组配条件(逻辑运算符)的文献集合。布尔检索模型因其简单、易理解、易实现、 能处理结构化提问等优点,在信息检索系统中得到了广泛的实际应用。
第一章 信息检索理论基础
主要知识点
(一)信息检索原理 (二)信息检索技术 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆
信息检索原理—信息检索及其发展
(1)信息检索(Information Retrieval)是“一种时间性的通讯形 式”,“在时间上从一个时刻通往一个较晚的时刻,而在空间上可 能还在同一地点” 。这一看法,揭示了信息存储与获取两个环节是 一种延时性的通讯形式。
其主要优点是: ① 采用了理论上更为严密的方式来进行决策; ② 容易与加权方法结合起来使用,为人们提供了一种理论基础; ③ 不涉及布尔逻辑运算符,回避了构造布尔提问式的困难; ④ 文献可按用户的期望值输出排序; ⑤ 吸收了相关反馈原理,可开发出理论上更为合理的方法。 但是,它也有明显的不足,如增加了存储和计算资源的开销;参数估计 问题也增加了该模型使用时的难度。
信息检索原理—信息检索模型
(5)扩展布尔逻辑检索模型:扩展布尔模型是以对布尔算符的一种 近似解释系统为基础,在此模型中,能以一种比传统布尔模型限制更小 的形式来处理布尔提问式。特别当某一给定文献中出现较多提问词时, 它的值就大于含提问词较少的文献。
这种扩展布尔检索模型具有以下优点: ① 它适应常规布尔检索中的标准提问式结构,且通过计算提问-文 献的相似度,可以避免潜在的无意义解释; ② 许可在文献表示和提问式中加入词权值; ③ 可以按相似度的大小来排列输出文献,因而在响应某一给定提问 时,可以控制要检索的文献数量; ④ 便于区分强制性短语和严格的同义解释与试探性短语和较不严格 的同义关系。
信息检索原理—信息检索模型
(1)信息检索的模型的含义:信息检索的模型就是运用数学的语 言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表 述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导 信息检索实践。
(2)布尔逻辑模型:它是由Y. Bar-Hillel在1957年首先提出的,他 提出了将布尔逻辑应用于计算机检索的可能性,10年后,正式被大型文 献检索系统所采用,并逐渐成为各种大型联机检索系统甚至是网络搜索 引擎的典型、标准检索模式。布尔检索模型采用布尔代数和集合论的方 法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算 来检索文献。
信息检索原理—信息检索模型
(4)概率检索模型:它是基于概率排序原理,即文献根据它们与提问 的相关概率来排序输出。有证据表示,在一定条件下,它可以产生优良的排 序结果。事实上,对于某个特定的检索提问,文献集合中的某一文献是否符 合用户的信息需求(即是否是相关文献)可以看成是一个随机事件,每篇文献 是相关文献的概率各不相同,综合信息需求的概率和文献与标引的相关概率, 才能更为合理地划分检索结果。概率检索模型正是基于这一思想建立起来的。