信息检索基本知识

合集下载

信息检索的基本知识

信息检索的基本知识

⑵信息检索系统的类型 〔续〕
④索引型检索系统: 索引是根据一定的需要,把特定范围内的
某些重要文献中的有关款目或知识单元,书 名、刊名、人名、地名、语词等,按照一 定的方法编排,并指明出处,为读者提供 文献线索的一种检索系统。
索引不仅广泛存在于各种书刊等文献 中,而且更多见于作为辅助检索系统而附 在不同类型的检索工具之后,为检索工具 提供了更多的检索途径。
信息的存储过程就是按照主题词表或 分类表及使用原那么对原始信息资源
一、信息检索原理〔续〕
2、信息检索系统〔续〕
一、信息检索原理〔续〕
⑵信息检索系统的类型
按信息处理手段划分有 ①手工检索系统。又称传统检索系统 是使用人工来查找信息的检索系统。 其主要类型有各种书本式的目录、题 录、文摘和各种参考工具书等。优点: 方便、灵活、 断准确。缺点:检索速 度太慢
2、信息检索系统〔续〕
按著录和标引方式划分 ④文摘型检索系统是以简练的文字将文献
资料的主要内容准确、扼要地摘录下来, 并按照一定的著录规那么和编排方式系统 地组织起来的检索 工具。 主要包括:报道性文摘
指示性文摘 如:美国的?化学文摘?英国的?科学文摘〉
中国的〈中国数学文摘〉〈海洋文摘〉
2、信息检索系统〔续〕
按著录和标引方式划分
⑤全文型检索系统 全文检索是指在文献资料的标题、目录、作
者、内容中检索 指定的字符串。 全文检索系统是指将文章 中所有的文字处理序列 都作为检索对象进行索引,并根据需要找出包含 有欲检索词的文献的系统。
作用:它能提供快捷的数据管理工具和数据 查询手段,帮助人们进行了大量文献数据的整理 和管理工作,使人们能够快速、方便地查到想要 的任何信息。
第二章 信息检索的根本知识

信息检索的基本知识

信息检索的基本知识

文献、数据、事实检索三者区别 数据检索与事实检索,都是要检索 出包含在文献中的信息本身,是确定性 的检索,检索结果是可以直接利用的。 文献检索,则是要检索出包含所需 信息的文献,是相关性检索,检索结果 经过分析研究后才能确定是否能用。
3 文献的类型
♦ 3.1 按文献的载体分
3.1.1 书写型文献:古旧文献和未经复印的手稿以及技术 书写型文献: 档案之类的资料。 档案之类的资料。 3.1.2 印刷型文献 3.1.3 缩微型文献 3.1.4 声像型文献 3.1.5 机读型文献 (电子出版物) 电子出版物) 3.1.6 网络出版物
(2)知识 知识 是人类认识的成果或结晶, 是人类认识的成果或结晶,包括经验知识和理 论知识。 论知识。 (3)情报 情报 人们为了一定的目的搜集的有使用价值的新知 识或新信息。情报具有知识性、传递性。 识或新信息。情报具有知识性、传递性。 情报的本质必须是知识,没有一定的知识内容, 情报的本质必须是知识,没有一定的知识内容, 就不能成为情报。 就不能成为情报。 知识必须经过传递才能成为情报。 知识必须经过传递才能成为情报。 (4)文献 文献 用文字、图形、符号、声频、视频等技术手段, 用文字、图形、符号、声频、视频等技术手段,记 录有知识的一切载体。 录有知识的一切载体。
5 文献检索的意义
♦ 1)通过文献检索课程的教学,学校可以培养
学生的情报意识和获取新知识的能力。 ♦ 2)通过文献检索课程的学习,学生能够学会 利用图书馆,提高自学能力。 ♦ 3)掌握了文献检索的方法和技能,将大大地 缩短收集情报的时间,提高利用文献的准确率。 ♦ 4)通过运用文献检索的方法和技能,学生可 以不断更新知识,提高自身综合素质,更好地 迎接新世纪的挑战。
第一章
信息检索的基本知识

第三章 信息检索的基本知识

第三章 信息检索的基本知识

1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,

检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。

信息检索的基本知识

信息检索的基本知识

6
—信息检索的基本知识
检索的一般程序→选择检索工具 IV
引语工具书
引语工具书的重要词语索引是一类广泛汇集名言佳句的工具书,给出引语的上下 文和出处。一般按照作者、主题、时期编排,利用这一类工具书,可以核对某一 词语,以求准确引用;可以查明某一特定引语的出处等。
字典、词典
字典、词典按编撰目的可以分为语文词典、专科词典和综合性词典(百科词典)。 一般语文词典提供词语的拼写、读音、含义、用法等;专科词典则汇集不同学科 的词汇,有的侧重语文角度对各种术语给予简略的解释,有的则偏重知识角度; 综合性词典兼有语文词典和专科词典的功能,可称为百科词典,从这类词典中既 可以查到普通的语文字词,也可以查到人、地、事等百科性内容。
F4 工业经济 F74 国际贸易 F5 交通运输经济 F75 各国对外贸易 所谓“类”是指具有共同属性的事物的集合。一类事物除了具有共同属性外,还 F6 邮电经济 F76 商品学 有许多不同的属性,可以进行多次划分,因此在体系分类法中存在上位类、下位 F7 贸易经济 类、同位类的概念。类一般使用标记符号标识,包括字母、数字等。 F8 财政经济 F761 一般性著作 F762 农产品 体系分类法具有按学科或专业集中、系统地向人们揭示文献资料内容的功能,这 对与系统系统掌握和利用某一专业范围的文献非常有用。 F763 医疗用品 F764 重工业产品 F765 建筑器材
14
—信息检索的基本知识
检索的一般程序→获取原文 II
获取原文的途径
本单位图书情报部门。这是获取原文最方便的途径,要善于利用馆藏目录、如读 者目录有缺省,应利用公务目录、典藏目录等工具; 掌握国内主要的或对口的图书情报机构的馆藏信息。利用联合目录或网络,由近 及远的查找; 从著者处获取原文; 从检索刊物出版机构获取原文;

信息检索基础知识

信息检索基础知识

TP 自动化技术、计算技术
3 计算技术、计算机
31
计算机软件
316
操作系统
.1
分时操作系统
.2
实时操作系统
.7
Windows操作系统
39
计算机的应用
… F25 物资经济 F250 物资经济理论 F252 物资流通
… F5 交通运输经济 F50 交通运输经济理论
… F53 铁路运输经济 F54 陆路、公路运输经济
匹配有其匹配标准,这里涉及到两者一致性、 相关度等问题,按一定的标准筛选出符合要求的 信息。
精选ppt
3
信息检索一般过程
信息源
信息分析、 著录、标引
信息的表示
用户
检索语言
用户需求分析
数据库 匹配过程
输出检索结果 精选ppt
检索表达式
4
信息检索的过程往往需要一个评价反馈途径,多次比较匹配, 以获得最终的检索结果。其图示如下:
9
责任者 及其单位
中图分类号 文献标示码
关键词
正文
精选ppt
题名 摘要
10
分类语言
也属于主题语言。分类语言是按学科范畴划分而构成的一 种语言体系,它集中反映学科的系统性、反映它们的相关、 从属、派生等关系,从总体到局部分层、分面展开,形成 分类体系。由类目号码及名称作为检索语言,构成分类类 目表,如前述图书分类表、专利分类表用的都是分类语言 。
13
……
主题语言
包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同 的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词 汇之间的关系。如”交通运输”、“国际物流”。主题语言分为规范主题语

信息检索基础知识

信息检索基础知识

第一章信息检索基础知识一.概述1.信息与文献信息知识的分类:已掌握的知识和需查询的知识。

信息的定义:信息是事物运动的状态与方式,是物质的一种属性,并且借助于一定的物质载体传输和储存。

这里有几个词组需说明:事物:泛指一切可能研究的对象(包括物质的和精神的)。

运动:泛指一切意义上的变化(机械运动、化学运动、思维运动和社会运动)运动方式:在时间上所呈现的过程和规律:运动状态:在空间上所展示的形状和态势。

信息已成为与物质、能量同样重要的三大资源之一。

信息是一种原料,人类接受外界大量信息后,经过实践活动和大脑的思维机制加工提炼后变成有用的知识(知识的认识程度)。

文献:将知识记录并保持在一定的载体上,就形成了文献。

文献信息是文献所表达的内载信息,以文字、符号、声像信息为编码的人类精神信息,也是经过人们筛选、归纳和整理后记录下来的信息。

科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科学信息的主要来源。

2.信息的特点(1)普遍性;信息是无处不在,无时不在的,c从宏观的宇宙天体到微观粒子,从自然界到人类社会,万事万物都是信息的母体;(2)时效性:信息的获得和传送需要时间,信息反映的总是特定时刻事物的运动状态和方式,当人们获得信息后,它反映的是某段时间的事物,是一种历史纪录,如果传递很慢,信息就会失去应有的价值;(3)传递性:指信息的空间和时间效应,信息可以从一个地方传到另一个地方,从一个时期传到另一个时期;信息的传递决定了信息的可扩散性,信息是通过各种渠道、媒介传播和扩散;(4)共享性:信息在传播和使用的过程中,载体本身的信息并不因此而减少,信息资源的共享将极大地推进人类文明的发展;(5)可转换性:信息的物质载体形态是可以相互转移变换的;信息在一定条件下可以转化为物质、能量、时间、金钱、效益、质量等;(6)可伪性:在人们得到信息后,必须进行分析判断和筛选,以便正确享用信息。

信息检索知识点

信息检索知识点

计算机检索1.信息素养(信息素质、信息能力):作为具有IL(information literacy)能力的人,必须能够充分地认识到何时需要信息,并有能力去有效地发现、检索、评价和利用所需要的信息,从而具有终身学习的能力,总能够为任何任务和决策找到所需信息。

2.信息检索广义:指将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。

包括存储和检索两个过程。

狭义:从信息集合中找出所需信息的过程。

信息查找(Information Search,Information Seeking)2.1信息现状分析1)信息爆炸导致文限量急剧增加,内容相互渗透,语种增多;文献分布异常分散;文献寿命愈来愈短;2)由于条件限制,人们吸收和利用信息的能力并未得到相应的提高。

3.检索的作用1)促进智力资源的开发;2)协助管理者做出正确的决策;3)帮助科研人员借鉴前人的研究成果,避免重复劳动;4)信息检索是知识更新的手段。

4.数据库类型(1):作为图书馆数字资源的数据库特指为科学、教学、学习所需各种参考资料的集合,以数据库的形式管理和利用。

自建数据库:馆藏目录(OPAC),本校学位论文数据库。

商业性数据库:数据库商、出版商和其他机构以商业化方式提供的各种电子资源,图书馆需要支付一定的费用购买数据库的使用权再提供给一定的读者群。

免费数据库:开放获取资源、机构典藏和其他免费的网络资源。

5.数据库类型(2)从收录文献的内容分,有综合性数据库和专业性数据库之分;从收录文献的类型分,有图书数据库、期刊数据库、学位论文数据库、报纸数据库、会议文献数据库、专利文献数据库、标准数据库等;从提供数据库的形式分,有全文数据库、文献数据库、引文数据库;各数据库举例:专业数据库:Petroleum Abstract(PA)、EnCSciFinder Schoiar(CA)综合性数据库:读秀、Scopus、EI、SCI特定文献类型,如图书、期刊、学位论文等:超星、EIsevier ScienceDirect、PQDT全文数据库:CNKI、维普、SPE摘要性数据库:EI、PA引文数据库:Web of Science、CSSCI(中文社会科学引文索引)6.Science Citation Index Expanded(SCI-E)是个什么样的数据库?它是ISI检索平台中Web of Science核心合集中的一个子库它是一个摘要型数据库它是一个引文数据库它是一个期刊数据库它收录的学科范围包括科学、技术的各学科7.查文献应该如何选择数据库?学科专业:有专业型数据库时,首选专业型数据库;数据量:选择数据量大的;文献类型:根据研究的需要,如果仅需要某种文献,最好选择该类型的子库;检索功能:准确性高、易用、检索结果的处理能力;分析功能第三章信息资源的分类8.信息存贮载体:印刷型、缩微型、声像型、机读型9.根据加工程度划分零次文献:口头信息、未公开发表的文字资料(手稿、书信、笔记等);时效性强;大量而无序;一次文献:期刊论文、专利文献、科技报告、会议录等;研究人员最终索取的文章;二次文献:检索工具:如SCI、EI、CA、PubMed/Medline三次文献:选用大量有关的文章,经过综合、分析、研究而编写出来的文献;如:综述、评论、评述、进展、动态等;研究人员最终需要的文献。

信息检索基本知识

信息检索基本知识

查全率=—— x w 查准率=—— m
w
漏检率=1-查全率 误检率=1-查准率
如果x与m完全吻合,或者说检索工具 中所存储的有关某一课题的文献全部被 检出,这是最理想的。然而在实际上往 往达不到这个指标,而总是有一定误差 的。
五 检索途径与检索方法 一般说,所有文献的特征可分两 大类:外表特征(题名、著者、序号等) 和内容特征(分类、主题、关键词)。 所以文献检索的途径也分成两个方面。
思考题 1. 简述对信息和文献的理解。 简述对信息和文献的理解。 2. 文献的出版类型有哪些? 文献的出版类型有哪些? 3. 比较文献载体的优缺点。 比较文献载体的优缺点。 4. 一次文献、二次文献和三次文献有何 一次文献、 区别? 区别? 5. 谈谈电子信息源。 谈谈电子信息源。
6. 信息检索及其种类有哪些? 信息检索及其种类有哪些? 7. 常用的检索工具有哪些? 常用的检索工具有哪些? 8. 谈谈检索效率的评价标准。 谈谈检索效率的评价标准。 9. 简述检索途径与检索方法。 简述检索途径与检索方法。 10. 检索的一般程序步骤有哪些? 检索的一般程序步骤有哪些? 11. 何谓音译? 何谓音译?
(2) 常用法 : 利用检索工具来查找
文献的方法。它又可分为倒查法和顺查法. 倒查,就是由近及远地逆时间查找.它的 倒查 重点是放在近期文献,只需查到基本满足要 求时间为止. 顺查, 顺查,就是由远及近地顺时间查找。例 如,已知某项发明的产生年代,现在需要了 解它发展的全过程,就可以运用顺查法从最 初的年代开始,逐步往近期查找。
第一章 信息检索基本知识
第一节 信息与文献概述 一、信息的概念 二、信息的类型与特征 三、各种信息源及其特征 1 文献信息源 2 电子信息源 3 实物信息源 4 口头信息源

信息检索-检索基本知识

信息检索-检索基本知识
·凡带有“-”,应排在该类0之前,同级号码之后。
19.6.22
排列举例:
1. H1、H12、H、H134、H2、H219、H0、 H-44、 H 2-44 2. TP311.1、F0、G624、F2、O-44、I2457 、 TN912、TP319、
F 181、O13-43 、O-62 3. I247.5/J3、 I247.5/G5、F0/L21、FO/L12
1:H、H-44、H0、H1、H12、H134、H2、H 2-44、H219、 2:F0、F 181、F2、G624、I2457 、O-44、O-62、O13-
43、 TN912、TP311.1、 TP319 3:F0/L12、F0/L21、 I247.5/G5、 I247.5/J3
19.6.22
《科图法》
早,只好用倒查法,新兴学科,起始年代不远,可 用顺查法,波浪发展的学科,可选择发展高峰,用 循环法
19.6.22
检索语言
信息检索要克服的三个语言障碍: ★自然语言障碍 ★学科专业语言障碍 ★检索语言障碍
19.6.22
又称文献存储和检索语言,是根据文献信 息存储与检索的需要而创制的一种人工语言, 是汇集、组织、存储、检索文献信息的工具和 手段。
19.6.22
★00 马列、毛泽东思想 ★10 哲学 ★20 社会科学
21 历史、历史学 … 48 艺术 49 无神论、宗教学 ★50 自然科学 51 数学 … 54 化学 65 农业科学 71 技术科学 ★90 综合性图书
以字符构建主题语言:
1.关键词:直接从文献信息的标题、摘要或内 容本身抽取出来的用于揭示信息主题内容的自 由词。
磁盘式
19.6.22
19.6.22

《信息检索基础知识》课件

《信息检索基础知识》课件

03
信息检索系统
信息检索系统的构成
信息检索系统由信息源、信息组织与 检索方式、信息检索工具、用户界面
和信息利用等部分构成。
信息源是信息检索系统的物质基础, 包括各种类型的文献、网页、社交媒
体等。
信息组织与检索方式是信息检索系统 的核心,通过关键词、分类、主题等 方式对信息进行组织和检索。
信息检索工具是信息检索系统的手段 ,包括搜索引擎、数据库、图书馆等 。
05
信息检索的未来发展
信息检索技术的发展趋势
语义理解技术
随着自然语言处理技术的不断进步,信息检 索将更加注重对用户查询的语义理解,以提 高检索的准确性和相关性。
个性化检索
个性化检索技术将更加成熟,能够根据用户 的兴趣、偏好和行为习惯,为用户提供更加 精准和个性化的检索结果。
多模态检索
多模态检索技术将实现文本、图像、音频和 视频等多种媒体信息的融合检索,满足用户 对多媒体信息检索的需求。
自然语言处理
自然语言处理是信息检索中不可或缺的技术之一,它利用计算机对自然语言文本进行分析和处理,以 实现自然语言文本的自动识别和机器理解。
自然语言处理技术包括分词、词性标注、句法分析、语义分析等,这些技术能够将自然语言文本转换为 计算机可识别的格式,以便进行后续的信息检索和文本挖掘。
自然语言处理技术的应用范围广泛,例如在搜索引擎中实现自动纠错、自动完成、智能推荐等功能,以 及在智能客服中实现自动问答、智能回复等功能。
源。
网络信息检索阶段
随着计算机技术的发展,人们开始利用计算 机进行信息检索,出现了各种基于计算机技 术的检索工具和数据库。
智能信息检索阶段
随着人工智能技术的发展,智能信息检索逐 渐成为新的发展趋势,它能够更加智能地理 解用户需求,提供更加精准的信息服务。

信息检索基本知识

信息检索基本知识
第二章 信息检索基本知识
第三节 信息检索与检索系统
第三节信息检索与检索系统
• 1、信息检索 • 2、检索系统 • 3、检索系统的组织
1. 信息检索
• 信息检索(Iformation Retrieval):将信息按一 定的方式组织和存储起来,并根据信息用户的需 要找出有关的信息的过程和技术。
了解用户的 信息需求
如何提高查全率?
• • • • • 1.优先使用最简单常用的主题词; 2.逐渐减少不重要的检索词; 3.加用多个等同词,用“或”(OR、|)语法; 4.换用上位词; 5.增加检索途径
如何提高查准率?
• • • • • 1. 换用专指性更强的主题词; 2. 逐渐加用主题词; 3. 加用辅助词; 4. 利用词和网页的外部特征限制输出结果; 5. 观察不相关检索结果的特征,使用“减”(-) 语法排除; • 6. 使用下位词
信息检索 的技术或 方法
满足信息 用户的需 求
1.2、信息检索的对象-----你找谁?
文献
• 包括题录、文摘和全文。
数据 事实
• 数值或数据(包括数据、 图表、公式等)
• 某一客观事实为检索对 象,查找某一事物发生 的时间、地点及过程
信息检索的起源
• 信息检索起源于图书馆的参考咨询和文摘索引工 作。
按检索性质区分
• 定题检索:查找有关特定主题最新信息的检索, 又称为SDI检索。
▫ 特点是:只检索最新的信息,时间跨度小。
• 回溯检索:查找一段时期内有关特定主题信息的 检索,也称为追溯检索。
二、信息检索类型
• 按检索的信息形式区分
▫ 文本检索:查找含有特定信息的文本文献的检索, 其结果以文本形式反映特定信息. ▫ 多媒体检索:查找含有特定信息的多媒体文献的检 索,其结果以多媒体形式反映。

信息检索知识点

信息检索知识点

信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。

2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。

3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。

存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。

检索过程是存储过程的逆过程。

因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。

4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。

缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。

8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。

信息检索的基本知识

信息检索的基本知识

信息检索的基本知识
信息检索是一种重要的技术,它用于从大量的数据中提取所需信息。

以下是一些信息检索的基本知识:
•索引:信息检索的首要步骤是构建索引。

索引是一个按关键字组织的数据结构,用于快速定位和访问文档。

•关键字:关键字是进行信息检索的基本单位。

它们可以是单个词或短语,根据检索目的和搜索引擎的功能来确定。

•搜索引擎:搜索引擎是信息检索的核心工具。

它利用索引和算法来找到与用户查询相关的文档,并按相关性排序。

•查询:用户通过查询向搜索引擎提供信息需求。

查询可以是简单的关键字、短语,也可以是复杂的语句。

•相关性:搜索引擎根据文档与查询的匹配程度计算相关性。

相关性分数用于确定排名,从而决定返回给用户的搜索结果顺序。

除了以上基本知识,信息检索还涉及更多高级技术:
•倒排索引:倒排索引是一种常用的索引结构,它将关键字映射到包含这些关键字的文档列表中,以支持快速的搜索。

•词频和权重:搜索引擎通常根据关键字在文档中出现的频率和位置,以及其他因素来计算关键字的权重。

•自然语言处理:信息检索利用自然语言处理技术来理解用户查询和文档内容,以提高搜索效果。

•评估和优化:为了提供更好的搜索结果,搜索引擎需要不断评估和优化算法,以适应不断变化的用户需求和文档集合。

总结起来,信息检索是一门复杂而关键的技术,它在数字化时代具有重要意义。

了解信息检索的基本知识对于学习和使用搜索引擎、开发相关应用都非常有帮助。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

T
TB TG TH TE …… TU TV
TB1
TB2
TB3
TB4
…… TB48 …… TB488
……
TB482
TB489
T—工业技术类中图法举例
以T-工业技术大类下的TP类展开下位类如下: T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 TP39 计算机应用 TP393 计算机网络 TP393.0 一般性问题 TP393.01 计算机网络理论 TP393.02 计算机网络结构与设计
二、文献信息源类型
文献可按不同的方法分类描述,比较常见 的分类方法有如下三种: 按信息的载体形式划分(印刷、胶片、 电子文献等); 按信息加工的级别划分(四次文献); 按信息的发布形式划分(十大文献信 息源等)
1、按文献的载体形式划分
• 印刷型(Printed form):以纸张为载体 • 缩微型(Microform):以感光材料为载体:胶片 • 声像型(Audio-Visual form):以声像记录材料为 载体:磁带 • 电子型(Machine Readable form):以计算机信息 存储设备为载体 :软磁盘、光盘、硬盘等
叙词
•叙词是主题语言的高级形式。是以较正规和正式的 科学名称为基础组织而成一种主题法检索标识系统。 •由在概念上不可再分的基本概念单元词汇组成,检 索时可以利用这些单元词进行组配,以表达一个复杂 的概念。
•如课题: 太阳能热水器研究 汉语主题词表中正式主题词是太阳能利用、太阳 能加热等代替。
标题词
• 国际十进分类法(UDC: UDC(Universal Decimal Classification)
又称为通用十进制分类法。是世界上规模最大、用户 最多、影响最广泛的一部文献资料分类法。原由比利 时人P.-M.-G.奥特莱和H.-M.拉封丹在《杜威十进分类 法》第6版的基础上编成。近百年来,UDC已被世界 上几十个国家的10多万个图书馆和情报机构采用。 UDC目前已成为名符其实的国际通用文献分类法。
•索引 将文献中具有检索意义的事项(可以是人名、 地名、词语、概念、或其他事项)按照一定方式有 序编排起来,以供检索的工具书。 在计算机信息检索系统中称为索引文件。 机械加工 00003 00395 11009 14561 --模型 00375 --误差 18007 11456 --发展 13175
某些目录型文献也称为索引,如美国《医学索 引》,我国《全国报刊索引》。
•文摘
“文摘”的含义通常有二:
一指文摘类检索刊物,例如《化学文摘》、《电 工文摘》, 同题录相比,著录项目较多,加工深度 较深,揭示文献内容特征,其检索功能较题录好。 二是指文摘类检索刊物中的文摘条目。
三次文献类型(参考工具书)

如社会调查过程中一次产生的调查问卷 原始数据、数据表、调查报告

文献:记录有知识的一切载体 《文献情报术语国际标准(草案)》 (ISO/DIS5127):“为了把人类知识传播 开来和继承下去,人们用文字、图形、符号、 声频、视频等手段将其记录下来,或写在纸上, 或晒在蓝图上,或摄制在感光片上,或录到唱 片上,或存贮在磁盘、光盘上。这种附着在各 种载体上的记录统称为文献。”
•标准文献:标准化主要包括三个方面:产品标准化,即 产品质量要符合技术规定;零部件通用化;产品规格化和 系列化。 •政府出版物 :大致可分为两类:一类是行政性文件,包 括会议记录、司法资料、条约、决议、规章制度以及调查 统计资料等。另一类是科技性文献,包括研究报告、科普 资料、技术政策文件等。
•科技档案:是保存备查的直接记录和反映科技、生产活 动的科技文件,是科学技术档案的简称。
三 信息检索语言
信息检索语言:
• 应文献信息的加工、存储和检索的共同需要而发 展起来的专门语言. • 在信息存储过程中,用它来描述信息的内容和外 部特征,形成信息特征标识,以便于将信息以一定的 特征存储于检索系统中。 • 在信息检索过程中,用它来描述检索提问,形成 检索提问标识,以便于准确、全面、迅速地从检索系 统中获得所需要的信息。
信息检索基本知识
主要内容
一.数据、信息、知识、文献 二.文献信息源类型 三.信息检索语言 四.信息检索途径 五.信息检索类型 六.信息检索系统 七.信息检索方法 八.信息检索步骤
一、数据、信息、知识、文献
精炼的知识 记录下来的知识
智慧
文献 知识
对信息的理解与认识
有组织的数据 信息的原材料
信息
数据
中国古代工具书
• 字词典:使用部首法排序。如《说文解字》、 《康熙字典》。
• 韵书:把汉字按照字音分韵编排的一种书。这 种书主要是为分辨、规定文字的正确读音而作, 属于音韵学材料的范围。同时它有字义的解释 和字体的记载,也能起辞书、字典的作用。如 《切韵》 、《唐韵》、《佩文韵府》。
• 类书:类书就是搜集汇编同类资料,征引、检索、 传播原著文献为目的的参考类工具书。如宋《太 平御览》、明《永乐大典》。 • 政书:主要记载典章制度沿革变化及政治、经济、 文化发展状况的专书 。唐.杜右《通典》、《元典 章》、《明会典》、《清会典》等。
分类号( TP393.02:计算机网络结构与设计)检索
3 主题语言
•关键词 •叙词
自然语言
规范化主题语言,人工语言
•标题词
关键词:用直接来自文献或用户提问的一类检索
语言。为大多数计算机检索系统采用。 •优点:不受词表控制,使用方便准确,能及时检 索到最新概念的各类文献,可任意使用专指性强 的词语,查准率高 •缺点:容易产生误检、漏检。
• 代码:包括国际标准书号(ISBN)、国际标准刊 号(ISSN)、元素符号、分子式、专利号、标准 号、报告号、合同号等,在相应的专业领域内有 显著的检索价值 • 引文:引用文献和被引用文献的相互查找。
2、分类语言(分类方法)
000 总论 • 杜威十进分类法 (DDC: Dawey Decimal 100 哲学 Classification and Related Index ):200 是世界上比 宗教 较流行,也比较权威的一种图书分类方法。由美 300 社会科学 国图书馆学家麦维尔·杜威于1876年首创,它由 400 语言学 大类、门、纲、目、子目等组成。 500 纯粹科学 600 技术科学 将全部学科的书刊分为九大类,用1 700 美术 到9间的数字表示,不属于这九类中 800 文学 的图书为第0类。每一大类下再分1 900 历史 到9个子类,依此类分下去。
中国图书馆图书分类法
• 简称《中图法》,由中国图书馆图书分类法编辑委 员会编。1975年科学技术文献出版社出版第一版。 • 使用字母与数字相结合的混合号码,基本采用层累 制编号法。 • 《中图法》主要供大型图书馆图书分类使用。另外 为适应不同图书信息机构及不同类型文献分类的需 要,它还有几个配套版本:《中国图书资料分类 法》、《中国图书馆图书分类法(简本)》和 《〈中国图书馆图书分类法〉期刊分类表》等。 • 自1988年起,中国出版图书的标准书号中采用《中 图法》的大类号。
关键词检索产生误检、漏检的原因:
• 取名的多样:一词多义(索引、博客)、多词一义 (火房-灶房-厨房)、全名与简称(Wto-世界贸 易组织)、异称(学名、俗名、音译名:阿司匹林- 乙酰水杨酸,白金-铂,胆矾-蓝矾-硫酸铜- CuSO4)。
• 构词的多样:派生词( literacy→illiteracy , Balance→imbalance ,nutrition→malnutrition )、 单复数、拼写变体( centre (BE)与center (A E), defence (BE ) 与defense (A E) )、 大量的复合词( a darkroom-a dark room, a grandpiano(三角钢琴) - a grand piano(大钢琴) )
作者
描述文献外表特征的语言
题名
其他(出版者、刊 名、引文、代码 等)
检索语言Βιβλιοθήκη 分类语言 描述文献内容特征的语言
主题语言
1、外部特征语言
• 题名:包括书名、篇名、刊名 • 作者(责任者):个人作者责任者、团体责任者、 编者、专利权人等。 作者检索的作用?
通过作者检索可以发现同一作者名称下学科内容 相近或有内在联系的文献,有利于系统研究某一 方面的问题或某一著者的全部著作和学术思想, 在一定程度上满足族性检索的要求。
客观事物本身的运动
事 物 运 动
产生
信 息
人脑 有序化
知 识
用于实践
新 的 信 息
记录在 载体上 文献
传递运用


数据:是对客观事物本身运动的记录,是信息 的原材料。
信息:是有组织的数据,是对数据整理提炼出 来的消息,是知识得以形成和传播的中介,而不 是知识本身。 知识:是对信息的理解与认识。知识是经过精 心研究、领会后的有用信息,是人类对信息加工 处理后的产物。获得知识有赖于获得信息。
•《中国图书馆图书分类法》大类
A B C D E F G H I J K 马克思主义、列宁主义、毛泽东思想 哲学 社会科学总论 政治、法律 军事 经济 文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
社 会 科 学
自 然 科 学
N O P Q R S T U V X Z
自然科学总论 数学科学和化学 天文学、地球科学 生物科学 药学、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学、劳动保护科学 综合性图书
• 与叙词一样是以较正规和正式的科学名称为基 础的一种主题法检索标识,但存在主、副标题 词固定搭配,即属于先组式检索语言。 •如:
• 名录:经济机构名录,如《世界企业500强》;商品 名录,如《美国进出口商品名录》;地名录,如《世 界地名录》;人名录,如《当代中国经济学家录》。 • 资料汇编:把有关原始资料按一定方式编排起来以供 人们使用的工具书。
相关文档
最新文档