计算机信息检索基本概念及理论

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 关键词语言 以关键词作为信息标识和检索依据的主题语言。关键词没有固定的 词表,因为对于同一个事物的概念,不同作者甚至是同一个作者在不同 的著作中用词都会不同,它是没有经过规范化的自然语言词汇。 • 单元词语言 以单元词作为文献标识和检索依据的语言,单元词一般都是从文献 中抽选出来的,从字面上不可再分割的最基本的概念单元词汇。
检索实例:非线性光学材料的制备(计算机检索)
• 检索词:非线性 光学材料 制备
• 检索结果:可能包含“非线性光学材料制备光学元器件” 方面的文献,与本课题无关。 • 注意:主题分析,找出与课题相关的概念和属性,以防 误检和漏检。
关于ISBN
• 正式出版的图书都冠有ISBN(国际标准图书编 号international standard book number) • ISBN7-5013-1289-3 定长为10位数,分为四个 部分, 7:地域号(国家,地区,语言区),例如7指 中国,0和1指英语国家,2指法语区,3指德语 区,4指日语区等 5013:出版社代码 1289:书序码 3:计算机校验码


• • •

1. 学习信息检索的目的
加强信息素质的培养(信息素养)
信息知识是基础 信息意识是动力 信息能力是核心 信息道德是准则
信息意识:一个人对信息活动的自觉认识和反应。 信息知识:了解检索的基本知识,熟悉信息源,熟悉常用数据库 信息能力:掌握信息检索技巧,会利用文献源获取 信息,学会加工获得的信息、利用信息
图书
图书是指内容比较成熟、资料比较系统、有完整 定型的装帧形式的出版物。(ISBN)
期刊 那些定期或不定期出版、汇集了多位著者论文的的 连续出版物。(ISSN)
会议文献 指国内外学术团体在专业会议上发表的论文与报告。特点:传播 信息迅速、反应学科或专业的最新科研成果和发展水平动向。 专利文献 通常指专利发明人向专利局递交的说明自己发明创造的技术文件, 包括专利说明书、专利公报、商标、设计公报等,也包括专利检索工 具。特点:技术性、新颖性、独创性、实用性。 科技报告 是科研院所对某课题进行研究的成果报告和研究记 录,特点是理论性强、专业性强、研究内容详细深入, 保密性强。 政府出版物 是各国政府机构及其附属机构出版的文献信息,主 要是一些会议记录、外交文件、统计数据,其他如学 位论文、标准文献、企业出版的的产品技术说明……
• 国际联机检索阶段 20世纪60年代末 • 光盘检索阶段 20世纪70年代 (1983,美国人Bela Hatvany)
中国自建数据库,1992年《中国科技期刊篇名数据库》
• 网络信息检索阶段
第一章
信息检索概论
主要内容
1.1 1.2 1.3 1.4 1.5 信息、知识、情报与文献 检索语言与信息检索 检索工具和检索系统 检索提问式的制定 信息检索策略与技巧
比较和识别的方便性。
3、检索语言的分类
(1)按照描述文献的特征,可分为描述文献外表特征的检索语言 和描述文献内容特征的检索语言。
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等

信息道德:人们在信息活动中应遵循的道德规范 和法律法规等
学会信息检索方法和技巧
“授人以鱼不如授人以渔”
2.信息检索的意义和作用
通过信息检索知识的系统学习,明确潜在信息需求,才能对特定 信息具有敏感的心理反应。 信息检索是创新人才必备的基本技能。
信息检索是科学研究的重要环节。
信息检索是开发信息资源的有效途径。 信息检索是科学决策的前提。 与时俱进,跟踪学术最新动态; 节省科研时间,提高工作效率; 避免重复研究; 促进科技创新。
(2)按照标识的性质与原理划分,可分为分类语言、主题语言、 代码语言和引文语言。 分类语言
即把表达文献信息内容和检索课题的大量概念按照所属学科进行分 类和系统排列,成为基本反映通常科学知识分类体系的逻辑系统,并用 号码(分类号)来表示概念及其在系统中的位臵,甚至 还表示概念与概念之间关系的检索语言。
2、信息检索原理
信息需求 信息
表达
标 引
检索提问
信息标识
比较与匹配
评价/反馈
检索结果
3、信息检索的技术手段
• 手工检索﹙manual retrieval﹚
– 开始于19世纪末。1876年召开的美国图书馆协会第一届大会上提出 了正规的参考咨询工作概念。 – 手工检索是通过人工自己动手去查找,去对比检索标识和书本式检 索工具(各种书本式目录、索引、文摘等)中的存贮标识的相符性, 即通过“人书对话”来完成检索过程。 – 文献的查准率较高

代码语言 代码语言一般只是就事物的某一方面的特征,用某种代 码系统来加以标引和排列。例如,化合物的分子式索引系统、 环状化合物的环系索引系统、有机化合物的威斯韦塞尔现行 标注法代码系统。
引文语言 引文语言是利用文献之间的相互引证关 系而建立的一种自然语言,其标引词来自文 献的主要著录项目。这种方法提供了从被引 论文来检索引用它的全部论文的途径,从而 顺着一种科学思想的发展过程线索找到有关 信息。可以讲引文语言看作检索语言的一种 特殊类型。
• 信息的概念 信息是客观事物运动状态、时空关系、系统特征、 相互关联方式等一切反映事物客观属性的总称。 从人的主观认识角度看,信息是储存在人脑中的知 识、思想、观念等。 • 信息的特征 时效性、传递性、可扩散性、 可扩充性、可替代性、共享性
2、信息的类型
(1)按照信息的存储载体形态分类 印刷型、缩微型、声像型、电子型 (2)按照信息发表时载体形态的特点分类 图书、期刊、会议论文、学位论文、科技报告、 专利文献、标准、政府出版物等
通文献存储和检索两个过程,沟通标引人员和
检索人员双方的思路,是编制检索工具的依据, 是信息存储及检索系统用以表达文献主题概念 的人工语言。
2、检索语言的特征
检索语言是连接情报用户、情报人员及信息资源的 非常重要的一环,因此具有鲜明的特征: (1)必须具有必要的语义和语法规则; (2)必须具有表达概念的唯一性; (3)必须具有将检索标识和提问特征进行
四、文献(literature) 文献是记录有知识和信息的一切载体。 科技文献:是记录下科学技术信息或知识的载体。
文献的基本要素
• • 知识信息内容 :文献的核心与灵魂。 信息符号:揭示和表达知识信息的表示 符号,如文字、图形、数字、 声频视频等。 载体材料:是记录知识信息符号的物质 材料,如龟甲兽骨、纸张、 胶片胶带、光盘磁盘等。
二、信息检索
1、概念 狭义——信息的获取过程,相当于人们所说的信息查检等, 根据用户的特定要求查找所需信息的过程。 广义——包括信息存储和信息获取两个过程。信息存储指 通过对大量无序信息的选择和收集、注录和标引 等处理,建成各种信息检索工具 或信息检索系统,使之成为有序 化信息集合的过程;信息获取就 是根据特定的需求,运用已组织 好的检索系统,将特定的信息查 找出来。

五、信息、知识、情报、文献的关系
–信息是情报和知识的原材料。 –知识是信息的深化和系统化,二者既密切相关又 有所区别。 –情报是信息和知识的最终产品。 –文献是信息、知识的记录,是可以检 索、传播、使用的信息和知识的载体。
1.2
一、检索语言ຫໍສະໝຸດ Baidu
检索语言与信息检索
1、检索语言的概念
检索语言也称标识语言,标识系统。检索语言是信息存 储和信息检索过程顺利进行的语言保障,它沟
1.1
信息、知识、情报与文献
一、信息 (information)
1、信息的概念与特征
古代 信息 活动 古波斯人设臵“喊话站” 古罗马人“悬灯” 我国远古时代“结绳记事” 殷商“烽火告警” ……
梦断美人沉信息,目穿长路倚楼台。 ——唐〃李中《碧云集〃 暮春怀故人》 欲传春信息,不怕雪埋藏。 ——南宋〃陈亮《梅花》 “惟以侦探信息为要。” ——康熙34年
二、知识
知识是人类对客观世界的认识,是实践的总结。
三、情报
一是指“以侦察手段或其它方法获得的有关敌人的军事、政治、 经济等各方面的情况,以及对这些情况进行分析研究的成果,是军事 行动的重要依据之一”; 二是“泛指一切最新的情况报导”。
情报是对人的决策提供支持或是 能够影响人的知识结构的信息和知识 的总称,是被激活的知识和有决策价 值的信息。
国内:《中国图书馆分类法》 国外:《杜威十进制分类法》 《国际十进制分类法》
• • • • •
《中国图书馆分类法》简称《中图法》,它是以学科 内容性质为对象,按知识门类的逻辑次序从一般到具体层 划分所形成的一种分类体系。1975年科学技术文献出版社 出版第一版,到1999年《中图法》已进行四次修订。 《中图法》由字母和数字组成分类号,把所有文献分 为5大部分,22大类: 1、马克思主义、列宁主义、毛泽东思想:A 2、哲学 B 3、社会科学 C—K 4、自然科学 N—X 5、综合类图书 Z
• 标题词语言 以标题词作为信息标识和检索依据的主题语言。标 题词是来自于自然语言中比较定型事物的名称,经过 规范化的处理后,能够表达主题内容的词、词组或短语。 叙词语言 以规范化科学名词为基础的一种主题法检索语言, 既适用于手工检索,又适用于计算机检索。叙词就是 指从自然语言中优选出来的、经过规范化的名词术语。
关于ISSN
• 根据国际标准ISO3297制定的连续出版物国际标准编码,连续出版物 国际性的唯一代码标识。 • 由8位数字组成。8位数字分为前后两段各4位,中间用连接号相连, 格式如下:ISSN XXXX-XXXX • 前7位数字为顺序号,最后一位是校验位。 • ISSN由设在法国巴黎的国际ISDS中心管理。1975年 起建立世界性的连续出版物标准书目数据库,目前 已有近200个国家和地区出版的65万种期刊(包括已 停刊的)登记入库,成为国际上最权威的期刊书目 数据网络系统。 • 我国于1985年建立了ISSN中国分中心(设在北京图 书馆),负责中国期刊ISSN号的分配与管理,目前 已有近5000种中文期刊分配了ISSN号并进入了国际 ISSN数据系统。ISSN通常都印在期刊的封面或版权 页上。
• 计算机检索﹙computer-based retrieval﹚
– 源于1954年美国海军兵器中心图书馆利用IBM701机 开发计算机检索系统 – 计算机检索是通过计算机来模拟人的手工检索过程, 由计算机来处理检索者的检索提问,将输入检索系 统的检索提问(即检索标识)与系统文档(机读数据 库)中的存贮标识进行类比、匹配运算,通过“人 机对话”而检索出所需要的文献。 – 文献的查全率较高
3.信息检索发展的历史
–手工检索阶段
• 西汉,刘向《别录》、刘歆《七略》 • 梁启超《西学书目表》 • 1949年,《全国总书目》创刊
–计算机检索阶段
• 机编文献目录阶段——起源
20世纪60年代中期,美国国立图书馆利用计算机出版 了MEDLARS ( Medical Literature Analysis and Retreived System ) 数据库
(3)按照信息加工程度分类 • 零次信息 (Non-printed Sources) 灰色信息,非公开出版物的总称。如语音交流或书信、 情书等。 • 一次信息(Primary Sources) 专著、期刊论文、科技报告、会议论文、专利说明书、 学位论文。 • 二次信息 (Secondary Sources) 印刷型的书目、索引、文摘或电子型的 文摘索引类数据库及全文数据库的检索软件 • 三次信息 (Tertiary Sources) 综述、述评、进展报告、学科年度总结等
《中国图书馆分类法》22大类
主题语言
主题语言是一种选自自然(规范化)的直接性的检索语
言,包括两个内容:一是指表达文献内容特征的、经过规范 化了的名词术语(包括词组和短语);二是指把这些名词术 语按字顺排列成主体记号表或标题词表,以此作为规范化词 标引和检索文献的工具。 根据选词原则、组配方式、规范方法等, 主题语言可分为标题词语言、关键词语言、 单元词语言和叙词语言。
相关文档
最新文档