科技文献检索实用教程第3章 计算机信息检索基础

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

时间较长,人机不能对话。
(2)联机检索阶段
此阶段是从20世纪60年代中期到20世纪70年代初。
这个时期,计算机处理功能的加强、数据存储容量扩大和磁盘机的应用,
科技文献检索实用教程
出版社
为建立大型的文献数据库创造了条件。
(3)光盘检索阶段
20世纪80年代中后期出现了光盘数据库系统,CD-ROM技术利用激光束在光
科技文献检索实用教程
出版社
(2)编码特点
GBK 也采用双字节表示,编码范围为8140-FEFE。总计23 940个码位,共
收入21 886个汉字和图形符号。
全部编码分为3大区域:汉字区、图形符号区和用户自定义区。
(3)GBK的应用
在基本操作环境方面,微软公司自Windows 95简体中文版始,系统采用
科技文献检索实用教程
出版社
②按汉字的读音形成的编码(音码):如全拼、简拼、双拼、搜狗等。 ③按汉字的字形形成的编码(形码):如五笔字型、郑码等。 ④按汉字的音、形结合形成的编码(音形码):如自然码、智能ABC。 常见的汉字编码有3种,即GB码(又称“国标码”,相当于我国的 “ASCII”码,流行于我国大陆及新加坡,含简体汉字6763个);BIG5码 (又称“大5码”,流行于我国港澳台地区,含繁体汉字13 000个);HZ 码(海外华人中曾流行)。 3.1.4 GBK汉字内码扩展规范 (1)GBK标准简介 GBK是新的汉字编码标准,全称《汉字内码扩展规范》(GBK),英文名称 Chinese Internal Code Specification,中国信息技术标准化技术委员 会1995年12月1日制订,确定为技术规范指导性文件。
盘上刻写记录并读取数据库信息,用户以较低的价格购买或租用光盘,不
受时间限制在带有光盘驱动器的计算机上实现信息检索。
(4)网络检索阶段
此阶段是从20世纪70年代初到现在。通信网络更加现代化,也使信息检索
系统更加国际化,信息用户可借助国际通信网络直接与检索系统联机,从
而实现不受地域限制的国际联机信息检索。
(3)术语型数据库
术语型数据库也称词语型数据库,是专门存储揭示各变、发展等信息的检索工具。
(4)事实型数据库
事实型数据库也称指南型数据库,是一种存储简单而确定的、独立存在的
非文献信息,每个条目都是对一个事实的确切、完整的描述。
(5)数值型数据库
数值型数据库是一种以自然数值形式表示、计算机可读的数据集合。
屏幕下,可以显示任何语言的内容,这就是Unicode的最大好处。
那么Unicode是如何编码的呢?其实非常简单。
就是将世界上所有的文字全部用两个字节统一进行编码。
科技文献检索实用教程
出版社
(1)UCS-2与UCS-4 Unicode的学名是“Universal Multiple-Octet Coded Character Set”,
文本多一套排版命令控制符,输出采用激光印字机。
(4)多媒体文本
多媒体文本集文字(世界各种文字)、图形、图像、声音、音乐、动画等
于一身,是一种梦幻般的全息文本,能全方位地表达任何信息。
(5)超文本
什么是超文本?
科技文献检索实用教程
出版社
超文本(Hypertext)是用超链接的方法,将各种不同空间的文字信息组 织在一起的网状文本。超文本更是一种用户界面范式,用来显示文本及与 文本之间相关的内容。 超文本能按人脑的联想思维模式,非线性地存储、组织、管理和浏览信息 的技术。 超文本是基于文本、图像和声音等信息的一种非线性组织形式。
简称为UCS。现在用的是UCS-2,即两个字节编码,而UCS-4是为了防止将来
两个字节不够用才开发的。
(2)兼容codepage 什么是codepage?codepage就是各国的文字编码和Unicode之间的映射表。
兼容代码表的实质不过只是一张代码转换表,通过查这张表,就能简单的
实现GBK和Unicode之间代码的转换。
3.4 文献数据库的类型和数据库的数据结构
3.4.1 文献数据库的类型
根据数据库所存储的信息类型不同可划分为文献线索型数据库、全文型数
据库、术语型数据库、事实型数据库、数值型数据库及多媒体数据库等。
科技文献检索实用教程
出版社
(1)文献线索型数据库 文献线索型数据库是一种存储目录、文摘、索引、题录等二次文献的数据
3)文摘型数据库 文摘型数据库是一种不仅提供文献外部特征,而且还提供文献内容摘要
科技文献检索实用教程
出版社
信息的数据库。
(2)全文数据库
全文数据库是一种存储文献全文或其中主要部分的源数据库,主要是指各
种图书、期刊、法律条文及案例、新闻报道以及百科全书、手册、年鉴等
全部文字或原著的全部内容,被转换成计算机可读的形式。
成一个字节(byte),因此一个字节就是信息、实质上是文献信息的最小
构成单位。
汉字国标码是用2个字节表示的双7位编码,其内码实质上就是用扩展
ASCII码字符集中的2个ASCII码。
汉字输入码属于外码。不同的输入方法,形成了不同的汉字外码。常见的
输入法有以下4类:
①按汉字的排列顺序形成的编码(流水码):如区位码。
库。检索的结果是文献线索或摘要,而不是文献原文。
1)书目型数据库 书目型数据库是一种存储和检索书目信息的文献数据库,通常都是传统图
书目录的机读化产物,故又称机读目录,主要报道馆藏各种文献的书目信
息和存储地址。
2)索引型数据库 索引型数据库是一种存储和检索期刊论文外部特征信息的数据库,利用该
类数据库可以获取查询原文的线索。
许多外挂式的中文平台,如南极星、四通利方(Richwin)等,提供GBK码
科技文献检索实用教程
出版社
的支持,包括字库、输入法和GBK与其他中文代码的转换器。
在互联网方面,目前大多数中文搜索引擎,都能很好地支持GBK汉字的搜
索。
便携式IT及通信产品方面,WINCE因与Windows一样同出于Microsoft,所
(1)信息媒体的种类
信息媒体是信息传播的形式,它们有符号、文字、声音、图像、动画等。
信息可从一种载体或媒体转移到另一种不同的载体或媒体上。信息必然始
终附于某种“壳”(shell),即使是在转移过程中也是如此。
(2)信息在空中的传播媒介
空中传播的无线电广播电视信号,是将视频图像信号调制到载波(射频)
频率上,利用地球磁场,把信号送到千家万户。
③不便于修改。
④不能表达动画。
⑤不能方便地检索。
3.2.2 计算机文本
(1)纯文本
最简单的文本是纯文本,也称正文(TEXT)文本,它是用文本编辑器(如
行编辑软件edlin、DOS文本编辑器Edit、Windows的“记事本”和注册表编
辑器Register等)产生的,一般用来编辑源程序,其特点是每行后一定有
科技文献检索实用教程
出版社
数值数据库的数据分为微观数据和宏观数据两类。
(6)多媒体和超媒体数据库
多媒体数据库是多媒体技术、Internet技术、网络技术与传统数据库技术
相结合的产物,是一种能够对文本、数值、图形、图像、声音、动画、视
频等复杂的多媒体对象进行一体化存储、管理和检索的数据库。
3.4.2 数据库的数据结构
图3.4 超文本系统的结构模型
科技文献检索实用教程
出版社
(6)超媒体 超媒体(Hypermedia)文本是指使用超文本技术实现多媒体信息的非线性 组织,因此,超媒体就是多媒体加上超文本。 3.3 计算机信息检索概述 3.3.1 计算机信息检索的特点 计算机信息检索(简称机检)克服了手工检索(简称手检)的弊端,使信 息检索不仅能跨越时空,在短时间内查阅大型数据库,还能快速地对几十 年前的文献资料进行回溯检索。 与手工信息检索相比,计算机信息检索的特点如下: 速度快,效率高。 ②检索范围广。 ③检索不受时空的限制。
3.2 计算机文本技术的发展和超文本技术
3.2.1 纸质文本的局限 纸质文本经过上千年的演进和发展,其技术已经非常成熟,除声音不能直
接在纸上表达以外,文字、图像等丰富的信息均能在纸上“演绎”。
科技文献检索实用教程
出版社
纸质文本的固有局限是无法最后突破的,例如:
①不能直接表达听觉信息。
②纸质文本缺少交互性。
图3.3 文献的结构
科技文献检索实用教程
出版社
3.1.2 符号、文字、声音、图像、动画的特点比较 作为多媒体的信息载体,文字、符号、声音和图像在传递信息上有着许多
截然不同的特点。
(1)符号 符号最不直观,或最“抽象”,你可用一个极怪异的符号代表一种只有你
自己才知道的含义。
(2)文字 文字则以其“永久”构成人类文明的历史。其表达信息的能力可以“明察
GBK代码。从浏览器IE 4.0开始,简体、繁体中文版内部提供了一个GBK-
BIG5代码双向转换的功能。
微软公司为Internet Exporer提供的语言包中,简体中文支持的两种字库
宋体、黑体,也是GBK汉字(珠海四通电脑排版系统开发公司提供)。其
他一些中文字库生产厂商,也开始提供TrueType或PostScript GBK字库。
科技文献检索实用教程
出版社
④由于数据更新快。
⑤检索辅助功能完善、使用方便。
3.3.2 计算机信息检索的发展阶段
计算机信息检索经历了下述4个主要的发展阶段。
(1)脱机检索阶段
此阶段是从20世纪50年代中期到20世纪60年代中期。
这一阶段主要以脱机检索的方式开展检索服务,其特点是不对一个检索提
问立即作出回答,而是将大批提问式汇集后集中进行处理,且进行处理的
数据库主要部分是由一系列记录所组成的文档。
(1)数据库的记录格式
记录是构成数据库的基本单元,是对某一实体属性进行描述的结果。
一条完整的记录由检索系统存取号、索引字段组成。
1)检索系统存取号
检索系统存取号是计算机检索系统为每一条记录规定的能被计算机识别的
科技文献检索实用教程
出版社
特定号码。 2)索引字段 索引字段分为基本索引字段和辅助索引字段,基本索引字段用来表征文献 主题内容特征的字段;辅助索引字段是表征文献外部特征的字段,提供从 文献的外部特征查找文献的途径。 (2)数据库的文档结构 文档结构是计算机检索系统中数据库的每条记录数据项的编排方式,有顺 排文档和倒排文档两种。 1)顺排文档 顺排文档存入了数据库的全部记录,文献记录按存取号的大小顺序排列, 类似于检索刊物中按文摘号排列文摘款目。
秋毫”到无与伦比的程度。
(3)声音 声音表达信息的细节最为丰富,使用面最广。
(4)图形和图像 图形化的“语言”给人们带来丰富多彩的感受。
科技文献检索实用教程
出版社
(5)动画 动画的交互性强,比其他媒体更有吸引力。动画作为一种交流手段,有着
特有的表现形式和优点。
3.1.3 计算机化的文献信息源——ASCII码和汉字内码 美国标准信息交换代码(ASCII)用8个位(bit)来表示一个ASCII码,构
以能很好地支持GBK,但PALM因中文化进展迟缓,到目前才比较成熟地支
持GBK的产品,大部分手机由于存储空间的限制,目前都不支持GBK汉字。
3.1.5 Unicode编码体系
如果把各种文字编码形容为各地的方言,那么Unicode就是世界各国合作
开发的一种语言。在这种语言环境下,不再会有语言的编码冲突,在同一
科技文献检索实用教程
出版社
第3章 计算机信息检索基础
科技文献检索实用教程
出版社
3.1 计算机化的文献信息源
3.1.1 文献的载体和媒体——信息、情报和知识的依托
文献信息的载体除了物理的以外,还有逻辑的载体,即用什么符号或文字
表达文献信息。为了与真实的载体区别,人们把字符之类的信息载体称为
“媒体”或“媒质”(media)。
科技文献检索实用教程
出版社
图3.1 无线电广播电视信号的组成
科技文献检索实用教程
出版社
科技文献检索实用教程
出版社
科技文献检索实用教程
出版社
总之,文献必然有载体和媒体,在其上必然承载信息内容,在信息内容中 才可能含有情报(如果对人有用或有趣)或知识(如果有真实反映客观现 实事物规律的东西存在的话)。文献的结构如图3.3所示。
回车符,文末有文件结束符。
科技文献检索实用教程
出版社
(2)文书文本
第二类是文章编辑软件,如WPS或Word编辑的文本,这种文本允许较多的
字体字号选择,并产生一些如“软回车”之类的用于自动排版的控制符。
(3)排版文本
第三类文本应当是桌面排版系统或桌面印刷系统文本(如北大方正或国外
流行的Pagemaker),它们采用更多的字体和更大点阵数的字模,比文书
相关文档
最新文档