事实和数据型数据库
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章事实和数值型数据库
第一节事实和数值型数据库概述
在现代化图书馆的电子资源建设中,各种类型数据库的发展已经为图书馆的服务手段带来了飞跃性的变革。
数据库从存储的内容上可分为目录文摘数据库、全文数据库、事实型数据库、数值型数据库。
在图书馆电子资源建设的初期,二次文献数据库曾发挥了全面快速检索文献的作用,是电子资源的主要组成部分。
但随着文献信息的日益膨胀,面对INTERNET 网络信息的纷繁庞杂,用户越来越需要准确、真实、适用、具体、能够直接回答问题的针对性强的信息。
因此以一次信息(包括全文、事实、图形、数值信息)为主的源数据库已经成为数据库发展的主流,并将成为图书馆电子资源的发展重点。
以上几章中着重介绍了学术性文献库,在本章中我们将就另外两种目前具有重要的发展前途的数值型数据库及事实型数据库做一个概述性的介绍。
3.1事实数据库的发展历史
如果从利用计算机作数据处理的角度来讲,则处理事实数据要比处理书目数据早得多。
但作为数据集合的数据库来讲,书目数据库的发展要比事实数据库的发展早一些。
最早的数据库是50年代的存于磁带上的书目库。
第一个事实数据库产生于1967年,是由美国Data 公司根据与俄亥俄律师协会的合同建立的俄亥俄法律法令全文库,收录有全美50个州的法律法令。
1968年,美国的Data Resource Inc公司成为第一家重要的数值数据库服务公司。
在70年代初期,事实数据库发展比较缓慢,其速度远远不及文献数据库的发展速度。
但由于事实数据库直接向用户提供原始情报,或经过加工存贮的“纯情报”,比如商业经济方面的数值数据库,直接向用户提供物价、产品规格、产值等方面的数据。
因此,越来越深受用户的欢迎。
自70年代中期以后,事实数据库迅速发展,没过多久其速度便赶上和超过了文献数据库的发展。
据统计,在1975年,欧洲只有51个事实数据库。
但到1985年,则猛增到1063个,平均每两年增加一倍。
1983年,世界数据库的总数为1845个,比1975年增加了38倍。
其中文献型数据库增加1.2倍,而事实数据库增加了20倍。
事实数据库的发展是有学科性的。
一般来讲,科学技术、法律、经济、商业、新闻的方面更适合于发展事实数据库。
事实数据库最新发展的学科是法律,之后由于商业、工业及科研的需求,促使了金融、物理、化学、新闻等方面的事实数据库的产生和发展,特别是商业金融方面。
从70年代存贮在磁带上的事实数据库的产生,到后来光盘的出现,再到90年代随着数据库工业、计算机技术、存贮技术特别是Internet网络的快速发展以及用户需求的增长,事实数据库无论从数量、类型、介质上,都有了飞跃性的进步,并表现出更强的发展势头。
其发展趋势表现在如下方面:
⏹商业、金融事实数据库仍是发展的主流。
这主要是商业、金融界对事实数据库的大
量需求所致,还有商业数据库生产的盈利驱动也是一个重要原因。
⏹互联网上各种各样的事实型数据库将取得长足发展,特别是会有大量工具型的事实
数据库在网上开放共享。
智能型、多媒体事实数据库将随着计算机技术的发展而大量产生,并可望成为主流。
这种数据库将把声音、图象、数据多种类型多种介质的数据结合在一起,不仅将使
事实信息的再现更加生动,也将使得对于事实数据库的查找更加便利。
3.2事实和数值型数据库的含义、特点与作用
1.2.1.事实和数值型数据库的含义
什么是数值型数据库?数值型数据库是以数值为主要内容的数据库, 除存储各类数值如科学技术数据、社会资源数据、商业经济、地理环境数据外,还存储运算公式、图谱、表格等。
如金融、证券系统数据库中的货币兑换、化学物质结构数据库、生物蛋白质序列数据库等, 大多属于此类。
数值型数据库也常被称为“源数据库”、“数据文件”、“数据银行”。
它提供的信息覆盖一大类的专业范围,在商业和经济领域中,数值库能提供特定产品的价格趋势、国家工业增长率等数值信息。
在科技领域,数值库能提供物质的物理化学性质、结构、频谱等。
事实型数据库则以直接提供可用的事实为目的,“事实”可以是既有数字又有文字的统计资料,可以是纯文字的知识资料或信息资料,也可以是一篇叙述性文献, 诸如, 人物传记数据库、百科知识数据库、自然及社会资源统计数据库、社会调查数据库、公共信息数据库等等。
人们在从事生产、学习、科学实验、经济活动或其他日常事务中,都会碰到各种各样的事实和数据问题。
我们研究问题查找资料,很多时候往往不需要长篇大论的论述或观点,而只是需要某一个信息,一个知识点,或背景材料。
比如说,某个英文缩写或代码表示什么含义,某种物质的物理化学特性是怎样的,马丁路德的著名演说“I have a dream”发表在何时何地,什么场合,钱学森有哪些重要的论著和贡献,上海和深圳股票市场每日变化,纽约和伦敦的黄金市场近段有什么波动等等,这些都是具体的数据和事实问题。
从有关的工具书、数据库或有关报纸、期刊等不同载体的文献集合中找出这些具体的事实和数据,都可以认为是事实和数据检索。
事实及数值数据库的作用就是提供对特定的事实或数值的检索与利用,直接面向问题以特定的事实或数字回答用户的查询。
从某种程度上说, 事实及数值数据库的作用大致相当于传统的参考工具书。
在计算机技术没有得到发展以前,检索事实和数据,我们通常会求助于传统的参考工具书来解决。
如电子元器件的技术特性数据,可用有关的电子元器件类手册、产品目录、样本或书查找;查过去某年度国民生产总值或国家的外汇储备概况,可使用有关年鉴或统计类资料;查国外某些学会、协会的背景材料、联系方式,可查相关的机构名录;查“UFO-不明飞行物”到底是什么以及有关这方面的研究情况,可用百科全书、学科术语类解释辞典和相关手册;查钱学森的主要论著和贡献,可用名人录;等等。
但因参考工具书编写和出版周期长,许多正在发展中的最新事实和数据,如各类产品的最新产销数据、价格、股票和黄金市场每日升跌,世界上正在发生的重大时间的等等,是时刻漂移变动的,不可能被收录,用参考工具书查找也就不可能得到答案。
此时,查询合适的事实和数值数据库或其他类型的信息源无疑是最适用的一条途径。
有些事实与数值数据库本身就是某种参考工具书的计算机化, 但它在内容、范围及功能上所具备的一些优势是参考工具书所不可比的,如:在检索上更加快捷方便,内容更新更加及时,存储的信息范围更加广泛,在信息资源的交互性和共享方面的功能都更加强大。
1.2.2.事实及数值数据库主要具有以下特点:
与传统参考工具书相比,数值型数据库与事实型数据库用计算机检索,速度快,利用方便,还可以作远程的联机检索,实现信息资源的共享查询服务。
数值型数据库与事实型数据库学科及行业范围非常广泛,从人们的日常生活、事务处理、经济活动、再到科学研究,各个领域都有涉及。
数据库的数据结构不同,有二元、三元、和多元的参数结构;描述方式不同,有的仅有数字,有的还有文字、图形、图象、公式及计算程序,编排体例千差万别,数据库各有其特点和不同的应用领域。
因此数据库的检索方式也各有特性,没有一个统一的模式,也难以形成统一的标准。
相对于文献数据库,事实及数值数据库直接面向问题总是以特定的事实或数字回答用户的查询。
后者检索结果可能是上百条文献,而事实及数值数据库的检索结果往往可能只是单一的值、一组数据或某一个事实。
事实及数值数据库对数据的可靠性、真实性、客观性要求较高,有的科学数值库还有些列出了数据的误差估计、数据来源和实验条件。
1.3.事实和数值型数据库的主要类型与内容特征
1.3.1.事实和数值型数据库从学科领域角度主要涵盖以下大类:
⏹事实数值型科学数据库
来源于对科学研究、实验、观测和工程开发中多种类型数据的汇集与精选,包含丰富的数值型、事实型数据,并可能以多种表述形式加以组织和保存,目的是为了提供对相关数据的再利用、再开发。
此类数据库的主题都是单一性的,专业范围和内容专一,专业性极强。
⏹社会科学或综合参考类数据库
来源于对综合学科或专门学科知识的总汇,以及对各类社会资源的调查、统计和历史记载,与之相对应的是传统的参考工具书,如:字典、词典、年鉴、百科全书、人物传记、机构指南等。
⏹商情数据库
商情数据库数据源的采集来源于企业、国家、地区、全球范围内经济贸易活动中产生的各种类型的信息,既包括宏观的经济政策、市场动态、投资信息、金融信息、政府法规、可转化为生产力的重大科技成果,也来源于各大中型企业、公司及各行业的微观经济数据如市场与产品信息、专利与标准信息、企业的规模、资本、产值、利润、生产、经营、管理、销售等多方面信息。
1.3.
2.从具体内容和编排体例来说,事实和数值型数据库的主要类型包括:
1.3.
2.1.电子化字(词)典、辞典
字典与词典是以“说文解字”为目的,提供文字或词语拼写、读音、意义、用法等相关知识供人们查考的工具。
电子化字(词)典、辞典具有信息量大、使用方便、查检迅速的特点。
目前便携式的造型小巧的电子型字(词)典非常普遍,如掌上型电子字典、钢笔型电子辞典等,这种电子字典类似于迷你型的电脑,不光具有查考文字、词语的作用,还往往兼具计算或换算,计时,游戏,储存名片、地址个人资料的多种功能。
另外还有大量电子字典以光盘或网络的方式发行,提供查询服务,目前网上有许多免费的电子字典,以及不同语种对译的翻译器。
互联网上字典类数据库非常多,因此很难列举穷尽。
而下面几个是提供网上免费字典查询的比较有影响的站点:
网上免费字典和支持多种语言互译的翻译器
/ OneLook dictionaris网站列出了600种综合性及专用字典,并可实现多种字典一次性检索。
/dictionary.htm 韦氏大学字典
1.3.
2.2.数值、公式、数表与表册数据库
这类数据库收录的对象具有特殊性,收录各种公式、数表、表册,并附以少量文字说明或解释。
此类数据库涉及的学科领域比较广泛,以自然科学及工程技术信息为主体,专业性强,适用的用户群也具有一定针对性或局限性,但却是相关专业必不可少的常备的参考工具。
这类数据库很多都被放在网上,提供给相关领域的研究者随时随地的查询。
如物质的物理化学参数数据库(/cuu/Constants/index.html)、化学元素周期表
(/chemistry/web-elements/)
1.3.
2.
3.图像、图录数据库
图录包括地图、历史图谱、文物图录、艺术图录、科技图谱等,是主要用图像或附以简要的文字,反映各种事物、文物、人物、艺术、自然博物及科技工艺等形象的图谱性资料。
其中地图是按一定法则,概括反映地表事物和社会现象的地理分布情况、辅助地理科学的资料;历史图谱、文物图录、人物图录、艺术图录等,是一种以图形形象揭示各种人、事、物形象的;科技工程类图谱包括有关科学技术或工艺流程的设计图、线路图、结构图、和其他以图形表谱为主的信息。
1.3.
2.4.电子百科全书
百科全书可以说是是人类一切或某一知识门类广泛的概述性著作。
百科全书收录的内容包括各学科或专业的定义、原理、方法、基本概念、历史及现状、统计资料、书目和重大事件等各方面的资料。
电子出版物独特的超文本链接技术和树状数据结构最适合表达百科全书类大型工具书复杂的知识体系结构,表现知识之间的错综复杂的联系,并能提供方便快捷的检索方法,利用超链接直接实现相互交叉和关联的知识点之间的跳转。
因此随着各种类型的电子出版物的发展,电子型百科全书便应运而生。
20世纪90年代,随着国际互联网的广泛普及与发展,提供联机服务的百科全书应运而生。
它不仅提供了印刷版百科全书所拥有的条目内容,还提供了丰富多彩的多媒体内容和方便快捷的查询服务,并链接许多相关知识的网址。
国际互联网的诞生,使人们能随时方便地使用和查询百科全书,从中获取各种知识。
美国格罗利尔出版公司是世界上第一个提供电子产品的出版商,1982年格罗利尔公司通过联机服务向读者提供美国学院百科全书内容,1985年制作了第一个以CD-ROM形式出版的电子百科全书。
1993年,美国微软公司和芬克与瓦格纳公司,融合当代最新的多媒体技术,共同开发出《英卡塔多媒体百科全书》,并成为全球最畅销的多媒体百科全书。
1994年,《不列颠百科全书》成为世界上第一套有偿在互联网上查询的百科全书。
国际互联网上著名的综合性百科全书站点主要有:《不列颠百科全书》、《格罗利尔多媒体在线百科全书》、《英卡塔多媒体百科全书》、《康普顿在线百科全书》、《哈钦森多媒体在线百科全书》、《世界百科全书》、《简明哥伦比亚电子版百科全书》等等。
1.3.
2.5.电子手册及专业手册数据库
手册也叫“指南”、“便览”、“须知”;英文手册则有“Handbook”和“Manuals”两类。
电子手册属于电子形式的简便的参考资料,往往汇集了经常需要参考的某一专业或某一方面最
常用的资料。
这种类型的参考资料具有类例分明、资料具体、叙述简练、小型实用、查阅方便等特点。
如我们想查找解热镇痛的各种药剂,就可以从专业性手册《药物书册》中去查找;又如我们想查询显影剂的成分,就可以从《摄影手册》中去找答案。
另外,手册也可以是相关专业资料的“大全”。
如有百年历史的德国Beilstein有机化学手册和Gmelin无机化学手册是当今现有最完整的可查询化学资料的最权威的参考工具之一,到目前为止,这两部参考工具书已积累了历年出版的上千册资料,并还在每年30多册的速度递增。
1994年,集成了这两部庞大资料库的电子版Beilstein/Gmelin CrossFires数据库在欧美等国发行。
数据库技术及应用对于大全型的专业手册很重要,人们从翻查卷轶浩繁的厚重纸本的传统方式中解脱出来,过去要花几个月才能收集到的参考资料,现在只要几分钟就能够收集齐全。
类似的手册数据库还有《世界坦克装甲车辆手册数据库》,是我国出版的一部门类最全、篇幅最大的大型坦克装甲车辆工具书,系统的反映了世界坦克装甲车辆和主要部件的发展情况、结构特点和基本性能。
《美国政府手册》United States Government Manual--美国政府手册数据库包含关于立法,司法和执行机构的大量信息。
还包括准政府机构;美国参加的国际机构;及委员会的信息。
1.3.
2.6.组织机构指南
机构名录收选的内容是机构名称及其概况介绍,如机构的宗旨、组织结构、权限、业务或研究工作范围、地址、职能、人员、资信等。
机构名录有学校名录、研究机构名录、工商企业名录、行政和组织机构名录、学协会名录等。
1.3.
2.7.传记资料
收选的内容是各学科、领域知名人士的个人资料介绍,主要内容包括姓名、生卒年月、学历、职称、所在国别、民族、工作单位、所从事的专业、论文和著作、主要科研活动及成就等生平传略。
1.3.
2.8.年鉴、统计资料数据库
年鉴是收录某年内发生的事情和其他动向性问题的年度性资料库。
其内容包含年内的各类事实、数据、统计资料、图表、图片及近期发展动向等等。
年鉴有综合性和专科性之分。
按其收录的地域范围不同,则有地区性年鉴、国际性年鉴和世界性年鉴等。
作为年度性的各类统计资料,尤以统计年鉴最有权威和详尽。
如要查找某类工业企业的人员、各种产品的产销数据、重要研究成果或产品的进出口等各类事实和数据,可以在专业性年鉴或统计年鉴中检索。
第二节英文事实和数值型数据库举要
2.1.DIALOG国际联机情报检索系统中的企业工业产品信息、市场研究商业统
计等类型的商情数据库
美国DIALOG系统是世界上最早的也是规模最大的一家电子信息服务公司,其用户遍布世界各地。
DIALOG系统以商情数据库为显著特色著称于世, 称雄于全球信息服务业。
它的主要服务是提供数据库联机查询,也提供数据库的光盘和软盘产品。
DIALOG有四十多种语言的联机数据库500多个。
它的数据库可分为两大类:一类是研究和开发方面的数据库,有数学、物理、化学、地学、生物、药物、医学、工程、高技术、计算机、安全、标准等;另一类是商业方面的数据库,有报刊新闻、财经、分析报告、技术转让、专利、版权、商标等。
美国是商品经济高度发达的国家,大财团、大企业在经济社会
生活中起着驾驭作用,数据库生产与经营也以商业界居多。
美国金融、商业部门为及时获取准确的行情等经济信息,率先推动了大型联机检索系统的建设,从而大大发挥了数据库的威力。
DIALOG数据库涉及科学、技术、社会科学的各个领域,无所不包,但70年代后DIALOG数据库主攻方向便逐步由科技转向经济、商业等商情类数据库领域,提供经济、人口统计和预测、商品生产和销售预测等方面的信息服务。
DIALOG系统近200个经济商情数据库中多数是事实型数据库,内容非常丰富全面,根据数据库内容细分成若干类别,如:公司企业新闻、公司名录及财政、公司兼并与采购、国家市场研究、商贸信息及重大事件、经济统计与预测、金融与银行、经济法规、知识产权等,每一个类别都包含了十几乃至几十个文档库。
可以说,DIALOG系统是提供商情信息的最强大的信息系统之一。
DIALOG面向社会提供联机服务,但其昂贵的检索费用一直使个人用户不敢问津,同时它的指令式的检索方式也不是一般的检索者容易掌握的,因此,长期以来,DIALOG一直为专门从事检索工作的专业人员所用,并没有面向最终的用户。
2.2.Gale公司的参考性资料数据库
美国Gale公司一家著名的参考工具书出版商,以出版人文和社科工具书著称,一向为大学、学术研究机构、图书馆咨询机构提供比较有特色的工具书资料,Gale Research 也是全世界第一个从事电子数据库的公司,产品包括Encyclopedia of Associations, Gale Directory of Databases, Contemporary Authors, World Business Directory 和其它数百种不同的数据库,目前Gale 公司除发行光盘资料外,也开发完成Online database,如集合了多个参考资料库的网络系统Galenet。
其内容覆盖人文社会科学、商业经济、国际市场、人物传记、机构名录等范畴。
2.2.1.Galenet系统的主要数据库及其内容
⏹学会协会大全Associations Unlimited
包括了大约455,000个国际性及美国IRS(Internal Revenue Service) 认可的非盈利性成员机构的名录资料,跨越各个领域。
其中,有23,000个美国国家级协会,20,000个国际协会组织,111,000个美国地区性、州及地方级协会名录。
另外,有2600个主要的美国全国性协会机构,提供了学协会简介、宣传小册及会员申请表等全文资料。
⏹传记资源中心Biography Resource Center
包括185,000个人物的古今中外名人传记资料,贯穿古今,覆盖全球各个国家,横跨有关文学、科学、文化研究、商业、政治、历史和艺术等各个行业和学科领域。
收录完整的Marquis Who's Who 逾百万位人物传记资料,同时也收录了近250种期刊的全文。
数据库提供多种检索入口, 如从人物生卒年、出生地、国家、种族、职业、性别等事实来找出特定人物的相关资料。
⏹现代作家名录Contemporary Authors
是关于现代作家的书目性指南,有小说家、散文家、诗人、记者、戏剧作家、电影电视作家等,包括了90,000个美国及世界的著作者的全部传记资料和作品的参考书目信息。
⏹文学传记字典Dictionary of Literary Biography
记载了各个时代各个文学流派的作者的生平传略。
除了6,000个作者的传记资料,还包括学者专家的评论研究,DLB同时列出了每个作者的作品目录。
⏹盖尔商业资源Gale Business Resources (Integrated)
包括448,000个美国及国际性企业、公司的详细信息,记载了主要公司的发展历史、
大事年表。
还包括有关1,000个美国及全球主导企业的研究报告、排名信息、市场份额、商业协会和统计分析的资料。
盖尔常备参考书书架Gale's Ready Reference Shelf
收录了14种盖尔最受欢迎的参考性字典,它包括学会、研究中心、出版机构、出版物(报纸、时事通讯、期刊、字典)、数据库、电视台及广播电台等各类名录字典和百科全书。
数据库可以实现对以下14种字典的完全查询,为具有专门需求的用户提供非常有用的信息。
Gale's Ready Reference Shelf 包含320,000个协会、研究中心、出版商、出版物(涵盖从报纸、快报以及期刊、名录)、数据库、电视和电台以及其它。
其中美国国内协会2,800家 ,广播媒体机构10,200家 ,国际协会20,600家 数据库制造商2,900家,美国行政区,州和地方协会116,100家,数据库销售商2,100家,出版社18,900家, 名录15,400个,图书馆和信息中心23,600家, 快报11,600种,研究中心24,700个, 期刊13,100种,政府顾问机构7,000家, 数据库18,600个 ,宗教组织2,300个 。
2.2.2. GaleNet 检索系统
Galenet 经由 Digital Island 联机 Gale Group 美国网站,采用IP 地址控制访问权限。
由于GaleNet 是多个数据库的集合, 每个数据库收录的信息类型不同, 检索项不同,其检索方式也存在差别。
但总的来说, GaleNet 的每个数据库根据其存储信息的属性, 提供了多个层次, 多个入口的检索途径, 以满足对特定事实的检索,这是它们共有的特征,如可提供名称检索(人名、地名、机构名、数据库名、出版物名称),主题词检索,扩展检索(可同时检索多个检索字段),专家检索。
2.2.2.1. 检索功能
下面以Associations Unlimited 为例具体说明GaleNet 的检索功能, 系统所包含的数据库使用一个检索平台,检索其它的数据库时基本上可以依照同一方法进行,需要注意每个数据库由于收录的内容不同,检索的字段便有所变化,这需要查检时根据实际情况灵活掌握。
AU 提供以下几个可供检索的字段:
机构名称:在字段中键入机构之全名、部份名称、或缩写。
用学会名称、简称检索
地址检索,可检信
息包括城市、国家、邮政编码等
主题及任意词
检索 同时使用多个字段的专
指性检索或复杂检索
使用字段标识和
布尔算符的专家
检索方式。