中医药行业数据库建设现状分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中医药行业数据库建设现
状分析
Ting Bao was revised on January 6, 20021
中医药行业数据库建设现状分析*
中国中医研究院中医药信息研究所崔蒙
中医药行业的数据库建设起源于上个世纪80年代,经过20余年的建设已经取得了初步的成果。到目前为止,已经有数十个中医药大学、学院及研究院所建设了各种规模不同的、近百个中医药信息数据库,初步实现了中医药信息数字化。
1.现代文献型及事实型数据库建设现状分析
中医药现代文献型及事实型数据库的建设开始于上个世纪80年代,至今已经开展了20余年。目前,已经形成了以国家中医药管理局中国中医药文献中心及其分中心为主体的中医药文献型及事实型数据库群,这些数据库已经均投入使用。其主要数据库如下表所示:
从上述资料不难看出,中医药现代资料数据库的建设已经具有一定的规模,几乎涉及到中医药信息的各个方面。但同时也存在着严惩的问题。这主要表现为:一是重复建设的现象严重,造成大量资源浪费;二是持续性建设状态不好,相当一批数据库没有能够保持维护;三是无论是事实型还是文献型数据库,多为单表型数据库,给数据的进一步利用和挖掘造成了很大的困难。因此,在今后的工作中,应注意尽可能集中全国中医药行业的数据库建设力量,共建共享,最大可能的避免资源重复建设;同时注意对已建数据库的维护,使其能够持续发展,不断更新;另外,还要注意对数据库的深层加工,提高数据库的附加值,增加数据的可利用度,更好的为中医药事业的发展做出贡献。
2.结构型数据库建设现状分析
由于目前文本挖掘技术,尤其是中文文本挖掘技术还很不成熟,因此,提高数据利用度的一个重要方面就是建设结构型数据库,只有在结构型数据库的基础上才有可能较好地实现数据挖掘。目前,国内外中医药结构型数据库的建设还很不完善,尚未涉及到中医药信息的各个方面,但已经开展的工作,为中医药结构型数据库的建立,以及进一步的数据挖掘奠定了较好的基础。北京中医药大学的任廷革教授开发研制的结构型古代中药数据库已经具有一定规模。
国家中医药管理局中国中医药文献检索中心利用虚拟研究中心平台,联合全国十多家中医药大学、学院及科研机构于2002年开始建设结构型中药科技基础信息数据库。该数据库共设计了中药单味药、中药品种、中药生药材鉴定、中药药理、中药临床药理、中药毒理及中药化学成分等七个单表数据库,七个数据库共设立了158字段,通过关联形成了一个统一的结构型数据库,使用户可通过该数据库方便地获得相关中药的全部权威的科技基础信息数据。为了保证数据加工的一致性,该数据库设计了26张标准表,为全国十多家参与工作的技术人员提供标准词汇。到2003年底,该数据库收录的中药单味药数据将达到11000种。为了保证中药科技基础信息数据库的数据的准确性,收入该数据库的全部数据均来自国家或行业标准、权威工具书以及中医院校的统编教材。目前该数据库已经通过国际互联网投入使用。通过该数据库的关联检索功能,专业人员可方便地检索到所需资料,并可方便地获得所需要地归类资料,如归属某一经、归属某一性味、含有某一化学成、具有某一功效、能够治疗某一证候、某一症状、某种疾病等的全部中药材资料。但从总体情况看,中医药行业的结构型数据库的开发还很不完善,尤其是涉及中医医疗领域的结构型数据库几乎还是空白,需要加大开发力度,以便为中医药数据的深度挖掘和充分利用奠定基础。
3.数据仓库建设现状分析
研究数据仓库技术是为了更好地对具有高维、小样本特点的中医药科学实验数据实现统计分析,提高数据的利用程度。基于以上考虑,中国中医药文献检索中心及其分中心在2001年利用虚拟研究中心平台开展了基于数据仓库技术的中药科学实验信息数据库建设的研究。该数据仓库收录了自1990年以来公开出版的中文生物医学期刊上的有关中药单味药、方剂、化学成份在药理、临床药理、毒理方面进行研究的一次实验文献。收录原则为全面收录中药实验研究的一次文献数据,转载或综述性文章均不进行收录。该项研究采用计算机数据仓库技术,以忠实原文献内容为原则,首先对中药实验数据进行了调研,认为中药科学实验研究范围广泛、内容不集中,因此具有数据分散及高维、小样本的特点,难以进行统计分析,严重阻碍了中药科学实验数据的利用。为此,该项研究建立了具有十五个空间维(文献出处、单味药、化学成分、方剂、剂型、疾病、证候、症状、病理生理、效应部位、微生物、药理分类、临床药理分类、毒理分类、指标)的中医药科学实验信息数据库,十五个维基本全面表达了中药科学实验数据的内涵值,可以支撑数据的分析。十五个维表均采用了规范的数据,同时又拥有灵活的排列组合方式,可以根据需要进行数据组合。
中药科学实验信息数据库提供了用户应用平台,构建了数据查询与应用界面,作为中药实验数据仓库首次服务于用户,成为中药学科及相关专业必备的工具。由于中药数据仓库技术起点高、结构清晰、数据抽取主题概念明确,因而提供了最大的服务与应用空间。同时,本平台具备数据统计与频次排序,提供了数据评价的功能。本数据库具有以下特点:(1)数据结构设计合理,数据加工规范,具备一般数据库查询的功能。(2)提供了检索数据的自身评估功能,存在着远期数据增值能力:应用平台提供的十五维检索途径,从不同的入口进入以获得不同的统计结果;如:通过疾病入口,可以进行与中药材、化学成份、方剂研究相关的数据组合检索,用户根据研究需求,扩充或限定检索,获得所需的研究数据,并同时获得数据频次的统计,为研究提供一定的思路。中药科学实验信息数据库应用平台有可能为中药知识发现与挖掘提供新的途径。
4.古代文献数据库建设现状分析
中医药古代文献是中医学的宝贵财富,中医学的发展是在继承基础上的发展,因此,中医古代文献的利用对中医学的发展具有至关重要的作用。中医药古代文献数字化的工作起源很早,但早期建设的数据库多是单本或数本着作的数据库,如陕西省中医药研究院开发的13种古代文献数据库。以后虽然开发了具有数百种中医药古代文献的光盘数据库,但由于中医古代文献的特殊性,这些数据库基本只能作为电子图书馆进行使用,也就是说,其主要功能是电子图书的功能。此外,亦有一些专病的古代文献数据库,如上海中医药大学开发的中医胆道疾病古籍文献数据库,但规模均较小。
直到近年,中国中医研究院中国医史文献研究所副所长柳长华教授提出了基于知识元知识表示体系的结构化中医古代文献据库建设的构想,才较好地解决了中医古代文献的数字化问题。柳长华教授认为,传统文献型数据的全文检索、关键字检索不能够满足用户对中医古代文献知识获取的需求,其关键问题主要在于没有适合于古代文献的知识表示方法以及文献结构化处理技术。因此,柳长华教授在研究分析古代中医文献知识结构的基础上,提出了以知识元