中药资源普查数据校验的方法与探讨

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中药资源普查数据校验的方法与探讨
第四次全国中药资源普查试点工作开展以来,各试点省上报的数据与日俱增,这为数据库管理系统的建设提出可很高的要求。

为保证这些数据的质量,数据库系统需对数据进行统一的检查和验证。

数据校验是确保普查数据的有效性、完整性和准确性的重要手段。

该文从数据校验的必要性、原则、方法、内容和创新优势等方面入手,全面的介绍了第四次全国中药资源普查数据库管理系统的数据校验功能,并探讨了进一步完善数据校验方法的设计和构想。

标签:数据校验;数据库;中药资源;普查
第四次全国中药资源普查工作开展以来,已有22个省开展了试点工作,各普查队上报的数据与日俱增,这对数据库系统的建设提出了很高的要求。

中药资源普查数据库中存储了海量的数据,包括空间数据、野外调查数据以及影音数据等,数据的有效性、完整性和准确性都急需校验。

传统的人工校验方法耗时耗力,且准确性难于控制,只有通过科学的校验方法,才能为后续的数据挖掘和分析工作提供可靠的信息基础。

因此,数据校验作为控制数据质量的重要手段成为中药资源普查中亟待解决的重要环节。

本文全面的介绍了第四次全国中药资源普查数据库系统的数据校验方法,进而提出深入完善数据有效性、完整性和准确性的构想,为中药资源普查试点工作的数据质量提供保障[1]。

1 数据校验的必要性和现实意义
1.1 数据校验的必要性普查数据是中药资源普查工作的重要成果,也是中药资源数据汇总分析,以及中药材质量研究等工作的科学基础。

然而,未经校验的原始普查数据存在大量失真信息,究其原因可分为技术性失真和非技术性失真两类[2]。

技术性失真是受某些客观条件限制所致,如人们的认识能力不到位、工作方法或统计方式不当以及缺乏有效的校验手段等,所造成的数据信息与实际情况脱节的现象。

技术性信息失真可视为无意中产生的误差,此类情况在原始普查数据中普遍存在。

而非技术性失真是人为编造或修改信息造成的。

在普查工作中无论出现哪种情况,均会使整个工作的科学性和代表性受到影响,不利于普查成果的开发与利用。

1.2 数据校验的现实意义数据校验是判断普查数据可靠程度、提高普查数据质量的重要手段。

它对于建立和加强普查数据质量保证体系至关重要。

应用数据校验软件工具可使校验工作快速准确,省时省力,大大节约了检查数据的费用。

并且,在校验软件工具的帮助下,能灵活方便的查询数据,快速编制报表,并将信息按照不同要求呈现,使人们从繁重的统计工作中解脱出来,提高工作效率。

2 数据校验的基本原则
数据校验是对数据库中存储的数据信息赋予统一的规则条件,并用一种指定的算法对原始数据进行的验证[3]。

数据校验以保证数据的有效性、完整性和准确性为目的。

数据有效性用以检查数据是否符合分析的要求。

所填写的数据性质、数值范围、数量单位等是否与项目要求相符。

数据完整性用以验证调查数据的内容是否全面。

如样地信息、样方信息、植物信息、药材信息、数量信息及影像资料等填写是否齐全。

数据准确性用以考察数据所反映的调查结果是否真实可靠。

通过与历史数据对比和综合分析,估计数据的真实程度。

有效性、完整性和准确性是数据校验工作的三方面内容,也是规范普查数据的基本原则。

3 数据校验的内容与方法
3.1 数据有效性校验中药资源普查数据库系统的数据有效性校验是数据提交服务器前在本地计算机上完成的校验方法。

它是数据录入过程中的校验,有时也需要人机交互进行,因此数据有效性校验是一种基于客户端的校验方法。

目前,普查系统开放的客户端校验功能包括空值校验、数字校验、拉丁名校验、菜单式校验以及综合平衡校验等。

它通过考察录入数据的性质、数值范围、数量单位和相互关系来估计信息的质量。

这种方法不但可以定性还可以定量。

具体方法为在“野生重点调查药用植物(单株)的药材重量记录表”中“所在样地编号”项目,系统默认填写不能为空,而“入药部分干重”的填写必须为大于零的数字;在“普遍调查药用植物资源信息记录表”中,只要将信息拼音首字母填入“种中文名称”这一项,接下来“种拉丁名称”即可将预先设置好的关联信息自动显示出来,且植物的科属信息也可同时显示出来。

另外,诸如“植被类型”、“入药部位”、“坡向”、“坡位”等选项也充分采用下拉菜单和信息关联的方式填写。

这种伴随录入过程的校验方法既友好又直观,它不仅大大节省了录入时间,更可避免输入出错。

因此,这种录入校验的方法成为了普查数据校验体系的重要环节,充分保证了数据的有效性,为数据分析、利用提供了有利条件。

3.2 数据完整性校验由于中药资源的特殊性,许多药材信息不能一次采集完整,需要多次的收集和补充。

以植物的“入药部分鲜重”和“入药部分干重”为例,由于野外采集的植物需要长时间的干燥处理,必然会拖延重量信息的收集。

数据库系统允许数据在填报过程中分次保存,但汇总时又必须保证整条记录的完整,因此,这就需要数据库系统提供一种校验数据完整性的方法。

数据完整性校验是数据库服务器端执行的计算过程,网络服务器会将检测出的不完整数据记录反馈给用户。

具体方法:完整性校验是将数据库中存储的野生药用植物的“种中文名称”、“株数”、“入药部位质量”和“所在小样方编号”等信息作为关键信息,依照图一的标准将这些信息作以约束(图1)。

检查“植物名”、“植物株数”、“药材中文名”、“基原名”这几项是否为非空记录、“用药部分干重”所填是否为大于0的数字,并检查每一条数据是否都关联了“所在小样方编号”,且同一条数据中各记录表内所填“植物名”需一一对应。

根据这个标准,通过校验计算,统计出所有符合要求的数据即为完整数据。

3.3 数据准确性校验准确性校验是根据网络服务器中存储的中药材市场信息、科研报告及历史普查数据等本底资料,对中药资源的单株质量、蕴藏量、分布面积等信息[4]作对比和综合分析,并将对比统计结果反馈给用户。

最终在计算机辅助下,各领域专家,对多源数据进行综合研判,修正统计结果。

数据的完整性和准确性校验属于普查数据的深层次检验。

一方面减轻了中药资源普查数据库系统客户端的计算压力,另一方面保证了普查数据的完整性以及普查结果的准确性,并为中药资源普查成果的可视化展示提供了可靠的数据保障。

4 普查数据库数据校验体系的优势与创新
中药资源普查数据库系统对数据的校验不仅仅发生在数据修改之前,在数据修改和补充之后也进行了同样方式的校验,即对数据填报与存储的全过程进行了控制。

而传统数据库数据校验一般是单个进行,鲜有连续的处理。

并且,传统数据库大多都是对表中某一列或表中项与项之间的联动关系进行约束,没有根据信息性质进行数据约束的[5]。

中药资源普查数据库系统的数据校验功能不仅对数据性质和相互关系进行了约束,还通过多角度的数据规范,最大程度的保证了数据的有效性、完整性和准确性。

5 多种数据校验方法的探讨
基于数据库系统的数据校验方法种类很多,但侧重各不相同。

可利用统计学中的一些理论公式和数学模型,结合中药资源普查信息的逻辑关系,对统计数据的有效性、完整性和准确性作出评判。

5.1 综合平衡校验综合平衡校验是用综合平衡理论对一个地区数据信息进行内部校验和汇总后的外部校验识别。

对于普查工作来说,综合平衡校验就是将某个地区各种有关统计资料集中在一起,从总体上检验数据的有效性和准确性,检验数据是否相互平衡、是否符合地区实际。

具体进行综合平衡校验的方法有以下几种:①运用差额平衡方法,综合观察一个区域内各种增减关系的数据,看总量是否平衡。

②运用相关平衡方法,某个指标必定大于(或小于、等于)另一个指标,通过对比发现异常,则数字必定有错。

③运用总量相等方法[6],可将各地区的某一项数据汇总,与全局的外部统计数据进行比较。

实际上,综合平衡校验有赖于统计指标之间的平衡关系,而此种数据校验方法多为定性分析,且区域性强,比较适合应用于县域或省域内进行数据校验工作。

5.2 抽样调查校验它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。

一般根据随机原则进行,即每个地区有同等被抽取作为样本的机会。

当然所选的样本并不一定能代表总体,因此,可以根据具体情况确定单位区域样本的数量,以便控制抽样误差。

抽样调查是抽样推断的基础,它组织的好与坏,直接影响抽样误差的大小和抽样推断的准确性。

抽样调查校验法是目前国际上比较普遍采用的统计方法,与专家督导调查二者结合可对普查数据的完整性和准确性作出可信的评估。

5.3 专家督导调查校验全国中药资源普查试点工作办公室已组建国家级专家督导组,督导组以省为单位走访调查。

督导组还可以结合抽样调查对象对数据进行验证,从而使校验工作更具科学性和监督性。

总之,一个好的校验设计可以提高数据的有效性、完整性和准确性,保证数据质量。

随着普查工作的推进,普查数据的深入挖掘、统计分析和开发利用在整个中药资源普查工作中具有越来越重大的意义,这也为普查数据的校验提出了更高的要求。

因此,只有切实做好普查数据的整理校验工作才能保证整个中药资源普查工作的顺利进行。

[参考文献]
[1] 黄璐琦,陆建伟,郭兰萍,等.第四次全国中药资源普查方案设计与实施[J].中国中药杂志,2013,38(5):625.
[2] 聂会琴.统计数据校验系统的研究与设计[D].武汉:武汉理工大学,2004.
[3] 李玉红,甄玉杰,巴一.基于Java的Web应用程序中数据校验的实现[J].承德医学院学报,2008,25(2):178.
[4] 郭兰萍,陆建伟,张小波,等.全国中药资源普查技术规范制定[J].中国中药杂志,2013,38(7):937.
[5] 韩成贵.基于知识库的数据校验[D].北京:北京工业大学,2003.
[6] 张凯.输入数据校验设计与软件可靠性[J].电脑开发与应用,2004,17(2):17.
Data validation methods and discussion on Chinese
materia medica resource survey
ZHANG Yue1,2,MA Wei-feng1*,ZHANG Xiao-bo1,ZHU Shou-dong1,GUO Lan-ping1,WANG Xing-xing1,3
( 1. Resources Centre of Chinese Materia Medica,China Academy of Chinese Medical Sciences,Beijing 100700,China;
2. Wangjing Hospital of China Academy of Chinese Medical Sciences,Beijing 100102,China;
3.School of Pharmacy,Anhui University of Traditional Chinese Medicine,Hefei 230031,China)
[Abstract] From the beginning of the fourth national survey of the Chinese materia medica resources,there were 22 provinces have conducted pilots. The survey teams have reported immense data,it put forward the very high request to the database system construction. In order to ensure the quality,it is necessary to check and validate the data in database system. Data validation is important methods to ensure the validity,integrity and accuracy of census data. This paper comprehensively introduce the data validation system of the fourth national survey of the Chinese materia medica resources database system,and further improve the design idea and programs of data validation. The purpose of this study is to promote the survey work smoothly.
[Key words] data validation;database;the Chinese materia medica resources;general survey
doi:10.4268/cjcmm20131304。

相关文档
最新文档