基于ETL-KETTLE模式的苹果产业数据整合

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

陈亚东,鲜国建,赵瑞雪,等.基于ETL-KETTLE模式的苹果产业数据整合[J].江苏农业科学,2019,47(10):230-234.doi:10.15889/j.issn.1002-1302.2019.10.052

基于ETL-KETTLE模式的苹果产业数据整合

陈亚东1,鲜国建2,赵瑞雪2,刘现武3,郭淑敏1

(1.中国农业科学院农业资源与农业区划研究所,北京100081;2.中国农业科学院农业信息研究所,北京100081;

3.中国农业科学院,北京100081)

摘要:苹果是高附加值的果品,也是世界四大水果之一。苹果产业在千余年的发展过程中,积累了丰富的数据资源,这些资源也是产业数据分析的基础和关键。由于苹果产业的数据来源丰富、结构各异,因此,数据的集成和共享还存在一定的难度,对数据进行整合十分必要。以国家科技图书文献中心篇名含“苹果”的数据资源为材料,以基于ETL-KETTLE的数据转换模式为研究方法,提出面向苹果产业数据整合的思路。结果表明,基于ETL-KETTLE的数据整合法则,可以分析苹果产业多源异构数据的关键节点、过滤和清洗噪音数据、发现和解析多源数据的字段,最后通过表输出完成题目、摘要、关键词等字段的统一,从而实现苹果产业数据的整合。将基于ETL-KETTLE模式的整合方法应用于苹果产业,可以为产业数据的重组与共享提供科学的工具,为数据的高效获取和有效组织表达提供新的思路和方法,助力苹果产业的科技创新,提升苹果产业的国际竞争力。 关键词:苹果产业;ETL;KETTLE;数据;整合;应用

中图分类号:S126;TP311.13 文献标志码:A 文章编号:1002-1302(2019)10-0230-05

收稿日期:2018-01-22

基金项目:中国农业科学院科技创新工程(编号:CAAS-ASTIP-2017-AII)。

作者简介:陈亚东(1983—),女,辽宁鞍山人,博士,助理研究员,主要从事农业信息资源管理研究。E-mail:chenyadong@caas.cn。通信作者:郭淑敏,博士,主要从事农业区域发展研究。E-mail:guoshumin@caas.cn。

苹果是世界四大水果之一,也是果品市场上的重要消费品,苹果产业在我国农业经济发展中长期占有重要的地

位[1]。苹果产业的数据资源较为丰富且类型多样,用户需要

的数据通常以不同的格式分散存储在不同的网页或者数据库

中[

2]

,因此苹果产业数据的集中访问和集成共享还存在一定的难度,尚未形成一套科学系统的数据处理方式和方法,有待于从微观层面进一步解决数据的集成统一问题,以实现异质数据的标准化输出,为苹果产业数据的共享复用奠定基础。ETL即数据的抽取-转换-装载,是用于解决多源异构数据

集成的一系列过程,也是获取高质量数据的关键[3]

KETTLE是ETL的一种开源工具,能够对数据进行稳定抽取,可以提供面向不同行业的数据集成解决方案[4]

,郭丹等通过

构建K

ETTLE过程模型,对烟卷销售数据进行整合与挖掘,为烟草行业的决策提供数据基础

[5]

。李云松利用KETTLE开源

软件,对小型和微型企业的数据进行整合,可以在同一个平台得到共享,满足后台用户对数据的查询和管理需求

[6]

。尹晓

楠等基于KETTLE进行研究,使整个企业的生产数据工具对北京市水务数据进行提取与转换,实现了北京水务普查数据的整合和无缝对接,提高了普查工作的精确度

[7]

。基于相关

的技术模型和前人的成功经验,本试验以苹果产业的数据整合为目标,基于ETL的开源软件KETLLE对苹果产业数据的标准化整合及其应用进行研究,以期为我国苹果产业数据共享和知识检索提供数据基础。

1 材料与方法1.1 数据材料

(数据)材料来源于国家科技图书文献中心(NSTL,http://www.nstl.gov.cn),以题目含有“苹果”为检索词进行检索,检索后所得到的数据为本研究的材料,这些数据资源涵盖了苹果产业数据的主要组成,具有代表性和可获取性。1.2 研究方法

1.2.1 ETL过程简述 ETL是数据转换的一个关键环节,是多元数据集成的有效方法,其含义是从多个数据源抽取数据,通过数据的抽取、转换和加载等相关规则转换成最后所需要的数据格式,最后装载到对应的数据库中(图1)。ETL技术的关键点主要有3个方面:

第一是数据抽取,这是数据转化的前提条件,其过程是将数据从各种原始的数据中首先读取出来;第二是数据的转换,按照相关的规则将多源异构数据进行格式和结构统一;第三是数据的装载,将转换后形成统一格式

的数据批量导入到数据仓库中进行存储[8]

。ETL技术与数据

仓库相比较,能够有效地集成数据,避免了数据仓库不能对数据进行修改而只能进行数据增加的弊端,可以灵活实现数据

的删除和修改,实用性更强[

9]

。1.2.2 KETTLE过程简述 KETTLE是构建数据集成解决方案的ETL工具,也是ETL的一种开源工具,它的本意是将不同格式的数据注入到同一个数据库中,经过数据的处理与转换之后,成为统一格式的数据进行输出。KETTLE提供了一个图形化的工作界面及相应的对象设置来描述用户的任务需求,用户在使用过程中对KETTLE内部的数据处理过程可以

一无所知[6]

。作为数据整合的重要工具,KETTLE能够对不

同格式的数据进行接收和输入,包括XML、ACCESS、Cube、Excel等,数据被接收以后,在相应的法则下可以进行源数据

结构分析、清洗以及解码,最后实现数据的整合[10]。

2 基于ETL-KETTLE模式的数据转换2.1 数据的抽取与输入

在国家科技图书文献中心(NSTL)系统中抽取篇名含有

“苹果”的数据,其XML样本的片段截图如图2所示。数据抽取完成后,使用KETTLE工具对数据进行接收,将所有被抽取的XML(也可支持CSV、Excel等更多格式)文件进行结构解析。数据抽取的过程包括数据剖析、增量数据捕获以及数

据抽取3个环节[

11]

。数据剖析过程主要是对源数据的数据结构以及数据的内容进行分析,如不同数据的字段规律等;增量数据的捕获主要是实现增量的抽取,其关键点是如何准确

快速地捕获变化的数据;数据抽取则是对源数据的获取,不同数据源的数据须要经过合并后才能存入到数据仓库中,在数据抽取完成后,这些数据都会被临时存入数据的一个中转

区域。

2.2 数据的转换

2.2.1 数据转换原理 KETTLE在实际工作过程中是通过工作流的方式来完成数据转换的,按照工具中预先设置好的工作步骤,逐步对数据流的操作进行处理。数据转换的过程主要包括对数据进行节点分析、过滤清洗以及映射匹配3个步骤,KETTLE工具基于XML数据转换的工作原理图如图3所示,将XML的原始文件输入以后,KETTLE能够解析XML文件的文档结构,并过滤清洗噪音数据,通过对各文件中关键词等组合进行自动分析,将各文档的关键字段自动解析并进行不同来源文件的映射匹配,最后将作者姓名、作者工作单位、摘要等信息解析出来,利用KETTLE的内部转换公式进行统一格式的表输出。

2.2.2 节点解析 数据的节点解析是指对数据的有效性以及节点结构的分析,从而提高数据的有效性和可靠性。KETTLE能自动解析XML文件的结构,主要是经过以下3种验证:XML验证是检验文件是否为形式正确的XML文档,主要是检验语法的正确性;

DTD验证是检验文件是否为有效形式的XML文档,保证XML格式的正确和有效;XSD验证为XML结构定义,目的是检查XML文档是否符合其要求。验证成功之后,KETTLE可以列出XML来源文件中的标签节点名称和对应的XPath路径(图4),利用KETTLE可以将所有含“苹果”数据中的关键词、作者、通信地址、标题、DOI等信

息节点通过路径解析出来。

2.2.3 数据清洗 数据清洗的目的是发现并纠正数据文件中可识别的错误,把不合规则的数据进行处理和过滤,包括检

查数据的一致性、处理无效值和缺省值等[12]

。在数据的输入

与输出之间,必须对数据进行过滤、去质量、替换内容等数据清洗工作,这类数据包括同名的错误数据、噪声数据,诸如唯一标识符、标题、作者等有些必备内容为空的数据,这些数据必须进行过滤和删除;还有些数据并不是很完整,意义不大,这部分数据则须要根据具体的情况来处理;对于内容有误的错误数据也要进行及时的清洗和过滤,否则会影响数据资源的准确性和科学性;还有一类数据叫作数据冗余即重复的数据,这类数据会占用一部分内存,造成数据空间的浪费,因此也要进行清洗。

2.2.4 映射匹配 映射匹配主要是将原数据类型及其值的

含义映射成为符合目标数据的类型与含义的数据过程[

13]

。基于KETTLE工具对数据进行解析和过滤之后,可以指定转换后的目标数据输出,如指定统一存放的关系型数据库对应的表,同时可以指定XML文件中节点名称与数据库表结构字段的对应关系,从而将来源数据中的字段与目标数据库中的字段进行映射匹配。通过映射匹配,转换后的数据由异构变成结构化数据,不同来源的文件在摘要、DOI、标题、起始页码等字段进行映射匹配,实现多源异构数据的结构化匹配。

相关文档
最新文档