数据抽取过程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
宿迁市公安局
数据资源整理说明
深圳市神盾信息技术有限公司二〇一六年七月
修订历史记录
目录
目录
目录 (3)
目录 (3)
1 引言 (4)
1.1 编写目的 (4)
1.2 抽取背景 (4)
2 ETL抽取数据过程 (4)
2.1 省厅下发数据 (4)
2.1.1 入所人员手机APP数据采集 (4)
1引言
1.1编写目的
◆方便项目组相关人员进行数据抽取了解。
◆详细记录工作流程以便日后查看。
本文档提供以下人员阅览:
◆公司宿迁市应急指挥中心系统建设项目的实施人员、研发人员、维护人员。
◆宿迁市公安局应急指挥中心系统建设项目项目相关人员。
1.2抽取背景
ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功能,ETL工具会进行一些功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。
2ETL抽取数据过程
2.1省厅下发数据
2.1.1入所人员手机APP数据采集
2.1.1.1f tp信息
建立ftp数据平台用于存放下发数据,具体信息如下:
2.1.1.2存储中间库
2.1.1.3抽取需求
获取数据后,打开xml文件进行分析,查看数据字段类型,如时间,如源数据时间字段为varchar类型,而目标表为date字段则会出现数据无法插入的情况,可将date字段改为varchar 字段进行抽取。
2.1.1.4抽取过程
建立数据库与kettle工具的连接,新建作业,先从ftp下载数据到本地,再将ftp多余数据删除,通过解压缩文件工具将数据解压进制定文件夹,如下图:
过\{.*\}\语句读取第一层文件夹内分属不同文件夹但属性相同的xml文件,如下图:
解析完XML文件后,拖入获取字段及表输出两个工具条,在表输出中连接中间库:
然后确定中间库里的目标表:
通过字段选择获取xml内解析出来的字段并且建立列映射:
至此一个转换基本完成,根据主题名_单位_数据名的命名规范进行转换命名。例如:
RY_GA_WEIBO_INFO;转换完成后为方便多个转换抽取数据将再新建一个作业将转换与新建的作业相连接,通过运行一个作业实现多个转换运行。
最后连接最初新建的转换完成整个抽取;