大数据采集整编系统解决方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据采集整编系统解决方案
一、系统功能概述
针对XXX系统进行开发信息系统数据、行业部委的交换数据、互联网上的相关数据等,将分散在不同数据来源的数据统一汇集到统一的服务中,并实现数据的动态更新。基于数据调研成果,梳理确定各应用系统的数据对象、数据关系、数据结构、数据字典等;并确定采集各应用系统数据的具体方式,包括数据抽取、服务接口、数据直报等多渠道数据接入方式。
数据采集整编子系统主要包括通用数据填报、网络情报数据采集和数据整编等三大模块,系统架构如下图:
二、数据流转块设计
如上图所示,通过通用的报表软件,支持多样化、个性化设置,统一访问管理模板,实现自定义报表的数据采集功能,大大提升数据采集效率。
部署互联网、行业网等数据采集Scrapy引擎以及采集配置管理系统、数据库和文件系统。基于配置的采集规则(网站URL、采集时间设置等),Scrapy 引擎抓取网站数据并存于本地数据库和文件系统中。爬取的互联网等网络数据结果以文件形式传输至内网侧,数据服务平台的ETL工具将内网侧的互联网爬虫数据,批量抽取到数据仓库集群中。经分类整合加工、创建索引处理后将互联网、综网数据存储在数据库中。
三、通用数据采集
依据XX各部门业务工作过程中数据采集报送的通用需求,设计实现需求的采报流程,提供可视化的数据采报需求管理、快捷易用的任务列表方便用户快速进行任务的查看并执行任务的相关操作,可组合多个条件进行任务查询筛选过滤功能,提供可视化的采报任务管理、可视化拖拉拽的报表设计及管理功能、数据采集、数据转存和系统管理等功能。
提供数据需求提报的手段,为战略规划办制定年度采报计划或临时启动采报任务提供需求依据。数据来自采集终端形成的数据报表和数据文件、存储在各种业务数据库/数据仓库中的结构化数据,以及HTML/XML/JSON/BSON等各类半结构化、pdf文档、word文档、图片、多媒体等非结构化海量数据。
四、网络情报数据采集
网络情报数据采集系统负责面向网络采集以网页文件为主的数据资源采集相关数据等,可通过配置信息,将分散在不同网络海量网页素材的数据统一采集,并实现数据的动态更新,监控数据采集进度,采集日志信息查询,采集任务结果展示,以及对采集任务的启停功能的控制。
如下图所示,作业管理工具作为数据预处理的图形化工具,采用web交互的方式,提供工作流的调度实现数据接入和数据流转ETL,可视化界面实现对起始站点的配置,实现日常采集任务的控制,任务执行状态及时间的监控,启停功能监控,以及任务采集的日志维护。
五、数据整编模块
依据战略规划数据资源体系相关的标准规范,对于从不同渠道采集来的数据进行数据抽取与加载、清洗与转换、集成与约简。可适配各类数据源,可直接从Oracle/DB2等传统关系数据库将数据导入至数据服务平台,在不失效率的情况下避免了使用Sqoop带了的步骤繁琐,类型转换复杂等应用场景。支持CSV, 定长文件,JSON,XML等文件的导入。
如下图所示,数据清洗工作是独立于业务库,是在不影响业务库的情况下进行的。通过数据清洗融合工作把脏数据清洗掉,提高数据质量,便于清洗后数据在数据模型当中呈现,变为“干净库”。数据转换,基于规则或元数据的转换、基于模型与学习的转换等技术,可通过转换实现数据统一。数据分析工具可实现数据校验、数据缺失值处理、数据去重、数据过滤、数据光滑去噪、数据补全、数据格式和精度转换等功能。
数据清洗前,对业务逻辑进行梳理,在数据模型的指导下,编制信息资源库的目录,并设计清洗规则。根据数据问题的特性,对于可通过技术方式修复
的数据,借助ETL工具进行清洗,对于不可技术修复的数据,借助工单系统进行人工清洗。清洗的结果是数据治理成果的体现,要对省战略规划部进行反馈,同时为了保障清洗规则的准确,需要周期性检测清洗规则,对有缺陷的规则进行调整优化。
六、可视化处理工作流设计
可视化工作流调度工具能够可视化进行数据处理工作流的设计,对数据处理方案进行任务化管理,实现执行日志记录和审计,多任务运行资源自动调度等功能。工作流调度DAG设计与管理的图形化工具,支持Shell、SQL、JDBC、HTTP等任务类型,以及自定义Java任务。用户设定好任务执行的逻辑执行顺序之后,可以自动运行工作流上的离线批处理任务。
数据采集根据不同场景和保密级别,可采用不同的采集和传输方式。支持将采集的数据存储到采报引接数据库。