大数据中数据采集与预处理技术的应用研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据中数据采集与预处理技术的应用研究

发表时间:2018-08-16T16:04:13.623Z 来源:《基层建设》2018年第21期作者:张弛[导读] 摘要:数据采集是大数据建立的基础,对海量数据的采集必须全面、真实、适用与准确,才能使数据分析的结果具备使用价值;而数据的预选加工技术则是在采集数据后,存储数据库前,去伪存真、提炼符合统计规律的数据样本,以期望降低应用成本的有效过程。

身份证号码:61012119681114xxxx

摘要:数据采集是大数据建立的基础,对海量数据的采集必须全面、真实、适用与准确,才能使数据分析的结果具备使用价值;而数据的预选加工技术则是在采集数据后,存储数据库前,去伪存真、提炼符合统计规律的数据样本,以期望降低应用成本的有效过程。本文结合作者实际工作经验,针对大数据采集环节中的采集技术与预处理技术进行分析研究,提出观点与解决思路,以供探讨。

关键词:“大数据;数据采集技术;预处理技术;应用与研究”

0引言

当前国内大数据市场纷繁众多,目前很多数据运营商所提供的数据服务范围,既有数据采集系统又有数据分析系统,涉及层面大而散,采集技术手段较为粗糙,数据整合局限于表层结构,定位方向不精准。现实中大数据所涉及的层面远远较之广泛,所以难以提供有针对性的数据和分析结果,无法满足顾客的决策需求。特别是针对地区、行业、政策、人文等基本信息采集深度不够,不够全面的情况下,分析结果达不到为顾客提供风险评估所需的依据,最终使投资产生偏差的情况屡见不鲜。因此数据产品服务的价值就在于为顾客提供结构性预测,以规避顾客风险,将数据产品的精准有效性作为技术处理的依据,才可将数据有偿服务纳入顾客项目投资预算的常规需求中。

根据目前情况,首先要解决的关键环节就是数据采集过程,同时在数据采集时,通过预加工处理技术和自动审核环节,使数据流的分类筛选符合目标数据的有效类别,正是文中要探讨的问题。

1数据采集

数据采集与预加工中心构建的目的是为数据产品营销机构和高级分析机构提供真实、准确、全面、海量的基础数据,包括符合统计规律的足量数据样本。该服务内容宜按各领域、各区域、不同行业的需求,有针对性的通过多种渠道、采用先进技术及行业数据共享交换等方式获得原始数据,并经过数据有效性过滤,去伪判真的初步加工后,形成可用的数据对象和代表样本,最终由高级决策分析与产品营销后服务于商业客户,为客户提供从项目可行性研究、投资、建设、竣工、经营的寿命周期全过程,提供项目决策、风险评估、投资预算、收益分析等数据预测与支持服务。

本文所述的构建是基于一较为成熟的数据仓库系统,以及已有的数据整合与高级分析系统。不再对高级分析系统重复讨论,只对配套接口和成果延用。主要方向是数据采集、筛选过滤、分类存储和定向分发等数据预加工。在保证数据可用性同时,可纵深细化数据结构,采用区块触发,将关联数据实现分布存储和导入再造,产生多维度关系型数据仓库。为中心数据分析提供多向映射的基础数据支持。采集方式分为以下几类

①开放型数据:政府行政机构、公共事业机构、行业协会机构、社会团体组织发布的具备权威性的公用型数据。电子信息主要通过表格间的提取、格式转换和再加载实现数据采集,针对图片、音频和视频等媒体信息宜采用DSP识别技术收集,过程中增加人工抽检识别,通过调整识别阈值与特征自适应参数以提高识别准确率。

②节点型数据:应用服务器、网站、终端(固定、移动、查询、交易、支付、摄像等)。该类信息格式基本固定,采集时可根据数据特征,编制嵌入式节点程序、存储过程、应用类APP等,以探针、爬虫技术抓取[1]。收集时宜加入有效性审核环节。

③有偿类数据:商业数据、付费类数据。数据结构相对标准,采集时基本不加处理,但要对数据来源与使用进行审核,使其达到法律层面的合法性。

④共享型数据:合作机构,顾客共享,二次数据等。这类数据多用于指定行业数据服务时的采集,数据共享交换时应增加信息安全审核,特别是数据出口环节应有选择性的数据输出。

⑤内部调研采集数据:以人工采集填表方式收集,成本高、数据量较少,但数据特征明显,采集目标单一,适合特定客户采集 2数据预加工

由于数据服务涉及面广,外围环境变化大,采集到的每条信息既有可能形成有效数据,也可能是大量冗余的、错误的,甚至是无效垃圾数据,部分数据存在时效性短或一次性数据,因此对于采集的数据必须通过一些技术手段进行预先处理,使进入数据库的数据从数量上和准确性上是经过优化后的半成品。构建时宜采用模块化结构,有利于时间和空间发生变化时,通过对各模块适用性的调整以延长功能寿命期,但其代价是增加存储容量、运算能力和设计复杂性。具体处理技术主要包括以下几点:

①数据结构及数据字典、词条库的模块化。开发及维护均应适应静态结构、动态结构和开源结构。

②制定多标准数据采集接口,结合客户需求,将预处理模块分布嵌入相关宿主机,减小传输流量。

③重点构建数据智能化过滤机制,采用自适应、自学习技术提高数据的符合相关性,动态设置条件去重阈值,增加加工流水过程探视窗,减少人工干预,达到智能判别筛选。

④经过过滤后的原始数据,按客户需求进行预加工,形成符合统计规律的有效基础数据,提供给核心高级分析系统深加工,以减轻巨量数据传输和高级分析系统的负荷。同时与历史数据的关联映射,形成多维度数据[2],扩大数据使用价值。

⑤质量管理与控制处理:针对数据加工中的数据异常、高频预警、探针触发、统计偏离等可能影响数据质量的事件,自动产生质量偏差与统计事件日志,以便于组织人工分析讨论,编制有效解决方案,以提高数据产品质量。

⑥数据安全生产控制:数据的特殊性要求在数据生产过程中必须有严格的安全与保密环节,必须符合相关地区法律法规与风俗隐私要求,因此安全管理是系统不可或缺的一个环节,除了要具备严格的分级权限外,还应通过分布存储、异地镜像、区块迁移、接口止逆等技术手段提高数据安全性

⑦分区节拍协同:系统运行规模扩大后,数据跨区域采集和加工成为必然,各区域需求不同,数据的加工条件也在变化,通过节拍协调,可同步和优化整个数据仓库的数据丰富程度和一致性。

⑧顾客反馈调控技术,能够根据使用效果调整数据加工条件参数,提高数据质量。 3系统结构与流程

相关文档
最新文档