大数据时代有哪些采集技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据时代有哪些采集技术

大数据时代,如何进行高效,精准的数据采集是至关重要的。

许多大型企业和政府机构在信息化过程中结合自身业务搭建起了各种各样的软件系统,其中积累了大量的行业和客户数据,他们急需将这些数据汇聚起来,形成自己的大数据平台,做数据挖掘和分析,精准地服务他们的客户。

当前数据采集的挑战如下:

1、数据源多种多样

2、数据量大,更新快

3、如何保证数据采集的可靠性的性能

4、如何避免重复数据

5、如何保证数据的质量。

那么如何将这么多软件系统中形形色色的数据快速、准确地采集出来呢?今天就和大家讨论几种针对各种软件系统的数据采集的方式方法。重点关注它们的实现过程、各自的优缺点。

1、软件接口对接方式

2、开放数据库方式

3、基于底层数据交换的数据直接采集方式

1、软件接口对接方式

各个软件厂商提供数据接口,实现数据汇集,为客户构建出自己的业务大数据平台;

实现过程如下:

1)协调多方软件厂商工程师,了解对方系统的业务流程以及数据库相关的表结构设计等,讨论如何实现数据的正确汇集并且在业务上可行。推敲各个细节,最

后确定一个双方都认可的方案。两个系统的接口是在双方工程师的配合下完成

的。有的处理可以在A系统进行,也可以在B系统进行,这种情况作决定的依

据是,考虑以后可能会出现功能改动,势必会对现有系统造成影响,选择受变

动影响比较小的方案。

2)确定方案,编码

3)编码结束,进入测试、调试阶段

4)交付使用

接口对接方式的数据可靠性较高,一般不存在数据重复的情况,且都是客户业务大数据平台需要的有价值的数据;同时数据是通过接口实时传递过来,完全满足了大数据平台对于实时性的要求。

但是接口对接方式需花费大量人力和时间协调各个软件厂商做数据接口对接;同时其扩展性不高,比如:由于业务需要各软件系统开发出新的业务模块,其和大数据平台之间的数据接口也需要做相应的修改和变动,甚至要推翻以前的所有数据接口编码,工作量很大且耗时长。

2、开放数据库方式

一般情况,来自不同公司的系统,不太会开放自己的数据库给对方连接,因为这样会有安全性的问题。为实现数据的采集和汇聚,开放数据库是最直接的一种方式。

两个系统分别有各自的数据库,同类型的数据库之间是比较方便的:

1)如果两个数据库在同一个服务器上,只要用户名设置的没有问题,就可以直接相互访问,需要在from后将其数据库名称及表的架构所有者带上即可。

select*from DATABASE1.dbo.table1

2)如果两个系统的数据库不在一个服务器上,那么建议采用链接服务器的形式来处理,或者使用openset和opendatasource的方式,这个需要对数据库的访问进行外围服务器的配置。

不同类型的数据库之间的连接就比较麻烦,需要做很多设置才能生效,这里不做详细说明。

开放数据库方式可以直接从目标数据库中获取需要的数据,准确性很高,是最直接、便捷的一种方式;同时实时性也有保证;

开放数据库方式需要协调各个软件厂商开放数据库,其难度很大;一个平台如果要同时连接很多个软件厂商的数据库,并且实时都在获取数据,这对平台本身的性能也是个巨大的挑战。

3、基于底层数据交换的数据直接采集方式

通过获取软件系统的底层数据交换、软件客户端和数据库之间的网络流量包,进行包流量分析采集到应用数据,同时还可以利用仿真技术模拟客户端请求,实现数据的自动写入。

实现过程如下:使用数据采集引擎对目标软件的内部数据交换(网络流量、内存)进行侦听,再把其中所需的数据分析出来,经过一系列处理和封装,保证数据的唯一性和准确性,并且输出结构化数据。经过相应配置,实现数据采集的自动化。

基于底层数据交换的数据直接采集方式的技术特点如下:

1)独立抓取,不需要软件厂家配合;

2)实时数据采集;

数据端到端的延迟在数秒之内;

3)兼容Windows平台的几乎所有软件(C/S,B/S);

作为数据挖掘,大数据分析的基础;

4)自动建立数据间关联;

5)配置简单、实施周期短;

6)支持自动导入历史数据。

目前,由于数据采集融合技术的缺失,往往依靠各软件原厂商研发数据接口才能实现数据互通,不仅需要投入大量的时间、精力与资金,还可能因为系统开发团队解体、源代码丢失等原因出现的死局,导致了数据采集融合实现难度极大。在如此急迫的需求环境下基于底层数据交换的数据直接采集方式应运而生,从各式各样的软件系统中开采数据,源源不断获取所需的精准、实时的数据,自动建立数据关联,输出利用率极高的结构化数据,让数据有序、安全、可控的流动到所需要的企业和用户当中,让不同系统的数据源实现联动流通,为客户提供决策支持、提高运营效率、产生经济价值。

相关文档
最新文档