大数据相关技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5.2 大数据相关技术
大数据的战略意义不在于拥有着庞大的数据信息,而是对这些含有意义的数据信息进行“加工处理”后获得的巨大价值。大数据的采集、传输、分析和应用离不开其它技术的支持,如物联网和云计算。
图5-5简要地给出了大数据流程的一般框架,一个大数据项目涉及数据的采集、存储和建模,通过分析发现知识,为目标应用提供数据支撑,这些都要在数据计算架构和其它相关技术的保障之下进行。
系统运维(服务平台)
系统运维(服务平台)
图5-5 大数据流程框架
5.2.1 大数据采集
数据采集环节关注数据在哪里以及如何获得数据,其主要职能是:从潜在数据源中获取数据并进行面向后续数据存储与管理以及数据分析与建模的预处理。
一般来说,大数据的来源可以分为三种:平台自营型数据、其它主体运营数据和互联网数据。
平台自营型数据是指大数据项目建设单位自主运维的软件平台产生的内部数据,包括软件平台生成的结构化或非结构化数据,也包括在自主运维的传感器终端通过通信获取的数据。这些数据采集的工具都来源于平台内部,多用于系统日志采集。
其它主体运营数据是指存储在其它单位服务器的外部数据,这类数据的类型和格式与上述平台自营型数据类似,只是往往要建立在某种商业模式意义下的交换而获得。这类数据的采集,可在商务合作的基础上通过ETL(Extract-Transform-Load,抽取转换加载)实现数据的交换或者通过对方预留数据的访问接口获取数据。
互联网数据是指散布于互联网中的数据,比如门户网站、社交平台、社区论坛等。这类数据可以通过网络爬虫实现数据的自动获取。
数据采集之后,需要对数据进行必要的预处理,最终使得后续的数据分析得以有效进行。数据预处理主要包括以下几个主要操作:
1.清洗过滤。将数据中的噪声以某种技术或者既定策略去除并弥补缺失的数据。比如
在互联网数据采集中,网页中只有征文才是采集者需要的,这样就要有相应的技术或者策略将网页中的感兴趣的区域提取出来,其它反映网站结构的、广告信息数据全部去除,从而降低后续存储负担,提高数据质量。
2.去重。将不同数据源的数据中的重复内容过滤,这种操作往往在互联网数据采集中尤其必要。比如针对新闻事件的分析,相同的新闻事件往往会在不同的网站上大量转载,这种情况下,重复的数据没有更多的留存的价值。
3.建立数据的连接。从不同数据源获取数据的一个直接原因是希望通过互补的数据使得对目标对象的描述更加立体和具体,从而实现多数据源交叉复用的价值。
4.特征化提取。此阶段专注于从原始数据中提取有语义的统计特征或者结构化特征,然后将这些特征作为该数据的一个标签存储供后续的分析使用,比如从一段非结构化的法院公告文本中提取出有语义价值的原告、被告和判决时间等。
5.标签化操作。标签化是大数据分析的一个典型策略和做法,预处理环节中的标签化除了需要专注于将上述的特征化提取步骤获得的统计特性或者结构化语义信息提取出来作为数据的标签外,还需要考虑对各类数据源的置信度进行评估。这样,当来自不同数据源的数据有冲突和歧义时,才能更好地进行综合研判。
5.2.2 大数据存储
数据存储关注数据在哪里以及如何透明存取。
毋庸置疑,物理上,数据一定是存在本地或异地磁盘上。数据的存储一般分为集中式和分布式,相比较于集中式存储,分布式存储在数据并发、负载均衡、数据安全等方面具有优势。在大数据时代,不同的应用领域在数据类型、数据处理方式以及数据处理时间的要求上有极大的差异,适合大数据环境的新型数据库,如NoSQL得到了广泛的关注。NoSQL数据库抛弃了关系模型并能够在集群中运行,不用事先修改结构定义也可以自由添加字段,这些特征决定了NoSQL技术非常适用于大数据环境,从而得到了迅猛的发展和推进。
数据的存取的核心问题是:如何高效快速地读取数据,即查询快;如何高效快速地存储数据,即更新快。这两个目标往往存在冲突,因此为了保障数据存取的高效,“实时+批处理”往往是常用的一种策略。
5.2.3 大数据建模与分析
数据建模与分析环节关注如何建模数据,便于人们发现数据背后的知识和洞见,实现“数据 价值”的飞跃,该环节是大数据项目开展的核心。
一般的流程主要包括:数据预处理、特征提取与选择和数据建模三部分。
1.数据预处理,主要包括数据清理、数据集成、数据规约、数据变换四种方法。数据清理可用来清除数据中的噪声,纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库。数据规约可通过如聚集、删除冗余特征或聚类来降低数据的规模。
数据变换可把数据压缩到较小的区间,如0到1,从而提高挖掘算法的准确率和效率。
2.特征提取与选择,特征提取的手段和方法有很多,有的从纯粹的数学角度做高维向量向低维向量的映射,有的从语义出发,有意识地提取具有高级语义的特征向量等,目的是大范围降低计算量。在很多情况下,多组特征融合在一起时,把其中对建模最优贡献的部分提取出来,这个过程就是特征选择。
3.数据建模,是从大数据中找出知识的过程,常用的手段是机器学习和数据挖掘。所谓数据挖掘可以简单理解为“数据挖掘=机器学习+数据库”。从商业角度来说,数据挖掘是企业按照既定业务目标,对大量企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律,并进一步将其模型化。从技术角度来说,数据挖掘是通过分析,从大量数据中寻找其规律的技术。
5.2.4 云计算
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。
在很多技术储备均得以迅猛发展的基础上,基于SOC/SOA(Service-Oriented Computing/ Service-Oriented Architecture)框架的云计算(Cloud Computing)应用模式受到了越来越广
泛的关注,并且其普及度也在逐步深入,这种应用模式满足了需求:厂商将硬件资源(服务器、存储、CPU、带宽等)和软件资源(应用软件、集成开发环境等)以服务的形式按需分配给用户,用户仅需支付服务费而无需如从前一样购买基础设施和应用软件授权等。
云计算的本质是一种基于互联网的应用模式。从整体上看,大数据与云计算是相辅相成的,大数据着眼于“数据”,聚焦于具体的业务,关注“数据 价值”的过程,看中的是信息积淀。云计算着眼于“计算”,聚焦于IT解决方案,关注IT基础架构,看中的是计算能力(包括数据处理能力及系统部署能力)。没有云计算的处理能力,大数据的信息积淀再丰富,也难以甚至无法落地。另一方面,云计算设计的关键技术,如海量数据存储、海量数据管理、分布式计算等也都是大数据的基础支撑技术。
预测未来,大数据和云计算两者关系将更为密切。除此,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命。