大数据相关技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
互联网数据是指散布于互联网中的数据,比如门户网站、社交平台、社区论坛等。这类 数据可以通过网络爬虫实现数据的自动获取。
数据采集之后,需要对数据进行必要的预处理,最终使得后续的数据分析得以有效进行。 数据预处理主要包括以下几个主要操作:
1.清洗过滤。将数据中的噪声以某种技术或者既定策略去除并弥补缺失的数据。比如
5.2 大数据相关技术
大数据的战略意义不在于拥有着庞大的数据信息,而是对这些含有意义的数据信息进行 “加工处理”后获得的巨大价值。大数据的采集、传输、分析和应用离不开其它技术的支持, 如物联网和云计算。
图5-5简要地给出了大数据流程的一般框架,一个大数据项目涉及数据的采集、存储和 建模,通过分析发现知识,为目标应用提供数据支撑,这些都要在数据计算架构和其它相关 技术的保障之下进行。
数据存储关注数据在哪里以及如何透明存取。 毋庸置疑,物理上,数据一定是存在本地或异地磁盘上。数据的存储一般分为集中式和 分布式,相比较于集中式存储,分布式存储在数据并发、负载均衡、数据安全等方面具有优 势。在大数据时代,不同的应用领域在数据类型、数据处理方式以及数据处理时间的要求上 有极大的差异,适合大数据环境的新型数据库,如NoSQL得到了广泛的关注。NoSQL数据 库抛弃了关系模型并能够在集群中运行,不用事先修改结构定义也可以自由添加字段,这些 特征决定了NoSQL技术非常适用于大数据环境,从而得到了迅猛的发展和推进。 数据的存取的核心问题是:如何高效快速地读取数据,即查询快;如何高效快速地存储 数据,即更新快。这两个目标往往存在冲突,因此为了保障数据存取的高效,“实时+批处 理”往往是常用的一种策略。
平台自营型数据是指大数据项目建设单位自主运维的软件平台产生的内部数据,包括软 件平台生成的结构化或非结构化数据,也包括在自主运维的传感器终端通过通信获取的数据。 这些数据采集的工具都来源于平台内部,多用于系统日志采集。
其它主体运营数据是指存储在其它单位服务器的外部数据,这类数据的类型和格式与上 述平台自营型数据类似,只是往往要建立在某种商业模式意义下的交换而获得。这类数据的 采集,可在商务合作的基础上通过ETL(Extract-Transform-Load,抽取转换加载)实现数据 的交换或者通过对方预留数据的访问接口获取数据。
数据变换可把数据压缩到较小的区间,如0到1,从而提高挖掘算法的准确率和效率。 2.特征提取与选择,特征提取的手段和方法有很多,有的从纯粹的数学角度做高维向
量向低维向量的映射,有的从语义出发,有意识地提取具有高级语义的特征向量等,目的是 大范围降低计算量。在很多情况下,多组特征融合在一起时,把其中对建模最优贡献的部分 提取出来,这个过程就是特征选择。
5.2.3 大数据建模与分析
数据建模与分析环节关注如何建模数据,便于人们发现数据背后的知识和洞见,实现“数 据价值”的飞跃,该环节是大数据项目开展的核心。
一般的流程主要包括:数据预处理、特征提取与选择和数据建模三部分。 1.数据预处理,主要包括数据清理、数据集成、数据规约、数据变换四种方法。数据 清理可用来清除数据中的噪声,纠正不一致。数据集成将数据由多个数据源合并成一个一致 的数据存储,如数据仓库。数据规约可通过如聚集、删除冗余特征或聚类来降低数据的规模。
系统运维(服务平台)

数据采集
其ቤተ መጻሕፍቲ ባይዱ


计 算
数据存取
相 关



数据分析

系统运维(服务平台) 图5-5 大数据流程框架
5.2.1 大数据采集
数据采集环节关注数据在哪里以及如何获得数据,其主要职能是:从潜在数据源中获取 数据并进行面向后续数据存储与管理以及数据分析与建模的预处理。
一般来说,大数据的来源可以分为三种:平台自营型数据、其它主体运营数据和互联网 数据。
在互联网数据采集中,网页中只有征文才是采集者需要的,这样就要有相应的技术或者策略 将网页中的感兴趣的区域提取出来,其它反映网站结构的、广告信息数据全部去除,从而降 低后续存储负担,提高数据质量。
2.去重。将不同数据源的数据中的重复内容过滤,这种操作往往在互联网数据采集中 尤其必要。比如针对新闻事件的分析,相同的新闻事件往往会在不同的网站上大量转载,这 种情况下,重复的数据没有更多的留存的价值。
5.标签化操作。标签化是大数据分析的一个典型策略和做法,预处理环节中的标签化 除了需要专注于将上述的特征化提取步骤获得的统计特性或者结构化语义信息提取出来作 为数据的标签外,还需要考虑对各类数据源的置信度进行评估。这样,当来自不同数据源的 数据有冲突和歧义时,才能更好地进行综合研判。
5.2.2 大数据存储
3.数据建模,是从大数据中找出知识的过程,常用的手段是机器学习和数据挖掘。所 谓数据挖掘可以简单理解为“数据挖掘=机器学习+数据库”。从商业角度来说,数据挖掘是 企业按照既定业务目标,对大量企业数据进行探索和分析,揭示隐藏的、未知的或验证已知 的规律,并进一步将其模型化。从技术角度来说,数据挖掘是通过分析,从大量数据中寻找 其规律的技术。
5.2.4 云计算
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的 平台之一。
在很多技术储备均得以迅猛发展的基础上,基于SOC/SOA(Service-Oriented Computing/ Service-Oriented Architecture)框架的云计算(Cloud Computing)应用模式受到了越来越广 泛的关注,并且其普及度也在逐步深入,这种应用模式满足了需求:厂商将硬件资源(服务 器、存储、CPU、带宽等)和软件资源(应用软件、集成开发环境等)以服务的形式按需分 配给用户,用户仅需支付服务费而无需如从前一样购买基础设施和应用软件授权等。
3.建立数据的连接。从不同数据源获取数据的一个直接原因是希望通过互补的数据使 得对目标对象的描述更加立体和具体,从而实现多数据源交叉复用的价值。
4.特征化提取。此阶段专注于从原始数据中提取有语义的统计特征或者结构化特征, 然后将这些特征作为该数据的一个标签存储供后续的分析使用,比如从一段非结构化的法院 公告文本中提取出有语义价值的原告、被告和判决时间等。
相关文档
最新文档