大数据的分析与应用案例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息爆 炸
大数据
3
“只要你的电脑连接着网络,你每敲击一下键盘都会成 为互联网数据的一部分。”----广告词
互联网(社交、搜索、电商)、移动互联网(微博)、物联 网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、 金融(银行、股市、保险)、电信(通话、短信)都在疯狂的产 生着数据。
4
网络1分钟,人间1万年
22
① 线性模型预测
通过对2012年上映的99部电影的研究,谷歌发现仅依靠搜索量来预测是不够 的。谷歌尝试构建了一个线性的模型,但只达到了70%的准确度。
23
② 线性回归模型预测
为了构建更加精确的预测模型,谷歌最终采用了四类指标:(1)(电影放 映前一周的)电影的搜索量(2)(电影放映前一周的)电影广告的点击量(3) 上映影院数量(4)同系列电影前几部的票房表现
分类
贝叶斯,决策 树,后向树
聚集
神经元网络、 K均值、最近 邻
26
人脸识别技术
2008年北京奥运会上,最引人注意的IT 热点莫过于“实时人脸识别技术” 在奥运会安检系统中的应用,这种技术通过对人脸关键部位的数据采集,让 系统能够精确地识别出所有进出奥运场馆的观众身份。 虽然需要借力于其他技术,但是人脸识别中的主要技术还是来自于数据挖 掘中的分类算法(Classification)。
• 导入、预处理
在导入基础上做一些简单的清洗和预处理工作(主要特点和挑战是导入 的数据量大)
• 统计、分析
利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进 行普通的分析和分类汇总等(主要特点和挑战是导入的数据种类多样、 量大)
• 挖掘
在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而 实现一些高级别数据分析的需求(主要特点和挑战是算法很复杂,并且 计算涉及的数据量和计算量都很大)
29
亚马逊的推荐算法
亚马逊的推荐算法非常有名,它能够根据消费记录来告诉用户你可 能会喜欢什么,这些消费记录有可能是别人的,也有可能是该用户历史 上的。
30
大数据的处理
• 采集
利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据 库来进行简单的查询和处理工作。(主要特点和挑战是并发数高)
5
2 大数据有多大?
根据国际数据公司(IDC)的测算,人 类产生的数据量正在呈指数级增长, 大约每2年翻一翻。
6
3 什么是大数据?
大数据(Big data或Megadata),或称巨量数据、海量数据、大资料, 指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截 取、管理、处理、并整理成为人类所能解读的形式的信息。 “Big Data” 这个词最早由 IBM 提出
37
MapReduce(分布式计算框架)
一、MapReduce是什么? 1、一种编程模型 2、处理大数据集 3、分布式处理方式 二、MapReduce的特点 1、良好的扩展性。 2、可容错性。 3、适合PB级海量数据的处理。
MapReduce把处理过程高度抽象为两个函数:map和reduce,map负责把任 务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来。
可视化分析
直观呈现 简单说明 挖掘价值 快速处理 挖掘特点 预测未来 判断需求 用户体验 保证真实 有价值
分 析 的 五 个 方 面
数据挖掘分析
预测性能分析
语义引擎分析
数据质量和管理分析
17
2 大数据的技术
数据采集:ETL(Extraction,Transformation,Loading)即数据的 抽取、转换与装载。ETL作为BI/DW的核心和灵魂,能够按照统一 的规则集成并提高数据的价值,是负责完成数据从数据源向目标 数据仓库转化的过程,是实施数据仓库的重要步骤。
互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的 Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB 的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。
18
数据存取:数据库市场成形于上个世纪80年代。近年来随着大数 据应用的兴起,面对爆发式增长的海量数据,传统数据库已难以 应对。
35
36
YARN(资源管理系统)
一、YARN是什么?
1、YARN是Yet Another Resource Negotiator的简称,是Hadoop2.0的 资源管理器。 2、负责集群的资源管理和调度 3、使得多种计算机框架可以运行在一个集群中
二、YARN的特点 1、良好的扩展性和可用性。 2、对多种类型的应用程序进行统一的管理和调度。 3、自带了多种多用户调度器,适合共享集群环境。
2005年收购了Ascential
为IBM带来了提取取、转换和加载(ETL)的数据 集成工具DataStage及其他资产
2007年收购了Cognos、Applix
让IBM拥有了一款端到端商业智能套件,包括 传统的和内存
2009 年吞并了SPSS
IBM增强了在商业智能分析、数据呈现、 社交媒体分析等能力
38
39
Hadoop案例-Facebook
Facebook,全球最大的社交网络服务网站。由于每月活跃用户超过4 亿个,页面浏览量超过5000亿人次,每个月共享的内容多达250亿则。 目前,Facebook的数据仓库Hadoop集群已成为世界上已知规模 最大的Hadoop存储集群。 Facebook的数据仓库Hadoop集群的几个特点:
1. 每天增加12TB的压缩数据 2. 每天扫描800TB的压缩数据 3. 每天处理25000个映射/化简作业 4. HDFS里面有6500万个文件 5. 30000个客户机同时访问HDFS NameNde
40
Scribe(记录器) Facebook开发的一个开源日志收集 服务,它把几百个日志数据集(每天 有几十个TB的数据量)存放在几个NFS (网络文件服务器)上。
HDFS(分布式文件系统)
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布 式文件系统。 一、HDFS的主要设计理念 1、存储超大文件 2、最高效的访问模式是 一次写入、多次取(流式数据访问) 3、运行在普通廉价的服务器上 二、HDFS的基本概念 1、数据块(block):大文件会被分割成多个block进行存储, block大小默认为64MB。每一个block会在多个datanode上存储多 份副本,默认是3份。 2、namenode:namenode负责管理文件目录、文件和block的对 应关系以及block和datanode的对应关系。 3、datanode:datanode就负责存储了,当然大部分容错机制都 是在datanode上实现的。
2010 年成为专业用语登上维基百科
2012年 纽约时报宣告大数据时代的来临
2012 年Gartner 公司的分析师Doug Laney 给予大数据一个全新的定义: 「大数据是大量、高速、及/或类型多变的信息资产,它需要全新的处理 方式,去促成更强的决策能力、洞察力与优化处理。
7
4 大数据的特征
数据传送速 度连续而快 速且
数据资源化 与云计算的深度结合
科学理论的突破
数据科学和数据联盟的成立
42
Thank you !
43
OldSQL
数 据 库
NoSQL
NewSQL
19
基础架构:云存储、分布式文件存储等。
云存储是一种新兴的网络存储技术,是指通过集群应用、网络技术或分布式 文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合 起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。
20
统计分析:统计,顾名思义即将信息统括起来进行计算的意思, 它是对数据进行定量处理的理论与技术。统计分析,常指对收集 到的有关数据资料进行整理归类并进行解释的过程
2011年收购了Algorithmics
只为更多地引入 大数据。
2012年IBM完成了11笔收购
其中5笔涉及数据分析业务,2笔涉及云计算 业务
12
其财报显示:在过去十年中,IBM的软件业务收入翻了一番,利 润翻了三倍,IBM仅在2012年就超过110亿美元的利润。其中,业 务分析收入在2012年增长了13%,2015年底预计将达到16亿美元。
大数据的分析与应用案例
主讲人: 王 妍 2015/10/21
1
主要内容
大数据的产生及概念 大数据的国内外发展情况 大数据的相关技术 大数据的处理平台Hadoop
2
大数据的产生及概念
1 大数据的诞生
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已 经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更 多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基 因学,创造出“大数据”这个概念。
回归
统 计 方 法
LS,Kalman filter, lasso…. PCA,PLS, FDA….
降维
聚类
K-means, Clara,….
21
谷歌票房预测
谷歌的票房预测模型是大数据分析技术在电影行业的一个重要应用。随着互联 网的发展,人们越来越习惯于在网上搜索电影信息。据谷歌统计,从2011到2012 年,电影相关的搜索量增长了56%。谷歌发现,电影相关的搜索量与票房收入之 间存在很强的关联。
数据量不断 的增大
大数据的来 源种类多样 化
8
大数据的 真实性




9
大数据不仅仅是大
10
大数据的国内外发展
1 国外万马奔腾,抢占大数据
11
IBM对大数据的角逐
“大数据和分析领域将是IBM未来的利润引擎。”----IBM 的高官
IBM早已在大数据和分析领域投入巨资。据不完全统计,自从2005 年起,IBM花费超过160亿美元收购了35家与大数据和分析相关的公司。
31
大数据的处理平台Hadoop
1 Hadoop介绍
Hadoop是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。 最初由雅虎的Doug Cutting创建处理分布在多个并行节点的PB级和EB级数据。
32
Hadoop 生态系统:1.0时代
33
Hadoop 生态系统:2.0时代
34
24
③ 线性回归模型预测
虽然达到了92%,但是商业价值不大,谷歌继续研究,最终采用了三类指标: (1)电影预告片的搜索量(2)同系列电影前几部的票房表现(3)档期的季节 性特征
25
数据挖掘:从大量数据中寻找其规律的技术,是统计学、数据库 技术和人工智能技术的综合。
异常检测
挖 掘 方 法
神经元网络, 异常因子LOF检 测
IBM 大数据解决方案已经帮助许多客户获得了可观的投资回报。
电信业:通过分析数据将处理时间减少了 92%
医疗卫生业:通过分析流动的患者数据将死亡率降低了 20%
公用事业:通过分析 2.8 PB 未利用的数据将准确性提高了 99%
13
国外已经大规模投资应用
14
2 国内发展
15
阿里大数据战略
马云则将阿里巴巴的未来定位为“平台、金融和数据”三大核 心业务。
在大数据领域,阿里具备独特的优势,用户从搜索到浏览、支付, 形成深度的交易链条,其中每一个节点都将产生大量数据。
数据魔方
大 数 据 战 略
数据产品
聚石塔 淘宝时光机 阿里金融 收购CNZZ网络技术服务 公司
数据平台
重启“阿里妈妈”品牌名
购入新浪微博18%股份
16
大数据的相关技术及应用
1 大数据的分析
27
决策树对人脸识别示意图
Βιβλιοθήκη Baidu
28
谷歌流感趋势
它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会 搜索流感两个字)。
设置关键 词
用户输入
系统展开 跟踪分析
创建流感 图表
它对于健康服务产业和流行病专家来说是非常有用的,因为它的时 效性极强,能够很好地帮助到疾病暴发的跟踪和处理。 事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力 的,仅波士顿地区,就有700例流感得到确认。
Hive/Hadoop(Hive数据仓库) Facebook开发的Hadoop的一个 子项目“Hive”为HDFS收集的所有数 据创建一个数据仓库。HDFS中的文 件包括来自Scribe的日志数据和来自 MySQL的维度数据,它们都作为可以 访问的具有逻辑分区的表
Facebook的数据仓库架构
41
大数据未来四大发展方向
相关文档
最新文档