大数据及其在数字城管应用探讨(数字城管学组专家陈向东)44.pptx
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对大数据的一些思考 —大数据能绕过“隐私权”吗?
用基于Hadoop的技术扩展和封装(如HBase数据库)管 理非/半结构化大数据,侧重于互联网大数据应用场景
MPP集群与Hadoop产品混搭部署、相互融合,共同支 撑大数据应用。
国家的大数据战略、信息安全战略,以及大数据行 业应用引发了对国产大数据处理基础软件平台的强 劲需求
云计算
分布式计算 网格计算
“大数据”其实并不大,与反映客观事物的真实数据还有很大的 差距。
“人们处理的数据从样本数据变成全部数据”的结论至少从目前 的数据收集和分析能力来说是不可能实现的。
对大数据的一些思考 —大数据能让企业盈利吗?
来源于互联网、传感器、流数据库、社会网络等方面的数据具 有多样性和差异性,非常复杂,许多数据形式、结构都不同,有些数 据甚至互相矛盾
数据从采集、存储到分析都是要花钱的,收集、存储数据的成 本很高,分析数据的成本更高
数据挖掘项目不是一劳永逸的。模型出现偏差就不能再按原来 的方案使用这个模型了,必须对模型进行调整
企业必须了解业务人员的需要,再请数据分析师帮助解决问题
对大数据的一些思考 —大数据的分析真的很准吗?
科学研究实际需要的数据有可能被人们收集的海量数据所淹没 人类通过对大数据的处理,放弃对因果关系的渴求,转而关注 相互联系。这一切代表着人类告别总是试图了解世界运转方式背后 深层原因的态度,而走向仅仅需要弄清现象之间的联系以及利用这 些信息来解决问题 数据不懂社交、不懂背景,会制造出更多噪音,遗漏真正有价 值的东西,大数据无法解决大问题 在日常生活中,有很多收集不到的数据,但它们非常重要,起 着决定性的作用
20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data
什么是大数据
大数据的4V特征—容量、类型、速度和价值
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、 价值密度低(Value)”就是“大数据”的显著特征,或 者说,只有具备这些特点的数据,才是大数据。
云计算充当了工业革命时期的发动机的角色,而大数据则 是电。
大数据与云计算
大数据与云计算
云计算本身也是大数据的一种业务模式
对大数据的一些思考 —大数据究竟有多大?
掌握更多的数据对于人类科学来说是一种进步, 那有助于我们认 识客观世界。
研究人员只是从收集到的数据中提取了1%的数据进行分析。
这1%被分析的数据支配了目前的大数据创新,被称为“大数 据”。
处理大数据的一些相关技术—存储
结构化数据
海量数据的查询、统计、更新等操作效率低
非结构化数据
图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储
半结构化数据
转换为结构化存储 按照非结构化存储
处理大数据的一些相关技术—分析
数据处理
自然语言处理技术
统计和分析
A/B test; top N排行榜;地域占比;文本情感分析
第三阶段:实时分析 数据来源和种类更加丰富, 不仅限于内部的生产数据、用户数据和社群网站, 还会纳入来自于第三方数据(竞争实时监控,目 标用户群体采购行为监控等)
大数据应用平台—一体化
大数据环境下的基础软件平台很像一个 “泛OS” ,以数据为中心,将操作系统、分 布 式存储、数据库等产品融合起来,对结构化、 半结构化和非结构化等全数据进行高效存储与 管理,并对应用提供统一的数据服务支撑接口
国际上一体化融合的大数据处理平台已经成 为主流趋势
2013年,EMC公司发布了自身的Apache Hadoop 发行版—Pivotal HD
大规模并行数据库技术与Apache Hadoop框架集成 HAWQ的技术,将Greenplum分析型数据库与Hadoop分布式架构进
行紧密地融合,实现了HDFS上SQL并行数据库处理,提高了性能并 使Hadoop平台与SQL开发者实现了接轨
数据挖掘
关联规则分析;分类;聚类
模型预测
预测模型;机器学习;建模仿真
大数据分析三个阶段
第一阶段:批量分析 数据主要以来自内部结构化 数据(如生产、管理数等据)为主
第二阶段:近实时分析 数据分析类型从传统的结 构化数据逐步演进为结构化,非结构化(音视频、 社群等)和半结构化数据(包括系统日志、客户 信息)
大数据 及其在数字城管的应用探讨
陈向东 中国测绘科学研究院 2014年5月15日 洛阳
目录
一、大数据 二、大数据应用案例 三、大数据在数字城管应用探讨
什么是大数据 春运迁徙图
根据2012年互联网络数据中心 (IDC)发布的《数字宇宙2020》报告, 2011年全球数据总量已达到 1.87ZB(1ZB=十万亿亿字节),并且以
每两年翻一番的速度飞快增长。预计 到2020年,全球数据总量将达到35~ 40ZB,10年间将增长20倍以上。
Байду номын сангаас
大数据已成为信息主权的一种表现 形式,将是继边防、海防、空防之后 大国博弈的另一个空间
大数据正在开启一次重大的时代转 型,“它将改变人类的生活以及理解 世界的方式
2011年5月,在“云计算相遇大数据”为主题的EMC World 2011会议中,EMC提出了Big Data概念
云计算
局域网 数据资源固定 计 算资源分布全网
互联网 数据资源、计算 资源相对固定
互联网 数据资源、计算 资源未知
大数据与云计算
大数据常和云计算联系到一起,因为实时的大型数据 集分析需要分布式处理框架来向数十、数百或甚至数万的 电脑分配工作。
如果数据是财富,那么大数据就是宝藏,而云计算就 是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝 藏终究是镜中花;没有大数据的积淀,云计算也只能是杀 鸡用的宰牛刀!
惠普则发布了大数据解决方案HAVEn分析平台
惠普大数据产品的组合 整合了Hadoop/HDFS、HPAutonomy语义处理引擎、HP Vertica列存
数据库、EntERPrise Security安全技术等形成大数据处理方案。
国内,业界的主流思路
用基于MPP架构的新型数据库集群(如EMC GreenPlum、南大通用GBase 8a、HP Vertica等)管理结 构化大数据,侧重于行业大数据分析型应用场景