大数据时代培训课件(PPT 22张)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据分析的五个基本方面
• 4. Semantic Engines(语义引擎) • 我们知道由于非结构化数据的多样性带来了数据分析的新 的挑战,我们需要一系列的工具去解析,提取,分析数据 。语义引擎需要被设计成能够从“文档”中智能提取信息 。 • 5. Data Quality and Master Data Management(数据 质量和数据管理) • 数据质量和数据管理是一些管理方面的最佳实践。通过标 准化的流程和工具对数据进行处理,可以保证一个预先定 义好的高质量的分析结果。
大数据分析的五个基本方面
• 1. Analytic Visualizations(可视化分析) • 不管是对数据分析专家还是普通用户,数据可视化是数据 分析工具最基本的要求。可视化可以直观的展示数据,让 数据自己说话,让观众听到结果。 • 2. Data Mining Algorithms(数据挖掘算法) • 可视化是给人看的,数据挖掘就是给机器看的。集群、分 割、孤立点分析还有其他的算法让我们深入数据内部,挖 掘价值。这些算法不仅要处理大数据的量,也要处理大数 据的速度。 • 3. Predictive Analytic Capabilities(预测性分析能力) • 数据挖掘可以让分析员更好的理解数据,而预测性分析可 以让分析员根据可视化分析和数据挖掘的结果做出一些预 测性的判断。
大数据简介
• 随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。 大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要 像MapReduce(分布式计算)一样的框架来向数十、数百或甚至数 千的电脑分配工作。 • 大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一 天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件 有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区 帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手 机为37.8万台…… • 这样的趋势会持续下去。我们现在还处于所谓“物联网”的最初级阶 段,而随着技术成熟,我们的设备、交通工具和迅速发展的“可穿戴 ”科技将能互相连接与沟通。科技的进步已经使创造、捕捉和管理信 息的成本降至2005年的六分之一,而从2005年起,用在硬件、软件 、人才及服务之上的商业投资也增长了整整50%,达到了4000亿美 元。
四个特征
• 数据量大(Volume) • 第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T )、E(100万个T)或Z(10亿个T)。 • 类型繁多(Variety) • 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地 理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求 。 • 价值密度低(Value) • 第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信 息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器 算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难 题。 • 速度快时效高(Velocity) • 第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数 据挖掘最显著的特征。
大数据分析与处理方法介绍
• 众所周知,大数据已经不简简单单是数据大的事 实了,而最重要的现实是对大数据进行分析,只 有通过分析才能获取很多智能的,深入的,有价 值的信息。那么越来越多的应用涉及到大数据, 而这些大数据的属性,包括数量,速度,多样性 等等都是呈现了大数据不断增长的复杂性,所以 大数据的分析方法在大数据领域就显得尤为重要 ,可以说是决定最终信息是否有价值的决定性因 素。
大数据处理
• • 导入/预处理: 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分 析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库, 或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工 作。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入 量经常会达到百兆,甚至千兆级别。 统计/分析: 统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的 海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在 这方面,一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata,以 及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化 数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析 涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
大数据处理
• 周涛博士说:大数据处理数据时代理念的三大转变:要全体不要抽样 ,要效率不要绝对精确,要相关不要因果。 • 具体的大数据处理方法其实有很多,但是根据长时间的实践,此处总 结了一个基本的大数据处理流程。整个处理流程可以概括为四步,分 别是采集、导入和预处理、统计和分析,以及挖掘。 • 采集: • 大数据的采集是指利用多个数据库来接收发自客户端(Web、App或 者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单 的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL 和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB 这样的NoSQL数据库也常用于数据的采集。在大数据的采集过程中 ,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用 户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问 量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑 。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的 思考和设计。
大数据时代
班级:电信111
பைடு நூலகம் 大数据简介
• 数据正在迅速膨胀并变大,它决定着企业的未来 发展,虽然很多企业可能并没有意识到数据爆炸 性增长带来问题的隐患,但是随着时间的推移, 人们将越来越多的意识到数据对企业的重要性。 • 哈佛大学社会学教授加里· 金说:“这是一场革命 ,庞大的数据资源使得各个领域开始了量化进程 ,无论学术界、商界还是政府,所有领域都将开 始这种进程。”
相关文档
最新文档