3大数据时代-思维变革 - 2更杂

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据的简单算法 数据量 简单算法 较优算法
小数据的复杂算法 500万 75 86 10亿 95 94
• 无所不包的google翻译系统
– 2006年 Google 上万亿的语料库 翻译 – 2012涵盖了60多种语言 14种语音输入
纷繁的数据越多越好
• 大数据时代要求我们重新审视精确性的优 劣。
允许不精确
大数据的简单算法比小数据的复杂算法更
有效
纷繁的数据越多越好
混杂性,不是竭力避免,而是标准途径
新的数据库设计的诞生
允许不精确 • 对“小数据”而言,最基本、最重要的要求是减 少错误,保证质量。 • 允许不精确
– 容错标准的放松能获取更多数据 – 大量数据创造更好的结果
混杂性,不是竭力避免,而是标准途径
• 在许多技术和社会领域,我们更倾向于纷繁杂乱。
– 分类法和索引法 – 标签
• “欣赏不精确而不会假装精确” • 据估计,只有5%的数字数据是结构化的妾适用于传 统数据。 • 数据库设计
– 传统数据库引擎要求数据高度精确和准确排列。 – 新的数据库设计的诞生
大数据与传统数据库的区别
• 混乱
– 错误的数据 – 格式的不一致
“大数据”通常用概率说话,而不是板着“确凿无 疑”的面孔。
计算机的速度
• 摩尔定律
– 每块芯片上晶体管的数量每两年就会翻一番。
• 驱动各类系统的算法
– 在很多领域算法带来的进步胜于芯片进步
• 大数据
– 2000年,微软研究者,改进word语法检查的 方法,数据的增多提高了算法的表现。 – 发展算法还是丰富语料库?
实例:Hadoop与VISA的13分钟
• Hadoop?
– 是与谷歌的Mapreduce系统相对应的开源式分 布系统的基础架构。 – 把大数据分成小模块然后分配给其他机器进行 分析。 – 假定数据无法移动,本地处理 – 结果不精确
• VIБайду номын сангаасA使用Hadoop,能够将处理两年内730亿 单交易所需的时间,从一个月缩短为13分 钟。
纷繁的数据越多越好
• 错误性并不是大数据本身固有的。它只是 我们用来测量、记录和交流数据的工具的 一个缺陷。如果说哪天技术变得完美无缺 了,不精确的问题也就不复存在了。 • 实例:麻省理工与通货紧缩预测软件
– 美国劳工统计局:
• 90个城市 80000价格信息 两亿五千万美金
– MIT
• 每天50万种商品的价格信息收集
– 第一个折中是,我们默认自己不能使用更多的数据, 所以我们就不会去使用更多的数据。但是,数据量的 限制正在逐渐消失,而且通过无限接近“样本=总体” 的方式来处理数据,我们会获得极大的好处。 – 第二个折中出现在数据的质量上。在小数据时代,追 求精确度是合理的。因为当时我们收集的数据很少, 所以需要越精确越好。如今这依然适用于一些事情。 但是对于其他事情,快速获得一个大概的轮廓和发展 脉络,就要比严格的精确性要重要得多。
• 这家公司帮助决策者判断是否应该向某些拥有不良 信用记录的人提供小额短期贷款。 • 2012年,让ZestFinance引以为豪的就是,它的贷 款拖欠率比行业平均水平要低三分之一左右。唯一 的得胜之道还是拥抱混杂。
• 据估计,只有5%的数字数据是结构化的且能适用 于传统数据库。如果不接受混乱,剩下95%的非结 构化数据都无法被利用。
1. 大数据时代的思维变革
1. 大数据时代的思维变革——更杂
“更杂”——不是精确性,而是混杂性 执迷于精确性是信息缺乏时代和模拟时代的产物。只有 5%的数据是有框架且能适用于传统数据库的。如果不能接 受混乱,剩下95%的非框架数据都无法被利用,只有接受 不精确性,我们才能打开一扇从未涉足的世界的窗户
• 传统数据库的设计要求在不同的时间提供一致的结 果。 • 大数据是在传统数据库学科的分支——数据仓库与 数据挖掘的基础上进一步发展起来的。但有两点比 较主要的不同:
1. 结构化程度
• 传统数据库保存的是结构化或者半结构化的数据,以二维表或 者标准XML文件的方式存储数据,由于结构清晰,处理相对容 易; • 大数据面向的是一切计算机可以存储的数据格式,包括互联网 上的各种网页、图片、音频、视频,包括办公文档、报表,包 括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜 好,也包括各种传感器自动收集的监控结果等等,显然不同的 格式处理起来更加困难。
大数据与传统数据库的区别
– 异常数据的处理
• 传统数据库通常把异常数据先剔除,应用在需要高 精确度的领域,如银行对每个账户的管理; • 大数据则允许异常数据存在,更多应用在预测方面 ,找出大量数据中隐藏的关联关系,少量异常数据 不会对总体结果产生影响。
• 实例
– ZestFinance,一个由谷歌前任首席信息官道 格拉斯·梅里尔创立的公司,用自己的经验再次 验证了“宽容错误会给我们带来更多价值” 。
– 英国石油公司(BP)切里波因特(Cherry Point)炼 油厂里,无线感应器遍布于整个工厂,形成无形的网 络,能够产生大量实时数据。 – 酷热的恶劣环境和电气设备的存在有时会对感应器读 数有所影响,形成错误的数据。 – 数据生成的数量之多可以弥补这些小错误。 – 随时监测管道的承压使得BP能够了解到,有些种类的 原油比其他种类更具有腐蚀性。以前,这都是无法发 现也无法防止的。
相关文档
最新文档