4大数据时代思维变革 - 3更好

合集下载

大数据时代的思维

大数据时代的思维

大数据时代的思维在大数据时代,海量的数据被生成、存储和利用。

这些数据对我们的生活和工作产生了深远的影响。

然而,仅仅拥有大量的数据是不够的,我们还需要正确的思维方式来解读和应用这些数据。

本文将探讨大数据时代的思维方式,并探讨如何在日常生活和工作中灵活运用这种思维方式。

1. 数据驱动思维数据驱动思维是大数据时代最重要的思维方式之一。

它强调通过数据来指导、支持和验证决策过程。

在过去,很多决策都是基于主观经验和直觉做出的,但在大数据时代,我们可以通过收集和分析大量的数据来做出更明智的决策。

以营销为例,过去的营销决策通常基于营销人员的经验和感觉,而现在,营销决策越来越多地依赖于数据分析。

通过分析顾客的购买行为、偏好和反馈,企业可以更准确地了解顾客需求,优化产品和服务,提高市场竞争力。

因此,数据驱动思维在市场营销中起着重要的作用。

2. 数据分析思维数据分析思维是大数据时代另一个重要的思维方式。

它涉及到理解和解释数据的能力,以从中获得有价值的见解。

在处理大数据时,我们需要学会使用各种数据分析工具和技术,例如统计分析、机器学习和人工智能等。

数据分析思维可以帮助我们发现数据中的模式和规律,预测未来趋势和行为。

例如,通过对过去的销售数据进行分析,企业可以预测未来销售额,制定合理的生产计划和库存管理策略。

此外,数据分析思维还可以帮助企业挖掘和发现隐藏在数据背后的信息,以获得竞争优势。

3. 创新思维大数据时代需要创新思维来应对不断变化的环境和机遇。

创新思维是指超越传统思维范围,勇于尝试新想法和方法的能力。

在面对复杂的大数据时代,我们需要学会思考问题、解决问题的方式。

创新思维涉及到观察、提问和连接的能力。

通过观察和洞察力,我们可以发现问题、挖掘需求和发现机会。

通过提问和质疑,我们可以更好地理解问题和寻找解决方案。

通过连接和整合不同的观点和概念,我们可以创造出新的想法和方法。

4. 风险管理思维大数据时代充满了不确定性和风险。

大数据时代的思维变革—更多

大数据时代的思维变革—更多

小数据时代
受制于技术只能收集与分析随机样本
大数据是指不用随机分析法这样的捷径,而是采用所有数据的方法。
大数据中的“大”非绝对意义的大,指全体数据,有时并非真的“大”。
《大数据时代》读书笔记
制作:@天天向Qian前
大数据时代 之拥抱
重要的是维克托教授提醒我们:
让数据 发 声
利用所有数据
而不是一部分
大数据时代 之拥抱
小数据时代的随机采样,是用
最少的数据获取最多的信息
本章的例子
穿孔卡片与美国人口普查 大数据与乔布斯的癌症治疗
大数据时代 之拥抱
全数据模式
样本=总体
本章的例子
Xoom与跨境汇款异常交易报警 巴拉巴西与第一次全社会 层面的网络分析
大数据时代 之拥抱
重要的是维克托教授提醒我们:
大数据时代已经来临
你准备好了吗
发声利用所有数据而不是一部分大数据时代之拥抱小数据时代的随机采样是用最少的数据获取最多的信息穿孔卡片与美国人口普查大数据与乔布斯的癌症治疗本章的例子大数据时代之拥抱全数据模式样本总体xoom与跨境汇款异常交易报警巴拉巴西与第一次全社会层面的网络分析本章的例子大数据时代之拥抱重要的是维克托教授提醒我们
大数据时代 之拥抱
首先就要 转变处理数据的理念
第一部分
处理数据理念的思维变革
‒ 采样分析是信息缺乏时代和信息流通受限制时代的产物
‒ 云计算能便宜、有效、高速地的对信息存储、分享和挖掘
《大数据时代》读书笔记
制作:@天天向Qian前
大数据时代 的思维变革
01 更多
不是随机样本 而是全体数据
大数据时代
收集与分析全体数据是可行和便宜的
《大数据时代》读书笔记

创新思维与方法第4章 大数据时代的思维变革

创新思维与方法第4章  大数据时代的思维变革

4.1.1 天文学——信息爆炸的起源
互联网公司更是要被数据淹没了。谷歌公司每天要处理超过24拍字节(PB, 250字节)的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质 出版物所含数据量的上千倍。Facebook(脸书)这个创立不过十来年的公司, 每天更新的照片量超过1 000万张,每天人们在网站上点“赞”(Like)按钮 或者写评论大约有三十亿次,这就为Facebook公司挖掘用户喜好提供了大量 的数据线索。与此同时,谷歌子公司YouTube 每月接待多达8亿的访客,平均 每一秒钟就会有一段长度在一小时以上的视频上传。推特(Twitter) 上的信 息量几乎每年翻一番,每天都会发布超过4亿条微博。
4.1.2 大数据的定义
所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的 集合。对大量数据进行分析,并从中获得有用观点,这种做法在一部分研究 机构和大企业中,过去就已经存在了。
现在的大数据和过去相比,主要有三点区别: 第一,随着社交媒体和传感器网络等的发展,在我们身边正产生出大量 且多样的数据; 第二,随着硬件和软件技术的发展,数据的存储、处理成本大幅下降; 第三,随着云计算的兴起,大数据的存储、处理环境已经没有必要自行 搭建。
4.1.1 天文学——信息爆炸的起源
图4-1 美国斯隆数字巡天望远镜
4.1.1 天文学——信息爆炸的起源
天文学领域发生的变化在社会各个领域都在发生。2003年,人类第一次破译 人体基因密码的时候,辛苦工作了十年才完成了三十亿对碱基对的排序。大 约十年之后,世界范围内的基因仪每15分钟就可以完成同样的工作。在金融 领域,美国股市每天的成交量高达70亿股,而其中三分之二的交易都是由建 立在数学模型和算法之上的计算机程序自动完成的,这些程序运用海量数据 来预测利益和降低风险。

3大数据时代-思维变革 - 2更杂

3大数据时代-思维变革 - 2更杂
括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的 格式处理起来更加困难。 异常数据的处理 传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理;
– 每块芯片上晶体管的数量每两年就会翻一番。 的75%提高到了95%以上。与之相反地,在少量数据情况下运行得最好的算法,当加入更多的数据时,也会像其他的算法一样
有所提高,但是却变成了在大量数据条件下运行得最不好的。它的准确率会从86%提高到94%。 后来,班科和布里尔在他们发表的研究论文中写到,“如此一来,我们得重新衡量一下更多的人力物力是应该消耗在算法发展
立在百万字左右的语料库基础上。最后,他们决定往4种常见的算法中逐渐添加数据,先是一千万字,再到一亿字,最后到十
• 摩尔定律 亿。
结果有点令人吃惊。他们发现,随着数据的增多,4种算法的表现都大幅提高了。 当数据只有500万的时候,有一种简单的算法表现得很差,但当数据达10亿的时候,它变成了表现最好的,准确率从原来
– 数据生成的数量之多可以弥补这些小错误。
–随时监测管道的承压使得BP能够了解到,有些种类的 原油比其他种类更具有腐蚀性。以前,这都是无法发 现也无法防止的。
联邦政府为了得到这些数据,会雇用很多人向全美90个城市的商店、办公室打电话、发传真甚至登门拜访。他们反馈回来的 各种各样的价格信息达80000种,包括土豆的价格、出租车的票价等。政府采集这些数据每年大概需要花费两亿五千万美元。 这些数据是精确的也是有序的,但是这个采集结果的公布会有几周的滞后。2008年的经济危机表明,这个滞后是致命的。政
列。数据不是单纯地被存储,它往往被划分为包含“域”的记录,每个域都包含了特定种类和特定长度的信息。比方说,某个 数值域是7个数字长,一个1000万或者更大的数值就无法被记录。一个人想在某个记录手机号码的域中输入一串汉字是“不被 允许”的。想要被允许也可以,需要改变数据库结构才可以。现在,我们依然在和电脑以及智能手机上的这些限制进行斗争,

大数据时代生活工作与思维的大变革概述

大数据时代生活工作与思维的大变革概述

大数据时代生活工作与思维的大变革概述随着科技的发展和人类社会的进步,我们正逐渐进入一个全新的时代,即大数据时代。

大数据时代是指在信息化程度高、信息产生速度快、数据规模庞大的背景下,通过采集、存储、处理和分析海量数据来获取有价值的信息和洞察力的时代。

在这个时代里,大数据对生活、工作和思维方式带来了前所未有的变革。

在生活方面,大数据技术的应用已经深入到我们的日常生活中。

我们可以通过智能手机、智能手表等设备收集和记录自己的生活数据,如睡眠质量、步数、消费记录等。

这些数据可以帮助我们更好地了解自己的生活习惯和行为模式,并能够根据数据对生活进行优化和改善。

此外,大数据技术还广泛应用于智能家居、智能交通等领域,使我们的生活更加便捷和舒适。

在工作方面,大数据技术已经成为了许多行业的核心竞争力。

随着互联网的快速发展,各种形式的数据正在不断涌现。

企业可以通过挖掘和分析这些数据,快速获得市场信息、用户需求等关键信息,并根据数据作出科学决策。

比如,在销售领域,通过大数据分析,企业可以识别客户的消费习惯,优化产品定价和推销策略。

在医疗领域,大数据技术可以帮助医生诊断疾病、制定个性化治疗方案。

总之,大数据技术的应用已经成为了企业获得竞争优势的重要手段。

在思维方式方面,大数据时代对我们的思维方式也带来了重大改变。

传统的思维方式强调经验和直觉,而在大数据时代,数据和分析成为了决策的重要指导。

我们不再只依赖个人的判断和直觉,而更多地依赖数据的支持。

这要求我们具备数据分析和处理的能力,能够从海量的数据中提取有用的信息,进行逻辑推理和决策。

同时,大数据时代也鼓励创新和开放的思维方式。

通过对大量数据的观察和分析,我们可以发现一些以往没有察觉到的问题和机会,从而创造出全新的价值和解决方案。

然而,大数据时代也带来了一些新的挑战和问题。

首先是数据隐私和安全的问题。

在大数据时代,我们的个人信息被广泛收集和利用,如何保护个人信息不被滥用和泄露成为了一个亟待解决的问题。

大数据时代下的思维方式变革

大数据时代下的思维方式变革

大数据时代下的思维方式变革一、本文概述随着信息技术的飞速发展,大数据已经渗透到我们生活的方方面面,对各行各业产生了深远的影响。

在这个背景下,大数据时代的思维方式变革成为了我们必须面对的重要议题。

本文旨在探讨大数据时代下思维方式的转变,分析这种变革对我们认识世界、解决问题和决策制定的影响,并探讨如何在新的时代背景下适应并应用这种思维方式。

我们将从大数据的基本特征入手,解析大数据如何改变了我们对世界的认知,以及这种认知变革如何进一步推动我们思维方式的转变。

我们还将探讨大数据时代下思维方式变革的挑战与机遇,以及如何在实践中应用这种新的思维方式,以更好地应对未来的挑战。

二、大数据时代的特征在大数据时代的浪潮中,我们见证了一场前所未有的思维方式变革。

这个时代,数据无处不在,无时不有,且规模庞大,类型多样。

大数据时代的特征主要体现在以下几个方面:数据量级的爆炸式增长。

随着物联网、云计算等技术的广泛应用,数据生成的速度和规模呈现出前所未有的增长态势。

这种增长不仅体现在数据的数量上,更体现在数据的维度和复杂性上。

数据类型的多样性。

大数据时代,数据的来源和形式日益多样化,包括结构化数据、半结构化数据和非结构化数据等。

这些不同类型的数据相互交织,形成了复杂的数据网络,为我们的分析和决策提供了更为丰富的信息来源。

数据关联性的重视。

在大数据时代,人们开始更加注重数据之间的关联性,而非简单的因果关系。

这种思维方式的转变,使得我们能够在海量数据中发现隐藏的模式和趋势,为预测未来提供可能。

数据处理的高效性。

随着计算能力的提升和算法的优化,大数据处理变得更加高效和精确。

这使得我们能够在较短的时间内完成大规模数据的分析和挖掘,为实时决策提供了有力支持。

数据价值的挖掘和利用。

大数据的价值在于其潜在的信息和知识。

通过深度分析和挖掘,我们可以从数据中提取出有价值的信息,为企业的决策和创新提供有力支持。

同时,数据也成为了一种新的资产和资源,为经济的发展和社会的进步提供了新的动力。

2大数据时代-思维变革 - 1更多

2大数据时代-思维变革 - 1更多

• 事实证明,问题的关键是选择样本时的随机性
小数据时代的随机采样
• 统计学家们证明:
– 采样分析的精确性随着采样随机性的增加而大幅度提 高 – 与样本数量的增加关系不大。 当样本数量达到了某个值之后,我们从新个体身上 得到的信息会越来越少,就如同经济学中的边际效应递 减一样。
小数据时代的随机采样
让数据“发声”
• 利用所有的数据,而不再仅仅依靠一小部分数据。 – 数据的收集 • 过去,因为记录、储存和分析数据的工具不够好, 我们只能收集少量数据进行分析,这让我们一度很 苦恼。 – 数据的处理工具 • 为了让分析变得简单,我们会把数据量缩减到最少 。这是一种无意识的自省:我们把与数据交流的困 难看成是自然的,而没有意识到这只是当时技术条 件下的一种人为的限制。 – 统计学:用尽可能少的数据来证实尽可能重大的发现 。
• 当收集和分析数据都不容易时,随机采样 就成为应对信息采集困难的办法。
– 人口普查 – 商品质量监管 – ……
小数据时代的随机采样
• 随机采样取得了巨大的成功,成为现代社 会、现代测量领域的主心骨。但是这只是 一条捷径,是在不可收集和分析全部数据 的情况下的选择,它本身存在许多固有的 缺陷。
– 实例:总统大选(以固定电话为基础的民调)
DNA分析
• 只研究样本而不是整体,有利有弊:能更 快更容易地发现问题,但不能回答事先未 考虑到的问题。
大数据与乔布斯的癌症治疗
乔布斯是世界上第一个对自身所有DNA和 肿瘤DNA进行排序的人。为此,他支付了高达 几十万美元的费用。他得到的不是样本,而 是包括整个基因的数据文档。医生按照所有 基因按需下药,最终这种方式帮助乔布斯延 长了好几年的生命。
小结
我们总是习惯把统计抽样看做文明得以 建立的牢固基石,就如同几何学定理和万有 引力定律一样。 统计抽样其实只是为了在技术受限的特 定时期,解决当时存在的一些特定问题而产 生的。 如今,技术环境已经有了很大的改善。 在某些特定的情况下,我们依然可以使用样 本分析法,但这不再是我们分析数据的主要 方式。

大数据时代——生活、工作与思维大变革

大数据时代——生活、工作与思维大变革
; 未来:物联 + 淘58宝0.天03猫亿双元1人1那民一币天;营业额达191亿人民币。中国网的小每数商天据产将品生 会城全年成交额才 + 累积起来,互联网一天之内产生的信息总量,可是以海装量满的1。.68亿张DVD光盘。 + ……
一、认识大数据(续)
大数据处理技术让大数据能够为我所用, 大数据时代终于开启了。
大数据与云计算
大数据与云计算
• 云计算的模式是业务模式,本质是数据处理技术。 (肉体+灵魂)
• 数据是资产,云为数据资产提供存储、访问和计算。
• 盘活资产,使其为国家治理、企业决策、个人生活服 务,是大数据核心议题,也是云计算的最终方向。
如果将云计算与大数据进行一些比较,最明显的区分在两个方面:
第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务 。然而大数据必须有云作为基础架构,才能得以顺畅运营。
第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是 一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数 据的决策者是业务层。
+ 脸书此次幕后试验的曝光,是一个警醒的明示。用户、互联网企业 以及政府之间的权衡,是一个当即也是长期去努力协作的过程。在 个人隐私和道德制约的前提下,“大数据“时代,不是一个滥用数 据的时代,而是一个需要善用数据的时代。
+ 大数据属于谁?
+ 数据独裁
卓越的才华并不依赖大数据, 大数据扼杀创新。 如果对不可量化的事物进行量化, 我们将失去全面了解该事物的机会。
月:收录数据235TB ) + 1EB = 4000倍美国国会图书馆存储的信息量
一、认识大数据(续)
+ 每天有2940亿封电子邮件发出,如果这些是纸质信件,在美国需要花费两年 时间处理;

大数据时代生活工作思维的大变革

大数据时代生活工作思维的大变革
• Google处理了5000万条历史记录 、4.5亿个不同的数学模型。
什么是大数据
• Farecast是一个对机票价格 进行预测的公司,帮助消费 者抓住最佳购买机票的时机 ,使乘客节省很多钱。
• 最初预测系统建立在41天之 内的12000个价格样本基础上 ,数据是从旅游网站上抓取 的,如今已经拥有超过2000 亿条飞行记录。
➢允许不精确 ➢大数据的简单算法比小数据的复杂算法更有效 ➢纷繁的数据越多越好 ➢混杂性,不是竭力避免,而是标准途径 ➢新的数据库设计的诞生
一、大数据时代的思维变革—更好
“更好”——不是因果关系,而是相关关系 知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我
们不必非得知道现象背后的原因,而是要让数据自己“发声”。
➢数据创新1:数据的再利用 ➢数据创新2:重组数据 ➢数据创新3:可扩展数据 ➢数据创新4:数据的折旧值 ➢数据创新5:数据废气 ➢数据创新6:开放数据 ➢给数据估值
二、大数据时代的商业变革—角色定位
“角色定位”——数据、技术与思维的三足鼎立 微软以1.1亿美元的价格购买了大数据公司Farecast,而两年后谷歌则
➢关联物,预测的关键 ➢“是什么”,而不是“为什么” ➢改变,从操作方式开始 ➢大数据,改变人类探索世界的方法
二、大数据时代的商业变革
二、大数据时代的商业变革—数据化
“数据化”——一切皆可“量化” 大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信
息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上 , 而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始 关 注信息本身了。
• 系统只推测机票的价格何时 最便宜,不关心是什么原因 导致的价格下降。

大数据时代的思维与管理变革

大数据时代的思维与管理变革

操作方法-SOA
SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物 理层次结构模型和架构组件模型。DaaS数据存取的模型描 述了数据是如何提供给SOA组件的。物理模型描述了数据 是如何存储的以及存储的层次图是如何传送到SOA数据存 储器上的。最后,架构模型描述了数据、数据管理服务和 SOA组件之间的关系。
➢ 第三层面是实践,实践是大数据的最终 价值体现。在这里分别从互联网的大数 据,政府的大数据,企业的大数据和个 人的大数据四个方面来描绘大数据已经 展现的美好景象及即将实现的蓝图。
思维变革
数据转变
分析某事物相关的所有数据 接受数据的纷繁复杂,不追求精确性 不探求因果关系,关注事物的相关关系
17
数据化 Vs 数字化
数据作为信息的载体,当然要分析数据中包含的主要信息,及分析数 据的主要特征。
研究数据就是对数据进行采集、分类、录入、储存、统计分析,统计检验 等一系列活动的统称。
• 数据产品化(Data Productionalization简称DP)
• 有效运用数据分析实现产品过程,从海量数据中挖掘出对用户有价值的 信息,以直观,有效的表现形式,为用户决策提供商业支持和服务。eDP 特指在电子商务领域的数据产品化。
数据废气
微软与谷歌的拼写检查
开放数据
FlyOnTime通过公开的气象预报和机场时刻表预测航班延迟 可能性
25
角色定位
大数据价值链的3大构成
大数据掌控公司 大数据技术公司 大数据思维公司和个人
数据中间商 大数据:决定企业竞争力
26
大数据掌控公司
基于数据本身的公司
交易记录
消费趋势预测
当数据流过这些分析组件后,Streams将提供运算符将数据存储 至各个位置,或者如果经过动态分析某些数据被视为毫无价值, 则会丢弃这些数据。你可能会认为Streams与复杂事件处理 (CEP) 系统非相似,不过Streams的设计可扩展性更高,并且 支持的数据流量也比其他系统多得多。此外,Streams还具备更 高的企业级特性,包括高可用性、丰富的应用程序开发工具包 和高级调度。

大数据时代——第一部分:大数据时代的思维变革

大数据时代——第一部分:大数据时代的思维变革

⼤数据时代——第⼀部分:⼤数据时代的思维变⾰⼤数据,变⾰公共卫⽣2009年出现了⼀种新的流感病毒,这种甲型H1N1流感结合了导致禽流感和猪流感的病毒的特点,在短短⼏周之内迅速传播开来。

在甲型H1N1 流感爆发的⼏周前,互联⽹巨头⾕歌公司的⼯程师们在《⾃然》杂志上发表了⼀篇引⼈注⽬的论⽂,它令公共卫⽣官员们和计算机科学家们感到震惊。

⽂中解释了⾕歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,⽽且可以具体到特定的地区和州。

⾕歌通过观察⼈们在⽹上的搜索记录来完成这个预测,⽽这种⽅法以前⼀直是被忽略的。

⾕歌保存了多年来所有的搜索记录,⽽且每天都会受到全球超过30亿条的搜索指令,如此庞⼤的数据资源⾜以⽀撑和帮助它完成这项⼯作。

以⼀种前所未有的⽅式,通过对海量数据进⾏分析,获得有巨⼤价值的产品和服务,或深刻的洞见。

基于这样的技以⼀种前所未有的⽅式,通过对海量数据进⾏分析,获得有巨⼤价值的产品和服务,或深刻的洞见。

术理念和数据储备,下⼀次流感来袭的时候,世界将会拥有⼀种更好的预测⼯具,以预防流感的传播。

⼤数据,变⾰商业2003年,奥伦. 埃齐奥尼(Oren Etzioni )准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。

他知道飞机票越早预定越便宜,于是他在这个⼤喜⽇⼦来临之前的⼏个⽉,就在⽹上预定了⼀张去洛杉矶的机票。

在飞机上,埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。

当得知虽然个⼈得机票⽐他买得更晚,但是票价却⽐他便宜得多,他感到⾮常⽓愤。

后来埃齐奥尼创⽴了⼀个预测系统,它帮助虚拟的乘客节省了很多钱。

这个预测系统建⽴在41天之内的12000个价格样本基础之上,⽽这些数据都是从⼀个旅游⽹站上爬取过来的,这个预测系统并不能说明原因,只能推测会发⽣什么。

这个⼩项⽬逐渐发展成为⼀家得到了风险投资基⾦⽀持的科技创业公司,名为Farecast。

Farecast 是⼤数据公司的⼀个缩影,也代表了当今世界发展的趋势。

大数据时代的思维变革

大数据时代的思维变革
[ 2 ] 5 7
型繁多。除了标准化的结构化编码数据之外, 还 包括网络日志、 视频、 图片、 地理位置信息等等非 结构化或无结构数据。第三, V e l o c i t y ( 高速) , 即 处理速度快, 实时在线。各种数据基本上可以做 到实时、 在线, 并能够进行快速的处理、 传送和存 储, 以便全 面 反 映 对 象 的 当 下 状 况。第 四, V a l u e ( 价值) , 即商业价值高, 但价值密度低。以视频为 例, 在连续不间断的监控过程中, 可能有用的数据 仅仅有一两秒。
[ 2 ] 3 9
。硬件体积越来越小, 但
功能越来越强大; 软件迅速升级, 并被模块化、 智 能化, 计算机被迅速普及到各行各业, 渗透到生活 的方方面面。由于计算机以处理离散数据见长, 因此凡需计算机处理的东西都必须用离散数据来 表示, 所涉对象也必须被编码成结构化数据。由 于计算机及其他智能设备的普及, 由其采集的各 类数据以铺天盖地之势爆发出来, 在国际互联网 的推波助澜下, 这些爆炸性增长的数据又成了公 共数据。这些海量、 杂乱的数据以前被看作无用 而又占据存储空间的“ 垃圾” , 随着数据挖掘和处 理技术的发展, 这些“ 数据垃圾” 迅速变废为宝, 成 了炙手可热的资源。那些先知先觉的吃螃蟹者靠 这些资源一夜暴富, 成了时代的新宠和标杆。在 这些“ 数据富豪” 的示范和引领下, “ 数据” 变成了 一种继物质、 能源之后的宝贵资源, 占有数据就等 于占有了财富。于是, 各种数据都被收集和存储, 数据规模爆炸式增长, 形成了数据的海语, 因此被称为“ 大数据” 。 大数据 一 词 来 源 于 英 文 B i gd a t a , 用来指称 “ 那些大小已经超出了传统意义上的尺度, 一般的 软 件 工 具 难 于 捕 捉、 存 储、 管理和分析的数 据”

大数据带来的信息时代与思维方式变革信息时代与思维方式变革

大数据带来的信息时代与思维方式变革信息时代与思维方式变革

大数据带来的信息时代与思维方式变革信息时代与思维方式变革近年来大数据技术的快速发展深刻改变了我们的生活、工作和思维方式。

大数据研究专家舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生如下三个变化:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系。

事实上,大数据时代带给人们的思维方式的深刻转变远不止上述三个方面。

笔者认为,大数据思维最关键的转变在于从自然思维转向智能思维,使得大数据像具有生命力一样,获得类似于“人脑”的智能,甚至智慧。

总体思维社会科学研究社会现象的总体特征,以往采样一直是主要数据获取手段,这是人类在无法获得总体数据信息条件下的无奈选择。

在大数据时代,人们可以获得与分析更多的数据,甚至是与之相关的所有数据,而不再依赖于采样,从而可以带来更全面的认识,可以更清楚地发现样本无法揭示的细节信息。

正如舍恩伯格总结道:“我们总是习惯把统计抽样看作文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。

但是,统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史不足一百年。

如今,技术环境已经有了很大的改善。

在大数据时代进行抽样分析就像是在汽车时代骑马一样。

在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。

”也就是说,在大数据时代,随着数据收集、存储、分析技术的突破性发展,我们可以更加方便、快捷、动态地获得研究对象有关的所有数据,而不再因诸多限制不得不采用样本研究方法,相应地,思维方式也应该从样本思维转向总体思维,从而能够更加全面、立体、系统地认识总体状况。

容错思维在小数据时代,由于收集的样本信息量比较少,所以必须确保记录下来的数据尽量结构化、精确化,否则,分析得出的结论在推及总体上就会“南辕北辙”,因此,就必须十分注重精确思维。

大数据时代的思维变革

大数据时代的思维变革

大数据时代的思维变革结合维克多·迈尔·舍恩伯格所著的《大数据时代》一书,主要梳理了大数据时代带来的三个方面的思维变革:追求全样本而不是小样本、混杂性而不是精确性、相关关系而不是因果关系。

通过转变我们在小数据时代的思维模式,拥抱大数据时代,投身这场变革,挖掘更多市场价值。

标签:大数据时代;思维方式;变革1大数据时代的来临近年来,“大数据”频繁地出现在我们的视野,成了一个炙手可热的词汇,被各行各业的人们讨论着。

随着信息时代的到来,计算机行业的高速发展给我们带来了很多的机遇与挑战,而大数据作为一种新的生产资料,不断地体现出其在社会生活中的巨大作用。

各种迹象表明,大数据正全面“渗入”我们的现实生活中,掀起了一场数据技术的革命,世界正被急速推向大数据时代,并且以前所未有的速度颠覆着人们探索世界的方法。

那么,大数据是否单单指数据量十分庞大呢,其实不然,大数据并非是容量特别大的数据集合,因为容量仅仅是大数据的一个特征,如果仅仅是从数据量的层面来看当今的大数据时代,未免有些浅薄。

从现代角度来谈大数据,我们至少可以描述出大数据的四个特征:数据量大、数据种类繁多、流动速度极快、价值密度低。

若要对这四个特征作出进一步的扩展,那大概只需对价值密度低这个特征稍作解释。

由于在大数据时代来临的今天,数据量呈井喷式爆发,而隐藏在大量数据中的有用信息的比例却没有增长,这就意味着我们在庞杂的数据中找到有价值数据的难度增大,即大数据显然可以带给我们巨大的商业价值,但其价值密度还是较低。

而维克多·迈尔·舍恩伯格曾在《大数据时代》一书中表达过这样一个观念,他认为,大数据并不是一个确切的概念,它是指可以在大规模数据基础上做到的事情,而在小规模数据基础上无法做到。

大数据不仅仅是指数据量呈指数型增长时的量变,更重要的是量变引发的质变,它给我们带来了新的思维方式,也给我们带来一种量化一切的新的世界观。

2大数据引发思维变革所谓思维方式,就是我们大脑活动的内在程序,是一种习惯性的思考问题和处理问题的模式,它涉及我们看待事物的角度、方式和方法,并由此对我们的行为方式产生直接的影响。

大数据时代生活工作与思维的大变革

大数据时代生活工作与思维的大变革

大数据时代生活工作与思维的大变革随着科技的不断发展,智能手机、云计算、物联网等技术的不断普及,我们正逐渐步入一个被称作大数据时代的新时代。

在这个时代里,大数据的应用已经渗透到我们的生活和工作的方方面面,对我们的思维和习惯也产生了深远的影响,带来了生活和工作的大变革。

首先,大数据时代给我们的生活带来了极大的便利。

随着人工智能的普及,我们的生活中出现了更多智能设备,比如智能家居、智能音箱等。

这些设备能够通过数据的分析和处理,为我们提供更加个性化和精准的服务。

比如智能家居可以根据我们的习惯自动调节温度、照明等,智能音箱可以通过语音识别帮助我们完成各种操作,大大提高了我们的生活质量。

同时,大数据时代也给我们的工作带来了巨大的改变。

在以往,很多决策都是基于经验和直觉来做出的,但现在通过大数据的分析和挖掘,我们可以更加准确地预测市场趋势、用户需求等。

企业可以通过大数据分析来优化生产和销售策略,提高效率和竞争力。

在医疗领域,大数据也可以辅助医生进行诊断和治疗,帮助患者更早地发现疾病并进行有效治疗。

大数据时代还对我们的思维方式和习惯产生了深远的影响。

在过去,我们可能更加注重细节,重视经验和个人观点。

然而,在大数据时代,我们需要更多地关注整体和信息的处理能力。

我们需要学会从海量的数据中提取有价值的信息,并进行合理的判断和决策。

这需要我们具备更强的逻辑思维和数据分析能力,培养批判性思维和创新精神。

此外,大数据也改变了我们的学习方式。

过去,我们可能主要依靠传统的教育机构和纸质资料来获取知识。

但在大数据时代,我们可以通过网络获取各种在线课程、开放式教育资源等,我们可以随时随地进行学习和知识更新。

此外,大数据分析也可以根据我们的学习习惯和知识水平,为我们提供个性化的学习和指导。

这使得学习更加高效和有趣。

然而,尽管大数据带来了诸多的好处和机遇,但也存在着一些挑战和问题。

比如隐私和安全问题,大数据的收集和使用可能会泄露个人信息,威胁到隐私和安全。

大数据时代生活工作与思维的大变革概述共37张课件

大数据时代生活工作与思维的大变革概述共37张课件
我们的隐私被二次利用了
2. 技术手段保护——模糊化:如果所有人的信息在数据库里,有意识地避免就是此地无银三百两 实例:谷歌的图像采集车在很多国家采集了道路和房屋的图像(以及很多备受争议的数据)。 德国媒体和民众强烈地抗议了谷歌的行为,因为民众认为这些图片会帮助黑帮窃贼选择有利可图的目标。有的业主不希望他的房屋或花园出现在这些图片上,顶着巨大的压力,谷歌同意将他们的房屋或花园的影像模糊化。 但是这种模糊化却起到了反作用,
我们的隐私被二次利用了
1. 法律手段保护——告知于许可:大数据的二次利用颠覆了隐私保护法:无法征得个人同意 公司无法告知个人尚未想到的用途,而个人亦无法同意这种尚是未知的用途。 一开始的时候就要用户同意所有可能的用途,也是不可行的。 大数据时代,告知与许可这个经过了考验并且可信赖的基石,要么太狭隘,限制了大数据潜在价值的挖掘,要么就太空泛而无法真正地保护个人隐私。
数据独裁
大数据大大地威胁到了我们的隐私和自由,这都是大数据带来的新威胁。但是与此同时,它也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们所想的那么可靠。 实例:罗伯特·麦克纳马拉 美国国防部长 福特汽车公司总裁 数据有其局限性,数据的质量可能会很差,有误导性。
数据独裁
卓越的才华并不依赖数据 实例:google 的数据依赖 Apple乔布斯的才能
从个人许可到让数据使用者承担责任,因为将责任从民众转移到数据使用者很有意义因为数据使用者比其他人更明白他们想怎么样使用数据,也因为他们是最大利益获得者:监管机制可以决定不同种类的个人数据必须删除的时间 “差别隐私”:信息模糊
管理变革2:个人动因VS预测分析
依据大数据预测做出的决策,特定的防护措施必须到位: 公开原则,包括数据和算法 公正原则,第三方专家公证的可靠、有效的算法系统。 可反驳原则。明确提出个人可以对其预测进行反驳的具体方式。 确保个人动因能防范“数据独裁”的危害。

从哲学的角度解读《大数据时代》-自然辩证法论文-哲学论文

从哲学的角度解读《大数据时代》-自然辩证法论文-哲学论文

从哲学的角度解读《大数据时代》-自然辩证法论文-哲学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——2013是一个有趣的年份,有人说,2013年是进入大数据时代元年。

大数据(BigData)在信息时代并非什么特别新鲜的事物,Google 的搜索服务就是一个典型的大数据运用,在全球几十亿人参与的网络世界、智能系统随时都在吐纳着大数据。

2013年前后,在我国瞬时间,大数据不仅成了IT行业中最摩登的词汇,也成了经济、、文化领域说事的流行语言和对未来社会预测的抢眼根据。

这种现象的出现和三件事情有关:第一,2012年3月,美国奥巴马政府宣布投资2亿美元启动《大数据研究和发展计划》,并将大数据定义为未来的新石油,希望增强政府收集、分析和萃取海量数据的能力。

第二,是被誉为大数据时代的预言家英国维克托迈尔-舍恩伯格着《大数据时代》和《删除:大数据取舍之路》,2013年1月由浙江人民出版社出版中文译本,将大数据由IT行业扩散到大众文化,使人们感到无比的新颖。

第三,2013年6月斯诺登用41张幻灯片,让美国大数据监控项目棱镜浮出水面,令人对网络安全不寒而栗。

数字化记忆的两大威胁:一个没有安全与时间的未来,直接面对人类。

在信息权力与时间的交汇处,永久的记忆创造了空间和时间圆形的幽灵,引发了因不甚了然网络生存的人群对未来的忧虑甚至恐怖。

这些叠加在一起,风生火起,热闹非凡,大数据就成了世界特大。

面对大数据风潮,笔者就《大数据时代》和《删除》两本书产生如下认知和思考。

《大数据时代》从当下信息技术迅猛发展及其所引起的社会深刻变革入手,运用商业典型个案进行分析、做出解读,并提出对未来的预测及其对策。

它使人们强烈感受到世界的变迁,当今工业化、信息化的推进是何等神速,催人奋进。

同时从中也可获取许多关于IT技术新发展的走向及其对社会生活带来深刻影响的信息,对深化世界变革的认知,加速人类文化品位的提升,都大有禆益。

《删除》中关于人类从记忆难忘却易走到了向记忆易忘却难的转变触动很大,深感既庆幸又悲凉。

《大数据时代》的三大思维变革

《大数据时代》的三大思维变革

《大数据时代》的三大思维变革《大数据时代》是国外大数据研究的先河之作,作者为奥地利商业分析大师维克托·迈尔·舍恩伯。

维克托·迈尔·舍恩伯格在书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维。

本文主要讲解该书的Part1,详细阐述了全量数据应用、宏观洞察与更看重相关关系的大数据思维。

大数据与三个相互联系相互作用的思维转变有关要分析与事物相关的所有数据,而不是依靠分析少量的样本数据(本章重点)乐于接受数据的纷繁复杂,而不再追求精确性我们的思想发生了转变,从探求难以捉摸的因果关系转为关注事物的相关关系01 更多:不是随机样本,而是全体数据技术条件的提高,大大拓展了我们收集数据、处理数据的能力,但我们依然没有完全意识到自己拥有了能够收集和处理大规模数据的能力。

小数据时代的随机采样,最少的数据获得最多的信息人口普查——1086年英国调查当时的人口土地和财产进行全面的记载形成《末日审判书》,然耗资费时无奈之举——采样分析采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大(样本数量到达一定数量,从新样本得到的信息将递减,类比经济学中的边际效应递减)每年采用多次小规模样本人口普查推广:商业领域的质检随机采样取得了巨大的成功,但它存在固有缺陷:1. 一旦采样过程存在任何偏见,分析结果就会相去甚远2. 随机采样不适合考察子类别的情况3. 随机采样需要实现设计好问题的结果,调查缺乏延展性,数据不能重新分析以获得计划之外的目的全数据模式:样本 = 总体全面性即时性:技术的进步使得我们可以收集全面完整的数据,提高微观层面分析的准确性以及快速分析反应的能力大数据不是绝对意义上的“大”,而是相对于随机分析法来说,采用所有数据的方法(全数据)社科应用举例:对小团体或是整个社会,多样性都有其额外价值02 更杂:不是精确性,而是混杂性乐于接受数据的纷繁复杂,而不再追求精确性允许不精准数据量的大幅增加及数据采集频率的增加会造成结果的不准确,与此同时,一些错误的数据会混入数据库各种各样的混乱格式的不一致性-清洗数据大数据通常用概率说话,而不是一副确凿无疑的面孔大数据的简单算法比小数据的复杂算法更有效大数据的绝对数量优势压倒了其带来的纷杂错误纷杂的数据越多越好全面的数据库使我们不需要担心某个数据点对整套分析的不利影响我们需要做的是接受这些纷杂的数据并从中受益,而不是以高昂的代价消除所有的不确定性(关注焦点的变化)大数据不仅让我们不再期待精确性,也让我们无法实现精确性错误性不是数据固有的,而是测量、记录和交流数据的工具的缺陷错误并不是大数据固有的特性,而是亟待解决并可能长期存在的现实问题新的数据库设计的诞生非关系型数据库的出现——不预设记录结构,允许繁杂数据的记录更多的处理和存储资源——大大降低的存储和处理成本大的数据库的分布式存储对数据库提出更多的要求Hadoop:与谷歌的MapReduce系统相对应的开源式分布系统的基础构架实现超大量数据的处理内部建立数据副本(应对硬件可能的瘫痪)假定数据之大导致数据在处理之前不可能整齐排列假定数据量巨大使其完全无法移动,需要在本地进行数据分析适用于不要求极端精确的任务,例如顾客分群营销等只有5%的数据是结构化的,能够适用于传统数据库,接受不确定性,拥抱剩下95%的非结构化数据(网页和照片视频资源等)大数据更强调数据的完整性和混杂性,帮助我们进一步接触事实的真相(小数据-可能出现管中窥豹的情况)03 更好:不是因果关系,而是相关关系知道是什么就够了,不需要知道为什么林登与亚马逊推荐系统个性化推荐系统在亚马逊的使用知道是什么可以更直接的作用,而为什么需要复杂的推导运算关联物,预测的关键相关关系的核心:量化两个数据值之间的数量关系相关关系通过识别有用的关联来帮助我们分析一个现象,而不是揭示其内部的运作机制相关关系没有绝对,只有可能性,但强相关关系链接成功的概率还是很高的利用某个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来如果寻找关联物机器计算能力,代替了人工选择一个关联物或者一小部分相似数据进行逐一分析用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法大数据的相关关系分析法更准确、快速,且不容易受偏见的影响大数据的核心是建立在相关关系分析法基础上的预测社会环境下寻找关联物通过找出新种类数据间的相互联系来解决日常需要例如用于监测桥梁、机器等的传感器数据用于故障预测“是什么”,而不是“为什么”小数据时代获取相关关系和因果关系都耗费巨大(建立假设 >>> 进行实验,存在受偏见影响的可能,且数据收集困难),当前这些困难迎刃而解相关关系:线性关系到非线性关系的发展快速思维模式与慢性思维模式快速思维模式使人们偏向于用因果联系看待周围的一切,即使这种关系并不存在直觉得来的因果关系很多时候并没有加深我们对这个世界的理解,只是给我们一种自己已经理解的错觉。

大数据时代思维变革3更好

大数据时代思维变革3更好
– 实例:幸福的非线性关系
• 因果关系是否存在
– 不费力的快速思维 – 费力的慢性思维 – 实例:感冒、狂犬疫苗
• 我们的直接愿望就是了解因果关系。即使 无因果联系存在,我们也还是会假定其存 在。
• 研究证明,这只是我们的认知方式,与每 个人的文化背景、生长环境以及教育水平 是无关的。当我们看到两件事情接连发生 的时候,我们会习惯性地从因果关系的角 度来看待它们。
– 巴斯德刚刚研发出狂犬疫苗,也实验验证过效 果了。梅斯特的父母就恳求巴斯德给他们的儿 子注射一针。
– 巴斯德做了,梅斯特活了下来。
– 发布会上,巴斯德因为把一个小男孩从死神手 中救出而大受褒奖。
– 一般来说,人被狂犬病狗咬后患上狂犬病的概 率只有七分之一。
相关关系很有用,不仅仅是因为它能为 我们提供新的视角,而且提供的视角都是很 清晰的。而我们代的思维变革
1. 大数据时代的思维变革——更好
“更好”——不是因果关系,而是相关关系
知道“是什么”就够了,没必要知道“为什么”。在 大数据时代,我们不必非得知道现象背后的原因,而是要 让数据自己“发声”。
➢关联物,预测的关键 ➢“是什么”,而不是“为什么” ➢改变,从操作方式开始 ➢大数据,改变人类探索世界的方法
• 检测处理即时的病人信息 早产儿病情诊断 • 16个数据点 1260/秒 • 在明显感染症状出现的24小时之前,可发现 • 早产儿的稳定是病情感染前的准备..
是什么,而不是为什么
• 在小数据时代,相关关系分析和因果分析都不容 易,都耗费巨大,都要从建立假设开始。
• 非线性关系
– 小数据时代,计算机能力的不足限制了非线性关系的 研究
• 看看下面的三句话:
– 弗雷德的父母迟到了; – 供应商快到了; – 弗雷德生气了。 – ……

《大数据时代》的三大思维变革

《大数据时代》的三大思维变革

引言概述:
随着大数据技术的快速发展,我们正逐渐进入一个被称为“大数据时代”的全新时代。

在这个时代里,海量的数据被广泛收集、存储和分析,给各个行业带来了前所未有的机遇和挑战。

大数据时代不仅仅意味着技术的进步,更是需要我们进行思维的变革。

本文将就大数据时代的三大思维变革进行探讨,分别是全面思维、实时思维和智能思维。

正文内容:
一、全面思维
1.尽快接纳并善用大数据技术
2.积极拥抱多样性的数据来源
3.跨学科合作,实现全面的数据分析
4.考虑数据的完整性和可靠性
5.采用多维度分析,帮助决策的精准性和深度
二、实时思维
1.运用实时数据分析,提高决策的准确性
2.开展实时数据监测,及时发现问题
3.引入实时反馈机制,加速迭代优化
4.预测和应对实时变化的市场需求
5.加快数据处理速度,提升实时决策能力
三、智能思维
1.利用技术进行智能分析
2.引入机器学习,提高数据分析效率
3.发展深度学习算法,实现自动化决策
4.结合大数据与智能硬件,实现智能化运营
5.提升智能算法的准确度和鲁棒性
总结:
大数据时代给我们带来了前所未有的机遇和挑战,但同时也要求我们进行思维的变革。

全面思维要求我们积极接纳和善用大数据技术,采用多维度分析,确保决策的精准性和深度;实时思维要求我们运用实时数据分析,加快数据处理速度,提升实时决策能力;智能思维要求我们结合技术进行智能分析,利用机器学习和深度学习算法实现自动化决策。

只有通过这三大思维变革,我们才能更好地应对大数据时代所带来的挑战,抓住机遇,实现更高效的决策和创新。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 实例:幸福的非线性关系
• 因果关系是否存在
– 不费力的快速思维 – 费力的慢性思维 – 实例:感冒、狂犬疫苗
• 我们的直接愿望就是了解因果关系。即使 无因果联系存在,我们也还是会假定其存 在。
• 研究证明,这只是我们的认知方式,与每 个人的文化背景、生长环境以及教育水平 是无关的。当我们看到两件事情接连发生 的时候,我们会习惯性地从因果关系的角 度来看待它们。
它的个性化推荐系统。
关联物,预测的关键
• 相关关系:相关关系的核心是量化两个数据值之 间的数理关系。
– 强和弱
• 通过给我们找到一个现象的良好的关联物,相关 关系可以帮助我们捕捉现在和预测未来。
• 实例:沃尔玛——蛋挞与飓风 • 生活中的相关关系
– 身高与前臂的长度
• 小数据时代的相关关系
• 大数据时代的相关关系
– 谷歌流感预测:5亿个数学模型
建立在相关关系分析法基础上的预测是 大数据的核心。
数据驱动的关于大数据的相关关系分析 法,取代了基于假想的易出错的方法。大数 据的相关关系分析法更准确、更快,而且不 易受偏见的影响。
实例
• FICO提出“遵从医嘱评分”
一系列变量→是否按时吃药
• 益百利 预测个人收入
– 实例:kaggle 二手车质量竞赛 橙色的车
• 因果是相关关系的一种。相关关系分析通 常情况下能取代因果关系起作用,即使不 可取代的情况下,它也能指导因果关系起 作用。
– 实例:曼哈顿沙井盖的爆炸
改变,从操作开始
• 实例:曼哈顿沙井盖爆炸
– 每年,因沙井盖内部失火,纽约每年有很多沙 井盖会发生爆炸。
– 大数据的简单算法比小数据的复杂算法更有效。
• 更加关注相关性,而不是因果性
– 预测依靠的是相关性。 – 很多情况下知道“是什么”即可,不必知道“为什么”。
下一讲
2. 大数据时代的商业变革
• 看看下面的三句话:
– 弗雷德的父母迟到了; – 供应商快到了; – 弗雷德生气了。 – ……
• 弗雷德为什么生气?
• 快速思维模式使人们偏向用因果联系来看 待周围的一切,即使这种关系并不存在。
– 冬天不戴帽子和感冒
• 狂犬疫苗这个例子来说,
– 1885年7月6日,法国化学家路易·巴斯德( Louis Pasteur)接诊了一个9岁的小孩约瑟夫· 梅斯特(Joseph Meister),他被带有狂犬病 毒的狗咬了。
• 通过找出一个关联物并监控它,我们就能 预测未来。
• 实例:UPS与汽车维修预测
– 2000年,60000辆
收集和分析数据的花费比出现停产的损 失小得多。
• 当收集、存储和分析数据的成本较高的时 候,应该适当地丢弃一些数据。
• 医疗设备获取病人的数据
• 安大略理工大学 IBM 医院
– 卡罗琳·麦格雷戈
• 处理的对象往往是全部数据,而不是部分数据的采样
– 采样的不合理会导致预测结果的偏差,在大数据时代,依靠强大的 数据处理能力,应该去处理全部的数据。
• 不再执迷于精确性
– 精确的、规范化的、可以被传统数据库处理的数据只占全部数据的 5%,必须接受不精确性才能处理另外95%的数据。
– 错误的数据是客观存在的,竭力避免它就失去了应有的客观性和公 平性。
改变,从操作开始
• 这是一个复杂的大数据问题。
– 仅纽约,地下电缆就有15万公里; – 曼哈顿有大约51000个沙井盖和服务设施, – 很多设施都是在爱迪生那个时代建成的 – 有二十分之一的电缆在1930年之前就铺好了。 – 1880以来的数据都保存着,却很杂乱,
• 负责这个项目的统计学家辛西亚·鲁丁(Cynthia Rudin)
1. 大数据时代的思维变革
1. 大数据时代的思维变革——更好
“更好”——不是因果关系,而是相关关系
知道“是什么”就够了,没必要知道“为什么”。在 大数据时代,我们不必非得知道现象背后的原因,而是要 让数据自己“发声”。
关联物,预测的关键 “是什么”,而不是“为什么” 改变,从操作方式开始 大数据,改变人类探索世界的方法
– 巴斯德刚刚研发出狂犬疫苗,也实验验证过效 果了。梅斯特的父母就恳求巴斯德给他们的儿 子注射一针。
– 巴斯德做了,梅斯特活了下来。
– 发布会上,巴斯德因为把一个小男孩从死神手 中救出而大受褒奖。
– 一般来说,人被狂犬病狗咬后患上狂犬病的概 率只有七分之一。
相关关系很有用,不仅仅是因为它能为 我们提供新的视角,而且提供的视角都是很 清晰的。而我们一旦把因果关系考虑进去, 这些视角就有可能被蒙蔽掉。
– 信用卡交易记录→预测个人收入 1$ – 证明一个人的收入状况 10$
• 中英人寿保险公司 申请人的健康隐患
信用报告、市场分析报告→高血压、糖尿病和抑 郁症 5$ 血液尿液样本 130$
• 美国折扣零售商塔吉特 怀孕预测
• 预测分析法
– 一个能发现可能的流行歌曲的算法系统 – 防止机器失效和建筑倒塌 – 异常情况与正常情况
• 检测处理即时的病人信息 早产儿病情诊断 • 16个数据点 1260/秒 • 在明显感染症状出现的24小时之前,可发现 • 早产儿的稳定是病情感染前的准备..
是什么,而不是为什么
• 在小数据时代,相关关系分析和因果分析都不容 易,都耗费巨大,都要从建立假设开始。
• 非线性关系
– 小数据时代,计算机能力的不足限制了非线性关系的 研究
• 最重要的因素是这些电缆的使用年限和有没有出 现过问题。
大数据,改变人类探索世界的方法
大量的数据从某种程度上意味着“理论 的终结”。 —— 2008年,《连线》主编克里斯·安德森 • 大数据是在理论的基础上形成的。 • 理论贯穿于大数据的整个过程。
– 数据的收集、分析、结的数据整理好给机器处理
– 发现了大型沙井盖爆炸的106种预警情况。
– 在布朗克斯(Bronx)的电网测试中,他们对2008年 中期之前的数据都进行了分析,并利用这些数据预测 了2009年会出现问题的沙井盖。
• 预测效果非常好,在他们列出的前10%的高危沙井 盖名单里,有44%的沙井盖都发生了严重的事故。
• 联合爱迪生电力公司(Con Edison)每年 都会对沙井盖进行常规检查和维修。
• 2007年,联合爱迪生电力公司向哥伦比亚 大学的统计学家求助,希望他们通过对一 些历史数据的研究,预测出可能会出现问 题并且需要维修的沙井盖。
改变,从操作开始
• 这是一个复杂的大数据问题。
– 仅纽约,地下电缆就有15万公里; – 曼哈顿有大约51000个沙井盖和服务设施, – 很多设施都是在爱迪生那个时代建成的 – 有二十分之一的电缆在1930年之前就铺好了。 – 1880以来的数据都保存着,却很杂乱,
林登与亚马逊推荐系统
• 1997年,林登,亚马逊,推荐书籍 • 1998年 “item-to-item”协同过滤技术 • 书评团队被解散
– 评论家所创造的销售业绩 – 计算机生成内容所产生的销售业绩
• 海明威作品与菲茨杰拉德的书
• 知道是什么就够了,没必要知道为什么 • 据说亚马逊销售额的三分之一都是来自于
相关文档
最新文档