《大数据分析》课件-第1章 大数据基础
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
当奥利在克里斯蒂拍卖行酒品部做关于葡萄酒的演讲时,坐在后排的交易商嘘声一片。
传统的评酒大师认为,如果要对葡萄酒的品质评判得更准确,
应该亲自去品尝一下。但是有这样一个问题:在好几个月的
生产时间里,人们是无法品尝到葡萄酒的。波尔多和勃艮第
的
葡萄酒在装瓶之前需要盛放在橡木桶里发酵 18~24 个月。
第1章
产的葡萄酒的最高价”。
葡萄酒收藏
第1章
导读案例
葡萄酒的品质分析 看到这篇文章,评酒专家非常生气。评酒专家们开始辩解,竭力指 责奥利本人以及他所提出的方法。他们说他的方法是错的,因为这一 方法无法准确地预测未来的酒价。然而,对于统计学家(以及对此稍加思考的人)来说, 预测有时过高,有时过低是件好事,因为这恰好说明估计量是无偏的。 1990年,奥利更加陷于孤立无援的境地。在宣称1989年的葡萄酒将成为“世纪佳酿”之 后,数据告诉他1990年的葡萄酒将会更好,而且他也照实说了。现在回头再看,我们可
第1章
导读案例
葡萄酒的品质分析 20世纪80年代后期,奥利开始在半年刊的简报《流动资产》上发 布他的预测数据。最初有600多人开始订阅。这些订阅者的分布很广, 包括很多百万富翁以及痴迷葡萄酒的人——这是一些可以接受计量方法的葡萄酒收集爱 好者。但与每年花30美元来订阅简报《葡萄酒爱好者》的30 000人相比,《流动资产》 的订阅人数确实少得可怜。 20世纪90年代初期,《纽约时报》在头版头条登出了奥利的最新预测数据,这使得更多 人了解了他的思想。奥利公开批判了帕克对1986年波尔多葡萄酒的估价。帕克对1986年 波尔多葡萄酒的评价是“品质一流,甚至非常出色”。但是奥利不这么认为,他认为由 于生产期内过低的平均气温以及收获期过多的雨水,这一年葡萄酒的品质注定平平。
起。指责奥利的人仍然把他的思想看作是异端邪说,因为他试图把葡萄酒 的世界看得更清楚。他从不使用华丽的辞藻和毫无意义的术语,而是直接 说出预测的依据。
第1章
导读案例
葡萄酒的品质分析 整个葡萄酒产业毫不妥协不仅仅是在做表面文章。“葡萄酒经销 商及专栏作家只是不希望公众知道奥利所做出的预测。”凯泽说, “这一点从1986年的葡萄酒就已经显现出来了。奥利说品酒师们的评级是骗人的,因为 那一年的气候对于葡萄的生长来说非常不利,雨水泛滥,气温也不够高。但是当时所有 的专栏作家都言辞激烈地坚持认为那一年的酒会是好酒。事实证明奥利是对的,但是正 确的观点不一定总是受欢迎的。”
第1章
导读案例
葡萄酒的品质分析 葡萄酒经销商和专栏评论家们都能够从维持自己在葡萄酒品质方 面的信息垄断者地位中受益。葡萄酒经销商利用长期高估的最初评 级来稳定葡萄酒价格。《葡萄酒观察家》和《葡萄酒爱好者》能否保持葡萄酒品质的仲 裁者地位,决定着上百万资金的生死。很多人要谋生,就只能依赖于喝酒的人不相信这 个方程式。 也有迹象表明事情正在发生变化。伦敦克里斯蒂拍卖行国际酒品部主席迈克尔·布罗德本
美国斯隆数字巡天望远镜
1.1.1 天文学——信息爆炸的起源
斯隆数字巡天使用阿帕奇山顶天文台的2.5米口径望远镜,计划观测25%的天空,获取超 过一百万个天体的多色测光资料和光谱数据。2006年,斯隆数字巡天进入名为SDSS-II的 新阶段,进一步探索银河系的结构和组成,而斯隆超新星巡天计划搜寻超新星爆发,以 测量宇宙学尺度上的距离。不过人们认为,在智利帕穹山顶峰LSST天文台投入使用的大
第1章 大数据基础
第1章
导读案例
葡萄酒的品质分析 奥利·阿什菲尔特是普林斯顿大学的一位经济学家,他的日常工作 就是琢磨数据,利用统计学,他从大量的数据资料中提取出隐藏在数 据背后的信息。奥利非常喜欢喝葡萄酒,他说:“当上好的红葡萄酒有了一定的年份时, 就会发生一些非常神奇的事情。”当然,奥利指的不仅仅是葡萄酒的口感,还有隐藏在 葡萄酒背后的力量。 “每次你买到上好的红葡萄酒时,”他说,“其实就是在进行投资,因为这瓶酒以后很 有可能会变得更好。重要的不是它现在值多少钱,而是将来值多少钱——即使你并不打 算卖掉它,而是喝掉它。如果你想知道把从当前消费中得到的愉悦推迟,将来能从中得 到多少愉悦,那么这将是一个永远也讨论不完的、吸引人的话题。”关于这个话题,奥 利已研究了25年。
第1章
导读案例
葡萄酒的品质分析 当然,奥利对1989年波尔多葡萄酒的预测才是这篇文章中真正让 人吃惊的地方,尽管当时这些酒在木桶里仅仅放置了3个月,还从未 被品酒师品尝过,奥利预测这些酒将成为“世纪佳酿”。他保证这些酒的品质将会“令 人震惊地一流”。根据他自己的评级,如果1961年的波尔多葡萄酒评级为100的话,那么 1989年的葡萄酒将会达到149。奥利甚至大胆地预测,这些酒“能够卖出过去35年中所生
天文学领域发生的变化在社会各个领域都在发生。2003年,人类第一次破译人体基因密 码的时候,辛苦工作了十年才完成三十亿对碱基对的排序。大约十年之后,世界范围内 的基因仪每15分钟就可以完成同样的工作。在金融领域,美国股市每天的成交量高达70 亿股,而其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成 的,这些程序运用海量数据来预测利益和降低风险。
1.1.2 信息爆炸的社会
互联网公司更是被数据淹没了。谷歌公司每天要处理超过24拍字节(PB,250字节)的数 据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千 倍。脸书这个创立不过十来年的公司,每天更新的照片量超过1 000万张,每天人们在网 站上点击“喜欢”(Like)按钮或者写评论大约有三十亿次,这就为脸书挖掘用户喜好提 供了大量的数据线索。与此同时,谷歌的子公司YouTube是世界上最大的视频网站,它每 月接待多达8亿的访客,平均每一秒钟就会有一段长度在一小时以上的视频上传。推特是 美国的一家社交网络及微博客服务的网站,是互联网上访问 量最大的十个网站之一,其消息也被称作“推文”,它被形 容为“互联网的短信服务”。推特上的信息量几乎每年翻一 番,每天都会发布超过4亿条微博。
干燥,越容易生产出品质一流的葡萄酒。熟透的葡萄能生产出口感柔润( 即低敏度)的葡萄酒,而汁液高度浓缩的葡萄能够生产出醇厚的葡萄酒。
ቤተ መጻሕፍቲ ባይዱ1章
导读案例
葡萄酒的品质分析 奥利把这个关于葡萄酒的理论简化为下面的方程式: 葡萄酒的品质 = 12.145 + 0.00117 × 冬天降雨量 + 0.0614
× 葡萄生长期平均气温 - 0.00386 × 收获季节降雨量 正如彼得·帕塞尔在《纽约时报》中报告的那样,奥利给出的统计方程与实际高度吻合。 把任何年份的气候数据代入上面这个式子,就能够预测出任意一种葡萄酒的平均品质。 如果把这个式子变得再稍微复杂精巧一些,奥利还能更精确地预测出100多个酒庄的葡萄
导读案例
葡萄酒的品质分析 像帕克这样的评酒专家需要在桶装4个月以后才能第一次品尝,这 个阶段的葡萄酒还只是臭臭的、发酵的葡萄而已。不知道此时这种无 法下咽的“酒”是否能够使品尝者得出关于酒的品质的准确信息。例如,巴特菲德拍卖 行酒品部的前经理布鲁斯·凯泽曾经说过:“发酵初期的葡萄酒变化非常快,没有人,我 是说不可能有人,能够通过品尝来准确地评估酒的好坏。至少要放上10年,甚至更久。” 与之形成鲜明对比的是,奥利从对数字的分析中能够得出气候与酒价之间的关系。他发 现冬季降雨量每增加1毫米,酒价就有可能提高0.001 17美元。当然,这只是“有可能” 而已。不过,对数据的分析使奥利可以在葡萄酒的未来品质——这是品酒师有机会尝到 第一口酒的数月之前,更是在葡萄酒卖出的数年之前。在葡萄酒期货交易活跃的今天, 奥利的预测能够给葡萄酒收集者极大的帮助。
第1章
导读案例
葡萄酒的品质分析 奥利花费心思研究的一个问题是,如何通过数字来评估波尔多葡 萄酒的品质。与品酒专家通常所使用的“品咂并吐掉”的方法不同, 奥利用数字指标来判断能拍出高价的酒所应该具有的品质特征。
法国波尔多葡萄园
第1章
导读案例
葡萄酒的品质分析 “其实很简单,”他说,“酒是一种农产品,每年都会受到气候 条件的强烈影响。”因此,奥利采集了法国波尔多地区的气候数据 加以研究,他发现如果收割季节干旱少雨且整个夏季的平均气温较高,该年份就容易生 产出品质上乘的葡萄酒。 当葡萄熟透、汁液高度浓缩时,波尔多葡萄酒是最好的。夏季特别炎热的年份,葡萄很 容易熟透,酸度就会降低。炎热少雨的年份,葡萄汁也会高度浓缩。因此,天气越炎热
1.1 什么是大数据
信息社会所带来的好处是显而易见的:每个人口袋里都揣着一部手机,每台办公桌上都 放着一台电脑,每间办公室内都连接到局域网或者互联网。半个世纪以来,随着计算机 技术全面和深度地融入社会生活,信息爆炸已经积累到了一个引发变革的程度。它不仅 使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了 信息形态的变化——量变引起了质变。
1.1 什么是大数据
1.1.1
天文学—— 信息爆炸的起源
1.1.2
信息爆炸的 社会
1.1.3 大数据的发展
1.1.4
大数据作为BI的 进化形式
半个世纪以来,随着计算机技术 全面和深度地融入社会生活,信 息爆炸已经积累到了一个引发变 革的程度。
1.1.1 天文学——信息爆炸的起源
综合观察社会各个方面的变化趋势,我们能真正意识到信息爆炸或者说大数据时代已经 到来。以天文学为例,2000年斯隆数字巡天项目(SDSS)启动的时候,位于美国新墨西 哥州的望远镜在短短几周内收集到的数据,就比世界天文学历史上总共收集的数据还要 多。到了2010年,信息档案已经高达1.4×242字节。
1.1.1 天文学——信息爆炸的起源
LSST望远镜的镜头拍摄的一张照片将需要1500块高清电视屏才能充分展示出来,其一年 的观测数据将达到600万GB的存储空间。这个数据量相当于用一款800万像素的数码相机 每天拍摄80万张照片,连续拍摄一整年。未来,LSST望远镜将绘制数百亿恒星的分布, 为科学家提供最佳的光学照片,以前所未有的细节拍摄深空天体图像。科学家能够据此 研究星系的形成、追踪潜在威胁的小行星、观测 恒星爆炸,研究暗物质和暗能量等。
天体图像
1.1.1 天文学——信息爆炸的起源
LSST有一个很特别的地方,那就是世界上任何一个有电脑的人都可以使用它,这和以前 的科学专业设备不同。LSST数据的开放,意味着大家都有机会与科学家分享令人兴奋的 探索旅程。LSST可以帮助我们解开宇宙的谜团,对于科学研究具有划时代的重大意义。
1.1.2 信息爆炸的社会
以发现当时《流动资产》的预测惊人地准确。1989年的葡萄酒确实是难得 的佳酿,而1990年的也确实更好。
第1章
导读案例
葡萄酒的品质分析 怎么可能在连续两年中生产出两种“世纪佳酿”呢?事实上, 自1986年以来,每年葡萄生长期的气温都高于平均水平。法国的天 气连续20多年温暖和煦。对于葡萄酒爱好者们而言,这显然是生产柔润的波尔多葡萄酒 的最适宜的时期。 传统的评酒专家们现在才开始更多地关注天气因素。尽管他们当中很多人从未公开承认 奥利的预测,但他们自己的预测也开始越来越密切地与奥利那个简单的方程式联系在一
特委婉地说:“很多人认为奥利是个怪人,我也认为他在很多方面的确很 怪。但是我发现,他的思想和工作会在多年后依然留下光辉的痕迹。他所 做的努力对于打算买酒的人来说非常有帮助。”
目录
1
什么是大数据
2
大数据的定义
3
大数据的结构类型
4
大数据应用改变生活
5
大数据准备度自我评分表
PART 01
1.1
什么是大数据
酒品质。他承认“这看起来有点太数字化了”,“但这恰恰是法国人把他 们葡萄酒庄园排成著名的1855个等级时所使用的方法”。
第1章
导读案例
葡萄酒的品质分析
然而,当时传统的评酒专家并未接受奥利利用数据预测葡萄酒品
质的做法。英国的《葡萄酒》杂志认为,“这条公式显然是很可笑
的,我们无法重视它。”纽约葡萄酒商人威廉姆·萨科林认为,从波尔多葡萄酒产业的角 度来看,奥利的做法“介于极端和滑稽可笑之间”。因此,奥利常常被业界人士取笑。
型视场全景巡天望远镜(LSST)五天之内就能获 得同样多的信息。
智利帕穹山顶峰的LSST全景巡天望远镜
1.1.1 天文学——信息爆炸的起源
LSST巡天望远镜于2015年开始建造,重3吨,32亿像素,它将由189个传感器和接近3吨重 的零部件组装完成,可以捕捉半个地球。根据该项目建设的时间表,它将在2020年第一 次启动,2022年到2023年开始运行。