应用统计学课件(书摘)
合集下载
应用统计学PPT课件
30.07.2020
15
数据计量
定距尺度是对现象类别或次序之间间距的测度。定距尺度不 但可以用数表示现象各类别的不同和顺序大小的差异,而且 可以用确切的数值反映现象之间在量方面的差异。定距尺度 使用的计量单位一般为实物单位(自然或物理)或者价值单 位。定距尺度的主要数学特征是“+”或“–”。统计中的总 量指标就是运用定距尺度计量的。
定比尺度是在定距尺度的基础上,确定相应的比较基数,然 后将两种相关的数加以对比而形成相对数(或平均数),用于 反映现象的结构、比重、速度、密度等数量关系。例如,将 一个企业创造的增加值与该企业的职工人数对比,计算全员 劳动生产率,以此反映该企业的生产效率。定比尺度的主要 数学特征是“×”或“÷”。
数据计量:定类、定序,定距、定比。 定类尺度是按照客观现象的某种属性对其进行分
类。例如,人口按性别分为男女,用“1” 表示男 性,用“0” 表示女性。定类尺度的主要数学特征 是“=”或“≠”。 定序尺度是对客观现象各类之间的等级差或顺序 差的一种测度。例如,学生成绩可以分为优、良、 中、及格和不及格等五类。定序尺度的主要数学 特征是“<”或“>”。
30.07.2020
在在在
应用统计学
理抽终 性象极 的的的
基意分
础义析
上下中
,,,
所一一
有切切
的都知
判是识
断科都
C.R.
都学是
是数历
劳 统学史
计
学
1
整体概述
概况一
点击此处输入相关文本内容 点击此处输入相关文本内容
概况二
点击此处输入相关文本内容 点击此处输入相关文本内容
概况三
点击此处输入相关文本内容 点击此处输入相关文本内容
应用统计学(ppt 23页)
称X与Y,若相互独立。
(4)离散随机变量的数学期望E(X)与方差D(X)
数学期望(均值)代表了X 概率分布的集中趋势,是重要的 数字特征。公式为
E( X ) pi xi
i
数学期望E(X)的性质: E(C) = C,C为常数;E(CX) = C E(X);E(XY) = E(X) E(Y) ; 若X与Y相互独立,则 E(XY) = E(X) E(Y)
两点分布X的均值E(X) = p;二项分布X的均值E(X) = np; Poisson分布X的均值E(X) = t;几何分布X的均值E(X) =1/p
方差描述了X 概率分布的离散状况,即偏离均值的程度。公式为 D(X) = E(X-E(X))2 = E(X2) – (E(X))2
方差D(X)的性质: D(C) = 0,C为常数;D(CX) = C2 D(X); 若X与Y相互独立,则D(XY) = D(X) D(Y)
• 两点分布(贝努里分布,或(0,1)分布) 分布律:P{X=1}= p,P{X=0}= q =1- p
分布函数:
F(x)
0 x 0 F(x) q 0 x 1
1 q
1 x 1
-1
0
1
x
• 二项分布(n重贝努里分布)B(n, p):相互独立n次贝努里试验中 事件A出现的次数 分布律: B(n, p) P( X k) Cnk pk qnk
一、基本概念
1、随机试验与随机事件
必然现象
确定性现象
现象
不可能现象
随机性现象
概率论研究的对象,研 究其内在的客观规律。
随机试验
① 可在相同条件下重复进行 ② 试验的所有可能结果已知,且不止一个结果。 ③ 每次试验出现一个且仅一个结果,结果不能够预
(4)离散随机变量的数学期望E(X)与方差D(X)
数学期望(均值)代表了X 概率分布的集中趋势,是重要的 数字特征。公式为
E( X ) pi xi
i
数学期望E(X)的性质: E(C) = C,C为常数;E(CX) = C E(X);E(XY) = E(X) E(Y) ; 若X与Y相互独立,则 E(XY) = E(X) E(Y)
两点分布X的均值E(X) = p;二项分布X的均值E(X) = np; Poisson分布X的均值E(X) = t;几何分布X的均值E(X) =1/p
方差描述了X 概率分布的离散状况,即偏离均值的程度。公式为 D(X) = E(X-E(X))2 = E(X2) – (E(X))2
方差D(X)的性质: D(C) = 0,C为常数;D(CX) = C2 D(X); 若X与Y相互独立,则D(XY) = D(X) D(Y)
• 两点分布(贝努里分布,或(0,1)分布) 分布律:P{X=1}= p,P{X=0}= q =1- p
分布函数:
F(x)
0 x 0 F(x) q 0 x 1
1 q
1 x 1
-1
0
1
x
• 二项分布(n重贝努里分布)B(n, p):相互独立n次贝努里试验中 事件A出现的次数 分布律: B(n, p) P( X k) Cnk pk qnk
一、基本概念
1、随机试验与随机事件
必然现象
确定性现象
现象
不可能现象
随机性现象
概率论研究的对象,研 究其内在的客观规律。
随机试验
① 可在相同条件下重复进行 ② 试验的所有可能结果已知,且不止一个结果。 ③ 每次试验出现一个且仅一个结果,结果不能够预
应用统计学ppt课件
定比尺度是在定距尺度的基础上,确定相应的比较基数,然 后将两种相关的数加以对比而形成相对数(或平均数),用于 反映现象的结构、比重、速度、密度等数量关系。例如,将 一个企业创造的增加值与该企业的职工人数对比,计算全员 劳动生产率,以此反映该企业的生产效率。定比尺度的主要 数学特征是“×”或“÷”。
类。例如,人口按性别分为男女,用“1” 表示男性 ,用“0” 表示女性。定类尺度的主要数学特征是 “=”或“≠”。 定序尺度是对客观现象各类之间的等级差或顺序 差的一种测度。例如,学生成绩可以分为优、良 、中、及格和不及格等五类。定序尺度的主要数 学特征是“<”或“>”。
2020/4/8
14
数据计量
3
无处不在的统计(续)
大仲马的作品多曲折感人,而他又多私生子。取笑讥 讽他的人,往往把他的作品比作他的私生子。最使他 头痛的是巴黎统计学会的秘书长李昂纳,这人是大仲 马的朋友,每次举统计数字的例子,总是说大仲马的 情妇和私生子有多少。有一年该统计学会开年会,大 仲马估计,李昂纳又要大放厥词,说他的坏话了。于 是他请求参加年会,获得了批准。果然不出大仲马所 料,李昂纳又举他的情妇和私生子的例子。李昂纳报 告完毕,请大仲马致词。一向不愿在大庭广众之下发 表演讲的大仲马,这次却破例登台说: “所有统计 数字都是撒谎的,包括有关本人的数字在内” 。听 众哄堂大笑。
哈方们推实的统
克
式 。
对 这
理 和
或 技
世 界
计 学
英 个试术,家
世验,不们
11
一、统计涵义
Statistics: (1)Numeric data, when used as plural of
statistic. (2)A scientific procedure used in the study and
类。例如,人口按性别分为男女,用“1” 表示男性 ,用“0” 表示女性。定类尺度的主要数学特征是 “=”或“≠”。 定序尺度是对客观现象各类之间的等级差或顺序 差的一种测度。例如,学生成绩可以分为优、良 、中、及格和不及格等五类。定序尺度的主要数 学特征是“<”或“>”。
2020/4/8
14
数据计量
3
无处不在的统计(续)
大仲马的作品多曲折感人,而他又多私生子。取笑讥 讽他的人,往往把他的作品比作他的私生子。最使他 头痛的是巴黎统计学会的秘书长李昂纳,这人是大仲 马的朋友,每次举统计数字的例子,总是说大仲马的 情妇和私生子有多少。有一年该统计学会开年会,大 仲马估计,李昂纳又要大放厥词,说他的坏话了。于 是他请求参加年会,获得了批准。果然不出大仲马所 料,李昂纳又举他的情妇和私生子的例子。李昂纳报 告完毕,请大仲马致词。一向不愿在大庭广众之下发 表演讲的大仲马,这次却破例登台说: “所有统计 数字都是撒谎的,包括有关本人的数字在内” 。听 众哄堂大笑。
哈方们推实的统
克
式 。
对 这
理 和
或 技
世 界
计 学
英 个试术,家
世验,不们
11
一、统计涵义
Statistics: (1)Numeric data, when used as plural of
statistic. (2)A scientific procedure used in the study and
应用统计学6124页PPT
时点数列
相对数动态数列 平均数动态数列
由两个时期数列对比而成的 相对数动态数列
由两个时点数列对比而成的 相对数动态数列
由一个时期数列和一个时点 数列对比形成的相对数时间 数列
静态平均数动态数列
动态平均数动态数列
9
(一)总量指标(绝对数)动态数列 • 总量指标时间数列是指将反映某种社会经济现象
的一系列总量指标按时间的先后顺序排列而形成 的数列。总量指标动态数列反映了社会经济现象 总量在各个时期所达到的绝对水平及其发展变化 过程。 1、时期数列。是指由时期总量指标编制而成的动 态数列。在时期数列中,每个指标都反映某社会 经济现象在一定时期内发展过程的总量。
21
22
(三)平均数动态数列 由一系列同类平均指标按照时间的先后顺序排列而
成的动态数列。反映的是社会经济现象一般水平的 发展过程及其变动趋势。如表6-5所列的我国历年 来职工平均工资情况,就是一个平均数动态数列。
23
2000-2019年度全国城镇在岗职工平 均工资(元)
2000 2019 2019 2019 2019 2019 2019 2019 2019
34
• 序时平均数可以对总量指标动态数列进行计算,也 可以对相对指标或平均指标动态数列进行计算.总 量指标序时平均数是最基本的.因为相对指标和平 均指标都是有总量指标动态数列派生出来的.因此 总量指标序时平均数的计算是解决其他两个序时 平均数计算的关键.
35
• 由总量指标动态数列计算序时平均数
1、由时期数列计算序时平均数
例如:表6-3所列的我国历年年末职工人数情况, 就是一个时点数列。
13
时点数列的特点: (l)时点数列中的每一个指标数值,都表示社会经济现象在某
相对数动态数列 平均数动态数列
由两个时期数列对比而成的 相对数动态数列
由两个时点数列对比而成的 相对数动态数列
由一个时期数列和一个时点 数列对比形成的相对数时间 数列
静态平均数动态数列
动态平均数动态数列
9
(一)总量指标(绝对数)动态数列 • 总量指标时间数列是指将反映某种社会经济现象
的一系列总量指标按时间的先后顺序排列而形成 的数列。总量指标动态数列反映了社会经济现象 总量在各个时期所达到的绝对水平及其发展变化 过程。 1、时期数列。是指由时期总量指标编制而成的动 态数列。在时期数列中,每个指标都反映某社会 经济现象在一定时期内发展过程的总量。
21
22
(三)平均数动态数列 由一系列同类平均指标按照时间的先后顺序排列而
成的动态数列。反映的是社会经济现象一般水平的 发展过程及其变动趋势。如表6-5所列的我国历年 来职工平均工资情况,就是一个平均数动态数列。
23
2000-2019年度全国城镇在岗职工平 均工资(元)
2000 2019 2019 2019 2019 2019 2019 2019 2019
34
• 序时平均数可以对总量指标动态数列进行计算,也 可以对相对指标或平均指标动态数列进行计算.总 量指标序时平均数是最基本的.因为相对指标和平 均指标都是有总量指标动态数列派生出来的.因此 总量指标序时平均数的计算是解决其他两个序时 平均数计算的关键.
35
• 由总量指标动态数列计算序时平均数
1、由时期数列计算序时平均数
例如:表6-3所列的我国历年年末职工人数情况, 就是一个时点数列。
13
时点数列的特点: (l)时点数列中的每一个指标数值,都表示社会经济现象在某
《应用统计学概述》课件
ቤተ መጻሕፍቲ ባይዱ
时间序列的预测方法
01
线性回归模型
基于历史数据建立线性回归模型,预测未来趋势。常用的线性回归模型
有简单线性回归和多元线性回归。
02
指数平滑模型
利用历史数据进行指数平滑处理,预测未来趋势。常用的指数平滑模型
有简单指数平滑和Holt-Winters指数平滑。
03
ARIMA模型
基于时间序列数据的自相关性和季节性特征,建立ARIMA模型进行预
02
在科学研究、工程、医学等领域,统计学是进行实验设计、数
据分析和结果解释的重要工具。
统计学在金融、经济、社会等领域也具有广泛应用,用于风险
03
评估、市场预测和政策制定等方面。
02
统计学基本概念
总体与样本
总体
统计学中研究的全部数据,代表某一 特定研究对象的全体。
样本
从总体中选取的一部分数据,用于推 断总体的特征和规律。
应用统计学概述
目录 CONTENT
• 统计学简介 • 统计学基本概念 • 描述性统计学 • 推论性统计学 • 统计推断方法 • 回归分析 • 时间序列分析与预测 • 统计决策理论
01
统计学简介
统计学的定义
统计学是一门研究数据收集、整理、 分析和推断的科学,旨在从数据中获 取有用的信息和知识。
它涉及到各种方法和技术,包括描述 性统计、推论统计、贝叶斯统计等, 用于解决各种实际问题。
一元线性回归是用来研究一个因变量与一个 自变量之间线性关系的回归分析方法。
详细描述
一元线性回归通过建立线性方程来描述两个 变量之间的关系,并利用最小二乘法来估计 回归系数。这种方法主要用于预测和解释一
个因变量由一个自变量引起的变化。
时间序列的预测方法
01
线性回归模型
基于历史数据建立线性回归模型,预测未来趋势。常用的线性回归模型
有简单线性回归和多元线性回归。
02
指数平滑模型
利用历史数据进行指数平滑处理,预测未来趋势。常用的指数平滑模型
有简单指数平滑和Holt-Winters指数平滑。
03
ARIMA模型
基于时间序列数据的自相关性和季节性特征,建立ARIMA模型进行预
02
在科学研究、工程、医学等领域,统计学是进行实验设计、数
据分析和结果解释的重要工具。
统计学在金融、经济、社会等领域也具有广泛应用,用于风险
03
评估、市场预测和政策制定等方面。
02
统计学基本概念
总体与样本
总体
统计学中研究的全部数据,代表某一 特定研究对象的全体。
样本
从总体中选取的一部分数据,用于推 断总体的特征和规律。
应用统计学概述
目录 CONTENT
• 统计学简介 • 统计学基本概念 • 描述性统计学 • 推论性统计学 • 统计推断方法 • 回归分析 • 时间序列分析与预测 • 统计决策理论
01
统计学简介
统计学的定义
统计学是一门研究数据收集、整理、 分析和推断的科学,旨在从数据中获 取有用的信息和知识。
它涉及到各种方法和技术,包括描述 性统计、推论统计、贝叶斯统计等, 用于解决各种实际问题。
一元线性回归是用来研究一个因变量与一个 自变量之间线性关系的回归分析方法。
详细描述
一元线性回归通过建立线性方程来描述两个 变量之间的关系,并利用最小二乘法来估计 回归系数。这种方法主要用于预测和解释一
个因变量由一个自变量引起的变化。
应用统计学课件-ch0304
四、数据资料的关联分析和审核评估能力
关联分析是指关联行业、关联产业、关联指标 是否匹配的分析。 审核评估是指对数据来源是否可靠、数据是否 准确、系统的分析。不仅要关注指标之间、统 计报表内的逻辑关系平衡,还要搞清楚数据的 来龙去脉、搞清楚数据增减变动的原因、搞清 楚数据的涵义、口径等制度规定。
五、统计数据表示能力
三、分组标志(分组标准)
1、概念:即分组的依据 2、选择: (1)根据统计研究的目的选择 (2)选择具有本质性的重要标志 (3)结合现象所处的具体条件
四、统计分组的种类
(一)按分组标志的性质不同分
1、按品质标志分组:形成品质分布数列
如:学生按性别分组,企业按所有制性质分组等
2、按数量标志分组:形成变量数列
商品广告
某城市居民关注不同类型广告的人数构成56.0%
第五节 统计表
某城市居民关注广告类型的频数分布表
广告类型
人数(人) 比例
频率(%)
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告
合计
112
0.560
51
0.255
9
0.045
16
0.080
10
0.050
2
0.010
200
1.000
例:
全民所有制企业 企业 集体所有制企业
其他经济类型
大型
中型 小型 大型 中型 小型 大型 中型 小型
在复合分组方法下形成复合分组体系
五、统计分组的方法
(一)按品质标志分组
1、选择品质标志作为分组标志 2、确定组数并表示出各组(根据品质标志的具体表现) 3、把各单位归入相应的组汇总出各组的单位数(次数)
应用统计学讲义122页PPT
1、不要轻言放弃,否则对不起自己。
2、要冒一次险!整个生命就是一场冒险。走得最远的人,常是愿意 去做,并愿意去冒险的人。“稳妥”之船,从未能从岸边走远。-戴尔.卡耐基。
梦 境
3、人生就像一杯没有加糖的咖啡,喝起来是苦涩的,回味起来却有 久久不会退去的余香。
应用统计学讲义 4、守业的最好办法就是不断的发展。 5、当爱不能完美,我宁愿选择无悔,不管来生多么美丽,我
41、学问是异常珍贵的东西,从任何源泉吸 收都不可耻。——阿卜·日·法拉兹
42、只有在人群中间,才能认识自 己。——德国
43、重复别人所说的话,只需要教育; 而要挑战别人所说的话,则需要头脑。—— 玛丽·佩蒂博恩·普尔
44、卓越的人一大优点是:在不利与艰 难的遭遇里百折不饶。——贝多芬
45、自己的饭量自己知道。——苏联
2、要冒一次险!整个生命就是一场冒险。走得最远的人,常是愿意 去做,并愿意去冒险的人。“稳妥”之船,从未能从岸边走远。-戴尔.卡耐基。
梦 境
3、人生就像一杯没有加糖的咖啡,喝起来是苦涩的,回味起来却有 久久不会退去的余香。
应用统计学讲义 4、守业的最好办法就是不断的发展。 5、当爱不能完美,我宁愿选择无悔,不管来生多么美丽,我
41、学问是异常珍贵的东西,从任何源泉吸 收都不可耻。——阿卜·日·法拉兹
42、只有在人群中间,才能认识自 己。——德国
43、重复别人所说的话,只需要教育; 而要挑战别人所说的话,则需要头脑。—— 玛丽·佩蒂博恩·普尔
44、卓越的人一大优点是:在不利与艰 难的遭遇里百折不饶。——贝多芬
45、自己的饭量自己知道。——苏联
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二部分 大数据时代的商业变革
第二部分 大数据时代的商业变革
CH04 数据化:一切皆可 “量化”
CH04 数据化:一切皆可 “量化” • 莫里的导航图,大数据的最早实践之一
CH04 数据化:一切皆可 “量化” • 数据,从最不可能的地方提取出来 • 故事:日本先进工业技术研究所的坐姿研 究与汽车防盗系统
CH03 更好:不是因果关系,而是相关关系 • 大数据,改变人类探索世界的方法
• 观点:就是因为不受限于传统的思维模式和特定领域里
隐含的固 因为不受限于传统的思维模式和特定领域里隐 含的固有偏见,大数据才能为我们提供如此多新的深刻洞 见。 • 观点:大数据时代将要释放出的巨大价值使得我们选择大 数据的理念和方法不再是一种权 大数据时代将要释放出 的巨大价值使得我们选择大数据的理念和方法不再是一种 权衡,而是通往未来的必然改变。
• 故事: Hadoop与VISA的13分钟(p63) • 观点:【大数据洞察】大数据要求我们有所改变, 我们必须能够接受混乱和不确定性。精确性似乎 一直是我们生活的支撑,就像我们常说的“钉是 钉,铆是铆”。但认为每个问题只有一个答案的 想法是站不住脚的,不管我们承不承认。一旦我 们承认了这个事实甚至拥护这个事实的话,我们 离真相就又近了一步。
• 故事: UPS与汽车修理预测(p79)
• 观点:当收集、存储和分析数据的成本比较高的时候,应 该适当地丢弃一些数据。
CH03 更好:不是因果关系,而是相关关系 • “是什么”,而不是 “为什么”
• 观点:【大数据先锋】幸福的非线性关系 • 多年来,经济学家和政治家一直错误地认为收入水平和幸 福感是成正比的。我们从数据图表上可以看到,虽然统计 工具呈现的是一种线性关系,但事实上,它们之间存在一 种更复杂的动态关系:对于收入水平在1万美元以下的人 来说,一旦收入增加,幸福感会随之提升;但对于收入水 平在1万美元以上的人来说,幸福感并不会随着收入水平 提高而提升。如果能发现这层关系,我们看到的就应该是 一条曲线,而不是统计工具分析出来的直线。
• 大数据,开启重大的时代转型
• 故事:天文学,信息爆炸的起源(p10) • 小知识:KB->MB->GB->TB->PB->EB-> ZB->YB->BB->
引言 一场生活、工作与思维的大变革
• 预测,大数据的核心
• 观点:在不久的将来,世界许多现在单纯 依靠人类判断力的领域都会被计算机系统 所改变甚至取代。
引言 一场生活、工作与思维的大变革
• 大数据,大挑战 • 三个转变: • 第一个转变就是,在大数据时代,我们可 以分析更多的数据,有时候甚至可以处理 和 第一个转变就是,在大数据时代,我们 可以分析更多的数据,有时候甚至可以处 理和某个特别现象相关的所有数据,而不 再依赖于随机采样。这部分内容将在第1章 阐述。
CH01 更多:不是随机样本,而是全体数据 • 小数据时代的随机采样,最少的数据获得 最多的信息 • 故事:大数据与乔布斯的癌症治疗(p36) • 观点:随机采样取得了巨大的成功,成为 现代社会、现代测量领域的主心骨。但这 只是一条捷径,是在不可收集和分析全部 数据的情况下的选择,它本身存在许多固 有的缺陷。
• 【大数据先锋】
• IBM,电动汽车动力与电力供应系统优化预测
• • • • • •
Hitwise,通过流量判断消费者喜好 亚马逊,让数据的价值再大一点 移动运营商与数据再利用 谷歌街景与GPS采集 微软与谷歌的拼写检查 谷歌,从大的“噪音”数据中受益
第二部分 大数据时代的商业变革
CH06 角色定位:数据、技术与思 维的三足鼎立
第一部分 大数据时代的思维变革
CH03 更好:不是因果关系,而是 相关关系
CH03 更好:不是因果关系,而是相关关系 • 林登与亚马逊推荐系统
• 观点:知道人们为什么对这些信息感兴趣可能是 有用的,但这个问题目前并不是很重要。但是, 知道 知道“是什么 是什么”可以创造点击率,这 种洞察力足以重塑很多行业,不仅仅只是电子商 可以创造点击率,这种洞察力足以重塑很多行业, 不仅仅只是电子商务。
引言 一场生活、工作与思维的大变革
• 大数据,变革思维
• 文摘:【大数据洞察】事实上,一旦思维 转变过来,数据就能被巧妙地用来激发新 产品和新型服务。 • 文摘:大数据是人们获得新的认知、创造 新的价值的源泉;大数据还是改变市场、 组织机构,以及政府与公民关系的方法。
引言 一场生活、工作与思维的大变革
CH03 更好:不是因果关系,而是相关关系 • 关联物,预测的关键
• 故事:沃尔玛,请把蛋挞与飓风用品摆在一起 (p73)
• 观点:【大数据洞察】相关关系的核心是量化两个数据值 之间的数理关系。相关关系强是指当一个数据值增加时, 另一个数据值很有可能也会随之增加。我们已经看到过这 种很强的相关关系,比如谷歌流感趋势:在一个特定的地 理位置,越多的人通过谷歌搜索特定的词条,该地区就有 更多的人患了流感。相反,相关关系弱就意味着当一个数 据值增加时,另一个数据值几乎不会发生变化。例如,我 们可以寻找关于个人的鞋码和幸福的相关关系,但会发现 它们几乎扯不上什么关系。
CH03 更好:不是因果关系,而是相关关系 • 关联物,预测的关键
• 故事:沃尔玛,请把蛋挞与飓风用品摆在一起 (p73)
• 观点:【大数据洞察】相关关系的核心是量化两个数据值 之间的数理关系。相关关系强是指当一个数据值增加时, 另一个数据值很有可能也会随之增加。我们已经看到过这 种很强的相关关系,比如谷歌流感趋势:在一个特定的地 理位置,越多的人通过谷歌搜索特定的词条,该地区就有 更多的人患了流感。相反,相关关系弱就意味着当一个数 据值增加时,另一个数据值几乎不会发生变化。例如,我 们可以寻找关于个人的鞋码和幸福的相关关系,但会发现 它们几乎扯不上什么关系。
CH04 数据化:一切皆可 “量化” • 数据化,不是数字化 • 量化一切,数据化的核心 • 观点:数字化带来了数据化,但是数 数字 化带来了数据化,但是数字化无法取代数 据化。
CH04 数据化:一切皆可 “量化” • 当文字变成数据 • 当方位变成数据 • 当沟通变成数据
CH04 数据化:一切皆可 “量化” • 世间万物的数据化 • 观点:一旦世界被数据化,就只有你想不 到,而没有信息做不到的事情了。莫里通 过艰辛的人工分析才揭示了隐藏在数据中 的价值,而今天,拥有了数据分析的工具 (统计学和算法)以及必需的设备(信息 处理器和存储器),我们就可以在更多领 域、更快、更大规模地进行数据处理了。 在大数据时代,惊喜无处不在!
CH03 更好:不是因果关系,而是相关关系 • 关联物,预测的关键
• 故事:美国折扣零售商塔吉特与怀孕预测(p77)
• 观点:通过给我们找到一个现象的良好的关联物,相关关 系可以帮助我们捕捉现在和预测未 通过给我们找到一个 现象的良好的关联物,相关关系可以帮助我们捕捉现在和 预测未来。
CH03 更好:不是因果关系,而是相关关系 • 关联物,预测的关键
引言 一场生活、工作与思维的大变革
• 大数据,大挑战 • 三个转变: • 第二个改变就是,研究数据如此之多,以 至于我们不再热衷于追求精确度。 第二个 改变就是,研究数据如此之多,以至于我 们不再热衷于追求精确度。这部分内容将 在第2章阐述。
引言 一场生活、工作与思维的大变革
• 大数据,大挑战 • 三个转变: • 第三个转变因前两个转变而促成,即我们 不再热衷于寻找因果关系。 第三个转变因 前两个转变而促成,即我们不再热衷于寻 找因果关系。这部分内容将在第3章阐述。
CH02 更杂:不是精确性,而是混杂性 • 混杂性,不是竭力避免,而是标准途径
• 观点:要想获 要想获得大规模数据带来的好处, 混乱应该是一种标准途径,而不应该是竭力避免 的。 • 观点:传统的关系数据库是为数据稀缺的时代设 计的,所以能够也需要仔细策划。
CH02 更杂:不是精确性,而是混杂性 • 新的数据库设计的诞生
第一部分 大数据时代的思维变革
第一部分 大数据时代的思维变革 CH01 更多:不是随机样本,而 是全体数据
CH01 更多:不是随机样本,而是全体数据 • 小数据时代的随机采样,最少的数据获得 最多的信息 • 故事:穿孔卡片与美国人口普查(p32) • 观点:统计学家们证明:采样分析的精确 性随着采样随机性的增加而大幅提高,但 与样本数量 采样分析的精确性随着采样随 机性的增加而大幅提高,但与样本数量的 增加关系不大。
引言 一场生活、工作与思维的大变革
引言 一场生活、工作与思维的大变革
• 大数据,变革公共卫生
• 故事:谷歌搜索与流感预测(p2) • 文摘:以一种前所未有的方式,通过对海 量数据进行分析,获得有巨大价值的产品 和服务,或深刻的洞见
引言 一场生活、工作与思维的大变革
• 大数据,变革商业
• 故事:Farecast与飞机票价预测系统(p4) • 文摘:【大数据的力量】到2012年为止, 预测准确度高达75%,平均每张机票可节 省50美元
CH03 更好:不是因果关系,而是相关关系 • 改变,从操作方式开始 改变 • 故事:纽约大型沙井盖爆炸预测
• 观点:【大数据洞察】我们需要改变我们的操作方式,使 用我们能收集到的所有数据,而不仅仅是使用样本。我 • 们不能再把精确性当成重心,我们需要接受混乱和错误的 存在。另外,我们应该侧重于分析相关关系,而不再寻求 每个预测背后的原因。
CH02 更杂:不是精确性,而是混杂性 • 大数据的简单算法比小数据的复杂算法更 有效 • 故事:无所不包的谷歌翻译系统(p53) • 观点:数据多比少好,更多数据比算法系 统更智能还要重要。
CH02 更杂:不是精确性,而是混杂性 • 纷繁的数据越多越好 • 故事:麻省理工与通货紧缩预测软件(p57)
• 观点:【大数据洞察】如今,我们已经生活在信 息时代。我们掌握的数据库越来越全面,它不再 只包括我们手头现象的一点点可怜的数据,而是 包括了与这些现象相关的大量甚至全部数据。我 们不再需要那么担心某个数据点对整套分析的不 利影响。我们要做的就是要接受这些纷繁的数据 并从中受益,而不是以高昂的代价消除所有的不 确定性。