大数据与统计学培训

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据时代的来临,迫使统计学站在一个新的起点上。
❖ 1998年,《科学》杂志刊登的一篇介绍计算机软 件HiQ的文章《大数据的处理程序》中第一次正式使 用了大数据(big data)一词。2008年9月《自然》 杂志出版“big data”专刊。
❖ 最近几年,关于大数据的文献迅速增加,但绝大 多数出于计算机领域的学者之手,较少有基于统计学 视角的深度学术讨论。
源自文库
(二)统计分析方法的发展
❖ 如果说数据是表现事物特征的精确语言、认知世界的 重要工具、治理国家的必备依据和科学研究的必备条 件,那么数据分析则是让数据充分说话、最大限度发 挥功能、有效满足不同需要的根本要求。在科学数据 研究基础上形成的具有通用性质的方法就是统计方法 。
❖ 纵观统计学发展史,统计数据大体上经历了这样一个 过程:只能收集到少量的数据—尽量多地收集数据— 科学利用样本数据—综合利用各类数据—选择使用大 数据,而统计分析经历了不同阶段,相应地产生了大 量观察法、统计分组法、综合指标法、归纳推断法、 模型方程法和数据挖掘法等分析方法,并且借助计算 机及其软件的程度也越来越深。
数的概念及数的基本逻辑关系形成以后,人们将 数的神秘性作为探寻与研究的目标之一,不断建立起 更加完备的、抽象的数的体系。
以数为基础,测量、计量和比较事物就有了精确 表达的语言,这在实践中就表现为量,它是客观事物 所具有的能体现差异程度的一种属性,是事物可以用 数来表现的规定性,包括量的规模、量的关系、量的 变化、量的界限与量的规律。
随着概率论被引入到统计学中,帮助解决了人 口推算、寿命保险、生命表编制、产品质量控制等 诸多比赌博更为复杂的现实问题。
同样,高尔顿通过对遗传学实验数据(甜豌豆 种植的实验数据)以及抽样观察数据(亲子身高的 观察数据),发现了回归现象,发明了在各个领域 得到广泛应用的回归分析法并提出了相关系数的初 步概念(相关指数),奠定了模型方程法的基础, 极大地提高了人们开展统计分析的能力。
科学数据因其所具有的共享性与精确性等特点 而成为了科学研究的普适语言。
在自然科学对数据进行科学研究的同时,社会 科学领域也对数据进行了科学范式的研究,并发现 了例如平均人、恩格尔系数、基尼系数等定律。
就统计学而言,它的产生与发展过程就是对科 学数据进行研究的过程,每一种统计分析方法都是 在对科学数据进行科学研究的基础上形成的。
统计学的发展,是根据数据的型态和问题的本质来改变的 ,不是因为我们会做他背后的数学而发展的。不要因为(统计的 )问题困难而去做它;也不要因为它难而不做。(贺吉士 J.L.Hodges, 1922-2000)
R.C. Rao:统计的分析形式随时代的推移而变化着,但是 “从数据中提取一切信息”或者 “归纳和揭示”作为统计分析 的目的却一直没有改变。
❖ 第三,对于我们所关心的研究主题,可能会受到大 量没有实际意义、实际内容甚至虚假信息的干扰, 让我们面对一堆数据无从下手,大数据变成了大迷 惑,甚至变成了大错误。
❖ 第四,大数据中有很多小数据问题,这些问题并不 会随着数据的增加而消失,反而可能更严重。
二、数据的变化与统计分析方法的发展
(一)数据的变化
戈赛特则利用酿酒公司仅有的小样本实验数据 ,发明了著名的小样本“t”分布理论,推进了推断统 计方法的发展。
费歇尔基于人为的女士品茶的实验数据和达尔 文关于施肥方法影响作物高度的实验数据的研究, 构建了假设检验的基本方法并得到了广泛的应用。
❖ 基于观察数据,统计学产生了误差正态分布和最小 平方法。 对天文观察数据研究而形成的误差正态分布和 最小平方法在统计学中具有极重要的地位。开普勒 的观察数据,经过伽利略、辛普森、拉普拉斯等人 的探求,最终由高斯导出了著名的误差正态分布。 凯特勒等统计学家及时地将拉普拉斯的中心极 限定理与高斯的误差正态理论运用于社会数据的研 究,使正态分布的应用盛行一时。 在误差理论基础上,高斯、勒让德等人发现了 最小平方法,并迅速从天文学和测地学的数据研究 应用扩展到其他领域,尤其是与回归分析相结合后 成为了统计分析最常用的方法,至今仍为主流。 皮尔逊对生物观察数据的研究,形成了皮尔逊 分布族,提出了参数估计矩法,发展了相关分析法。
❖ 大数据的诞生:
20世纪中期开始的生物基因测序研究所积累的大 量数据,面临着如何理解和处理的新挑战。同样的问 题逐渐蔓延到各个学科领域,包括天文学研究,基本 粒子研究,气象学研究和社会学研究等。
1966年,国际科技数据委员会(CODATA)成立, 旨在促进全球科技数据的共享。面对海量数据、快速 增加的数据,人们开始重新审视和定义数据。如果说 计算机技术等的快速发展,是大数据产生的基础因素 ,那么人类对数据理念的深化、对数据多样性的追求 、对信息的永不满足,是大数据产生的内在因素。
大数据与统计学
浙江工商大学 李金昌
❖ 引言

作为归纳分析的科学,统计学可以从亚里士多德的“城邦
政情”算起,但作为一门数据分析的科学则应从配第的《政治
算术》算起。
300多年来,统计学围绕如何收集、整理和分析数据这一主 线而发展,构建起了庞大、多元、融合的应用方法体系,帮助 解决了各个领域大量复杂的现实问题。
近代科学将数据融于自然科学研究范式的实践,不 仅提高了人类认识事物的精确性,更为重要的是其逐步 形成的数学化思维与方程表达式解决了不同物理量之间 的数值关系表达问题,从而为开展相关事物之间的定量 研究提供了途径。
17世纪的自然哲学家开普勒对第谷大量的天文 观察数据的使用,推导出了行星运动三大定律;伽 利略对地球表面物体运动的数据测量建立了自由落 体运动规律;牛顿利用大量的天文观察数据和实验 测量数据,创立了牛顿力学体系。
为了从数量上弄清楚经济运行过程中各部门、
各环节之间的关系,人们研究发明了投入产出分 析法。
为了科学核算经济活动成果,掌握经济总产出
的构成与去向,在经济学原理和科学指标内涵的 基础上,产生和发展了国民经济核算法。
为了掌握物价的综合变动,反映复杂现象的发 展方向,产生了综合指数分析法。
为了掌握社会经济现象变动规律、预测未来发 展趋势,产生了时间序列分析法。
❖ 基于数据的分类,储存数据与管理的方式——数据库 也有两种类型:关系型数据库(SQL接口)和非关系 型数据库(NOSQL接口)。
(三)大数据是不是好数据?
❖ 首先,大数据不会自动产生好的分析结果,不会自 动把隐藏其中的秘密呈现出来,如果数据不完整、 取舍不当或遭受破坏,那么就会产生错误的结论。
❖ 其次,大数据是动态的,具有阶段性特征,同样的 关联词在不同时段可能具有不同的含义,围绕关联 词的话题会随着时间的推移而会发生某些偏离,从 而导致有偏的结论。
❖ 回顾历史可以发现,数据的变化与统计分析方法的 发展呈现高度吻合的关系。有一种观点认为,数据 的变化过程可以分为三大阶段:数据的产生、科学 数据的形成和大数据的诞生。
❖ 数据的产生: 数的产生基于以下三个要素,一是数,二是量,
三是计量单位。 数起源于人类祖先对“多”或“少”的认识,阿拉伯
数字的产生实现了数的抽象性和可计算性。
❖ 配第的《政治算术》和格朗特的《关于死亡表的自然 观察和政治观察》,开启了社会经济现象数据分析的 先河。但他们所能运用的数据资源非常有限,只能算 是最初级形态的数据而非真正意义上的科学数据。
他们的分析方法现在看来十分简单,但在当时非 常了不起,其数据加方法的思想影响至今,特别是他 们所倡导的大量观察法、统计分组法成为了统计学最 基本的研究方法。
在以数来表示事物的特征并采用了科学的计量单 位后,就产生了真正意义上的数据——有根据的数。
❖ 科学数据的形成:
科学数据的形成得益于对数据的科学研究,是在科 学研究过程中基于科学设计、通过有针对的观察和测量 获得的、用以认知自然现象和社会现象的变化规律或用 以验证已有理论假设的数据。
哲学家培根所倡导的“实验观察-归纳分析”的方法思 想和笛卡尔所倡导的数理演绎方法,将数据的使用提高 到了科学方法论的地位,使数据成为了科学研究的基本 要素,并使如何科学收集数据成为了研究课题。
❖ 4V特点:Volume、Velocity、Variety、Value。
❖ 大数据自古有之?
❖ 人类曾经开展过的人口普查、产业普查等数据,是否 属于大数据?
❖ 在计算机技术与网络化未得到充分发展以前,人们自 然难以联想出大数据这个概念。
❖ 从统计学的角度看,大数据不是主要基于人工设计而 获得有限、固定、不连续、不可扩充的结构型数据, 而是主要基于现代信息技术与工具自动记录、储存、 能连续扩充、大大超出传统统计记录与储存能力的一 切类型的数据,最大特征是数字化基础上的数据化。
❖ 大数据除了结构型数据与非结构型数据的分类外, 还可作以下分类:
❖ 如果从大数据产生的途径或渠道来看,大数据可以分 为社交网络数据、人机交换数据和感应数据(机器数 据)。
❖ 如果从功能上看,大数据可以分为交易型数据、流程 型数据和交互型数据。
❖ 需要特别指出的是,网络数据在大数据中占有特殊的 份量,又可分为自媒体数据、日志数据和富媒体数据 三类。从时间维度上,还可以把网络大数据分为以用 户数据、日志数据为代表的历史数据,以及以视频监 控数据和流媒体数据等为代表的流式数据,其中历史 数据蕴含着大量有价值的信息。
一、对大数据的认识
❖ 最早与大数据概念有关的学科:天文学、气象学 和基因学,一开始就依赖于海量数据分析方法。
❖ 但从现代意义上看,大数据可以说是计算机与互 联网相结合的产物,前者实现了数据的数字化,后者 实现了数据的网络化。
❖ 大数据的本意是,所涉及的资料量规模巨大到无 法透过目前主流软件工具,在合理时间内达到撷取、 管理、处理、并整理成为帮助企业经营决策更积极目 的的资讯。
❖ 基于实验数据,统计学产生了概率论、分布理论、 回归分析方法、小样本分布理论和假设检验方法。
众所周知,14世纪欧洲以骰子为工具的赌博非 常盛行,围绕骰子可能出现的情况和赌本分配问题 ,再加上取球、抛掷硬币等实验,帕斯卡、费马、 惠更斯、伯努利、狄莫弗等人共同研究建立了概率 论,发明了大数定律,发现了二项分布与超几何分 布,并为正态分布理论的建立奠定了基础。
(二)如何理解大数据的“数据”
❖ 历史告诉我们,数据的含义是随着人类认识社会与 自然现象的视野的变化、以及认识能力与技术水平 的提升而改变的,经历了从传统运算型数据到现代 数字化数据的变化过程。
❖ 把一切信息都看成数据是当今社会的一个特征,是 一个自然进化的结果。大数据中的数据其实就是一 切可以通过数字化手段记录的信息。
特别是,格朗特通过不完整但足够量的登记数据 初步发现了大数法则,提出了数据简约的概念,通过 推算方法初创了生命表,探讨了数据的可信性问题, 并提出了人口数的推算公式。
没有他们这种将数据与方法相结合的“形”,就不 可能产生统计的“学”。
❖ 随着数据分析意义的显现,以及受到大量观察法的 影响,人们开始尽可能多地收集数据,包括登记数 据、普查数据、测量数据、实验数据和观察数据。 统计学也进入到了科学数据研究阶段。 社会经济领域的数据一般都是登记数据与调查 数据,为了科学表明数据的意义,实现数据表现与 现象内涵的统一,就产生了用统计指标来表现数据 特征的方法,即统计指标法。 随着分工细化、记录数据增加,在社会经济领 域出现了成组、成群相关的数据,以及专门调查获 得的数据(例如人口调查、产业调查等),逐渐产 生了各种运用统计指标体系进行综合分析的方法, 例如综合评价法、主成分分析法、聚类评判法等。
以非结构化数据为主体的大数据,正在改变着一 切,而以大数据为研究对象,通过挖掘、提取等手段 探寻现象内在规律的学科——数据科学也应运而生。
总结:数据产生之初,其根本的功能就是体现 事物或现象的量的大小或多少,便于计数与比较, 数据大多自然获得、被动利用;科学数据以研究与 管理为目的,一般是主动获得、主动利用;而大数 据的特征则是丰富的数据资源与主动获得数据相结 合,数据类型多样化。当然,数据的演变是一个渐 进的过程,它不是简单的一种形式代替另一种形式 ,而是一个由简单到复杂的各种形式相互包容、不 断丰富的过程。
❖ 一定程度上看,大数据并不是一个严格的概念,而是 一个比喻式的称呼。
(一)如何理解大数据的“大”
❖ 一是“全体”的意思,即大数据就是全体数据,并 且数据量必须达到一定的规模。
❖ 二是“可扩充”的意思,即大数据就是可以不断扩 充容量的数据,任何数据一旦发生就可以被记录、 被吸收。
❖ 三是“有待挖掘”的意思,即大数据就是有待挖掘 的数据。大数据可能包含着丰富的、具有大价值的 信息,但被超大量的数据所掩盖、所分散而导致价 值密度低,只有挖掘才能发现。
相关文档
最新文档