大数据时代下统计学的发展与思考

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DOI:10.16707/ki.fjpc.2018.12.050
F福 建 电 脑 UJIAN COMPUTER
大数据时代下统计学的发展与思考
陈星伟 1, 史孙宬 2
(1 浙江财经大学东方学院信息分院 浙江 海宁 314408; 2 嘉兴市第一中学 浙江 嘉兴 314050)
【摘 要】随着新兴科学技术的迅猛发展,导致大量高维多元复杂的数据产生,迎来了大数据时代。 大数据必将在未 来成为重要的战略资源。 本文从大数据时代背景出发,浅述大数据时代对传统统计学的冲击,以及引导传统统计学思想 及技术等发生改变,为统计学提供发展契机。 并尝试性的提出新时代的学生要掌握怎样的数据分析能力才能成为大数据 时代的佼佼者。
是先对数据进行分析,然后再找变量之间的相关关系。 究 目 的 是 用 少 量 数 据 ,经 过 分 析 , 然 后 通 过建立模型,当然模型是越复杂越好,来尽量多的获取有价值 的信息,然后再进行事后检验。 大数据时代则需要事先预测,然 后通过巧用简单模型来获取有价值的信息。
2.2 统计研究工作 (1)传 统 的 统 计 研 究 过 程 ,需 要 统 计 设 计 、搜 集 资 料 、整 理 资料和分析资料完完整整的四个基本步骤,缺一不可。 其中统 计设计是最关键的一个步骤,根据统计研究对象的特点和研究 的目的、任务,对统计工作的各个环节、各个步骤进行通盘考虑 和安排;收集资料是统计工作的基础,根据设计取得准确可靠 的原始数据,数据要求及时准确和完整;整理资料是对原始数 据进行审核,校正和整理,使其具有系统性和条理性,便于统计 分析; 分析资料就是计算统计指标进行统计描述和统计推断。 在大数据时代,网络数据纷杂庞大,已经不再需要通过传统方 法例如抽样调查或者实验来获取数据,数据都是计算机自动收 集,不再需要使用人工手段,统计活动的样本就是总体,仅需要 的两个步骤就是对所收集到的数据进行分析与整理,然后对积 累的数据进行应用。 (2)传统的统计研究方法,例如建立回归方程等。 因为大数 据的特殊性而无法实施,上文中提到对大数据进行数据分析是 为了寻找相关关系。 用传统统计研究方法寻找“小数据”的相关 关系,到最后是为了能够寻找出一个线性关系,而在大数据时 代,寻找出的不仅仅是线性关系,更多的是非线性关系以及不 明确函数形式的线性关系。 (3)传 统 的 研 究 目 的 ,通 过 数 据 收 集 、整 理 和 分 析 等 步 骤 , 为了找出变量间的相关关系, 并且验证某个具体的因果关系, 然后进行分析预测。 但是在大数据时代,数据量巨大,而且里面 的变量数也较多, 之间的关系已经到了说不清道不明的地步 了,无法找出具体哪几个变量之间的因果关系。 从另一个方面 来说, 上文中提到大数据时代所收集到的数据具有时效性,有 价值的信息转瞬即逝,如果再花大量的时间来寻找其实并不重 要也不必要的因果关系, 而导致其他的有价值的信息流失,这 就有点得不偿失了。 所以大数据时代,只需要找出相关关系,然 后进行分析预测。 3、数据分析能力培养 上文中提到的是统计学整体为了更好地融入大数据时代, 需要进行在统计思维和统计研究工作上的改变。 但仅这些改变
【关键词】大 数 据 时 代 ; 统 计 学 ; 数 据 分 析 能 力
1 、大数据背景 在信息化和数字化被高度推崇的当今社会,我们必须承认 被卷入一场由大数据引领的巨大变革之中。 就我们生活而言, 智能手机为我们生活提供了便利, 缩短了人与人之间的距离, 随手就能打开的各式各样的社交 APP,在使用 人 数 不 断 激 增 的 同时互动也愈加频繁。 以及淘宝,天猫,京东等电商行业的迅猛 发展,导致数据大爆炸,以指数形式增长。 据 IDC 报告显示,预 计到 2020 年全球数据总量将超过 40ZB(1024EB=1ZB,1024PB= 1EB,1024TB=1PB,1024GB=1TB), 这 一 数 据 量 是 2011 年 的 22 倍。 在过去的几年,全球的数据量以每年 58%的速度增长,在未 来这个速度会更快。 大量的事实证明,我们已经被淹没在数据 的汪洋里,已经身处在一个以“大数据”为主体的时代。 大数据革命使得海量的数据资源渗入各行各业,导致各领 域都开始了量化进程。 由于各个行业的专业角度不同,研究对 象及内容不同,定然被赋予了很多不同的含义。 但是总结开来 可以从两个方面去理解大数据的含义。 首先从小的方面,就是 “大数据”的字面意思,数据量大(起始单位至少是 PB 的数据规 模 ),数 据 结 构 多 维 (不 仅 包 含 结 构 化 数 据 ,还 包 含 半 结 构 化 数 据以及影频,音频等的非结构化数据)。 数据产生速度快,并且 具有时效性。 从大的方面来说,是处理数据的技术,传统的针对 小数据的处理技术已不能满足大数据时代的要求,如今所需要 的针对大数据的处理技术指的是能从数据量不断增长且有价 值的信息转瞬即逝的海量数据中能够快速抓取出有利用价值 的信息。 这里就不可避免地谈及到统计学,需要统计学进行思 想技术上的改变。 2、大数据时代与统计学的关系 统计学从十七世纪中叶诞生,在 18、19 世 纪 不 断 发 展 产 生 现代意义上的统计学,也就是数理统计学。 并被广泛应用于社 会、经济、科学等领域。 本身就是关于数据的科学,研究如何收 集数据,并科学的推断总体特征。 与其他学科相比,从源头上就 具有很大的优势。 但是进入了 21 世纪, 各种各 样 的 数 据 大 爆 发,由静态的、定时的传统数据转变为动态的、时效的、组合的 数据,这就需要在统计思维和统计研究工作上创新。 2.1 统计思维 (1) 传统统计研究思想先有研究目的并且假设相关关系, 然后根据统计研究目的和所假设的相关关系,对统计研究工作 进行设计和安排。 然后用统计出来的结果来反证当初的假设正 确。 就和数学里的反证法类似,首先假设结论成立,然后把假设 条件带入证明,证明成立则一开始的假设成立。 大数据时代则
相关文档
最新文档