大数据对统计学的挑战和机遇最新文档
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据对统计学的挑战和机遇
从学科角度而言,大数据对海量数据进行存储、整合、处理和分析,可视为一种新的数据分析方法,这种基于数据关系的内在本质决定了大数据与统计学之间的必然关系,大数据对统计学的发展既提出了挑战又提供了机遇。
大数据对统计学的挑战体现在:大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及实质性统计方法的大数据化。
大数据对统计学的机遇体现在:统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸及统计学家地位的提升。
大数据统计学挑战机遇
一、大数据与统计学的比较
统计学在大数据的研究中存在一定的应用,表现在将“大数据”变成“小数据”,对海量数据的搜索、聚类和分类依赖于统计学的一般方法,因而大数据的研究继承了统计学科的一些特点。
但大数据尚未被统计学吸纳和应用,这主要是由于大数据与统计学存在两个很关键的差别。
第一,样本统计和全样本统计的差别。
统计学依赖于样本统计(普查除外),样本是按照一定的概率从总体中抽取并作为总体代表的集合体,而随机抽样是有成本的,如时间成本、资金成本、社会关系等。
在样本规模增加有限的情况下,总体数量越大样本估计的误差就越大,这是样本统计不可避免的缺陷。
第二,预测分析和非预测分析的差别。
统计学旨在分析变量之间的相关关系,即两个或两个以上变量之间存在的某种规律性,故数据搜集是发生在变量确定之后,数据的分析价值是可预测的。
如若要研究利率对消费行为的影响,则利率大小和消费支出的数据会有目的地被搜集和分析。
一旦分析目的完成,为该目的而搜集的数据的价值也就完全实现。
二、大数据对统计学的挑战
大数据与统计学的关系及其本身的优势,意味着未来统计学的大数据化是不可避免的趋势,现有的统计学与大数据之间还存在着一些不相容的地方,为积极应对这一趋势,就必须对现有的统计学理论和方法作出相应的调整甚至是某些方面的完全革新。
统计学依赖于样本统计,主要研究客观事物数量关系和数量特征。
大数据时代产生了海量的即时的电子化数据,其样本量大,甚至可以覆盖全部总体,所以包含更多的信息量。
例如,传统的经济统计一般细化到行业层面或产品层面,但电子商务的发展和条形码的普及让记录具体到每一次交易行为。
网上电子化交易信息,企业电子化经营记录,部门电子化行政记录,为统计调查提供了海量数据,对统计学样本规模的扩大提供了可能性。
传统统计学依赖于结构化数据,如数字、符号等信息,但非结构数据(包括文本、图像、图像、音频和视频等信息)和半结构化数据(如HRML文档)同样蕴涵着海量信息和统计规律,如医疗行业的一张CT扫描图像约含150MB的数据,一个基因组序列文件约含
750MB。
统计学是研究事物本身的数量关系,但并非所有的研究对象都有量化指标,也不是所有的量化指标能够很好地说明研究对象,如以最大股东所持资产占总资产的比例来表示公司治理结构不如一张公司治理结构图更精确。
目前大数据采集到的数据85%以上是非结构化和半结构化数据,传统的关系数据库无法胜任这些非结构化和半结构化数据的处理,但大数据可通过建立非结构数据库对这些海量数据进行标准化处理,将非结构化数据转化为结构化数据,从而发挥这些多元化数据的潜在作用。
倘若传统统计学能突破结构化数据的限制,降低样本选取标准,建立非结构数据库,使统计学的数据基础呈多元化,则统计学的应用范围会大幅扩大。
三、大数据对统计学的机遇
海量数据的存在使得我们利用统计方法处理问题时可以使
用更多的数据,甚至在某些场合能够使用全体数据,数据不再成为统计分析制约因素,大数据基础上的统计学效率和拟合度预测准确性可以大大提高,并且能够发现很多在样本统计时上无法发现的细节。
统计学的优势在于“以小见大”,这是统计学的优势,同时也是统计学在小数据约束下的妥协。
在大数据时代,可将统计学的长处和大数据的优点结合起来,实现“以小见大”和“由繁入简”的有效结合。
合理利用大数据有利于统计质量的提高,主要表现在三个方面:时效性增强、误差减小和可信度增强。
传统统计数据通常存
在滞后性且呈现低频率,而大数据的及时性能够弥补传统统计数据的这一缺陷,使统计数据的时效性增强。
以消费者物价指数(CPI)的统计数据为例,CPI的发布以月为频率,但一般都存在滞后期,如我国的CPI通常在每个月的9号才能发布上个月的CPI;而“在线价格指数”能够对市场价格进行实时跟踪和汇总,能够提供及时的统计信息,且在线价格指数可以将频率从月提高到天甚至更高,能够细致地分析通货膨胀规律。
同时,大数据的广泛覆盖性能够很大程度地降低统计结果的误差。
仍以CPI为例,传统的价格统计包括一篮子商品,通常包含千种商品、涉及几万个调查销售网点,且商品的种类和结构要随着社会经济的发展和人们的消费结构进行调整,样本误差和人为误差都较大。
而基于大数据的“在线价格指数”让抽样变。
统计学的大数据化是可预见性的,由于大数据依赖于统一建立的数据中心,所以大数据的发展依赖于统计数据的开放共享,进一步,统计学的大数据化程度取决于大数据的公开程度。
在大数据时代下,传统统计学为了更好地适应大数据化趋势,在数据收集方法、数据分析方法及统计制度等方面必然要进行改革和创新。
大数据对传统统计学提出了巨大的挑战,但同时也为传统统计学的迅速发展提供了契机,统计学将在大数据时代迎来新的发展。
但是在大数据的狂潮中我们应该清醒的认识到大数据对传统统计学是补充而非替代,建立在样本统计和预测分析之上的传统统计学仍在社会统计和经济分析中发挥着主导作用。