大数据时代政府统计的发展趋势
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“北京市第十七次统计
科学讨论会”应征论文
大数据时代政府统计的发展趋势
内容提要:
2013年,“大数据”一词火了,成为互联网、新闻媒体、学术机构、政府企业管理人员等多方关注的热点,它在社交网络平台、公共服务单位、数据密集型企业等方面有了许多比较成功的应用。大数据既能快捷准确地提供社会经济的整体变化用于决策,也能让普通的社会公众获得直接可靠的信息服务。一时间,大数据几乎无所不能,甚至有观点认为,大数据时代将不再需要传统的政府统计调查工作了。
作为社会经济数据的生产部门,统计机构必须正视大数据所带来的冲击。本文基于统计的发展过程,介绍分析了“大数据”的产生技术背景、特点及其发展阶段,随后结合当前政府统计的运行现状和特点,重点分析了大数据时代政府统计面临的主要冲击和未来的发展趋势。通过本文可以更好地认识和理解大数据的基本理论,能为政府统计的远期目标和发展思路提供借鉴。
一、大数据时代
(一)数据的生产
语言和文字是人类文明的起源。有了语言,人类才能够互通信息、知情达意;有了文字,人类的思想和活动才能书写记录、往世流传。人类活动的历史有几百万年,有文字信息记载的文明史只有不到一万年。史前蛮荒漫长的岁月里,许多自然界和人类社会值得记录的信号,并未形成数据,信息是一片空白,人类长久地处于无数据时代。
无论是农业社会还是工业社会,除了书写史志,为了全面掌握国家社会经济的资源,执政者都会耗费人时定期或不定期的对人口、土地、商贸数据进行统计核查。随着现代数学的发展以及博彩、生物、医药等领域的需求,描述统计、推断统计的专业使统计成为一门科学,
统计手段变得精细多样,统计数据和统计资料也不再仅限于官方行政记录。
但是拥有数据仍然是需要成本的,统计工作面临着诸多困难。一般情况下,数据需要专职另行收集、需要规范统一整理才能留存、需要经专业分析处理才能易于理解、需要费力翻阅才能查询、需要费力传递才能传输发布等。即便是在信息技术水平迅猛发展的今天,人们仍在数据采集、存储、分析、共享、传输等方面困难重重。人们处于有限数据的时代,只能掌握社会经济整体的一部分信息,数据缺失是常态。
随着信息技术特别是互联网技术应用的发展,社会管理者、企业和个人越来越离不开信息网络,几乎每个人每一时刻都在产生并向各信息终端、平台传送着各种数据,数据的量、种类和结构很快超过传统信息系统的分析处理和存储传输能力。为了获取这样直观上很庞大的数据中的价值,必须选择另一种方式来处理它。为此,人们把各种资源从客户端剥离,集中在云端以便充分发挥效率,面向客户端提供标准化服务,这种新的信息系统架构就是云计算。
(二)云计算
云计算是虚拟化技术、分布式处理、并行处理和网格计算等技术的发展,或者说是这些计算机概念的商业实现1。云计算使计算分布,而非在用户本地或远程的单独服务器中,云端维护者能自由快速地将资源切换到需要的应用上,根据用户需求调整所访问的计算机和存储系统。对用户来说,云计算可以理解为基于网络的软件、平台、基础设施按需供给、自由扩展、按使用付费的应用模式2。
服务器和存储设备的价格日益低廉、城市化和信息化基础的高速建设使云计算有了实现物力基础条件,而互联网企业、大型社交网络平台、公共服务机构、数据型密集行业等为云计算提供了绝佳的应用展示平台。数据信息很快就爆炸性地增长,人们很快从数据匮乏时代跨入了数据泛滥的时代。
(三)从云计算到大数据
云计算对服务提供方的系统架构方式进行了彻底的改变,但用户不会对各种生僻的计算机技术感兴趣,信息技术的推陈出新不能吸引大众的眼球。
公众关注的是应用,面对日益积累起来的海量数据,一方面,在过去没有数据积累的时代无法实现的应用现在终于可以实现;另一方面,如何从海量数据中高效的获取数据,有效的深加工并最终得到感兴趣的数据变的困难。在欣喜夹杂着困扰中,我们迎来了“大数据”这个新词。
大数据本身并不是一种新的技术或产品,而是人们面对一个体量和类别特别大,需要高速实时处理,而其中无价值数据较多的数据集合时的感官称呼,是一种时代现象。
“大数据”时代是信息化发展到今天所形成的一个特定阶段,这与社会进步和科技发展有着密不可分的关系。大数据涵盖的数据量大,包罗万象,变化速度快,存在的形式多种多样,它不再是狭义理解的阿拉伯数字的反映,而是包括文字、图片、视频等多种信息的集合。
毫无疑问,大数据需要云计算,云计算是大数据的IT基础,而大数据是云计算的应用扩展3。云计算把海量数据和可以自由快速扩展的信息资源集中到了云端,大数据则使从数据当中提取信息的常规方式发生了变化。由于自然语言理解、多媒体内容理解、机器学习等技术的发展,计算机可以更好地完成非结构化海量信息的智能化处理,逐步达到学习和模拟人类智能活动并攫取群体行为信息的效果。用户不再依赖传统模型进行抽样后进行统计推断,而是基于规模庞大的数据,利用既有软件快速有效地分析得出人的行为习惯方式,或总结出社会经济的总量结构信息。
大数据所使用的仍然是云计算的核心技术。以著名的大数据应用框架Google的Hadoop 为例:HDFS实现数据的分布式存储,并且实现冗余备份;Map-Reduce实现计算任务的分布化,尽量使到某个节点的计算任务主要面对存储在本地的数据,以减少跨节点的网络数据传送;海量数据管理技术:BT(BigTable)数据管理技术、开源列式数据管理模块HBase;常用数据分析工具Hive;NoSQL等等4。
(四)大数据时代
大数据时代也有其阶段性5。
企业由于自身业务需求产生大量数据,而需要利用这些数据进行深入分析以优化相关业务,这是企业用自身业务数据指导自己决策。企业经济效益,是推动大数据的最初始和直接的驱动力6。
在互联网企业异军突起的今天,企业有动力、有能力搜集与目标业务直接或间接相关的庞大数据,建立复杂的分析和预测模型输出结果。这个时候,数据就是决策。
在未来,大数据时代,对各种数据产生明确的法律规范,能够准确地进行数据量化与保障,使得数据的质量、价值、安全等得到标准化。这时候,数据获取和数据分析处理的工作将彻底剥离,数据运营商、数据市场、数据产品、数据中介等出现,学术团体、企业和政府将成为数据的最终分析用户,专注于研究各专业领域的分析工具、统计算法、业务预测等。
二、从大数据到政府统计