大数据与宏观经济分析研究综述_刘涛雄
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据与宏观经济分析研究综述
*
刘涛雄徐晓飞
[内容提要]大数据对宏观经济分析具有革命性的意义。在大数据时代,纷繁复杂的数据实时可得,整个社会经济产生了根本的变化。大数据在宏观经济分析应用中最活跃也是最重要的四个领域为:宏观经济数据挖掘、宏观经济预测、宏观经济分析技术和宏观经济政策。本文对大数据背景下宏观经济数据挖掘的来源和宏观经济预测方法进行了评述,探讨了大数据分析技术如何将机器
学习算法引入宏观经济分析,利用LASSO 算法解决“维数灾难”
。本文还研究了大数据对宏观经济政策制定的影响,并在此基础上对大数据背景下的中国宏观经济分析提出了对策建议,认为政府应加大扶持力度,搭建平台,及早建立基于大数据的宏观经济分析模型,并加强学科和专业教育。[关键词]大数据宏观经济数据挖掘机器学习算法预测
*本文为中国博士后科学基金面上项目“大数据与宏观经济现时预测研究”(2014M560068)的阶段性成果。
一、引言
随着互联网的普及,信息总量正以空前的速度爆炸性增长,人类社会进入了一
个以“PB ”
(1PB =1024TB ,1TB =1024GB )为单位的数据信息新时代,即大数据时代。大数据,是指巨大而多样化的数据集①,这些数据的处理超出了目前主流软件的能力,因此必须改进处理数据
的工具
。“大数据”术语最早可以追溯到Apache 公司的开源项目Nutch (一个开源软件实现的搜索引擎),伴随谷歌的Ma-pReduce (映射和归约,是一种编程模型,用于大规模数据集的并行运算)和GFS (可扩展的Google 文件系统),大数据不仅代表着数据规模,而且包含了数据
处理的速度。②
目前一般认为,大数据的典型特点可以用“4V ”即大量化(Vol-ume )、快速化(Velocity )、多样化(Va-
—
75—学科前沿
riety)和价值化(Value)来概括。一是数据体量巨大。据估计,人类至今生产的所有印刷材料的数据量大约为200PB,而历史上全人类说过的所有的话的数据量大约为5EB(1EB=1024PB)。当前互联网上的数据以每年50%左右的速度增长,人类90%以上的数据都是最近几年产生的,到2013年,全球存储的数据预计能达到约1.2ZB(等于270个字节,约10亿TB)。二是处理速度快。在如此海量的数据面前,处理数据的效率就是企业的生命。社交媒介、移动设备、网上交易和网络设备更新的速度非常快,巨大的数据流会导致传统数据分析的软硬件被淘汰,产生从快速生成数据中实时获取价值的专门技术和数据分析系统。三是数据类型繁多。构成大数据的信息类型来源不同,包括网络日志、音频、视频、图片、地理位置信息等。其中大概只有约10%属于结构化数据适合整齐地进入相关数据库的行和列,其余90%是非结构化数据。四是价值密度低。价值密度的高低与数据总量大小成反比。例如,一部1小时的视频,在连续不间断监控过程中,可能有用的数据只占一两秒时间。如何通过强大的机器算法更迅速地完成数据的价值“提纯”变得十分重要,也是数据挖掘的关键。③大数据正在深刻地影响着整个社会和经济的发展。从经济分析的角度看,国际上的大数据研究首先在行业研究、商务分析和企业应用层面快速发展,并逐渐影响到经济分析的各个领域。当前,在宏观经济分析中如何充分利用大数据方法和技术已经开始在国际上引起重视,从国内的情况来看,将大数据与宏观经济联系起来的研究还鲜有见到,宏观经济政策制定者对此也重视不够,而这正是本综述的目的和意义所在。
二、大数据对宏观经济分析的革命性意义
大数据开启了巨大的时代转型,就宏观经济分析而言,大数据时代带来的转变是重大且具有革命意义的。首先,大数据极大地拓宽了信息来源。大数据时代的重大变化是海量的可得数据。传统经济分析依靠的数据主要是样本,而在大数据时代,得到的数据可能就是总体本身,例如就物价而言,每一笔在电子商务网站成交的交易信息都能记录在案。大而全的可得数据对宏观经济分析是极其重要的,可以准确了解宏观经济形势,正确做出宏观经济发展预测,合理制定宏观经济政策。这些优势是传统经济分析方法无法想象和实现的。
其次,大数据时代信息获得的速度大大提高,很多信息实时可得。传统的经济分析主要依靠结构化数据,这些数据最明显的缺陷就是具有很强的时滞性。例如,政府公布的季度GDP往往会有1个月的滞后期,而反映全面经济社会状况的统计年鉴的滞后期会达到3个月左右,这对及时了解宏观经济形势、预测与预警都是非常不利的。大数据时代信息产生和传递的速度空前加快,如互联网上的大量信息是实时的,移动互联网和物联网使每个人随时随地都可能制造数据。大数据经济模型可以充分利用数据的实时性,提高分析或预测的时效性,为经济预警和政策制定提供最快速的资料和依据。
第三,大数据带来宏观经济分析的方法论变革。传统的经济计量模型建立在抽样统计学的基础上,以假设检验为基本模式。随着信息量的极大拓展和处理信息能
—
85
—
国外理论动态·2015年第1期
力的极大提高,经济分析可能从样本统计时代走向总体普查时代。这一点对宏观经济分析意义重大,因为宏观经济系统纷繁复杂,如果能将对整体宏观经济变量的分析建立在尽可能多的关于经济主体行为的信息以及其他诸多经济变量的信息的基础上,甚至抛弃原有的假设检验的模式,无疑将会极大地提高宏观经济分析的准确性和可信度。同时,经典计量模型以因果检验为核心,而大数据分析则往往将相关性发掘作为首要任务。在复杂的宏观经济系统中,当许多宏观经济中的因果关系往往难以准确检验、因果结论经常广受质疑时,更重视可靠相关关系的发掘,充分利用相关关系对于经济预测、政策制定与评估的作用,无疑为宏观经济分析打开了另一片广阔的空间。正因为如此,维克托·迈尔-舍恩伯格(Victor Mayer-Schon-berger)与肯尼思·库克耶(Kenneth Cukier)认为建立在相关关系分析基础上的预测是大数据的核心。
第四,大数据促进了宏观经济分析技术的革新。传统的分析技术基于关系型宏观经济数据,而分析模型主要基于统计数据,而大数据中的大量信息是非结构化的,数据的来源和形式复杂多样。如互联网信息包含文本、图片、影音等多种形式,在此状况下进行宏观经济分析,有必要借鉴计算机领域已经出现、但在现有经济领域还少有应用的数据处理技术,例如机器学习。机器学习已经在图像识别、语音识别、自然语言处理、智能机器人等领域取得了巨大成功,是当前进行大数据分析的基本手段。此类技术在宏观经济领域的应用会极大地提高经济分析的能力,改进分析结果、提升分析价值。另外,传统的经济计量对海量数据难以分析,发展适合大数据的分析模型是经济计量面临的重大挑战。④
国际学术界和宏观经济政策制定者已经意识到大数据对宏观经济分析的革命性影响,将大数据的概念、方法、技术和宏观经济分析结合起来的做法正逐步得到重视,一些意义深远的研究工作逐步兴起。综合起来看,这些研究主要集中在宏观经济数据挖掘、宏观经济预测、宏观经济分析技术和宏观经济政策四个领域。
三、宏观经济数据挖掘
数据挖掘正在成为一个热门行业。简单地说,数据挖掘就是大数据时代的统计调查。随着互联网信息技术的逐步发展,获取的数据种类越来越多,数量越来越庞大,更新速度越来越快,数据中有大量“噪声”存在。显然,传统的统计调查方法不能适应大数据时代信息收集的需要,比如在内容形式上,互联网上的诸多信息是以多媒体方式存在的,统计调查无从下手;面对海量信息,统计调查速度慢,效率低。因此,充分依靠计算机进行信息收集的各种新技术应运而生,被称为“数据挖掘”。数据挖掘多在利用网络爬虫软件的基础上建立机器学习模型。其过程一般包括:先利用网络爬虫软件将原始信息从网上抓取下来;然后通过一定方法对这些数据进行清洗,将大量内容无用的“噪声”过滤掉,保留值得加工的信息;最后对剩下的内容进行加工提取,并转化为一定程度结构化的可用数据,如标准化为时间序列等。这一过程已经成为大数据方法中的标准程序之一。从宏观经济分析的角度,根据信息来源的种类,数据挖掘大体可分为两类。
—
95
—
学科前沿