统计数据库建设与应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计数据库建设与应用
上个世纪末,国内在数据库领域,尤其是统计数据库领域进行了很大的投入,但回过头看,尤其是统计数据方面成效不大,留存下来的数据库也没有多少,许多数据库是后来建立起来的。那么为何许多数据库最终夭折,而一些数据库能够幸存下来,其根本原因是技术与市场导向。
国家信息中心中经网公司的统计数据服务最初是以网页形式提供给用户,后台基本按照数据库的架构进行建设。从数据库建设过程看,服务使用者是最大导向,尤其是一些数据库建设者本身就是数据使用者,因此在数据库架构方面,一开始就既要有利于更新,也要有利于使用者方便。总体看,技术上的功能模块构造、内容上的板块切割、准确的市场定位,以及用户导向和增值服务的努力都使得数据库能够在国内统计数据库市场占有一席之地。
一、主要模块功能
中经网核心产品《中经网统计数据库》包括五大模块:数据维护加载平台、用户管理系统、同步更新系统、模板导出系统和查询系统。
(1)数据维护加载平台
该平台主要完成对数据的加载功能以及对数据库中内容的增删改功能,主要包括:对主词、分组、地区、指标、解释等的批量(单笔)增、删、改;对时间序列数据的单位、注释、来源等的批量(单笔)增、删、改;数据库的备份、恢复;对原始数据的批量(单笔)增、删、改。
(2)用户管理系统
《中国经济统计数据库》在中经网公司的服务器中存储的是所有加工整理的海量统计数据与信息,涉及分地区、分行业以及各个经济专题的月度、季度和年度数据,这些数据按多叉树型结构构成一棵基本指标“树”。应用用户管理系统可以在这棵基本指标“树”的基础上,对用户提供最适用的产品,满足用户多样化的需求。
(3)数据同步更新系统
同步系统包括在数据同步服务器上的数据打包系统,以及在用户服务器上的数据同步接受系统。
(3)模板导出系统
模板是指格式各异的各种EXCEL表格,它只包含表头信息和指标编码信息,模板中无数据,系统根据模板的定义,自动将数据导出,生成需要的各种格式的EXCEL数据文件。目的
是为了将数据库中的数据按特定格式批量导出,即导入数据的反过程。它可以自定义表格的内容、显示方式。导出时可以任意选定时间段。
(5)数据查询子系统
统计数据库提供C/S和B/S两种查询方式,C/S结构方式的客户端软件基于Windows系列操作系统,使用之前需要在客户端进行软件安装并进行简单的配置。软件的安装过程遵循微软公司标准的软件安装过程,整个过程只需要简单的设置和选择即可完成,非计算机专业人员可以迅速掌握。
二、技术与资源管理创新
(一)、内容组织创新
《中经网统计数据库》存储的内容是国家和省(自治区、直辖市)统计局的各类经济统计数据,其内容是不断变化的。一方面,随着我国经济体制的变化,反映经济现象的经济统计指标也在不断的变化;另一方面,经济研究人员关注的重点热点经济问题不断翻新,研究重点也从宏观已经深入到行业和企业等微观领域,无论从深度还是广度,对系统提供的指标量要求成倍增加。从内容组织上,保证系统的可扩展性成了数据库建设的核心所在。所以从总体上按指标属性建设不同子库。
1、人工编码技术
指标编码是系统对统计指标身份认证与识别的唯一标志。在本系统中,对指标的标注前移,将指标拆分为主词与分组的组合,主词是指标的核心内容,分组是指标的修饰内容,一个指标只能包含一个主词,但可包含多个分组属性,即主词加0-N个分组属性确定一个指标属性,例如,GDP是一个主词,第一产业是一个分组,GDP即可单独构成指标,也可被第一产业分组修饰形成一个新的指标——第一产业增加值。这样,对任何指标的标注工作,被分解成两部分:第一部分,理解指标的统计含义和口径,确定主词和分组;第二部分,对主词和分组分别进行标注,合成指标编码。这极大地减轻了人工标注编码的难度,使系统的维护更新更加方便。
2、规范化处理流程
由于原始资料包括纸介质、电子表格、库文件、TXT文件等多种格式,需要将他们加工成标准的EXCEL表格,然后再进行人工编码标注。
3、按指标属性科学分类
宏观月度库-反映宏观经济整体运行态势的月(季)度统计数据信息库;涵盖国民经济核算、财政、金融、贸易、投资、房地产、工业交通、物价工资共14个专题2千多项指标内容;自1990年至今的70多万条数据;近15年180多个时点数据的任意检索查询;近
300项重点指标注解
工业行业月度库-定位于行业经济的专业性月度统计数据信息库。41个工业大类、近200个中类行业运行发展情况,近50项主要财务及经济效益指标。
海关月度库-反映中国对外经济贸易状况的月度统计数据信息库。自1995年以来的700多万条数据,涵盖分商品、分贸易方式、分国家、分地区等方面的3万多个指标分省月度库-31个省、直辖市和自治区的月度宏观经济效益指标,涵盖国民经济核算、建筑业、运输邮电、固定资产投资、国内贸易、进出口、价格、金融、人民生活、就业等13个专题,2500多个指标。
综合年度库-自1949年以来我国社会、经济发展全貌共计23个大类专题3000多个指标30多万条数据
城市年度库-自1990年以来全国300余个地级城市的城市经济发展状况主要统计指标分省年度库-1949年以来,31个省、直辖市和自治区的年度宏观经济效益指标,涵盖国民经济核算、人口就业、固定资产投资、能源、财政、价格、人民生活、城市概况、环境保护、农业、工业、建筑业、运输和邮电、批发和零售等17个专题近万条序列。
(二)、技术创新
1、快速海量查询技术
《中经网统计数据库》中包含大约1,000,000个经济指标序列、30,000,000条数据,用户使用改系统进行数据查询时可接受的速度通常需要达到“1000条数据/秒”。为此,首先是合理地选择、配置硬件环境;其次是合理地安装、配置数据库服务;第三是合理地建立数据库,采用磁盘阵列和文件组,将数据库的数据文件存储于多个磁盘上,以提高数据库的查询速度。第四是合理地设计数据库;最后在应用程序层采用数据库连接池和数据缓存技术,以此极大地提高了数据库性能和数据查询速度,并满足了系统未来数据增长的要求。
2、远程自动同步更新技术
本系统采用基于TCPIP的HTTP技术作为数据传输协议。HTTP协议作为Internet上应用层的传输协议,具有服务器负载小、支持断点续传、支持多点并传、无连接、安全性好、支持广泛的认证方式、应用广泛等优点。由于系统采用的传输协议是应用非常广泛的HTTP 协议,因此通常不需要更改用户端的防火墙设置,即可穿越防火墙。实现了基于互联网的远程数据库自动更新。
3、数据快速导入导出技术
DTS作为一项数据转换技术,不仅可以进行异种数据库间的数据转换,而且可以做数据