大数据决策支持系统实施方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

智慧神州(北京)科技有限公司
密级:保密
大数据决策支持系统
实施方案
(V1.0)
项目编号:项目名称:
编写人:李茂发编写日期:2018.05.09
审核人:侯俊华审核日期:2018.05.13
批准人:批准日期:
1
文档修订记录
2
目录
第1章.编写说明 (5)
1.1编写目的 (5)
1.2术语定义 (5)
第2章.项目实施总述 (6)
2.1子项目建设目标与任务 (6)
2.1.1. 子项目建设总体目标 (6)
2.1.2. 子项目分阶段目标 (6)
2.2子项目建设内容 (7)
2.2.1. 子项目总体架构 (7)
2.2.1.1.总体架构 (7)
2.2.1.2.技术架构 (8)
2.2.1.3.数据架构 (10)
2.2.1.4.关键技术介绍 (13)
2.2.2. 子项目软硬件系统建设内容 (18)
2.2.2.1.专题库建设······································································································错误!未定义书签。

2.2.2.2.大数据决策系统应用 (18)
2.2.3. 子项目实施工作内容 (22)
2.2.4. 子项目外部系统对接技术方案 (23)
2.2.5. 子项目实施进度规划 (23)
2.2.6. 实施风险与关键点 (25)
第3章.里程碑计划 (28)
第4章.详细工作计划 (30)
3
文档格式约定::
一级标题:左对齐黑体字二号字加粗
二级标题:左对齐黑体字小二号字加粗
三级标题:左对齐黑体字三号字加粗
四级标题:左对齐黑体字四号字加粗
正文:正文首行缩进2字符 1.5倍行距宋体小四号字图片:居中
表格:居中表格文字左对齐宋字五号字
4
第1章.编写说明
1.1编写目的
本方案不仅从实施目标、任务、执行计划和组织分工等方面对沧州大数据中心项目数据中心子项目(以下简称“本项目”)的实施工作进行了宏观定义,并对具体的基础设施建设、系统设计方案、标准规范及培训实施方案、系统实施、实施与保障等专项工作也做较为详细的定义,以指导后续的实施工作。

1.2术语定义
1.共建单位:配合沧州大数据中心工程建设的政府机构、公共事业部门和企业。

2.承建单位:智慧神州(北京)科技有限公司。

5
第2章.项目实施总述
2.1建设目标与任务
2.1.1.建设总体目标
数据决策支持系统通过沧州市城市大数据中心统筹沧州市信息资源管理,利用大数据技术整合分析各委办局业务数据,满足政府管理、企业生产经营和居民生活对信息资源的要求,同时为政府管理部门的决策提供数据支持。

2.1.2.项目分阶段目标
1.第一阶段目标(2018.4-2018.5)
2018年5月15日工作目标
(1)完成平台业务系统需要调研;
(2)完成需求规格说明书编写;
(3)完成需求规范说明书评审;
2.第二阶段目标(2018.5-2018.7)
2018年7月底工作目标
(1)完成系统概要设计;
(2)完成系统详细设计;
(3)完成系统数据库设计;
(4)完成系统设计评审;
(5)完成系统开发、内测及上线部署。

3.第三阶段目标
2018年10月工作目标
完成初验、试运行和终验。

6
2.2项目建设内容
2.2.1.项目总体架构
2.2.1.1.总体架构
大数据决策系统是沧州大数据中心的重要组成部分,大数据决策系统依托沧州共享交换平台,通过共享交换平台获取应用决策数据,面向智慧办和各委办局用户提供政府大数据决策支持。

其总体架构如下图所示:
7
系统基于J2EE技术体系的整体构架,系统将按照数据层,支撑层,应用层多个层次进行建设。

⏹数据层
数据层即为网格信息库,用于存储、管理基础数据和业务数据,为其上层提供大量数据操作的应用编程接口API。

⏹服务支撑层
通过服务器,提供对业务应用层的强大支持。

包括:地图引擎、服务目录、流程控制、数据服务、权限控制、维护服务和数据报表等支撑。

⏹应用展现层
业务应用包括大数据管税系统、精准招商系统、经济运行监测预警系统、精准扶贫系统、多规合一系统、低保核查系统、小升初系统。

最后,整个系统被置于适度安全保障体系之下,遵循应用开发规范和标准。

2.2.1.2.技术架构
沧州市智慧城市建设办公室城市大数据中心技术架构由以下几部分组成:
1、云基础设施
考虑到系统的外围环境包括各种服务商和政府部门,网络层的设计支持互联网、移动互联网和专网的接入模式。

硬件层采用云计算IAAS的架构,将主机和存储作为资源池管理,应用虚拟化技术动态地创建虚拟主机环境支撑软件系统运行,使系统具有高度的可扩展性。

2、数据存储
信息资源是沧州市智慧城市建设办公室城市大数据中心建设的主线,它涵盖所有的结构化和非结构化数据。

平台采用关系型数据库(MySQL)、NOSQL(HBase)技术和分布式存储(HDFS)技术实现各类数据的存储和访问。

平台通过对用户在平台上的数据以及活动信息的记录、梳理和抽象,利用建模技术形成整个城市的数字化映像。

3、基础服务
平台为运行于其上的应用和服务提供底层的平台服务,通过这些服务,应用和服务可以完成复杂的逻辑。

基础服务包括缓存、消息和任务调度等。

平台基于Spark
8
和Flume实现对用户访问的大数据处理计算。

4、服务运行引擎
在服务运行引擎的设计中,平台采用稳定高效的Linux作为操作系统,通过docker技术实现系统资源(CPU、内存、硬盘)的应用隔离,提高资源利用率,降低TCO(整体IT投入成本);在之上支持Java、PHP和Ruby等主流开发语言的应用运行环境,实现对各种类型应用的统一运行管理和动态弹性伸缩特性。

在应用框架方面,平台支持Spring、iBatis/Hibernate、ThinkPHP和Rails 等框架的应用开发和运行。

应用的运行容器,平台支持Tomcat、Equinox(OSGi容器)和Apache/Nginx。

5、渠道平台
渠道管理平台采用了以下技术:
负载均衡:采用DNS、LVS和Nginx实现应用系统访问的负载均衡,提高系统的负载能力和可靠性。

缓存系统和CDN系统:通过对静态内容的缓存,提高系统的性能和处理能力,并可大幅节约系统网络带宽。

单点登录:采用CAS单点登录系统,实现平台内部系统间以及平台与外部系统的单点登录,提高用户体验。

6、终端
平台采用两种终端实现技术:基于浏览器的终端和基于本地客户端的终端。

基于浏览器的终端采用HTML5/CSS3技术,运用响应式布局设计,实现多种终端的自适应。

基于本地客户端的终端支持iOS/Android等智能设备。

7、安全
为保障沧州市智慧城市建设办公室城市大数据中心的安全,平台在各层都采用了相应的安全技术:
云基础设施安全:采用防火墙、入侵检测和防病毒等技术保障基础设施安全。

数据安全:采用数字签名和加密技术保障数据存储和访问的安全与隐私保护。

9
应用安全:采用RBAC授权模型实现对用户权限的控制,保障应用访问安全。

客户端安全:采用U盾、证书和令牌等技术,提高用户认证的安全性。

2.2.1.
3.数据架构
2.2.1.
3.1.设计目标
本项目的数据架构设计目标如下:
1、建设集中的、标准化、规范化的数据库,保证业务系统顺畅运行;
2、对于核心安全域、内部安全域、内部接入域的数据在创建时就为其划分安全等级,根据安全等级在存储时采用不同的安全策略,如是否加密存储,以及访问控制的级别。

3、建立科学、完整的数据资源体系结构,确保业务人员、技术开发人员等维护和使用数据资源的用户从整体上把握数据资源的情况,方便、准确的利用数据资源和有效的维护、管理数据资源;
4、在业务基础数据不断积累的基础上,建立数据中心,采用数据仓库技术向决策层、管理层和作业层提供可扩展的、个性化的决策支持信息服务。

2.2.1.
3.2.设计原则
在沧州市智慧城市建设办公室城市大数据中心系统中,将采用数据集中式应用的模式,数据的高安全性、高处理性能、高可用性和高共享性设计非常重要;应用系统本身的数据量也相当大,而且随着信息化管理的开展,不断会有新的数据产生。

本原则分成数据字典及元数据设计原则和数据库设计原则两个部分。

1、数据字典及元数据设计原则
用户能够通过元数据能够更快、更准确的理解数据所表征得语义信息及数据所表达的含义,从而能够更快速、更全面、更有效的发现、访问、获取和使用数据资源。

因此元数据的设计必须具备科学性、兼容性和可扩充的原则。

a) 数据完整性原则
在业务应用过程中,各类数据都将存储在数据库当中,而这些数据之间并不是孤立存在的,而是彼此之间存在着各种约束关系。

为了使数据能够满足这些约束条件,在数据字典设计过程中要建立正确的约束关系,使得数据能够受到实际业务中
10
存在的约束条件的限制,为数据的完整性也使得每条数据的合理性得到了保证,避免出现不合理数据或是出现数据检索不到的情况。

b) 符合数据元素标准原则
数据元素是最小的不可再分的信息单位,是一类数据的总称,它的质量是建立坚实的数据结构基础的关键。

在数据元素的创建和命名上做整体的考虑,建立数据元素标准——数据元素命名标准、标识标准和一致性标准,这样就可以把握企业里有限数目的“核心”数据元素。

c) 可用性原则
在数据字典设计的时候列出清单,明确细节和相互关系,防止遗漏、重复和冗余,提供规范的字典文档,利于检查和用户沟通,指导系统设计和编程。

d) 科学性原则
数据字典中元数据元素和实体的定义科学、合理,保证所制定的元数据的内容和结构科学、可行,能够反应出共享数据的各方面的基本特征。

e) 兼容性原则
和已有的国家标准、行业标准在元数据实体和元素的命名上尽量保持一致,以促进元数据内容的复用,减少元数据采集方面的投资。

f) 可扩充原则
数据字典标准定义的是元数据内容,可根据应用需求进行调整和扩充随着沧州网上政务服务平台系统应用的不断深入,必然要产生新的指标和新的数据。

系统数据模型的设计要保证能适应这种变化,在指标体系变化时或业务内容增加时,尽可能不用修改各类数据表的结构。

2、数据库设计原则
a) 数据标准化原则
数据标准化主要有五个方面的内容:数据元素标准、信息分类编码标准、用户视图标准、概念数据库标准和逻辑数据库标准。

符合数据元素标准,做好数据元素标准化这一数据标准化的基础工作。

信息分类编码也是数据标准化的一个重要工作,信息分类编码标准是信息标准中的最基础的标准。

信息分类就是根据信息内容的属性或特征,将信息按一定的原
则和方法进行区分和归类,并建立起一定的分类系统和排列顺序,以便管理和使用信息。

信息编码就是在信息分类的基础上,将信息对象(编码对象)赋于有一定规律性的、易于计算机和人识别与处理的符号。

应遵照国际标准—国家标准—行业标准—企业标准的序列,建立全信息系统所使用的信息分类编码标准。

用户视图是一些数据元素的集合,它反映了最终用户对数据实体的看法。

用户视图是数据在系统外部的样子,是系统的输入或输出的媒介或手段,常用的用户视图有纸面的(单据、报表等)和电子的(屏幕格式、表单等)。

在采用计算机管理的信息系统环境中,应该大量减少纸面的用户视图,以电子的用户视图取代。

为此,应该建立自己的用户视图标准,确定有哪些用户视图以及它们的标识、命名规则和组成结构。

在建立了以上三方面的基础标准的基础上,可以建立和数据库紧密相关的概念数据库标准和逻辑数据库标准。

它们是数据库设计最重要的前导性工作。

概念数据库和逻辑数据库基本表中的数据内容要遵循数据元素标准和信息分类编码标准;而用户视图标准为数据库标准建立提供了依据,同时也为数据库的使用提供了依据。

b) 数据的安全性原则
业务系统数据库要求能够根据访问用户的身份,确定相应的授权,提供权限规定的读写、查询、统计和数据复用服务,因此系统应该具有较高的稳定性,有较强的容错能力,安全的数据备份,在灾难发生时有较快的反应速度与完备的数据恢复措施。

资料在共享的同时,每条资料都应有对其访问的范围限制以及访问方式的限制,系统必须提供对某些资料的保密措施。

必须有完备的安全认证机制,对非法访问以及非法入侵有较强的防御能力。

c) 数据可维护性与规范性原则
业务应用在运行过程当中,很可能出现变更或增加的情况,如机构的变更和业务流程的变化。

数据库的设计应当能够适应这样的变化,为将来可能出现的情况做好充分的准备,这就对数据库中的数据有着规范化的要求。

数据库设计要充分考虑这些要求,使得数据库能够适应这些要求。

数据存储的规范化也为数据库的管理和维护起到了积极的作用。

d) 数据集对象优化原则
本系统对于整个系统的性能有着严格的要求,数据库作为系统运行的基础,其性能将关系到整个系统的运作情况。

在数据库设计方面,通过分析不同数据的特点和访问频率,正确建立索引,合理设置字段类型和长度,合理创建表,能够使得数据库执行的性能得到更大的提高,以满足高效性的要求。

e) 数据驱动原则
采用数据驱动而非硬编码的方式,许多策略变更和维护都会方便得多,大大增强系统的灵活性和扩展性。

如用户界面要访问外部数据源(文件、XML 文档、其他数据库等),不妨把相应的连接和路径信息存储在用户界面支持表里。

还有,如果用户界面执行工作流之类的任务(发送邮件、打印信笺、修改记录状态等),那么产生工作流的数据也可以存放在数据库里。

角色权限管理也可以通过数据驱动来完成。

事实上,如果过程是数据驱动的,你就可以把相当大的责任推给用户,由用户来维护自己的工作流过程。

2.2.1.4.关键技术介绍
2.2.1.4.1.SOA技术架构
面向服务技术架构SOA(Service-Oriented Architecture)是一种面向企业级服务的系统架构,它着眼于日常的业务应用,并将它们划分为单独的业务功能和流程,即所谓的服务。

SOA使用户可以构建、部署和整合这些服务,且无需依赖应用程序及其运行计算平台,从而提高业务流程的灵活性。

SOA和其它企业架构的不同之处就在于SOA提供的业务灵活性。

业务灵活性是指企业能对业务变更快速和有效地进行响应、并且利用业务变更来得到竞争优势的能力。

通过实现SOA,可以带来以下方面的价值:
⏹更高的业务和 IT 一致性
⏹基于组件的系统
⏹松散耦合的组件和系统
⏹基于网络的基础设施,允许分散于各地且采用不同技术的资源协同工作
⏹动态构建的按需应用程序
⏹更高的代码重用率
⏹更好地标准化整个企业内的流程
更易于集中企业控制
2.2.1.4.2.J2EE技术体系
J2EE是主流的技术体系,J2EE已成为一个工业标准,围绕着J2EE有众多的厂家和产品,其中不乏优秀的软件产品,合理集成以J2EE为标准的软件产品构建本软件平台系统,可以得到较好的稳定性、高可靠性和扩展性。

J2EE架构如下图所示。

图 J2EE架构
J2EE技术的基础是JAVA语言,JAVA语言的与平台无关性,保证了基于J2EE平台开发的应用系统和支撑环境可以跨平台运行。

J2EE平台包含有一整套的服务、应用编程接口(API)和协议,可用于开发基于Web的分布式应用。

它定义了一套标准化、模块化的组件规范;并为这些组件提供了一整套完整的服务、以及自动处理应用行为的许多细节---例如安全和多线程。

由于J2EE构建在Java 2平台标准版本上(J2SE),因此,它继承了Java的所有优点――面向对象、跨平台等。

随着越来越多的第三方对Java 2平台企业版(J2EE)提供支持,Java已经被广泛用来开发企业级应用。

Java是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由
Sun Microsystems公司于1995年5月推出的Java程序设计语言和Java平台(即JavaSE, JavaEE, JavaME)的总称。

Java 技术具有卓越的通用性、高效性、平台移植性和安全性,广泛应用于个人PC、数据中心、游戏控制台、科学超级计算机、移动电话和互联网,同时拥有全球最大的开发者专业社群。

在全球云计算和移动互联网的产业环境下,Java更具备了显著优势和广阔前景。

主要特性
1、Java语言是简单的。

Java语言的语法与C语言和C++语言很接近,使得大多数程序员很容易学习和使用Java。

另一方面,Java丢弃了C++ 中很少使用的、很难理解的、令人迷惑的那些特性,如操作符重载、多继承、自动的强制类型转换。

特别地,Java语言不使用指针,并提供了自动的废料收集,使得程序员不必为内存管理而担忧。

2、Java语言是一个面向对象的。

Java语言提供类、接口和继承等原语,为了简单起见,只支持类之间的单继承,但支持接口之间的多继承,并支持类与接口之间的实现机制(关键字为implements)。

Java语言全面支持动态绑定,而C++ 语言只对虚函数使用动态绑定。

总之,Java语言是一个纯的面向对象程序设计语言。

3、Java语言是分布式的。

Java语言支持Internet应用的开发,在基本的Java 应用编程接口中有一个网络应用编程接口(java net),它提供了用于网络应用编程的类库,包括URL、URLConnection、Socket、ServerSocket等。

Java的RMI(远程方法激活)机制也是开发分布式应用的重要手段。

4、Java语言是健壮的。

Java的强类型机制、异常处理、废料的自动收集等是Java程序健壮性的重要保证。

对指针的丢弃是Java的明智选择。

Java的安全检查机制使得Java更具健壮性。

5、Java语言是安全的。

Java通常被用在网络环境中,为此,Java提供了一个安全机制以防恶意代码的攻击。

除了Java语言具有的许多安全特性以外,Java对通过网络下载的类具有一个安全防范机制(类ClassLoader),如分配不同的名字空间以防替代本地的同名类、字节代码检查,并提供安全管理机制(类SecurityManager)让Java应用设置安全哨兵。

6、Java语言是体系结构中立的。

Java程序(后缀为java的文件)在Java平台上被编译为体系结构中立的字节码格式(后缀为class的文件), 然后可以在实
现这个Java平台的任何系统中运行。

这种途径适合于异构的网络环境和软件的分发。

7、Java语言是可移植的。

这种可移植性来源于体系结构中立性,另外,Java 还严格规定了各个基本数据类型的长度。

Java系统本身也具有很强的可移植性,Java编译器是用Java实现的,Java的运行环境是用ANSI C实现的。

8、Java语言是解释型的。

如前所述,Java程序在Java平台上被编译为字节码格式,然后可以在实现这个Java平台的任何系统中运行。

在运行时,Java平台中的Java解释器对这些字节码进行解释执行,执行过程中需要的类在联接阶段被载入到运行环境中。

9、Java是高性能的。

与那些解释型的高级脚本语言相比,Java的确是高性能的。

事实上,Java的运行速度随着JIT(Just-In-Time)编译器技术的发展越来越接近于C++。

10、Java语言是多线程的。

在Java语言中,线程是一种特殊的对象,它必须由Thread类或其子(孙)类来创建。

通常有两种方法来创建线程:其一,使用型构为Thread(Runnable) 的构造子将一个实现了Runnable接口的对象包装成一个线程,其二,从Thread类派生出子类并重写run方法,使用该子类创建的对象即为线程。

值得注意的是Thread类已经实现了Runnable接口,因此,任何一个线程均有它的run方法,而run方法中包含了线程所要运行的代码。

线程的活动由一组方法来控制。

Java语言支持多个线程的同时执行,并提供多线程之间的同步机制(关键字为synchronized)。

11、Java语言是动态的。

Java语言的设计目标之一是适应于动态变化的环境。

Java程序需要的类能够动态地被载入到运行环境,也可以通过网络来载入所需要的类。

这也有利于软件的升级。

另外,Java中的类有一个运行时刻的表示,能进行运行时刻的类型检查。

Java语言的优良特性使得Java应用具有无比的健壮性和可靠性,这也减少了应用系统的维护费用。

Java对对象技术的全面支持和Java平台内嵌的API能缩短应用系统的开发时间并降低成本。

Java的编译一次,到处可运行的特性使得它能够提供一个随处可用的开放结构和在多平台之间传递信息的低成本方式。

特别是Java企业应用编程接口(Java Enterprise APIs)为企业计算及电子商务应用系
统提供了有关技术和丰富的类库。

2.2.1.4.
3.三层B/S模式
随着软件系统的规模和复杂性的增加,软件体系结构的选择成为比数据结构和算法的选择更为重要的因素,三层客户/服务器体系结构为企业资源规划的整合提供了良好的框架,是建立企业级管理信息系统的最佳选择。

三层B/S模式 (以下简称三层模式 )在两层模式的基础上,增加了新的一级。

这种模式在逻辑上将应用功能分为三层:客户显示层、业务逻辑层、数据层。

客户显示层是为客户提供应用服务的图形界面,有助于用户理解和高效的定位应用服务。

业务逻辑层位于显示层和数据层之间,专门为实现企业的业务逻辑提供了一个明确的层次,在这个层次封装了与系统关联的应用模型,并把用户表示层和数据库代码分开。

这个层次提供客户应用程序和数据服务之间的联系,主要功能是执行应用策略和封装应用模式,并将封装的模式呈现给客户应用程序。

数据层是三层模式中最底层,他用来定义、维护、访问和更新数据并管理和满足应用服务对数据的请求。

三层模式的主要优点为:
⏹良好的灵活性和可扩展性。

对于环境和应用条件经常变动的情况,只要对
应用层实施相应的改变,就能够达到目的。

⏹可共享性。

单个应用服务器可以为处于不同平台的客户应用程序提供服务,
在很大程度上节省了开发时间和资金投入;
⏹较好的安全性。

在这种结构中,客户应用程序不能直接访问数据,应用服
务器不仅可控制哪些数据被改变和被访问,而且还可控制数据的改变和访
问方式。

⏹增强了企业对象的重复可用性。

“企业对象”是指封装了企业逻辑程序代码,
能够执行特定功能的对象。

随着组件技术的发展,这种可重用的组件模式
越来越为软件开发所接受。

⏹三层模式成为真正意义上的“瘦客户端”,从而具备了很高的稳定性、延展
性和执行校率。

⏹三层模式可以将服务集中在一起管理,统一服务于客户端,从而具备了良
好的容错能力和负载平衡能力。

2.2.1.4.4.XML标准
XML(Extensible Markup Language)它是由W3C组织于1998年2月制定的一种通用语言规范,是SGML的简化子集,专门为Web应用程序而设计。

XML作为一种可扩展性标记语言,其自描述性使其非常适用于不同应用间的数据交换,而且这种交换是不以预先规定一组数据结构定义为前提。

XML最大的优点是它对数据的描述和数据传送能力,因此具备很强的开放性。

为了使基于XML的业务数据交换成为可能,就必须实现数据库的XML数据存取,并且将XML数据同应用程序集成,进而使之同现有的业务规则相结合。

开发基于XML的动态应用,如动态数据交换等。

本系统全面遵循XML标准。

XML数据标准的推出,增强了系统之间、应用系统之间的数据交换功能,也大大增强了系统之间的集成度。

以XML标准描述数据格式,能促进多种数据格式支持、内容共享、内容的再利用以及增强客户对服务的满意度。

由于采用XML技术,使得本系统的内容描述的标准化,实现跨平台、跨应用系统的信息交换更加流畅和便捷。

2.2.2.项目软硬件系统建设内容
2.2.2.1.大数据决策系统应用
2.2.2.1.1.大数据管税系统
1、税务数据宏观展示
各种不同的税务发票数据汇总,统计各个月的税收情况,获得税收指标完成情况。

可以知晓已完成的税收,税收贡献率高的行业,税收贡献率高的地区,税收贡献率高的票种,便于税务局有针对性地指定税收政策。

获取进项发票省市分布图,可查看跟该税局有经济往来的省市。

对于某一个纳税人企业,可以查询出其上下游企业情况,找出供应链上的关键企业,可以根据其上下游企业进行向后跟踪和向前溯源。

2、多维度数据展现
进项分析可以按照区域、行业、票种等多个角度进行统计分析。

3、风险监控与预警。

相关文档
最新文档