数据采集处理项目技术方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据采集处理项目技术方
案
Modified by JEEP on December 26th, 2020.
xxx大数据库中心数据库
投资商和企业数据采集处理项目
项目编号:
技术方案
xxx有限公司
二○一七年六月
目录
1 引言
项目背景
XXX大数据中心建设出发点考虑从投资者角度涵盖招商全流程,尽可能为投资者解决项目实施过程中的困难和问题,便于招商部门准确掌握全省招商数据,达到全省招商项目数据共享,形成全省招商工作“一盘棋、一张网、一体化”格局。大数据中心将充分发挥大数据优势,加强对企业投资项目、投资轨迹分析,评估出其到XX投资的可行性,为招商过程留下痕迹、找到规律、明辨方向、提供“粮食”、提高效率,实现数据寻商、数据引商、数据助商,实现数据资源实时共享、集中管理、随时查询,实现项目可统计、可监管、可协调、可管理、可配对、可跟踪、可考核。
本次数据运营服务主要是为大数据平台制定数据运营规范及管理办法,同时为“企业数据库”提供数据采集、存储与分析服务,并根据运营规范要求持续开展数据运营服务。
项目目标
制定招商大数据运营规范及管理办法。
制定招商大数据相关元数据标准,完成相关数据的采集、整理与存储。
根据业务需求,研发招商大数据招商业务分析模型,并投入应用。
根据运营规范及管理办法的要求持续开展数据运营工作。
建设原则
基于本项目的建设要求,本项目将遵循以下建设原则:
前瞻性和高标准整个项目要按照企业对大数据应用的需要的高要求和高标准建
设,参考行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一定前
瞻性。
经济性和实用性整个项目以现有需求为基础,充分考虑未来发展的需要来确定系
统的架构,既要降低系统的初期投入,又能满足服务对象的需求,同时系统设计
应充分考虑对已有投资的保护,对已建立的数据中心、基础平台、应用软件应提
供完备的整合方案。
先进性和成熟性为了确保项目具有较长的生命周期,应充分考虑到管理创新、技术发展需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足业务需求。
高性能和安全性规范地进行系统建设和开发,提供合理且经济有效的应急方案,确保系统的稳定,向各类服务对象提供可靠的服务。具有安全性,在系统遭到攻击或崩溃时能快速恢复,确保重要数据的机密性和完整性。
参考规范
GB/T 20269-2006 信息安全技术—信息系统安全管理要求
GB/T 20984-2007 信息安全技术—信息安全风险评估规范
GB/T 22239-2008 信息安全技术—信息系统安全等级保护基本要求
GB/T 22240-2008 信息安全技术—信息系统安全等级保护定级指南
GA/T 388-2002B 计算机信息系统安全等级保护管理要求
GB/T 8567 -1988 计算机软件产品开发文件编制指
GB/T 11457-1995 软件工程术语
GB/T 11457-2006 信息技术软件工程术语
GB/T 软件工程产品质量第1 部分:质量模型
GB/T 软件工程产品质量第2 部分:外部度量
GB/T 软件工程产品质量第3 部分:内部度量
GB/T 软件工程产品质量第4 部分:使用质量的度量
GB/T 14394-2008 计算机软件可靠性和可维护性管理
GB/T 17544-1998 信息技术软件包质量要求和测试
名词解释
●S2DFS:简单存储分布式文件系统(Simple Storage Distributed File System)
●D2B:分布式数据库(Distributed Database)
●JSS:作业调度服务(Job Scheduler Service)
●DCS:数据计算服务(Data Computer Service)
●MPS:消息处理服务(Message Process Service)
●SDS:流数据处理服务(Stream Data Service)
●DMQ:分布式消息队列(Distributed Message Queue)
●JGS:作业生成服务(Job Generation Service)
●ACS:自动清理服务进程(Automatic Cleaning Services)
●HTTP:超文本传输协定(HyperText Transfer Protocol)
●SMB:服务器信息块协议(Server Message Block)
2 云数据采集中心
需求概述
根据规划,云数据采集中心的建立至少满足1 至2 年内的数据存储和计算规模,需要满足:
●数据采集范围包括但不限于世界500强、全国500强、行业20强企业相关数
据。
●总数据容量至少达到30T。
总体设计
整个云数据采集中心分为三部分:硬件资源层、软件平台层、软件应用层。
硬件资源层主要指实体硬件设备,包括用来存储数据的光纤阵列柜和存储服务器,用来作统计、分析以及搜索用的计算服务器,用来部署分布式消息(DMQ)/WEB/APP 软件的WEB 及消息服务器,用来部署用PostgreSQL 关系数据库软件的应用数据库服务器,用来部署作业调度服务进程(JSS)的作业调度服务器。作为数据通信用的全千兆三层交换机等等。其中光纤阵列柜主要用来存储统计分析后的粗颗粒度数据。存储服务器用来部署分布式文件系统和分布式数据库,同时存储非结构化和结构化(台标图片,电商图片等等)和结构化数据(行为数据,索引数据,log 数据,清理后的细颗粒度数据等等)。计算服务器主要用来完成数据的清理、统计、搜索等计算任务。为了节省成本和减少通信代价,建议存储服务器和计算服务器合二为一,所以该服务器同时具有计算和存储数据的功能,前期也可以考虑把作业调度服务进程(JSS)进程部署在存储/计算服务器上。由于云数据采集中心需要面对多种宽带用户(电信、移动、联通),所以,数据中心的对外的网络需要直连上电信、移动、联通三家公司的网络,保证以上三家公司间的通信性能高速和可靠。
软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计和实施的主体部分,在核心技术章节会对“分布式文件系统(S2DFS)”、“分布式数据库(D2B)”、“分布式消息服务(DMQ)”“作业调度服务进程(JSS)、数据计算服务进程(DCS)”主