数据湖智能分析系统-需求规格说明书

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据湖智能分析系统需求规格说明书
目录
1引言 (3)
1.1编写目的 (3)
1.2适用范围 (3)
2功能需求 (3)
2.1数据存储服务管理 (3)
2.1.1功能描述 (3)
2.1.1.1存储资源管理和监控 (4)
2.1.1.2文件规范化存储规则管理 (7)
2.1.1.3个人存储服务 (12)
2.1.1.4文件存储监控 (14)
2.2数据解析预处理 (16)
2.2.1功能描述 (16)
2.2.1.1XML解析预处理 (17)
2.2.1.2文本导入器 (23)
1引言
1.1编写目的
本文档是项目实施的基本依据，包括项目范围、功能要求等。

是系统概要设计及详细设计的基石。

1.2适用范围
本文档适用于数据湖智能分析系统的建设和规划中，业务需求及功能要求，保障系统工程建设实施的顺利进行。

2功能需求
2.1数据存储服务管理
2.1.1功能描述
数据存储服务产品主要解决大数据时代海量数据的分布式存储及管理问题。

本服务作为实时数据湖智能分析系统中的一款子产品，与各子产品之间呈现松耦合状态，能够单独部署于大数据存储应用场景。

数据存储服务管理分为存储资源管理和监控、文件存储监控、文件规范化存储、个人存储服务四大模块。

存储资源管理和监控提供系统管理员对应用系统涉及的设备级存储资源及其使用状况进行实时管理和监控的功能。

文件存储监控提供提供用户对系统内的文件存储情况进行实时监控的功能。

文件规范化存储提供系统管理员通过界面配置规则，对系统级用户输出的数据文件实现规范化存储功能。

个人存储服务提供个人用户使用数据存储服务的功能。

2.1.1.1存储资源管理和监控
2.1.1.1.1业务逻辑
1．存储资源管理和监控提供系统管理员添加注册设备级存储资源，并对已注册的存储资源的使用情况进行实时数据监控的功能。

2．页面呈现以下四个重点指标数据：系统总存储量、已占用存储量、剩余存储量、存储资源占用率。

●系统总存储量=所有已添加注册的设备级存储资源的存储总量
●已占用存储量=所有已添加注册的设备级存储资源的已占用的存储量之和
●剩余存储量=系统总存储量-已占用存储量
●存储资源占用率=（已占用存储量/系统总存储量）*100%
3．注册存储设备列表为用户手工添加注册的设备级存储资源数据集合，列表显示的字段有：设备名称、IP地址、用途、服务类型、已用存储、剩余存储、总存储、占用率、操作。

●设备名称：存储资源的名称。

●IP地址：存储资源的对外IP地址（IPV4）。

●用途：个人存储或系统存储。

●服务类型：存储资源的服务类型，目前为HDFS或FTP。

●已用存储：存储资源已占用的存储空间，单位TB。

●剩余存储：存储资源剩余的存储空间，单位TB。

●总存储：存储资源的存储空间值，单位TB。

●占用率：（已用存储/总存储）*100%。

●操作：提供编辑和删除操作，其中编辑操作只能编辑存储资源的名称、IP地址、
端口、用途、服务类型。

删除操作只是将该存储资源从实时监控范围中剔除，
不在页面中呈现，不再获取其使用情况数据，不涉及对资源的物理操作。

4．添加注册存储设备提供用户手工增加设备级存储资源的功能，点击“添加设备”按钮弹出设备添加页面，页面的属性包括：设备名称（必填，长度限制128字节）、IP地址（必填，IPV4格式验证）、端口（必填，数字验证）、服务类型（必选，下拉选择：HDFS/FTP）、用途（必选，下拉选择：系统存储/个人存储）。

5．添加存储设备时，需要避免出现重复IP的设备，保证数据唯一性。

（系统在用户填写IP后需要给出验证提示）
6．对于存储设备的占用率超过一定阈值后，该条设备数据的字体颜色变为红色，阈值可通过后台灵活配置。

7．注册存储资源支持列表左右分页滑动显示。

每页显示存储资源数对象4个，每个对象显示的内容包括设备名称、总存储、已用存储、剩余存储及对应的占用/剩余空间百分比饼图。

2.1.1.1.2原型界面
存储资源管理和监控页面：
添加设备页面：
2.1.1.2文件规范化存储规则管理
2.1.1.2.1业务逻辑
1．文件规范化存储规则管理提供系统管理员实时管理规范化规则数据的功能，管理员可以通过界面制定文件规范化存储规则，系统将根据规则，自动将匹配规则的原始数据文件存放到规范化的文件路径中。

2．文件规范化存储管理页面，用户可以通过输入查询条件，检索符合条件的规范化存储规则数据，查询条件包括：
●规则标题：对应规则数据的标题字段，模糊查询
●规则状态：对应规则数据的规则状态，单选，精确查询
3．规范化存储规则数据列表显示字段包括：规则标题、规则状态、创建人、创建时间、操作。

●操作：提供编辑和删除功能。

编辑提供为规则的修改操作，删除提供对规则的
清除操作，删除操作需要给出用户进行确认。

4．列表数据提供分页，每页最大数据条数30条。

5．文件规范化存储管理页面，用户点击“新增”按钮，可弹出规则配置页面，用户填写以下信息，确定后即可完成新增规则操作。

●规则标题：文本输入，必填，建议长度不超过128字节。

●规则应用范围定义：用户可以选择通过正则表达式或自定义应用路径的方式来
确定规则所适用的数据范围。

✧提供规则应用范围定义说明，用户鼠标移到说明图标上后，浮现详细说明：
正则表达式定义提供用户编制正则表达式来确定规则应用路径或文件范围。

用户也可以选择自定义规则应用路径方式，确定规则应用主路径则该主路
径下所有文件及子文件夹中的文件都应用该规则，也可以根据实际业务添
加子路径的过滤条件来将一些不考虑纳入规则应用的子目录进行剔除。

✧自定义规则应用路径中的过滤条件可以多个，条件的基础数据为下拉选项：
一级子目录、二级子目录、三级子目录、四级子目录、五级子目录、六级
子目录。

判断条件为下拉选项：==，！=，包含，不包含。

例如如果选择
一级子目录==02，则表示在主路径下的第一级子路径中，文件夹02不纳
入规则应用范围内。

●原始数据文件名分隔符：文本输入，必填，建议长度不超过8字节。

●规则状态：必选项，激活/停止，默认激活。

●规则变量定义：用户可以手工添加规则变量，规则变量用于组装规范化文件存
储路径。

✧提供规则变量说明，用户鼠标移到说明图标上后，浮现详细说明：自定义
变量来源于原始文件的路径或文件名称中，系统会自动将原始文件路径和
文件名称通过分隔符拆分为数组，自定义变量的数据源为数组元素，其中
元素位置为元素在数组中的位置（从0开始），用户可通过开始位（从1
开始）和结束位（为空则默认到最末位）再次拆分元素来获得变量的最终
值，另外变量的数组来源可选文件路径或文件名，分别对应拆分后的路径
数组和文件名数组。

●规范化存储路径：通过变量组装成最终的规范化文件路径。

6．对于规则状态为激活的规范化存储规则数据，系统自动根据规则将适用路径中的原始文件存储到规范化存储路径中。

用户可以通过编辑操作修改规则状态。

7．规范化存储列表提供分页功能，每页最多30条数据。

2.1.1.2.2原型界面
存储资源管理和监控页面：
新增规则页面：
2.1.1.3个人存储服务
2.1.1.
3.1业务逻辑
1．个人存储服务提供个人用户通过控制台使用数据存储服务的功能，用户可以进行文件上传、下载、分享及创建文件夹操作。

2．对于用户的个人存储数据，系统提供列表和缩略图两种展示模式，用户可切换。

3．系统提供个人用户根目录:/全部文件/，用户可以通过点击“新建文件夹”按钮，自定义自己的文件夹体系。

4．用户可以点击“上传文件”按钮，上传自己本地文件或文件夹整体数据，在非共享情况下，用户只能看见自己上传的存储数据，他人文件不可见。

5．用户选择相关存储数据后，可点击“分享”按钮，选择分享的用户，确定后被分享的用户可以在个人存储服务中查看并下载被分享的数据。

6．用户可以通过点击“删除”按钮，删除自己上传的存储数据（可多选批量删除）。

7．用户选择相关存储数据后，可以通过点击“下载”按钮，将该数据下载到本地目录（可多选批量下载）。

8．用户可以在“更多”中进行以下操作：
重命名：用户可以对自己上传的数据进行重新命名操作。

●复制到：用户可以选择某个自己定义的文件夹，将被选中的存储数据复制到该
文件夹下。

（可多选批量操作）
●移动到：用户可以选择某个自己定义的文件夹，将被选中的存储数据移动到该
文件夹下。

（可多选批量操作）
9．个人存储服务的数据后期可能提供给各子系统操作调用，建议使用HDFS存储服务。

2.1.1.
3.2原型界面
个人存储服务页面（列表形式）：
个人存储服务页面（缩略图形式）：
2.1.1.4文件存储监控
2.1.1.4.1业务逻辑
1．文件存储监控提供系统管理员对系统级数据情况进行自定义统计分析呈现。

2．数据统计分析呈现支持饼图，柱状图，折线图，多柱状图，多折线图，堆积柱状图，堆积折线图，直方图，数据报表。

3．用户可以通过选择左侧业务包树中的维度和指标数据，确定统计数据的呈现图示后，系统自动生成对应的统计分析结果。

4．该统计分析页面通用于各业务模块的多维分析需求，左侧业务包的树形数据根据各业务模块的统计分析需要，自行建立cube，以整体存储情况统计分析为例，系统可以按照设备服务类型或存储设备维度来建立。

5．系统级数据情况的统计分析维度指标具体如下：
●维度：一级目录、二级目录、三级目录、四级目录（规范化存储后的文件目
录）
●指标：文件数、文件存储总量
6．支持对维度和指标数据的显示排序、条件过滤功能，例如用户可以选择对维度中的一级目录进行过滤，添加过滤条件来对统计分析数据进行过滤呈现。

例如添加过滤条件：一级目录属于2015，则一级目录中的2015文件夹不纳入统计范畴。

7．数据结果支持导出EXCEL。

2.1.1.4.2原型界面
文件存储监控页面样例：
指标或维度的过滤条件设置页面：
2.2数据解析预处理
2.2.1功能描述
数据解析预处理主要提供将半结构化数据（XML）高效转化为易于分析的结构化数据的服务，主要面向系统管理人员，其中的XML解析预处理主要提供将XML按照定义的规则解析成文本的功能，文本导入器则提供将文本数据按照定义的规则导入oracle数据库的功能。

2.2.1.1XML解析预处理
2.2.1.1.1业务逻辑
1．XML解析预处理页面主要分为三大块内容：基本信息定义块、解析规则信息块、解析日志显示块。

●基本信息定义块，主要提供用户定义解析的操作方式以及选择解析数据的操作，
其中操作方式分为定义新规则或选择已有规则两种，由用户进行单选操作。

➢如果用户选择定义新规则，则用户接下来进行解析文件的选择操作，用户可以直接选择本地的XML文件，也可以选择HDFS上的XML文件(由用
户填写XML的HDFS的全路径，包含具体的文件名)。

➢如果操作方式选择已有规则，则用户接下来进行解析规则和解析文件的选择操作，对于解析规则的选取，用户可以通过点击“选择”按钮，弹出解
析规则选择列表页面，用户选择具体规则后返回（选择框中显示选中的解
析规则名称）。

对于解析文件的选取与定义新规则的方式稍有不同，用户
不但可以选择具体某个XML文件，也可以选择某个文件夹，如果选择文
件夹，则系统将默认该文件夹下的所有XML文件都纳入到本次解析中来，
如果文件夹中包含压缩文件（rar、zip、tar、gzip、7Z、lzh、bz2），系统需
要支持自动解压缩功能，将解压后的XML文件都纳入到解析中。

➢如用户选择“定义新规则”且选择本地文件，则系统需要控制文件大小，不允许超过50M。

●解析规则信息块初始化为不可操作状态，当用户进行以下操作时，方可进行操
作：
➢用户点击“新增规则”按钮后，解析规则定义块可以进行操作。

➢用户点击“加载规则”按钮，弹出规则选择列表，选择具体规则后返回，则解析规则定义块自动加载所选规则的内容并可以进行操作。

●用户新增规则定义完成后，可以点击“保存规则”，弹出规则保存窗口，填写
规则名称后，系统自动对该规则进行保存操作。

●用户加载已有规则定义后，也可以对规则进行修改，点击“保存规则”，系统
将自动对该规则进行更新操作。

●解析规则定义块，用户可以选择两种解析方式：智能化全量解析或自定义解析。

如选择智能化全量解析，系统默认选中XSD视图中的所有节点及属性（用户可自行去除某些节点或属性），用户定义行、列分隔符，选择解析文件输出路径后，点击“解析”，系统将对已选择的节点或属性按照XSD视图中的自然顺序进行全量解析操作。

如选择自定义解析，系统默认不选择XSD视图中的所有节点及属性（用户可自行选择某些节点或属性），用户定义行、列分隔符后，用户可以对选中的节点或属性自行定义其在TEXT中的列位置。

系统将根据用户定义的顺序进行解析操作。

●XSD视图按照树形结构进行显示，用户可以选择具体节点或属性，其中“@”
用来表示节点属性。

（具体可见原型界面）
●用户可选择解析文件的输出位置，可选本地文件目录，也可以选择存放到HDFS
服务器的HIVE目录中。

➢目前解析生成的文件格式暂时只支持行式存储的数据文件格式，包括：TEXTFILE、SEQUENCEFILE。

➢用户如果选择输出文件到HIVE表，则需要输入HIVE表的全路径（即HIVE 表在HDFS上的全路径）及HIVE表名。

➢输出文件的名称与被解析的XML文件名称保持一致。

●解析日志显示块输出解析操作的日志，用户可以对解析操作过程进行实时监控，
对于解析失败的文件日志，红色字体显示，用户可以点击查看日志失败详情信
息。

●解析规则选择列表页面提供用户按照规则名称和应用范围进行模糊查询，其中
应用范围为规则应用的文件或文件夹，规则类型分为XML解析规则或数据入
库规则两种，其中数据入库规则对应于后面的文本导入器中入库规则定义。

2.2.1.1.2原型界面
XML解析页面：
规则选择列表弹窗：
2.2.1.2文本导入器
2.1.1.2.1业务逻辑
1．文本导入器主要提供用户将行式存储数据文件（如text）数据导入到数据库的功能。

●数据库类型暂时支持Oracle、MySql。

●用户点击“打开文件”，选择本地的text文件后，系统将自动将该文本的数据
显示在文本数据预览框中。

(默认按UTF-8编码)
●用户可以定义文本数据的行列分隔符，系统将自动对数据进行划分，确定对应
的文本字段数。

●用户可以定义数据库连接的相关信息，包括数据库驱动、URL、用户名、密码。

系统提供连接验证功能。

●用户可以选择数据导入对应的库表，如果表不存在，可自行定义表名。

●用户定义文本字段与数据表的字段映射关系及数据表字段的数据类型，如果表
不存在，则字段和数据类型可自行定义，否则用户可以选择已有的表字段进行映射。

●用户可以定义文本数据导入数据表时，对原表数据是进行覆盖重复操作还是忽
略重复操作，判断是否重复的规则，有主键按主键字段，无主键则以所有字段相同为准。

●用户可以定义文本数据导入数据表时，一次导入的数据量，默认1OO，不超过
1000。

●入库规则定义块初始化为不可操作状态，当用户进行以下操作时，方可进行操
作：
➢用户点击“新增规则”按钮后，入库规则定义块可以进行操作。

➢用户点击“加载规则”按钮，弹出规则选择列表，选择具体规则后返回，则入库规则定义块自动加载所选规则的内容并可以进行操作。

●用户新增规则定义完成后，可以点击“保存规则”，弹出规则保存窗口，填写
规则名称后，系统自动对该规则进行保存操作。

●用户加载已有规则定义后，也可以对规则进行修改，点击“保存规则”，系统
将自动对该规则进行更新操作。

入库日志显示块输出入库操作的日志，用户可以对入库操作过程进行实时监控，对于入库失败的文件日志，红色字体显示，用户可以点击查看详细的失败信息。

（日志显示内容见原型界面描述）
2.1.1.2.2原型界面
规则选择列表弹窗：。