需求规格说明书-相亲网站大数据分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
<相亲网站大数据分析>
分 类: <模板> 使用者
: <项目组> 文档编号:
HD-PP-310 四川华迪信息技术
有限公司
需求规格说明书
项 目 承 担 部 门 : JavaEE+大数据第6组
撰 写 人(签名): 唐欢
完 成 日 期 : 2019/8/15
本文档 使 用部门 : □主管领导 □项目组 □客户(市场) □维护人员 □用户
评审负责人(签名):刘建辉
评 审 日 期 : 2019/8/15
目录
1.引言 (1)
1.1目的 (1)
1.2定义 (1)
2.软件总体概述 (1)
2.1软件描述 (1)
2.1.1系统属性 (1)
2.1.2开发背景 (1)
2.1.3软件功能 (1)
2.2用户特点 (2)
2.3限制与约束 (2)
3.具体需求 (2)
3.1功能需求 (2)
3.2性能需求 (4)
3.3数据库需求 (4)
3.4硬件约束 (4)
3.5属性 (5)
3.5.1可用性 (5)
3.5.2可靠性 (5)
3.5.3可维护性 (5)
3.6外部接口需求 (5)
3.6.1用户接口 (5)
3.6.2软件接口 (5)
4.数据字典 (5)
需求规格说明书
1.引言
1.1目的
通过统计各个相亲网站的用户数据,得出各个相亲网站的热度排行榜。通过分析处理,得出各个相亲网站的成功率,分析所有网站的用户的择偶标准,如星座、工作性质、学历等得出所占比例。
1.2定义
Spark:Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Hadoop:Hadoop实现了一个分布式文件系统,简称HDFS。
HDFS:有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX 的要求,可以以流的形式访问文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
2.软件总体概述
2.1软件描述
2.1.1系统属性
相亲网站大数据统计分析网站,Hadoop实现数据分布式存储,spark算子实现大规模数据处理,实现程序到数据。
2.1.2开发背景
统计相亲网站的用户信息得出各大网站的热度排行榜,分析成功率以及网站业务水平和服务水平,以便用户更好的选择注册哪个相亲网站。
2.1.3软件功能
2.2用户特点
想要选择成功率高的相亲网站进行注册的普通用户,需要查看各知名网站的市场占比,以及查看各热门相亲网站的成功率对比显示。
2.3限制与约束
时间约束:实训软件开发阶段仅有17天左右。
语言约束:前端框架语言版本不统一。
3.具体需求
3.1功能需求
3.2性能需求
相亲网站大数据分析所需数据较大,要将数据完整的显示出来耗时较多,对于网页的加载速度有一定的要求。首页加载最慢不应超过1秒。知名相亲网站显示加载最慢不应超过0.5秒。
系统处理能力主要考虑系统能承载的最大并发用户数,按照实际情况的规划,系统至少能承载的最大并发用户数要求达到400。
3.3数据库需求
详情请参考《数据库说明书》。
3.4硬件约束
服务器硬件属性如下:
CPU: 1核
内存: 2 GB
实例类型: I/O优化
操作系统: CentOS 7.3 64位
弹性网卡: eni-uf63wee169jhdhrsbzq3
带宽计费方式:按固定带宽
当前使用带宽: 1Mbps
3.5属性
3.5.1可用性
访问网站得到的数据完整,可长时间持续使用。输入错误时,获取错误信息后可重新输入或产看其他内容。
3.5.2可靠性
在最大允许访问限制下,可长时间稳定运行。同时访问量低时稳定运行时间超过99%。
3.5.3可维护性
可通过重启spark集群和hadoop初始化数据,通过hadoop更新数据,获取更多的数据使计算得出的结论更精准。
3.6外部接口需求
3.6.1用户接口
用户界面是程序中用户能看见并与之交互作用的部分,设计一个好的用户界面是非常重要的,本平台大多采用图表将数据可视化。
表格及图表数据通过echarts API绘制。
3.6.2软件接口
jdbc-5.1.47数据库接口;
Hadoop-2.7.7接口。
4.数据字典
详情请参考《数据库说明书》。