基于MR小区优化算法的系统资源配置建议

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于MR小区优化算法的系统资源配置建议

Server D Server D

Master

Server E

MRO解析集群

Server C

Server A

Server B

Salve 1Hadoop集群

Salve 5

Salve 6

Salve 2

Salve 3

Salve 8

Salve 4

Salve7Salve 9

Salve10

1. 服务器配置建议：

所有服务器配置建议采用单CPU4核，32G RAM及其以上2.服务器数量建议：

A、建议在MRO原始文件解析阶段部署4台解析服务器和1台数据缓存服务器。（可选，如果已有解析系统，无需再部署）

B、建议Hadoop集群采用1台Master节点服务器和10台Slave节点服务器，建议Master阶段采用双CPU，64G RAM以上的配置。

C、配置一台应用服务器做数据呈现。（可选，也可以部署在Master节点上）3.服务器存储建议

A、假设解析后的MRO文件为6T ，则每个解析服务器的存储空间至少需要1.5T 。缓存服务器根据实际情况设置，建议不宜太小。

B、假设解析后的MRO文件为6T，则Master节点存储空间至少需要6T，每个slave阶段至少需要1.8T（假设备份因子为3）。注意，1. 在实际生产环境中，每台服务器的存储空间需要额外增加20%～30%的冗余空间。2. 如果对处理时效要求高且服务器资源充分，可增加hadoop的salve节点缩短处理时间；如果对处理时效要求低且服务器资源紧张，可以减少hadoop的slave节点来保证

经济性。

2. 硬件部署建议

基于MR小区优化算法概况和评估基准

根据算法整体需求，运算过程大致包括以下四个方面：

1、MR解析与数据筛选

2、计算每个小区的业务数量，采样点数量和MR记录数量

数据类型：MR数据

数据量：平均约0.6T/万小区（以四川现网数据状况统计为基准）数据类型：工参数据

数据量：小于10M （以四川现网数据状况统计为基准）数据类型：小区级参数

数据量：小于10M （以四川现网数据状况统计为基准）数据类型：邻区级参数

数据量：小于10M （以四川现网数据状况统计为基准）

数据类型：频点级参数

数据量：小于10M （以四川现网数据状况统计为基准）

针对算法实施运行资源需求的评估，主要依照以下几个标准：

数据量的评估：

以四川现网数据状况统计为基准硬件配置：

以通常X86 PC服务器的主流配置：A、单CPU 4核32G RAM B、双CPU 8核64G RAM

硬件网络环境：

以通常机房同网段网络运行环境为准

基于MR小区优化算法的系统效率评估（1）

MR数据解析与筛选：

A、将采集到的MRO原始数据文件进行解析（XML格式到CSV格式）并结合工参数据形成如下MR数据文件。

MR解析过程采用如下几个方面的关键技术：

A、采用基于SAX架构的多线程解析，提升解析效率；

B、才用解析缓存技术，突破I/O瓶颈，提升数据写入效率

1. 采用以上架构，单台服务器的MRO原始文件解析处理效率可以提升到20~40ms/每基站

2. 以1万个基站（约3万小区）一天的MRO原始数据文件解析耗时为例：

A、单台服务器处理需耗时约8小时；

B、4台服务器处理耗时约为2小时（做简单线性估计）；

C、8台服务器处理耗时约为1小时（做简单线性估计）；

基于MR小区优化算法的系统效率评估（2）

计算每个小区的业务数量，采样点数量和MR记录数量：

1. 从现网提取每个小区对应的总业务量PRSum 。

2. 计算每个小区所包含的不同业务（以Mmecode+MmeGroupId+MmeUeslapId为标识）的业务数量PRBCount。

3. 计算每种业务下所包含的采样点（以MmeUeslapId+TimeStamp为标识）数目IDCount

4. 计算每个采样点下所包含的MR记录数MRCount 。

以1万小区一天的MRO原始数据文件（约0.6T），10台单CPU，32GRAM的hadoop服务器集群进行运算耗时：30～50分钟（根据网络状况和硬件存储的差异，耗时可能有较大的偏差）

算法设计：

A. PRBCount计算：对于每条记录：Set Key = ScCGI + Mmecode+MmeGroupId+MmeUeslapId ，Value = 1；

B. IDCount计算：对于每条记录：Set Key = ScCGI + Mmecode+MmeGroupId+MmeUeslapId+MmeUeslapId+TimeStamp ，Value = 1；

C. MRCount计算：对于每条记录：Set Key = ScCGI，Value = 1；

D. 将相应的计算结果存入Hbase

Hbase

Server 1Server 2Server 3...Server N

Hadoop集群

基于MR小区优化算法的系统效率评估（3）

计算每个小区的弱覆盖和过覆盖：

1. 计算每个小区所包含的采样点数IDCount （前续算法计算所得）。

2. 对于每个采样点下的采样点，如果ScRSRP<30，则弱覆盖点计数（X）累加1，并跳出该遍历。

3. 如果ScRSRP>30并且NcRSRP-ScRSRP>-6并且个数大于等于3，则过覆盖点计数（Y）累加1.

4. 小区弱覆盖比例rp = X/IDCount; 小区过覆盖比例

gp = Y/IDCount

1. 本步骤数据特点：

A、MRO数据量大；

B、MRO相互关联性弱，可以进行并行计算。

基于以上两点，对该步骤采用Hadoop的Map-Reduce架构进行运算1. 以1万小区一天的MRO原始数据文件（约0.6T），10台单CPU，32GRAM的hadoop服务器集群进行运算耗时：25～40分钟（根据网络状况和硬件存储的差异，耗时可能有较大的偏差）

Hbase

Server 1Server 2Server 3...Server N

Hadoop集群

算法设计：

1. 小区弱覆盖计算：

if ScRSRP <30 then Set Key = ScCGI（X），Value = 1;

将每个ScCGI（X）的计算结果与之前计算的每个小区的IDCount计算出弱覆盖比例rp. 2. 小区过覆盖比例计算：

if （ScRSRP）> 30 && （NcRSRP-ScRSRP > -6）then

ScCGICount++ （初始值为0）;

if （ScCGICount >=3）then Set Key = ScCGI（Y）, Value = 1;

3. 将每个小区弱覆盖和过覆盖结果存入Hbase