基于MR小区优化算法的系统资源配置建议

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于MR小区优化算法的系统资源配置建议

Server D Server D

Master

Server E

MRO解析集群

Server C

Server A

Server B

Salve 1Hadoop集群

Salve 5

Salve 6

Salve 2

Salve 3

Salve 8

Salve 4

Salve7Salve 9

Salve10

1. 服务器配置建议:

所有服务器配置建议采用单CPU4核,32G RAM及其以上2.服务器数量建议:

A、建议在MRO原始文件解析阶段部署4台解析服务器和1台数据缓存服务器。(可选,如果已有解析系统,无需再部署)

B、建议Hadoop集群采用1台Master节点服务器和10台Slave节点服务器,建议Master阶段采用双CPU,64G RAM以上的配置。

C、配置一台应用服务器做数据呈现。(可选,也可以部署在Master节点上)3.服务器存储建议

A、假设解析后的MRO文件为6T ,则每个解析服务器的存储空间至少需要1.5T 。缓存服务器根据实际情况设置,建议不宜太小。

B、假设解析后的MRO文件为6T,则Master节点存储空间至少需要6T,每个slave阶段至少需要1.8T(假设备份因子为3)。注意,1. 在实际生产环境中,每台服务器的存储空间需要额外增加20%~30%的冗余空间。2. 如果对处理时效要求高且服务器资源充分,可增加hadoop的salve节点缩短处理时间;如果对处理时效要求低且服务器资源紧张,可以减少hadoop的slave节点来保证

经济性。

2. 硬件部署建议

基于MR小区优化算法概况和评估基准

根据算法整体需求,运算过程大致包括以下四个方面:

1、MR解析与数据筛选

2、计算每个小区的业务数量,采样点数量和MR记录数量

数据类型:MR数据

数据量:平均约0.6T/万小区(以四川现网数据状况统计为基准)数据类型:工参数据

数据量:小于10M (以四川现网数据状况统计为基准)数据类型:小区级参数

数据量:小于10M (以四川现网数据状况统计为基准)数据类型:邻区级参数

数据量:小于10M (以四川现网数据状况统计为基准)

数据类型:频点级参数

数据量:小于10M (以四川现网数据状况统计为基准)

针对算法实施运行资源需求的评估,主要依照以下几个标准:

数据量的评估:

以四川现网数据状况统计为基准硬件配置:

以通常X86 PC服务器的主流配置:A、单CPU 4核32G RAM B、双CPU 8核64G RAM

硬件网络环境:

以通常机房同网段网络运行环境为准

基于MR小区优化算法的系统效率评估(1)

MR数据解析与筛选:

A、将采集到的MRO原始数据文件进行解析(XML格式到CSV格式)并结合工参数据形成如下MR数据文件。

MR解析过程采用如下几个方面的关键技术:

A、采用基于SAX架构的多线程解析,提升解析效率;

B、才用解析缓存技术,突破I/O瓶颈,提升数据写入效率

1. 采用以上架构,单台服务器的MRO原始文件解析处理效率可以提升到20~40ms/每基站

2. 以1万个基站(约3万小区)一天的MRO原始数据文件解析耗时为例:

A、单台服务器处理需耗时约8小时;

B、4台服务器处理耗时约为2小时(做简单线性估计);

C、8台服务器处理耗时约为1小时(做简单线性估计);

基于MR小区优化算法的系统效率评估(2)

计算每个小区的业务数量,采样点数量和MR记录数量:

1. 从现网提取每个小区对应的总业务量PRSum 。

2. 计算每个小区所包含的不同业务(以Mmecode+MmeGroupId+MmeUeslapId为标识)的业务数量PRBCount。

3. 计算每种业务下所包含的采样点(以MmeUeslapId+TimeStamp为标识)数目IDCount

4. 计算每个采样点下所包含的MR记录数MRCount 。

以1万小区一天的MRO原始数据文件(约0.6T),10台单CPU,32GRAM的hadoop服务器集群进行运算耗时:30~50分钟(根据网络状况和硬件存储的差异,耗时可能有较大的偏差)

算法设计:

A. PRBCount计算:对于每条记录:Set Key = ScCGI + Mmecode+MmeGroupId+MmeUeslapId ,Value = 1;

B. IDCount计算:对于每条记录:Set Key = ScCGI + Mmecode+MmeGroupId+MmeUeslapId+MmeUeslapId+TimeStamp ,Value = 1;

C. MRCount计算:对于每条记录:Set Key = ScCGI,Value = 1;

D. 将相应的计算结果存入Hbase

Hbase

Server 1Server 2Server 3...Server N

Hadoop集群

基于MR小区优化算法的系统效率评估(3)

计算每个小区的弱覆盖和过覆盖:

1. 计算每个小区所包含的采样点数IDCount (前续算法计算所得)。

2. 对于每个采样点下的采样点,如果ScRSRP<30,则弱覆盖点计数(X)累加1,并跳出该遍历。

3. 如果ScRSRP>30并且NcRSRP-ScRSRP>-6并且个数大于等于3,则过覆盖点计数(Y)累加1.

4. 小区弱覆盖比例rp = X/IDCount; 小区过覆盖比例

gp = Y/IDCount

1. 本步骤数据特点:

A、MRO数据量大;

B、MRO相互关联性弱,可以进行并行计算。

基于以上两点,对该步骤采用Hadoop的Map-Reduce架构进行运算1. 以1万小区一天的MRO原始数据文件(约0.6T),10台单CPU,32GRAM的hadoop服务器集群进行运算耗时:25~40分钟(根据网络状况和硬件存储的差异,耗时可能有较大的偏差)

Hbase

Server 1Server 2Server 3...Server N

Hadoop集群

算法设计:

1. 小区弱覆盖计算:

if ScRSRP <30 then Set Key = ScCGI(X),Value = 1;

将每个ScCGI(X)的计算结果与之前计算的每个小区的IDCount计算出弱覆盖比例rp. 2. 小区过覆盖比例计算:

if (ScRSRP)> 30 && (NcRSRP-ScRSRP > -6)then

ScCGICount++ (初始值为0);

if (ScCGICount >=3)then Set Key = ScCGI(Y), Value = 1;

3. 将每个小区弱覆盖和过覆盖结果存入Hbase

相关文档
最新文档