基于MR小区优化算法的系统资源配置建议
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于MR小区优化算法的系统资源配置建议
Server D Server D
Master
Server E
MRO解析集群
Server C
Server A
Server B
Salve 1Hadoop集群
Salve 5
Salve 6
Salve 2
Salve 3
Salve 8
Salve 4
Salve7Salve 9
Salve10
1. 服务器配置建议:
所有服务器配置建议采用单CPU4核,32G RAM及其以上2.服务器数量建议:
A、建议在MRO原始文件解析阶段部署4台解析服务器和1台数据缓存服务器。(可选,如果已有解析系统,无需再部署)
B、建议Hadoop集群采用1台Master节点服务器和10台Slave节点服务器,建议Master阶段采用双CPU,64G RAM以上的配置。
C、配置一台应用服务器做数据呈现。(可选,也可以部署在Master节点上)3.服务器存储建议
A、假设解析后的MRO文件为6T ,则每个解析服务器的存储空间至少需要1.5T 。缓存服务器根据实际情况设置,建议不宜太小。
B、假设解析后的MRO文件为6T,则Master节点存储空间至少需要6T,每个slave阶段至少需要1.8T(假设备份因子为3)。注意,1. 在实际生产环境中,每台服务器的存储空间需要额外增加20%~30%的冗余空间。2. 如果对处理时效要求高且服务器资源充分,可增加hadoop的salve节点缩短处理时间;如果对处理时效要求低且服务器资源紧张,可以减少hadoop的slave节点来保证
经济性。
2. 硬件部署建议
基于MR小区优化算法概况和评估基准
根据算法整体需求,运算过程大致包括以下四个方面:
1、MR解析与数据筛选
2、计算每个小区的业务数量,采样点数量和MR记录数量
数据类型:MR数据
数据量:平均约0.6T/万小区(以四川现网数据状况统计为基准)数据类型:工参数据
数据量:小于10M (以四川现网数据状况统计为基准)数据类型:小区级参数
数据量:小于10M (以四川现网数据状况统计为基准)数据类型:邻区级参数
数据量:小于10M (以四川现网数据状况统计为基准)
数据类型:频点级参数
数据量:小于10M (以四川现网数据状况统计为基准)
针对算法实施运行资源需求的评估,主要依照以下几个标准:
数据量的评估:
以四川现网数据状况统计为基准硬件配置:
以通常X86 PC服务器的主流配置:A、单CPU 4核32G RAM B、双CPU 8核64G RAM
硬件网络环境:
以通常机房同网段网络运行环境为准
基于MR小区优化算法的系统效率评估(1)
MR数据解析与筛选:
A、将采集到的MRO原始数据文件进行解析(XML格式到CSV格式)并结合工参数据形成如下MR数据文件。
MR解析过程采用如下几个方面的关键技术:
A、采用基于SAX架构的多线程解析,提升解析效率;
B、才用解析缓存技术,突破I/O瓶颈,提升数据写入效率
1. 采用以上架构,单台服务器的MRO原始文件解析处理效率可以提升到20~40ms/每基站
2. 以1万个基站(约3万小区)一天的MRO原始数据文件解析耗时为例:
A、单台服务器处理需耗时约8小时;
B、4台服务器处理耗时约为2小时(做简单线性估计);
C、8台服务器处理耗时约为1小时(做简单线性估计);
基于MR小区优化算法的系统效率评估(2)
计算每个小区的业务数量,采样点数量和MR记录数量:
1. 从现网提取每个小区对应的总业务量PRSum 。
2. 计算每个小区所包含的不同业务(以Mmecode+MmeGroupId+MmeUeslapId为标识)的业务数量PRBCount。
3. 计算每种业务下所包含的采样点(以MmeUeslapId+TimeStamp为标识)数目IDCount
4. 计算每个采样点下所包含的MR记录数MRCount 。
以1万小区一天的MRO原始数据文件(约0.6T),10台单CPU,32GRAM的hadoop服务器集群进行运算耗时:30~50分钟(根据网络状况和硬件存储的差异,耗时可能有较大的偏差)
算法设计:
A. PRBCount计算:对于每条记录:Set Key = ScCGI + Mmecode+MmeGroupId+MmeUeslapId ,Value = 1;
B. IDCount计算:对于每条记录:Set Key = ScCGI + Mmecode+MmeGroupId+MmeUeslapId+MmeUeslapId+TimeStamp ,Value = 1;
C. MRCount计算:对于每条记录:Set Key = ScCGI,Value = 1;
D. 将相应的计算结果存入Hbase
Hbase
Server 1Server 2Server 3...Server N
Hadoop集群
基于MR小区优化算法的系统效率评估(3)
计算每个小区的弱覆盖和过覆盖:
1. 计算每个小区所包含的采样点数IDCount (前续算法计算所得)。
2. 对于每个采样点下的采样点,如果ScRSRP<30,则弱覆盖点计数(X)累加1,并跳出该遍历。
3. 如果ScRSRP>30并且NcRSRP-ScRSRP>-6并且个数大于等于3,则过覆盖点计数(Y)累加1.
4. 小区弱覆盖比例rp = X/IDCount; 小区过覆盖比例
gp = Y/IDCount
1. 本步骤数据特点:
A、MRO数据量大;
B、MRO相互关联性弱,可以进行并行计算。
基于以上两点,对该步骤采用Hadoop的Map-Reduce架构进行运算1. 以1万小区一天的MRO原始数据文件(约0.6T),10台单CPU,32GRAM的hadoop服务器集群进行运算耗时:25~40分钟(根据网络状况和硬件存储的差异,耗时可能有较大的偏差)
Hbase
Server 1Server 2Server 3...Server N
Hadoop集群
算法设计:
1. 小区弱覆盖计算:
if ScRSRP <30 then Set Key = ScCGI(X),Value = 1;
将每个ScCGI(X)的计算结果与之前计算的每个小区的IDCount计算出弱覆盖比例rp. 2. 小区过覆盖比例计算:
if (ScRSRP)> 30 && (NcRSRP-ScRSRP > -6)then
ScCGICount++ (初始值为0);
if (ScCGICount >=3)then Set Key = ScCGI(Y), Value = 1;
3. 将每个小区弱覆盖和过覆盖结果存入Hbase