大数据产品测试方法论

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

11 12
13
总流量 网络类型
终端IP
以bytes为单位
RATType取值为1代表3G;2代表 2G 用户每次请求和应答的IP地址
0:表示未合并且未分割的记录; 1:表示合并过且未分割的记录;2:表示未合 并但是分割过的记录;3:表示合并过且分割过的记录; 记录标识为1,3时,本字段表示合并的记录数目;当记录标识为0,2时:本字段为 25 合并记录数 空 网址/特征信 26 对于具备URL/URI的业务填充URL/URI信息,不携带的业务填充特有信息 息
24 记录标识
7
集成公司提供的环境(千兆交换机)
演示平台采用Hadoop技术架构实现数据的存储和应用查询功能,整个平台包含FTP入库系统、基 于Hadoop架构的数据存储系统、统一作业管理、ETL作业引擎、互联网行为分析应用,提的戴尔C6100 服务器10节点,典型配置如下: 磁盘容量:10×6TB = 60T 网络接口:1GBps 内存:36G CPU: 2×8 = 16Cores
15
谢谢!
16
测试范围
性能测试列表
将测试数据文件(1T)从本地加载到hdfs中,记录数据加载速率。 hdfs 将数据库中的测试数据(7000万条)加载到hdfs中,记录数据加载速率。
将指定的测试数据(1T)从hdfs导出到本地,记录数据加载速率。
将测试数据文件(1T)从本地加载到hbase中,记录数据加载速率。 hbase 将数据库中的测试数据(7000万条)加载到hbase中,记录数据加载速率。 查询任意手机号码所有上网记录并按时间过滤,取时间最近的100条。记录数据查询速率。 针对已加载的测试数据,查询任意手机号码所有上网记录, 记录数据查询速率。 mapred 针对已加载的测试数据,根据手机号分组,获取流量总合。按流量总合倒叙排列。记录运算时间。 uce 针对已加载的测试数据,根据app应用分组,获取流量总合。按流量总合倒叙排列。记录运算时间。 将指定的测试数据(1T)加载到hive中,记录数据加载速率。 将数据库中的测试数据(7000万条)加载到hive中,记录数据加载速率。 针对已加载的测试数据,获取地市大流量客户(总流量在500M以上)以及消费的总流量,并以总流量大小的倒序 排列。记录数据查询速率。 针对已加载的测试数据,获取地市最受欢迎的前 50个app应用,及消费流量总和,并以总流量大小倒序排列,记录 hive 数据查询速率。 针对已加载的测试数据,获取联通上网用户终端机型排名列表,同时列出该机型用户数量,记录数据查询速率。 针对已加载的测试数据,获取联通大流量用户,经常访问的app列表。 针对已加载的测试数据,获取用户流量的时段分布列表。 将指定的测试数据(7000万条)从hive导出到关系型数据库,记录数据导出速率。
10
性能测试方案
分别将测试数据文件(1T)和数据库中的测试数据(7000万条)加载到hdfs, hbase及hive中,记录数据加载速率。并分别对hdfs的数据文件进行运算以及
对hbase和hive中的数据进行查询。
用例描述 数据入库 1T数据文件分别加载hdfs、hbase、hive中 数据库7000万条数据分别加载到hdfs、hbase、hive中 数据加工 Mapreduce:根据手机号分组,获取流量总合。按流量总合倒叙排列 Mapreduce:根据app应用分组,获取流量总合。按流量总合倒叙排列 Hbase:查询任意手机号码所有上网记录 Hbase:查询任意手机号码所有上网记录并按时间过滤,取时间最近的100条 Hive:获取地市大流量客户(总流量在500M以上)以及消费的总流量,并以总流量 大小的倒序排列 获取地市最受欢迎的前 50个 app应用,及消费流量总和,并以总流量大小倒序排 列 获取联通上网用户终端机型排名列表,同时列出该机型用户数量 获取用户流量的时段分布列表。 数据出库 指定的测试数据(1T)从hdfs导出到本地 指定的测试数据(7000万条)从hive导出到关系型数据库 加工耗时 加工耗时 数据导出速率 数据导出速率
大数据产品测试方案
联通系统集成有限公司
目录
研发背景、意义
2
测试范围及环境
3
测试方案
4
测试厂家要求及已测试功能
背景
本次测试面向不同厂家的hadoop产品,从不同纬度对厂家产品功能、性能进行验证,
得出验证结果,并针对DW2.0平台规范中提出的一些功能进行技术验证,对hadoop产品选
型提供可靠依据。
8
目录
1
研发背景、意义 测试范围及环境 测试方案
1、功能性测试方案 2、性能测试方案 2、高可用性测试方案 3、可扩展、安全性测试方案
2
4
测试厂家及测试功能
功能性测试方案
一、产品兼容组件 验证厂家hadoop产品兼容hadoop家族组件和具体版本,形成对比列表
HDFS MapReduce Spark Hbase Hive Sqoop Zookeeper
NoSQL引擎节点动态扩展测试
用例描述 数据加密测试 数据隔离测试 检测系统是否对数据进行加密保存 检测系统是否对数据进行用户隔离保存
13
Βιβλιοθήκη Baidu录
1
研发背景、意义
2
测试范围及环境
3
测试方案
测试厂家及测试功能
现阶段参与测试的厂家:中兴、星环
一、参与厂家的公司实力,以及大数据的专职人员和以后在互联网大数据方 面的前景,提供非技术数据作为验证结果参考的一部分:
本次测试使用数据统一采用移动上网用户记录其中一省的数据,通过FTP进行采集,每天数据量大 约250G左右,连续采集15天数据,数据总量3.5T。数据共一类数据,本次验证需要的原始数据以 文件形式存在,数据文件字段内容如下:
1 手机号码 不包含字冠如+86,0086,86 14 15 访问IP 状态码
客户端读写 API接口
多租户开放 MR 作 业 引 作 业 用 户 鉴 作 业 开 发 、 作 业开 发的自 动 数 据 存 储 ( HDFS ETL/MR/ 类 SQL 全 作 业 过程 可 作 业 资 源 式作业
权管理 服务以及发 布管理 化部署 稳定版本软件) 作业调度 视化监控 优化控制 管理
通信对端IP地址,没有IP信息的填空,对于有多个IP的业务,输出合并的流量记录, 访问IP只填第一个IP
业务状态码字典表,对于合并的记录,状态码有多种的情况,取第一个状态码, 避免合并记录状态码叠加的情况(如200+201+202)。
2 位置区编码 省分区域编码 3 CI号码 当有网络切换时,选择第一个 CI
3
目录
1
研发背景、意义
测试范围及环境
3
测试方案
4
测试厂家及测试功能
测试范围
功能性测试列表
Hbase及相关API组件 数据高可用,region 迁移 客户端读写API接口 数据压缩 数据有效期 基于Hbase的MR作业引擎 线性扩展 容错
Hadoop通用平台功能要求
HDFS级安全控制 客户端接入安全控制 Hadoop活动监控及审计 Hadoop安全策略 Hadoop安全 Hadoop安全报告 Hadoop数据隐私管理 提供LDAP 或者LDAPS进行授权访问 Hbase索引 Hadoop平台功能增强功能 HDFS读写能力增强 要求 支持Hive调用外部MapReduce脚本 Hadoop性能与兼容性增强 Hive关联查询增强 MapReduce性能增强 支持大规模索引和搜索构建框架 POSIX兼容性支持 小文件支持改善 提供高级文本分析功能 平台维护及资源监控 中文和英文的文本分析,非结构化文本的读取、分词、特征选择、信 息抽取、自动摘要和舆情分析等 Hadoop集群的可视化监控
APN
IMSI SGSN IP
如3gwap,3gnet,uniwap,uninet,cmwap,cmnet
SGSN的IP地址,填接入第一个
7 8 9 10
结束时间 持续时长 上行流量 下行流量
20 21 22 23
GGSN IP 内容类型 源端口 目的端口
GGSN的IP地址, Content-Type
查询,记录运算及查询速度。
结果正确性校验
针对大数据平台的运算结果可能出现偏差,所以需要对平台的运算结果进行 正确性校验,校验方法为,提供一部分测试数据,并将测试数据分别导入到关 系型数据库(oracle )以及待验证平台中,然后进行相同的查询,将平台得 出结果与关系型数据库得出的结果进行比对。
6
测试数据描述
17
16 User Agent 采集全部信息
4
5 6
终端类型
流量类型 开始时间
IMEI
流量类型 YYYY-MM-DD HH:MM:SS.1234567,精确到 0.1微妙 YYYY-MM-DD HH:MM:SS.1234567,精确到 0.1微妙 以秒为单位 以bytes为单位 以bytes为单位
17
18 19
公司注册资本 星环 中兴 研发中心地址 大数据专职团队人数 源码掌握程度 售后服务
二、各厂家提供hadoop平台进行验证,hadoop平台总体概述:
Hadoop版本
星环 中兴
基于hadoop开源版本
商用最大节点数
电信行业建设经验
目前星环hadoop产品已进行产品兼容组件功能测试,如:hive和spark的 组件测试,中兴的hadoop平台搭建完成,还没有进行测试。
12
可扩展性、安全性测试方案
当大数据平台性能遇到问题时,是否能够横向扩展,通过添加服务器的方式 达到更高的吞吐量,从而充分利用现有的硬件实现更好的投资回报率
用例描述 节点水平动态扩展 性能可扩展 新加节点能够动态加入集群,正常添加了HDFS、YARN、HBase等角色 数据分析相应时间测试 吞吐能力测试 NoSQL并发能力测试 动态扩展测试 非结构化存储节点动态扩展测试 并行计算节点动态扩展测试
二、组件功能增强
增强功能测试项
HDFS 功 能
增强 HBASE HIVE
数据压缩
比 二级/多 维索引 对 sql 支 持程度 擎
小文件支持
API的支持
数据生命周期
数据生命周 期 查询优化
Region迁移 oracle函 数支撑
数据压缩 关联查询增强
数据均衡 Hive 调 用 外 部 MapReduce
11
结果 数据加载速率 数据加载速率 加工耗时 加工耗时 加工耗时 加工耗时 加工耗时 加工耗时
高可用性测试方案
用例描述 非结构化存储节点引擎可靠性测试 主元数据节点故障测试 备主元数据节点故障测试 存储节点故障测试 存储节点网络故障测试 存储节点单磁盘故障测试 并行计算引擎可靠性测试 结构化存储引擎可靠性测试 NoSQL存储引擎可靠性测试 主作业调度节点故障测试 任务执行节点磁盘故障测试 元数据服务器故障测试 控制节点故障测试 存储节点故障测试 存储节点磁盘故障测试 存储节点网络故障测试 易安装测试 可维护性测试 安装部署 日志管理 性能检测 故障管理 图形用户界面 网管性能状态信息测试 网管告警信息测试
5
Hive组件 异构数据源互通工具 SQL over Hadoop作业引擎 Hadoop数据生命周期管理
测试方法
功能测试方法 采用手工测试的方法,分别对hadoop平台的基本功能和hadoop及
其组件增强功能进行功能验证,并形成厂家产品的功能验证结果对比。
性能测试方法
分 别 将测试数据文件(1T)从本地加载到hdfs , hbase 及 hive中,记录数据加 载速率。并分别对hdfs的数据文件进行运算以及对hbase和hive中的数据进行
相关文档
最新文档