基于clementine的数据分析与处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
处理流程
集、数据展示恶化预处理、模型建立、模型评价等环节。Clementine形象的将 这些环节表示成若干节点,将数据分析过程看成数据在各个节点之间的流动, 并通过一个图形化的‘数据流’直观表示整个数据分析过程。 Clementine的操作目的就是要建立一条或多条数据流,不断修改和调整流 中的节点及参数,执行数据流,进而完成整个数据分析任务。
8秒 √
文件大小不影响Clementine模块化设计,但VB需要打开excel后执行
10
Clementine软件的关键应用优势
大数据量处理 可视化编程 模块化处理 丰富的数据挖掘算法
具有可视化的操作界面,简单易用 ,分析结果直观易懂,图像功能强 大 略去复杂VB的代码工作 本身具有数据库节点,支持与数据 库互通互联
分析数据限制
无
1百万行
无
复杂分析逻辑建立难易
可视化,简单
VBA调试麻烦
SQL编写,复杂
分析逻辑建立灵活性 分析速度
中 快
差 慢
强 中
调试
使用者要求 可视化 数据挖掘功能
易
中 强 强
难
透视表易,VBA高 中 无
难
高 差 无 14
目录
第一部分 第二部分 第三部分 第四部分 第五部分 数据分析工具Clementine引入的背景及意义 Clementine的应用理念及引入的优势 Clementine的基本操作演示 Clementine在网优分析中的实战应用 展望
15
操作界面
工具栏
菜单栏 数据流和输出
数据流区域
选项板区
项目窗口
节点
16
模块库
源 记录选项 字段选项 图形 建模 输出
**源节点--用来将数据读入 Clementine 中
#文本文件 #ODBC 兼容的数据库 #用户输入文件 #SPSS 数据文件 #SAS 数据文件
自由字段文本文件
固定字段文本文件
28
CDR数据结构及可供分析优势
应 用 现 状
核心网平台在建设完成已有一段时间,但现网实际工 作中基于它的应用却并不多见 沦落为对问题定位时的信令跟踪查询工具或是另外类 同网管的指标统计工具,与平台建设初衷有较大差距。
多接口合成结构化事件级的记录
优 势 特 点
事件类型丰富,可从中进行深入挖掘隐匿问题 字段类型丰富,可结合多字段进行多维度的联合分析 不同事件类型 CDR的关联分析,更有效贴近用户感知 发现解决问题
基于Clementine的数据分析与处理
中讯邮电咨询设计院有限公司 刘喜卿
2015年7月
目录
第一部分 第二部分 第三部分 第四部分 第五部分 数据分析工具Clementine引入的背景及意义 Clementine的应用理念及引入的优势 Clementine的基本操作演示 Clementine在网优分析中的实战应用 展望
世界大 数据发
信令数据、互联网数据其规模已经达到数百TB,甚至 PB规模,整个产业压力突出,传统数据库技术已无法 满足运营商对大数据充分利用的需求。
展趋势
对运营商来说,数据爆发性增长后,带来的收入并未 改观,网络问题依然不断,因此,如何利用好运营商手 中的大数据,成为需要面对的问题
运营商 对数据 分析的 需求
操作目的
1. 数据导入 2. 数据处理 3. 结果展示 9
Clementine软件的关键应用优势
大数据量处理 可视化编程 模块化处理 丰富的数据挖掘算法
# 对于一个340M的数据文件 #
59秒 √
首 次 读 入 缓 存 后 读 入
51秒 √
很难打开,后续基于公式的数据处理更 为困难,甚至死机,效率较低
0
29 57 85
253
281
309
337
通话时长(秒)
E口链路平均通话时长(55秒以下)链路数分布
18 16 14 12 10 8 6 4 2 0 1 5 9 13 17 21 25 29 33 37 41 45 49 53
365
113
但是… 1、信令流程上单 通事件与正常通话 完全一样 2、缺乏通过用户 面内容进行快速有 效判定的方法 3、用户面的数据 采集、存储存在一 定困难
31
研究思路
将用户行为与CDR数据的关键字段相结合进行疑似单通的判定
分析对象 PCM • • CIC 数据源 A口/E口CDR数 据,T局话单 用户行为分析指标 通话次数(暂定100) 平均通话时长(暂定30秒) • 通话时长分布异常 分析结论 疑似链路级单 通
全外连接
反连接
CLEM语言
CLEM定义
CLEM 全名为 Clementine Language for Expression Manipulation ,也就是在 Clementine 中执行函数运算时的专用语法,它是一个功能强
18类丰富的函数
大的语言,用来分析操作 Clementine 流程处理;
4
引入Clementine的必然性-1
从大量数据这一源头追根溯源
贴近用户感知,增 快速发来自百度文库解决问题,
加用户满意度
节省运维成本
贴近用户感知,找到用户 需要和运营方向
用户不断增多 网络层次结构日益 增多
发现网络故障和潜在隐 性问题,找到优化方法
数据分析方法上:
业务不断多样化
网络复杂度不断增 加
多接口多数据源的联合优化 几类业务数据之间的表面关系,深入到各种业务数据之间内 在关联的研究 从使用一种单一的方法解决单一问题,到融合多种方法解决 复杂问题
超节点扩展
对应的数据文件便可反复应用
12
Clementine软件的关键应用优势
大数据量处理 可视化编程 模块化处理 丰富的数据挖掘算法
经典数据挖掘算法形成模 块直接使用 最大化支持数据挖掘算法
8个预测模型节点 3个聚类方法
3个关联技术
13
Clementine关键优势对比
Clementine Excel 2010 SQL
Clementine
发展及特点
专业化特点
•跨行业数据挖掘的标准过程, *定位是面向行业、工具导 向、面向应用 *适用于大型工业和商业实 践的一般标准 •六个阶段: 商业理解 数据理解 数据准备 建模 模型评估 结果发布
8
Clementine软件概况
软件概述 应用主体思路
Clementine的操作与数据分析的一般流程相吻合。数据分析通常经过数据收
7
Clementine软件概况
软件概述 应用主体思路
•最早由英国ISL公司开发,1998年被SPSS公司收购,并重新整合
和开发
基本概况
• 2009年,被IBM收购,成为IBM麾下一款面向商业用户的高品质 数据挖掘产品,从诸如Statsoft Statistics、Oracle DM、
MATLAB等众多软件中脱颖而出
网络规模不断增大
网络技术日益复杂
数据分析内容上:
从简单统计KPI到真正贴近用户感知,进行底层用户事件级 的关联分析
5
引入Clementine的必然性-2
另一方面 网优平台 统计监控 信令跟踪 优化分析
现网多样化的隐匿问题
用户行为分析
小数据分析excel解决
从数据源中去挖掘
数据量大且复杂的分析工作
核心思路
模块检测 疑似链路级单 通检测
问题定位 拨测验证及问 题定位
优化流程
模型参数修 整
优化评估 效果评估
优化实施 优化
32
关键参数取值分析-30S
E口链路平均通话时长链路数分布
350 300 250
200
150 100 50
通话100次以上
大部分链路平均通话时长 集中在72至125秒之间
链路数
21
模块库
源 记录选项 字段选项 图形 建模 输出
**建模—丰富的数据挖掘算
法,执行预测、关联、聚类 等功能
22
模块库
源 记录选项 字段选项 图形 建模 输出
**输出—按照需求输出不同形式的结果
表节点
报告节点
23
基本演示环节
数据的快速读入 排序、过滤 数据合并
纵向合并 横向合并
•内连接
任何以 @ 开头的 CLEM 函数都是大写字母 标准 CLEM 函数全部是小写字母 使用表达式构造器!
27
目录
第一部分 第二部分 第三部分 第四部分 第五部分 数据分析工具Clementine引入的背景及意义 Clementine的应用理念及引入的优势 Clementine的基本操作演示 Clementine在网优分析中的实战应用 展望
2
背景及意义
驱动
社交网络、移动设备、传感器、交通、医疗等各行 业不断的产生信息,使得数据正以每年50%的量增 长着, 2011年,全球共有1.8ZB字节的数据产生 近日的运营支撑大会上,专家预测,大数据会成为 继云计算后我国下一个国家战略 非结构化、半结构化、结构化的大容量且高速率的 数据,我们能做什么?
分组汇总节点
CLEM语言
19
模块库
源 记录选项 字段选项 图形 建模 输出
**字段选项—对数据关键属性字段进行过滤、
填充、字段重排、导出和重新分类等操作
过滤节点
导出节点
20
模块库
源 记录选项 字段选项 图形 建模 输出
**图形—将数据结果绘制成饼图、直方图、散点
图等不同的图形种类进行呈现
图形板节点
节点 一个节点图标代表在 Clementine 中进行的 一个操作 工作流 一系列连接在一起的节点 选项板 包含一系列丰富功能的功能节点
11
Clementine软件的关键应用优势
大数据量处理 可视化编程 模块化处理 丰富的数据挖掘算法
超节点 模块化处理,利用超节点建立 可重用的模块,搭建好复杂的 数据分析处理模型,对于不同 地域、不同时间段关于统一系 列问题的分析工作只需导入相
利用专业数据分析工具的应用优势,基于网优平台的数 据进行充实分析,形成新的成果后固化到网优平台上
大量的数据使得专业数据挖掘分析工具Clementine的应用引入应运而生
6
目录
第一部分 第二部分 第三部分 第四部分 第五部分 数据分析工具Clementine引入的背景及意义 Clementine的应用理念及引入的优势 Clementine的基本操作演示 Clementine在网优分析中的实战应用 展望
3
Clementine&起呼3G切2G优化分析
4
Clementine&异常点检测
5
Clementine&预测分析
30
背景
……………… 怎么没有声音?
喂!喂!能 听见吗?喂 !
单通问题由来已久
• • • 对用户感知影响较大,是比较严重的语音质量问题 目前在现网上不同程度普遍存在 各地客服经常接到此方面的投诉
•全外连接 •部分外连接 •反连接
数据汇总
CLEM语言使用
基本演示环节
纵向合并 属性列完全相同表格数据记录的简单追加
横向合并 内连接
将多个表格关键字段值相等的记录的所有属 性列进行连接合并。
部分外连接
定义主表并以主表关键字段值为对象连接合并 其他表格属性列,若主表关键字段值在其他表 中不存在则对应属性列置空。 列出多个表格所有不重复关键字段值,然后将不 同表格所有属性列进行连接合并,若相应关键字 段值在原表中无匹配记录,则对应属性列置空。 定义主表,若主表关键字段值在其他表中无 匹配记录,则对应主表记录即为目标记录 25
世界大 数据发
展趋势
运营商 对数据 分析的 需求
增强收集海量数据、分析萃取信息的能力,对于容 量大且速率高的大数据使用全新的处理方式,提升决 策力和洞察力以及优化处理能力,提高科学和研究的 步伐 3
背景及意义
驱动
随着W及PA+网络的的成熟,移动互联网迅猛发展, 数据增长速度加快,运营商新业务不断涌现,导致数据 暴增。
可以用在导出、选择、过滤、平衡和报告等多节点中,这些函数可以实现 导出新的值、根据条件选择记录、比较和评估数据、插入数据等功能; CLEM 表达式与一般由数值、字段名、操作符和函数等构成的公式相似
CLEM表达式构成
26
CLEM语言
简单示例
注 意 事 项
大小写敏感性 在字符值和所有变量(字段)名上加引号 当涉及数值时使用小数点( 0.0)
17
模块库
源 记录选项 字段选项 图形 建模 输出
《ODBC 兼容的数据库节点》
选择合适的 ODBC 驱动,该驱动 应该匹配数据库的名称和版本
添加配置数据库
18
模块库
源 记录选项 字段选项 图形 建模 输出
**记录选项—对数据进行条件筛选、样本抽取
、横向/纵向连接、排序、均值/方差计算等操作
记录选择节点
应 用 前 景
CDR其中蕴藏了大量丰富信息,针对CDR利用专业化 数据分析工具进行二次分析和优化,拓宽分析方法思路, 对现网单通链路、起呼3切2、小区对切换失败原因集中 度等实质性问题展开优化分析
29
典型应用
1 Clementine&单通链路优化分析
2
Clementine &3G切2G小区对失败集中度分析