基于大数据挖掘分析的垃圾短信治理方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于大数据挖掘分析的垃圾短信治理方案

王睿,谭卫

(中国移动通信集团四川有限公司 成都,610041)

摘 要 本文简要介绍了垃圾短信对社会带来的负面影响,分析了目前垃圾短信治理体系存在的不足,提出了基于大

数据挖掘分析的垃圾短信治理方案:首先构建垃圾短信用户识别指标体系,通过引入随机森林模型,对垃圾短信用户进行识别和有效治理,最后运用平台对垃圾短信用户进行精细化管理。

关键词 垃圾短信;大数据;随机森林

中图分类号 TN918 文献标识码 A 文章编号 1008-5599(2015)02-0078-05

收稿日期:2014-11-28

1 垃圾短信治理面临的调整

目前的垃圾短信过滤的方法主要有黑名单和白名单监控技术,但是短信中心对黑白名单处理数量有上限要求;基于关键字的过滤技术,但是这种技术不能灵活识别和更新关键字;基于内容的过滤技术,可分为基于规则的过滤和基于概率统计的过滤;基于数据挖掘方法的垃圾短信用户识别,目前基本上都使用IBM SPSS Modeler 平台的决策树和逻辑回归经典算法识别垃圾短信用户,由于选取的建模数据不全面以及算法本身各自存在不足使得建模效果受到影响。

为建立白名单和科学封堵模型相结合的垃圾短信治理模式,实现精细化、行为级、高效性的垃圾短信治理,本方案提出了基于客户综合特征分析的垃圾短信治理技术方案:基于随机森林分类的垃圾短信用户预测模型。通过客户入网属性,客户通信行为信息、客户账单信息等多个维度构建模型,对垃圾短信号码进行识别和治理。

相比传统基于短信内容识别、发送量控制的事中控制,本系统能够进行垃圾短信发送行为预测,配合垃圾

短信拦截系统将垃圾短信在未形成大规模发送前拦截。实验结果证明该模型能够有效的识别垃圾短信号码,对监控系统拦截垃圾短信起到很好的辅助作用。

2 大数据挖掘的原理与优势

大数据是指数据量很大(一般是TB 到PB 数量级)的巨量资料,无法通过主流软件工具,在合理时间内完成数据处理并获取有价值的信息。数据大多以非结构化或者半结构化数据为主,大数据具有4V 特点:Volume、Velocity、Variety、Veracity。大数据处理的一般思路是数据压缩、数据抽样、数据挖掘等。

数据挖掘是一种新的信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、推荐系统等,它们分别从不同的角度对数据进行挖掘。大数据挖据的数据源和处理方式对比如表1所示。

3 数据挖据流程和模型选取

3.1 数据挖掘的主要流程

数据挖掘主要包括以下6大步骤。

(1)商业理解:确定挖掘目标以及产生一个项目计划。

(2)数据理解:知晓有哪些数据,以及数据的特征是什么。

(3)数据准备:对数据作出转换、清洗、选择、合并等工作。

(4)建模:根据挖掘目标确定适合的模型,建模并对模型进行评估。

(5)模型评估:评估建模效果,对效果较差的结果我们需要分析原因。

(6)结果部署:用所建挖掘模型去解决实际问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。

3.2 垃圾短信治理指标体系设计

垃圾短信用户识别建模数据主要从信令监测系统、经营分析系统获取,所获取的用户行为数据主要包括用户通信行为信息、用户基础业务属性、用户通信业务信息等7个维度。其中,用户通信行为信息包括活动轨迹、终端IMEI 和数据业务访问等信息,如图1所示。3.3 模型的选取

对白名单用户的识别可以利用社交网络模型与业务规则相结合的方法。利用社交网络进行白名单用户识别,重点考虑用户之间发生的通信行为、增值业务交互行

为等群体行为,通过对用户之间关系的辨识。本文建模的重点着眼于垃圾短信用户的识别及其治理。3.3.1 现有垃圾短信识别模型的优势与不足

识别垃圾短信用户是数据挖掘中的分类问题,数据挖掘中常用的分类算法主要有逻辑回归、决策树、贝叶

斯网络等算法。其中,神经网络因本身算法的复杂性,造成模型结果解释性较差,模型落地较困难而很少在实际项目中使用。目前识别垃圾短信的数据挖掘模型基本上为逻辑回归模型和决策树模型。

决策树模型主要具有以下优势:模型非常直观,容易让人理解和应用;

决策树搭建和应用的速度比较快;决策树对于数据分布没有严格要求;受缺失值和极端值对模型的影响很小。

但是,使用决策树作为垃圾短信用户识别模型主要存在以下不足。

(1)决策树最大缺点是其原理中的贪心算法。贪心算法总是做出在当前看来最好的选择,却不从整体上思考最优的划分,因此,它所做的选择只能是某种意义上的局部最优选择。

(2)决策树缺乏像回归或者聚类那样丰富多样的检测指标和评价方法。

(3)容易出现过拟合。当某些自变量的类别数量比

图1 垃圾短信用户识别建模指标体系设计

方法数据来源数据结构数据量级处理方法传统方法 单源结构化普通数据库大数据方法

多源

非(半)

结构化

巨大

数据库&挖掘工具

表1 大数据方法与传统方法比较

较多,或者自变量是区间型时,决策树过拟合的危险性会增加。

(4)决策树算法对区间型自变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因分箱丧失某些重要信息。尤其是当分箱前的区间变量与目标变量有明显的线性关系时,这种分箱操作造成的信息损失更为明显。

相比于数据挖掘建模常用的其它算法如决策树、神经网络、支持向量机等,逻辑回归技术是最成熟,得到广泛应用,逻辑回归模型主要存在以下不足。

(1)变量之间的多重共线性会对模型造成影响。

(2)应删除异常值,否则它会给模型带来很大干扰。

(3)逻辑回归模型本身不能处理缺失值,所以应用逻辑回归算法时,要注意针对缺失值进行适当处理,或者赋值,或者替换,或者删除。

3.3.2 垃圾短信识别预测模型选取

鉴于目前研究者对垃圾短信识别使用的决策树和逻辑回归模型存在较多不足之处,本文从模型算法上对其进行改进,力求得到更加科学合理的垃圾短信识别预测模型。本文使用的数据挖掘模型为随机森林模型。

3.3.2.1 模型简介

随机森林(Random Forest)算法是一种专门为决策树分类器设计的优化方法。它综合了多棵决策树模型的预测结果,其中的每棵树都是基于随机样本的一个独立集合的值产生的。

随机森林和使用决策树作为基本分类器的Bagging 有些类似。以决策树为基本模型的Bagging在每次自助法(Boostrap)放回抽样之后,产生一棵决策树,抽多少样本就生成多少棵树,在生成这些树的时候没有进行更多的干预。而随机森林也是进行许多次自助法放回抽样,所得到的样本数目及由此建立的决策树数量要大大多于Bagging的样本数目。随机森林与Bagging的关键区别在于,在生成每棵树的时候,每个节点变量都仅仅在随机选出的少数变量中产生。因此,不但样本是随机的,就连每个节点变量产生都有相当大的随机性。随机森林让每棵树尽可能生长,而不进行修剪。

随机森林算法主要包括决策树的生长和投票过程。

随机森林中单棵树的生长可概括为以下几步。

(1)使用Bagging方法形成个别的训练集:假设原始训练集中的样本数为N,从中有放回地随机选取N个样本形成一个新的训练集,以此生成一棵分类树。

(2)随机选择特征(指评估指标,以下同)对分类树的节点进行分裂:假设共有M个特征,指定一个正整数m

(3)每棵树任其生长,不进行剪枝。Bagging方法形成新的训练集和随机选择特征进行分裂,使得随机森林能较好地容忍噪声,并且能降低单棵树之间的相关性;单棵树不剪枝能得到低偏差的分类树,同时保证了分类树的分类效能(Strength),分类树的分类效能是指分类树对新的测试数据的分类准确率。

随机森林算法的投票过程如图

2所示。

随机森林采用Bagging方法生成多个决策树分类器,其基本思想是给定一个弱学习算法和一个训练集,单个弱学习算法准确率不高,该学习算法使用多次,得出预测函数系列,进行投票最好结果准确率将得到提高。随机森林投票算法公式:

图2 随机森林的投票过程

相关文档
最新文档