云计算短信内容审计研究【精品发布】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
云计算短信内容审计研究【精品发布】
1引言
开发完善的垃圾短信过滤系统一直是电信运营商和学术界研究的重点。随着手机用户数量的增长,垃圾短信数量也呈现出爆炸增长的势头,使得广大消费者长时间饱受垃圾短信的骚扰。垃圾短信不仅占用了有限的网络资源,造成运营商投入更多的人力、物力资源对其进行处理,而且以欺诈为目的的短信使很多用户损失大量财产。目前用户投诉总量的30%以上都是针对垃圾短信,因此电信运营商有义不容辞的责任抑制垃圾短信蔓延。中国移动、中国联通和中国电信公司推出了过滤垃圾短信专用客户端。主要做法是根据发送号码特征及语义特征自动过滤垃圾信息,将要过滤的号码加入短信黑名单。而针对号码特征及语义特征过滤受到手机的存储和运算能力的限制,还需要进一步的改善。即使使用传统的服务器来分析并将发送源号码屏蔽,也由于垃圾短信数据量呈现指数级的增长使得分析垃圾短信变得越来越慢,无法实时对发送垃圾短信的号码起到屏蔽的作用。云计算作为一种全新的IT服务模式,将其应用到垃圾短信的过滤中,不仅提供几乎无限的存储空间,使得数据存储和管理能够顺利的完成,而且提供了无限强大的计算能力,使得在超大规模的数据中实时挖掘出有用的数据成为可能。云计算的这些特点正好弥补手机和传统服务器的不足,为过滤垃圾短信提供了必要条件。总之,垃圾短信的泛滥使人们的日常生活受到了严重的影响,已成为一种社会危害,治理垃圾短信势在必行。[1]
2云计算的关键技术
2.1数据存储技术
云计算采用分布式存储来存储数据保证了高可用、高可靠和经济性;为同一份数据存储多个副本的冗余存储方式保证存储数据的可靠性。云计算的数据存储技术必须具有高吞吐量和高传输率的特点,因为云计算系统能够并行地为大量用户提供服务来同时满足超大规模用户的需求。本文所采用的云计算的数据存储技术采用Apache开源组织的一个分布式计算开源框架Hadoop,
HDFS(HadoopdistributedFileSystem,Hadoop分布式文件系统)作为Hadoop的核心技术之一,HDFS是分布式计算中数据存储管理的基础。它所具有的高容错高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(LargeDataSet)的应用处理带来了很多便利。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。因此,超大规模的数据存储、数据加密和安全性保证以及提高I/O速率等方面将是云计算的数据存储技术未来的主要发展方向。
2.2编程模型
云计算要求编程模型必须相当简单的原因是让用户能够轻松享受云计算带来的各种服务,特定的功能可以通过用户利用该编程模式编写简单的程序来实现,同时用户和编程人员无需对后台复杂的并行执行和任务调度的细节进行了解,只需了解如何调用相应的接口。Map—Reduce是目前云计算大量采用的编程模式,用于大规模数据集(大于
1TB)的并行运算。它极大的方便编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。它的实现是map函数和R