反垃圾主要技术讲解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
反垃圾主要技术讲解
在互联网创新,创业潮的冲击下,大量拥有互联网交互式服务功能的产品正在兴起,在这些产品发展的过程中,均会遇到各种各样的垃圾信息。由于垃圾信息天然的“趋热”特点,产品拥有的用户量越大,“热度”越高,垃圾量也越大。
为了便于表述,我们暂且把这些发送垃圾信息的人或者团队称为“垃圾虫”。发垃圾信息的灰色产业经过数十年的发展,垃圾虫已经进化的相当成熟和强大了。相对而言,新兴互联网产品在处理垃圾信息方面还是缺乏经验的“新手”。易盾〃反垃圾云服务的推出彻底改变了这一现状:用网易多年积累的技术和经验对付各种发垃圾信息的“散兵”,可以实现更加全面的防护和更好的过滤效果。而产品本身,也不需要再关心这种“非正常”用户对产品数据的扰乱和影响了,对于各种追求“敏捷开发”的新兴项目和产品的策划和技术人员,工作量大大减少,可以更加专注于产品本身的功能策划和技术研发。
反垃圾的主要技术和优势
易盾〃反垃圾的技术基础来自网易内部所有产品的反垃圾技术方案,是积累和发展了十几年的成果。在技术领域上主要分为:垃圾发现、垃圾识别、垃圾处理三大类别。其中每个大类下又划分为不同的子技术类型。
垃圾发现
垃圾的发现是为了解决层出不穷的新类型垃圾问题。由于中文的博大精深和垃圾虫的“狡猾”,基于固有样本的识别和检测效果是非常差的,我们必须有一套有效率及时的垃圾发现机制。具体有以下几种:
•用户举报
群众的眼睛是雪亮的,充分的发动用户,发动产品“粉丝”的积极性,可以极大的提高反垃圾工作效果。良好的举报功能也是要花很多精力去设计和开发的。比如举报按钮的位置,举报的分类,举报的奖励机制等。这些都会影响用户的举报积极性。科学的举报分类可以极大的帮助反垃圾训练特征样本。建议根据产品实际情况和相关法律法规定制良好的举报机制和举报分类。
• 内容聚合
对于广告类型的垃圾,它们的首要目的就是博取眼球,追求高曝光率。为了达到这个目的,垃圾虫通常都会发送数量可观的信息,以量取胜。而这些大量的数据为了宣传同样的广告内容,比如“开发票”之类,就一定会有相似的内容存在。我们可以对这些相似的内容进行实时分析和聚合,及时发现真正的垃圾。
• 蜜罐系统
通常垃圾虫都有特定的工具协助来进行垃圾信息发送,而这些工具大多会分析页面元素进行调用。我们在页面中埋伏一些“蜜罐”,正常的用户无法看到这些入口,但是程序会直接调用这些入口进行垃圾信息发送。比如某一些隐藏的评论主题,只有程序会去抓取这些主题并对它们发送垃圾信息。那么进了这些“蜜罐”里的人,都可以被判断为非正常的用户。
垃圾识别
• 特征匹配
基于已有垃圾特征进行匹配,是较为常见也较为传统的识别手段。对于文本来说,最常见的是关键词匹配。随着反垃圾的经验积累,技术发展,关键词系统在功能上也会不断扩充。易盾的关键词系统除了普通的文字匹配外,对于各种文字垃圾的变种,也能有效识别。
比如:“发票”的各种变种:
【形近字】(发|犮|拨)(票|栗|粟|溧|镖|膘|骠..
【音近字】花|發|笩..
针对图片的特征识别,易盾专门研发了一套图片特征提取算法,稳定性好,匹配性能高,支持图片旋转、编辑、裁剪等的识别。同时我们还针对色情等图片的特征研发了人体肤色识别,人体特征部位识别,人体姿势识别等特征检测系统。
图片识别功能举例
• 模型匹配
这个比传统的识别方式更为高级。易盾基于深度学习的算法训练了大量的样本数据,用计算机模拟人脑神经网络的原理,使计算机训练后具备一定的识别能力,可以在没有具体特征样本库的情况下识别内容的分类。比如一篇文章内容机器自动可以识别是否是广告,还是普通文章。也能识别色情图片,低俗图片,暴恐图片,违禁品图片等。音频文件也通过大量语料学习能把语音转换成文本,然后进入文本匹配过程。
针对暴恐图像的识别
• 规则匹配
为了提高反垃圾效果,我们希望不仅仅通过代码和算法对数据进行处理。我们需要一个快速响应和准确针对的机制。规则系统就是这样的一个机制。规则系统支持传统的正则表达式也支持各种基于元数据的定制。
垃圾处理
• 普通操作
易盾支持删除内容,封禁内容,封禁用户,删除用户,封禁IP,封禁设备等常规手段,可以按垃圾严重程度采取不同手段,或者不同措施相互配合完成对垃圾的处理。
• 后续操作
仅仅处理掉垃圾是远远不够的。反垃圾是一场持久战,垃圾虫也会不断进化。易盾每天会把删除的垃圾内容汇总到内部大数据平台,由大数据分析组进行分析和数据挖掘,分析和挖掘得到的新型特征用来支持各种模型以及规则的更新和升级。
以上为易盾的主要技术分类。当然每一个类别下都还有很多更深的细节,几乎每一个细节都可以展开成一篇文章。以后我们会慢慢撰文跟大家分享。
易盾系统主要优势在于能将上述各个反垃圾的阶段无缝结合,高效合作,并由此积累大量的垃圾样本以及匹配规则。同时,网易强大的研发技术和硬件设备投入也为易盾提供了有力保障。