第6章离群点挖掘分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
商务数据挖掘与应用案例分析
0/41
2018/10/13
第6章 离群点挖掘
6.1 概述>> 6.2 基于相对密度的离群点检测方法>> 6.3 基于聚类的离群点检测方法>> 6.4 离群点检测方法的评估>>
1/41
2018/10/13
开篇案例——保险欺诈检验
随着保险业的蓬勃发展,保险欺诈现象也越来越严重。有关统计数据显示,国际 上某些险种因被欺诈而导致的赔款支出最高可达保险费收入的50%。从所发生 的保险欺诈案例看,手段无所不用且花样翻新,有的虚构或者伪造索赔,人寿保 险中常见的是移花接木、冒名顶替,或者自演自导一幕幕自残的苦肉计,更恶劣 的还有杀亲骗保者,财产保险中,诸如故意沉船、故意纵火等骗赔伎俩,五花八 门。愈演愈烈的保险欺诈违法犯罪活动,不仅极大地损害了保险合同当事人的合 法权益,而且还严重扰乱了保险市场的正常秩序。一方面他对保险公司的财产构 成了直接的侵犯;另一方面,保险公司面对保险欺诈不得不提高保费,这样,诚 实的投保人成为最大的损失者,这将会严重阻碍保险业的发展。 在人寿保险业务中,一份保单就是一个事务。保险公司在接受保险前,往往需要 记录投保人详尽的信息,有时还要到医院做身体检查。保单上记录有投保人的年 龄、性别、健康状况、工作单位、工作地址、工资水平、索赔次数等等。我们主 要想通过数据挖掘找出行为异常的客户记录。我们主要关注购买人的年龄、工作 单位、健康状况、工资水平的信息和购买后的索赔情况,可以认为保单号、单位 代号、单位名称是一些无关信息。 这种人寿保险公司通过分析客户信息识别保险中的欺诈特征就是离群点检测方法 研究的问题。数据挖掘中的多数方法都会将异常数据视为噪音或异常而丢弃。而 离群点检验在激增的客户信息和业务数据中寻找异常数据,并进行更深层次的分 析。这些异常数据与数据的一般行为或模型不一致,发生的概率非常小。但在保 险欺诈检验中,小概率事件可能比正常发生的事件更有意义。因此,通过离群点 检验将客户信息进行细致的分类挖掘,寻找欺诈的一般特征,并建立客户分析预 测模型,对具有欺诈特征的客户群体实施相应的措施,以提高公司的反欺诈能力。
(1) 全局观点和局部观点

(2) 点的离群程度

(3) 离群点的数量及时效性

7/41
2018/10/13
6.1 概述 (6)


离群点实例
一个人的年龄为-999就可能是由于程序处理缺省数据设置默认值 所造成的 ; 一个公司的高层管理人员的工资明显高于普通员工的工资可能成 为离群点但却是合理的数据(如平安保险公司2007年 5位高管税 后收入超过了1000万元); 一部住宅电话的话费由每月200元以内增加到数千元可能就因为 被盗打或其它特殊原因所致;
6.2 基于相对密度的离群点检测 (1)
(1)用于定义离群点的属性个数
一个对象只有单个属性 一个对象具有多个属性:
2/41 2018/10/13
6.1 概述 (1)


什么是离群点(Outlier)?
Hawkins的定义:离群点是在数据集中偏离大部分数据的数据,使人 怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不同的机 制。 Weisberg的定义:离群点是与数据集中其余部分不服从相同统计模型 的数据。 Samuels的定义:离群点是足够地不同于数据集中其余部分的数据。 Porkess的定义:离群点是远离数据集中其余部分的数据



一张信用卡出现明显的高额消费也许是因为是盗用的卡。
8/41
2018/10/13
6.1 概述 (7)

离群点与众不同但具有相对性:
高与矮,疯子与常人。

类似术语: Outlier mining, Exception mining:异常挖掘、离 群挖掘、例外挖掘和稀有事件挖掘 。
9/41
2018/10/13

4/41
2018/10/13
6.1 概述 (3)
Baidu Nhomakorabea

离群点检测的应用领域


电信、保险、银行中的欺诈检测与风险分析 发现电子商务中的犯罪行为 灾害气象预报 税务局分析不同团体交所得税的记录,发现异常模型和趋势 海关、民航等安检部门推断哪些人可能有嫌疑 海关报关中的价格隐瞒 营销定制:分析花费较小和较高顾客的消费行为 医学研究中发现医疗方案或药品所产生的异常反应 计算机中的入侵检测 应用异常检测到文本编辑器,可有效减少文字输入的错误 ……



3/41
2018/10/13
6.1 概述 (2)


离群点的特殊意义和实用价值
现有数据挖掘研究大多集中于发现适用于大部分数据的常规模式,在 许多应用领域中,离群点通常作为噪音而忽略,许多数据挖掘算法试 图降低或消除离群点的影响。而在有些应用领域识别离群点是许多工 作的基础和前提,离群点会带给我们新的视角。 如在欺诈检测中,离群点可能意味欺诈行为的发生,在入侵检测中离 群点可能意味入侵行为的发生。
2018/10/13

6/41
6.1 概述 (5)

离群点挖掘中需要处理的几个问题
离群点与众不同,但具有相对性。 可以通过定义对象的偏离程度来给对象打分——离群因子(Outlier Factor)或离群值得分(Outlier Score),即都为离群点的情况下,也 还有分高和分低的区别。 正常点的数量远远超过离群点的数量,离群点的数量在大规模数据集 中所占的比例较低,小于5%甚至1%.
5/41
2018/10/13
6.1 概述 (4)

(1)定义在一个数据集中什么数据是不一致或离群的数据; (2)找出所定义的离群点的有效挖掘方法。离群点挖掘问题可以概括为如 何度量数据偏离的程度和有效发现离群点的问题。


离群点挖掘问题由两个子问题构成:
为什么会出现离群点?
测量、输入错误或系统运行错误所致 数据内在特性所决定 客体的异常行为所致 由于离群点产生的机制是不确定的,离群点挖掘算法检测出的“离群 点”是否真正对应实际的异常行为,不是由离群点挖掘算法来说明、 解释的,只能由领域专家来解释,离群点挖掘算法只能为用户提供可 疑的数据,以便用户引起特别的注意并最后确定是否真正的异常。对 于异常数据的处理方式也取决于应用,并由领域专家决策。
相关文档
最新文档