物联网数据处理第6章离群点挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由于离群点产生的机制是不确定的,离群点挖掘算法检测出的“离群 点”是否真正对应实际的异常行为,不是由离群点挖掘算法来说明、 解释的,只能由领域专家来解释,离群点挖掘算法只能为用户提供可 疑的数据,以便用户引起特别的注意并最后确定是否真正的异常。对 于异常数据的处理方式也取决于应用,并由领域专家决策。
到k-最近邻的距离的计算
定义6-1 对于正整数k,对象p的k最近邻距离k_distance(p)定 义为:
(1)除p外,至少有k个对象o满足 distance(p,o) k _ distance(p) (2)除p外,至多k-1个对象o满足 distance(p,o) k _ distance(p)
5/41
2019/11/22
6.1 概述 (4)
离群点挖掘问题由两个子问题构成:
(1)定义在一个数据集中什么数据是不一致或离群的数据; (2)找出所定义的离群点的有效挖掘方法。离群点挖掘问题可以概括为如
何度量数据偏离的程度和有效发现离群点的问题。
为什么会出现离群点?
测量、输入错误或系统运行错误所致 数据内在特性所决定 客体的异常行为所致
relative density(x, k) yN (x,k)
density(x, k)
其中,N(x,k) 是不包含x的k-最近邻的集合,| N(x,k) | 是该集合的大小,y 是一个最近邻。
基于相对密度的离群点检测方法通过比较对象的密度与它的邻域中的 对象平均密度来检测离群点。 簇内靠近核心点的对象的相对密度接近于1,而处于簇的边缘或是簇 的外面的对象的相对较大。定义相对密度为离群因子:
6.2 基于相对密度的离群点检测 (1)
(1)用于定义离群点的属性个数
一个对象只有单个属性 一个对象具有多个属性:
可能某个属性异常,某个属性正常 如:对于男生而言,
身高1.6m,体重55kg,这个很正常; 身高1.6m,体重75kg,这个有点离群; 身高1.8m,体重75kg,基本正常。 若对于女生,则三组值可能都不太正常。 所以,定义离群点需要指明如何使用多个属性的值确定一个对象是否离 群?
6 5 4 3 2 1 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
15/41
2019/11/22
例6-1 给定二维数据集,表 6-1给出了点的坐标,可视 化的图形如图6-2所示(对象 间的距离采用曼哈顿 (Manhattan)距离计算)。K 取2,3,5时,以表格方式 给出所有点的局部邻域密度 及相对密度的离群因子。 表6-1 例6-1二维数据集
7/41
2019/11/22
6.1 概述 (6)
离群点实例
一个人的年龄为-999就可能是由于程序处理缺省数据设置默认值 所造成的 ;
一个公司的高层管理人员的工资明显高于普通员工的工资可能成 为离群点但却是合理的数据(如平安保险公司2007年 5位高管税 后收入超过了1000万元);
一部住宅电话的话费由每月200元以内增加到数千元可能就因为 被盗打或其它特殊原因所致;
OF1(x, k) relative density(x, k)
13/41
2019/11/22
6.2 基于相对密度的离群点检测 (3)
基于相对密度离群点检测算法,该算法由三步组成:
第一步:对于每一对象x,确定x的k-最近邻集合N(x,k)和密度 density(x,k)
第二步:对于每一对象x,确定x的相对密度relative density(x,k),并赋值给OF1(x,k)
2/41
2019/11/22
6.1 概述 (1)
什么是离群点(Outlier)?
Hawkins的定义:离群点是在数据集中偏离大部分数据的数据,使人 怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不同的机 制。
Weisberg的定义:离群点是与数据集中其余部分不服从相同统计模型 的数据。
6
P13
6.5
7
P14
6.5
6.5
P15
7
8
P16
7
7
P17
7
6
P18
2.5
2
P19
3
1.5
P20
3
2
P21
4
5
P22
5
4
k=2
局部邻域密 度
相对密 度
0.57
1.38
0.57
1.38
1.00
0.68
0.57
1.38
1.00
0.90
0.80
1.88
1.14
1.33
2.00
0.79
1.20
1.39
2.00
6/41
2019/11/22
6.1 概述 (5)
离群点挖掘中需要处理的几个问题
(1) 全局观点和局部观点 离群点与众不同,但具有相对性。 (2) 点的离群程度 可以通过定义对象的偏离程度来给对象打分——离群因子(Outlier
Factor)或离群值得分(Outlier Score),即都为离群点的情况下,也 还有分高和分低的区别。 (3) 离群点的数量及时效性 正常点的数量远远超过离群点的数量,离群点的数量在大规模数据集 中所占的比例较低,小于5%甚至1%.
2019/11/22
6.2 基于相对密度的离群点检测 (2)
定义6-2 (1) 对象的局部邻域密度
density(x,k)



1
yN (x,k) distance(x,y)
| N (x, k) |


(2) 相对密度
density( y, k) / | N (x, k) |
利用k最近邻距离的大小来判定离群 使用k-最近邻的距离度量一个对象是否远离大部分点,一个对象
的离群程度由到它的k-最近邻的距离给定 。 这种方法对k的取值比较敏感。k太小(例如1),则少量的邻近离
群点可能导致较低的离群程度。k太大,则点数少于k的簇中所有 的对象可能都成了离群点。
12/41
商务数据挖掘与应用案例分析
0/41
2019/11/22
第6章 离群点挖掘
6.1 概述>> 6.2 基于相对密度的离群点检测方法>> 6.3 基于聚类的离群点检测方法>> 6.4 离群点检测方法的评估>>
1/41
2019/11/22
开篇案例——保险欺诈检验
随着保险业的蓬勃发展,保险欺诈现象也越来越严重。有关统计数据显示,国际 上某些险种因被欺诈而导致的赔款支出最高可达保险费收入的50%。从所发生 的保险欺诈案例看,手段无所不用且花样翻新,有的虚构或者伪造索赔,人寿保 险中常见的是移花接木、冒名顶替,或者自演自导一幕幕自残的苦肉计,更恶劣 的还有杀亲骗保者,财产保险中,诸如故意沉船、故意纵火等骗赔伎俩,五花八 门。愈演愈烈的保险欺诈违法犯罪活动,不仅极大地损害了保险合同当事人的合 法权益,而且还严重扰乱了保险市场的正常秩序。一方面他对保险公司的财产构 成了直接的侵犯;另一方面,保险公司面对保险欺诈不得不提高保费,这样,诚 实的投保人成为最大的损失者,这将会严重阻碍保险业的发展。 在人寿保险业务中,一份保单就是一个事务。保险公司在接受保险前,往往需要 记录投保人详尽的信息,有时还要到医院做身体检查。保单上记录有投保人的年 龄、性别、健康状况、工作单位、工作地址、工资水平、索赔次数等等。我们主 要想通过数据挖掘找出行为异常的客户记录。我们主要关注购买人的年龄、工作 单位、健康状况、工资水平的信息和购买后的索赔情况,可以认为保单号、单位 代号、单位名称是一些无关信息。 这种人寿保险公司通过分析客户信息识别保险中的欺诈特征就是离群点检测方法 研究的问题。数据挖掘中的多数方法都会将异常数据视为噪音或异常而丢弃。而 离群点检验在激增的客户信息和业务数据中寻找异常数据,并进行更深层次的分 析。这些异常数据与数据的一般行为或模型不一致,发生的概率非常小。但在保 险欺诈检验中,小概率事件可能比正常发生的事件更有意义。因此,通过离群点 检验将客户信息进行细致的分类挖掘,寻找欺诈的一般特征,并建立客户分析预 测模型,对具有欺诈特征的客户群体实施相应的措施,以提高公司的反欺诈能力。
如在欺诈检测中,离群点可能意味欺诈行为的发生,在入侵检测中离 群点可能意味入侵行为的发生。
4/41
2019/11/22
6.1 概述 (3)
离群点检测的应用领域
电信、保险、银行中的欺诈检测与风险分析 发现电子商务中的犯罪行为 灾害气象预报 税务局分析不同团体交所得税的记录,发现异常模型和趋势 海关、民航等安检部门推断哪些人可能有嫌疑 海关报关中的价格隐瞒 营销定制:分析花费较小和较高顾客的消费行为 医学研究中发现医疗方案或药品所产生的异常反应 计算机中的入侵检测 应用异常检测到文本编辑器,可有效减少文字输入的错误 ……
第三步:对OF1(x,k)降序排列,确定离群因子大的若干对象
14/41
2019/11/22
6.2 基于相对密度的离群点检测 (4)
选择合适的离群因子阈值
一种形式上简单的方法是指定离群点个数;这里介绍另一种确定 OF1(x,k)分割阈值的方法:对OF1(x,k)降序排列,选择OF1(x,k) 急剧下降的点作为离群值、正常值的分隔点,如图6-3所示,在该 图中,有两个点判定为离群点。
Samuels的定义:离群点是足够地不同于数据集中其余部分的数据。 Porkess的定义:离群点是远离数据集中其余部分的数据
3/41
2019/11/22
6.1 概述 (2)
离群点的特殊意义和实用价值
现有数据挖掘研究大多集中于发现适用于大部分数据的常规模式,在 许多应用领域中,离群点通常作为噪音而忽略,许多数据挖掘算法试 图降低或消除离群点的影响。而在有些应用领域识别离群点是许多工 作的基础和前提,离群点会带给我们新的视角。
10/41
2019/11/22
6.2 基于相对密度的离群点检测 (2)
(2)全局观点和局部观点
一个对象可能相对于所有对象看上去离群,但它相对于它的局部近 邻不是离群的
例如:身高1.85m对于一般人群是不常见的,但对于职业篮球运 动员不算什么
11/41
2019/11/22
6.2 基于相对密度的离群点检测 (1)
P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 P13 P14 P15 P16 P17 P18 P19 P20 P21 P22
X 1 2 2 2 3 4 5.5 5.5 6 6 6 6 6.5 6.5 7 7 7 2.5 3 3 4 5
Y 7 8 7 6 7 7 6.5 7 8 7.5 7 6 7 6.5 8 7 6 2 1.5 2 5 4
1.05
0.57
1.89
1.14
1.19
1.33
1.21
1.20
1.15
1.33
1.22
2.00
0.78
1.00
1.31
2.00
0.70
1.09
1.26
0Байду номын сангаас8
1.76
1.11
1.24
1.00
1.07
0.33
1.29
0.38
1.00
0.44
0.82
0.38
1.90
0.38
2.24
k=5
局部邻域密 度
相对密度
16/41
2019/11/22
K取2,3,5时, 所有点的局部邻 域密度、相对密 度如表6-3所示 表6-3 不同k值的 计算结果.
17/41
2019/11/22
点的坐标
标号
x
y
P1
1
7
P2
2
8
P3
2
7
P4
2
6
P5
3
7
P6
4
7
P7
5.5
6.5
P8
5.5
7
P9
6
8
P10
6
7.5
P11
6
7
P12
6
0.80
2.00
1.00
1.00
1.31
2.00
0.70
1.09
1.26
1.00
1.16
1.11
1.28
1.00
1.07
1.33
1.25
1.33
1.25
2.00
0.67
0.50
1.18
0.38
2.35
k=3
局部邻域密 度
相对密 度
0.57
1.21
0.57
1.21
1.00
0.58
0.57
1.21
0.63
0.50
1.20
0.50
1.20
0.83
0.64
0.46
1.23
0.63
0.92
0.57
1.41
0.92
1.14
0.86
1.16
0.91
1.10
0.86
1.17
1.23
0.81
0.82
1.22
1.43
0.72
1.09
0.94
一张信用卡出现明显的高额消费也许是因为是盗用的卡。
8/41
2019/11/22
6.1 概述 (7)
离群点与众不同但具有相对性:
高与矮,疯子与常人。
类似术语: Outlier mining, Exception mining:异常挖掘、离 群挖掘、例外挖掘和稀有事件挖掘 。
9/41
2019/11/22
相关文档
最新文档