代价敏感决策树讲解

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

用于欺诈检测的一种代价敏感决策树方法

Yusuf Sahin a, Serol Bulkan b, Ekrem Duman c

a Department of Electrical & Electronics Engineering, Marmara University, Kadikoy,

34722 Istanbul, Turkey

b Department of Industrial Engineering, Marmara University, Kadikoy, 34722 Istanbul,

Turkey

c Department of Industrial Engineering, Ozyegin, Cekmekoy, 34794 Istanbul, Turkey 关键词：代价敏感建模信用卡欺诈检测决策树分类可变误分类代价

摘要：随着信息技术的发展，欺诈行为遍布世界各地，这导致了巨大的经济损失。虽然诸如CHIP&PIN等欺诈预防机制已经被开发应用于信用卡系统，但这些机制并不能阻止一些最常见的欺诈类型，比如在虚拟POS机上的信用卡欺诈使用，或者是所谓的在线信用卡欺诈邮购。所以，欺诈检测成为了一种必不可少的工具，并且可能是阻止此类欺诈类型的最佳方法。在此次研究中，提出了一种全新的代价敏感决策树方法，它将在每个非叶节点选择分裂属性时最小化误分类代价之和，其在现实世界信用卡数据集上的性能可以与那些众所周知的传统分类模型相比较。在这种分类方法中，误分类代价将取不同的值。结果表明，在给定的问题集上使用已知的性能指标，比如准确度和真阳性率，此代价敏感决策树算法胜过现有公知的方法，而且针对特定的信用卡欺诈检测领域，还新定义了一种代价敏感指标。因此，通过在欺诈检测系统中实施该方法，可以更好的减少由于欺诈交易造成的金融损失。

1.引言

欺诈可以被定义为为了取得财务或个人利益的非法或刑事欺骗。两种避免由于诈骗活动导致欺诈和损失的机制是欺诈预防以及欺诈检测系统。欺诈预防是以防止欺诈行为发生为目标的主动机制。欺诈检测系统在诈骗者越过欺诈预防系统并且开始一个欺诈交易时发挥作用。有关欺诈领域以及检测技术的综述可以在Bolton and Hand (2002), Kou, Lu, Sirwongwattana, and Huang (2004), Phua, Lee, Smith, and Gayler (2005), Sahin and Duman (2010)的研究中找到。其中最知名的欺诈领域是信用卡系统。可以通过许多方法进行信用卡欺诈，如简单盗窃，申请欺诈，伪造卡片，从未达卡问题（NRI）以及在线诈骗（在持卡人不存在的情况下）。在网络诈骗中，交易是通过远程完成的，并且只需要信用卡信息。由于网络的国际可用性和易用性，用户可以在互联网交易中隐藏自身位置以及身份，所以通过该媒介发生的欺诈行为正在快速增长。

信用卡欺诈检测有很多以前已经完成的研究。关于信用卡系统以及欺诈领域非技术性知识的一般背景可以分别从Hanagandi, Dhar, and Buescher (1996) and Hand and Blunt (2001)学习。在这个领域中，最常用的欺诈检测方法有规则归纳技术，决策树，人工神经网络（ANN），支持向量机（SVM），逻辑回归以及诸如遗传算法的启发式算法。这些技术可以单独使用，也可以通过集成以及元学习技术协同使用来构建分类器。大多数信用卡欺诈检测系统在使用监督算法，比如神经网络（Brause, Langsdorf, & Hepp, 1999; Dorronsoro, Ginel, Sanchez, & Cruz, 1997; Juszczak, Adams, Hand, Whitrow, & Weston, 2008; Quah & Sriganesh, 2008; Schindeler, 2006; Shen, Tong, & Deng, 2007; Stolfo, Fan, Lee, Prodromidis, & Chan, 1997; Stolfo, Fan, Lee, Prodromidis, & Chan, 1999; Syeda, Zhang, & Pan, 2002; Prodromidis, Chan, & Stolfo, 2000），ID3、C4.5和C&RT一类的决策树技术（Chen, Chiu, Huang, & Chen, 2004; Chen, Luo, Liang, & Lee, 2005;Mena, 2003;

Wheeler & Aitken, 2000）以及支持向量机（Gartner Reports, 2010; Leonard, 1993）。

信用卡欺诈检测是一个非常困难，但也很受欢迎的亟待解决的问题。总是仅有有限数量有关犯罪交易的数据。同时，也有可能存在诈骗者进行符合正常（合法）行为模式（Aleskerov, Freisleben, & Rao, 1997）的交易通过的情况。此外，该问题还有很多限制。首先，正常和诈骗行为的表现不断地改变。其次，新欺诈检测方法的发展变得更加困难是由在欺诈检测中交换思想的事实造成的，尤其是信用卡欺诈检测因为安全和隐私问题被严格限制。第三，数据集不一定是可用的，其结果往往是截尾的，这使得它们难以评估。甚至，一些研究使用合成产生的数据进行（Brause等, 1999; Dorronsoro 等, 1997）。第四，信用卡欺诈数据集是高度倾斜集。最后，该数据集正在不断发展，使得正常和诈骗行为的表现总是在变化（Bolton & Hand, 2002; Kou等, 2004; Phua et al., 2005; Sahin & Duman, 2010）。因此，信用卡欺诈检测仍然是一个流行的，具有挑战性以及困难的研究课题。Visa关于欧洲国家的信用卡欺诈报告指出在2008年，大约50%的信用卡欺诈损失是由于在线欺诈（Ghosh & Reilly, 1994）。许多文献报道了大量不同国家的损失（Bolton & Hand, 2002; Dahl, 2006; Schindeler, 2006）。因此，新方法提高了在这一领域的分类器性能兼有经济意义与研究贡献。基于这个领域的特性，定义一个新的代价敏感方法是改善的最佳途径之一。

虽然传统的机器学习技术在许多分类问题上一般是成功的，但是具有高准确度或最小化误分类误差并不总是开发分类器的目标。在现实世界的机器学习问题领域的应用中，有各种类型的代价参与，Turney定义了其中的九种主要类型（Turney, 2000）。然而，大多数机器学习文献并不采取任何这些代价的考虑，仅仅剩下的一小部分考虑了误分类代价。Turney还指出误分类误差的代价在分类中具有独特的地位（Turney, 2000）。而根据ML-netll项目（European Network of Excellence in Machine Learning）的技术路线图，代价敏感学习据称是在机器学习研究的未来中一个非常流行的课题（Saitta, 2000; Zhou & Liu, 2006）。因此，通过构建代价敏感分类器来改善分类器在欺诈检测系统中的性能是一个使大量经济损失恢复的最好办法。此外，客户的忠诚度和信任度也将有所增加。并且代价敏感分类器已经被证明能够有效处理类不平衡问题（Thai-Nghe, Gantner, & Schmidt-Thieme, 2010; Zhou & Liu, 2006）。

大量过去的研究是在恒定的误分类代价矩阵或者由一些恒定的合成误分类代价组成的代价矩阵上进行的；然而，每个假阴性（FN）具有它固有的独特的误分类代价。因此，每个假阴性（FN）应当以某种方式排列来显示误分类代价的差异。例如，具有较大交易量的或者更大可用额度的欺诈交易应该比具有较小数量或可用额度的更需要被检测。恒定代价矩阵或者不变代价矩阵的组合不能描述这个场景。所以，本研究是在可变误分类代价的分类问题工作中，将这样的情况纳入考虑的开拓者之一。这项研究的目的是填补信用欺诈检测文献的一项空白。

在此研究中，开发了一个新的代价敏感决策树归纳算法，它将在树的每个非叶节点选择分裂属性时最小化误分类代价之和，并且分类性能可以与那些无论是代价不敏感还是代价敏感的具有固定误分类代价率的传统分类方法相比较，比如传统决策树算法，人工神经网络和支持向量机。结果表明，就诈骗交易的辨别和防止可能的损失量而言，这个代价敏感决策树算法在我们现实世界数据集上的表现优于现有公知的方法。

在信用卡欺诈检测中，误分类代价以及欺诈的优先序基于个人记录来区别不同。其结果是，常见的性能指标，如准确率，真阳性率（TPR）或者甚至曲线下面积（AUC）并不适合评估模型的性能，因为它们接受每个欺诈是具有相同优先级，不管欺诈交易量或者当时交易中用卡的可用信用额度是多少。应该使用一个使用有意义的方式按序排列欺诈交易以及检查模型在最小化总经济损失时性能的全新性能指标。一旦诈骗者得到