数据挖掘技术在金融领域的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘技术在金融领域的应用

武扬

金融部门每天的业务都会产生大量数据,利用目前的数据库系统可以有效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了数据爆炸但知识贫乏的现象。与此同时,金融机构的运作必然存在金融风险,风险管理是每一个金融机构的重要工作。利用数据挖掘技术不但可以从这海量的数据中发现隐藏在其后的规律,而且可以很好地降低金融机构存在的风险。学习和应用数据挖掘技术对我国的金融机构有重要意义。

1.数据挖掘概述

1.1 数据挖掘的定义

对于数据挖掘,一种比较公认的定义是W.J.Frawley,G.Piatetsk Shapiro 等人提

出的。数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识、这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念(Concepts ) ,规则(Rules )、规律(Regularities )、模式(Patterns)等形式。这个定义把数据挖掘的对象定义为数据库。

随着数据挖掘技术的不断发展,其应用领域也不断拓广。数据挖掘的对象已不再仅是数据库,也可以是文件系统,或组织在一起的数据集合,还可以是数据仓库。与此同时,数据挖掘也有了越来越多不同的定义,但这些定义尽管表达方式不同,其本质都是近似的,概括起来主要是从技术角度和商业角度给出数据挖掘的定义。从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息和知识的过程。它是一门广义的交叉学科,涉及数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化等多学科领域且本身还在不断发展。目前有许多富有挑战的领域如文本数据挖掘、Web信息挖掘、空间数据挖掘等。从商业角度看,数据挖掘是一种深层次的商业信息分析技术。它按照企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性并进一步将其模型化,从而自动地提取出用以辅助商业决策的相关商业模式。

1.2 数据挖掘方法

数据挖掘技术是数据库技术、统计技术和人工智能技术发展的产物。从使用的技术

角度,主要的数据挖掘方法包括:

1.2.1 决策树方法:利用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生

规则。国际上最有影响和最早的决策树方法是ID3方法,后来又发展了其它的决策树方法。

1.2.2 规则归纳方法:通过统计方法归纳,提取有价值的if- then规则。规则归纳技术在数据挖掘中被广泛使用,其中以关联规则挖掘的研究开展得较为积极和深入。

1.2.3 神经网络方法:从结构上模拟生物神经网络,以模型和学习规则为基础,建立3种神经网络模型:前馈式网络、反馈式网络和自组织网络。这种方法通过训练来学习的非线性预测模型,可以完成分类、聚类和特征挖掘等多种数据挖掘任务。

1.2.4 遗传算法:模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。为了应用遗传算法,需要将数据挖掘任务表达为一种搜索问题,从而发挥遗传算法的优化搜索能力。

1.2.5 粗糙集(Rough Set)方法:Rough集理论是由波兰数学家Pawlak在八十年代初提出的一种处理模糊和不精确性问题的新型数学工具。它特别适合于数据简化,数据相关性的发现,发现数据意义,发现数据的相似或差别,发现数据模式和数据的近似分类等,近年来已被成功地应用在数据挖掘和知识发现研究领域中。

1.2.6 K2 最邻近技术:这种技术通过K个最相近的历史记录的组合来辨别新的记录。这种技术可以作为聚类和偏差分析等挖掘任务。

1.2.7 可视化技术:将信息模式、数据的关联或趋势等以直观的图形方式表示,决策者可以通过可视化技术交互地分析数据关系。可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。

1.3.数据挖掘在金融行业中的应用

数据挖掘已经被广泛应用于银行和商业中,有以下的典型应用:

1.3.1 对目标市场(targeted marketing)客户的分类与聚类。例如,可以将具有相同储蓄和货款偿还行为的客户分为一组。有效的聚类和协同过滤( collaborative filtering)方法有助于识别客户组,以及推动目标市场。

1.3.2 客户价值分析。在客户价值分析之前一般先使用客户分类,在实施分类之后根据“二八原则”,找出重点客户,即对给银行创造了80%价值的20%客户实施最优质的服务。重点客户的发现通常采用一系列数据处理、转换过程、AI人工智能等数据挖掘技术来实现。通过分析客户对金融产品的应用频率、持续性等指标来判别客户的忠诚度;通过对交易数据的详细分

分析鉴别哪些是银行希望保持的客户;通过挖掘找到流失的客户的共同特征,就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。

1.3.3 客户行为分析。找到重点客户之后,可对其进行客户行为分析,发现客户的行为偏好,为客户贴身定制特色服务。客户行为分析又分为整体行为分析和群体行为分析。整体行为分析用来发现企业现有客户的行为规律。同时,通过对不同客户群组之间的交叉挖掘分析,可以发现客户群体间的变化规律,并可通过数据仓库的数据清洁与集中过程,将客户对市场的反馈自动输人到数据仓库中。通过对客户的理解和客户行为规律的发现,企业可以制定相应的市场策略。

1.3.4 为多维数据分析和数据挖掘设计和构造数据仓库。例如,人们可能希望按月、按地区、按部门、以及按其他因素查看负债和收入的变化情况,同时希望能提供诸如最大、最小、总和、平均和其他等统计信息。数据仓库、数据立方体、多特征和发现驱动数据立方体,特征和比较分析,以及孤立点分析等,都会在金融数据分析和挖掘中发挥重要作用。

1.3.5 货款偿还预测和客户信用政策分析。有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要的因素,别除非相关因素。例如,与货款偿还风险相关的因素包括货款率、资款期限、负债率、偿还与收入(payment-to -income)比率、客户收入水平、受教育程度、居住地区、信用历史,等等。而其中偿还与收入比率是主导因素,受教育水平和负债率则不是。银行可以据此调整货款发放政策,以便将货款发放给那些以前曾被拒绝,但根据关键因素分析,其基本信息显示是相对低风险的申请。

1.3.6 业务关联分析。通过关联分析可找出数据库中隐藏的关联网,银行存储了大量的客户交易信息,可对客户的收人水平、消费习惯、购买物种等指标进行挖掘分析,找出客户的潜在需求;通过挖掘对公客户信息,银行可以作为厂商和消费者之间的中介,与厂商联手,在掌握消费者需求的基础上,发展中间业务,更好地为客户服务。

1.3.7 洗黑钱和其他金融犯罪的侦破。要侦破洗黑钱和其他金融犯罪,重要的一点是要把多个数据库的信息集成起来,然后采用多种数据分析工具找出异常模式,如在某段时间内,通过某一组人发生大量现金流量等,再运用数据可视化工具、分类工具、联接工具、孤立点分析工具、序列模式分析工具等,发现可疑线索,做出进一步的处理。数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势,这些信息对于决策或规划是有用的,金融行业数据的挖掘有助于根据顾客的流量安排工作人员。可以挖掘股票交易数据,发现可能帮助你制定投资策略的趋势数据。挖掘给企业带来的潜在的投资回报几乎是无止境的。当然,数

相关文档
最新文档