数据挖掘在银行业中的应用(正文) (终极版)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘在银行业中的应用
摘要
银行为人们提供了越来越多的人性化服务, 因而银行的数据也在迅速膨胀, 这些数据背后隐藏了大量有价值的信息, 银行要在金融领域里的竞争中处于不败之地必须利用这些信息。数据挖掘正是从海量数据中提取有用信息的一种有效工具,数据挖掘在银行业中扮演着无可替代的作用。
关键词:数据挖掘银行业
Abstract
The bank provides people with the humanized service more and more, so the bank data also in rapid expansion, these data are hidden behind a lot of valuable information, banks in the financial field competition in an invincible position must use these information. Data mining is an effective tool to extract useful information from the huge data,data mining plays an irreplaceable role in the banking industry.
Keywords: data mining, banking
1.引言
1.1.性说明本文所涉及到的研究领域
银行信息化的迅速发展,产生了大量的业务数据。从海量数据中提取出有价值的信息,为银行的商业决策服务,是数据挖掘的重要应用领域。汇丰、花旗和瑞士银行是数据挖掘技术应用的先行者。如今,数据挖掘已在银行业有了广泛深入的应用。
本文主要研究的领域是数据仓库,数据挖掘,联机分析处理技术,以及贝式网络。
1.数据仓库:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数
据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。[1] 2.数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓
库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。数据仓库,由数据仓库之父比尔·恩门于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
3.OLAP联机分析处理:简写为OLAP,随着数据库技术的发展和应用,数据库存
储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。联机分析处理(OLAP)系统是数据仓库系统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
4.数据挖掘:数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数
据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
5.贝叶斯网络:贝叶斯网络是一种概率网络,它是基于概率推理的图形化网络,
而贝叶斯公式则是这个概率网络的基础。贝叶斯网络是基于概率推理的数学模型,所谓概率推理就是通过一些变量的信息来获取其他的概率信息的过程,基于概率推理的贝叶斯网络(Bayesian network)是为了解决不定性和不完整性问题而提出的,它对于解决复杂设备不确定性和关联性引起的故障有很大的优势,在多个领域中获得广泛应用。
1.2.设计工作的背景:
大数据时代,对于商业银行而言,在不断完善计算机应用系统底层数据库群、操作数据存储、主数据存储、企业级数据仓库、数据集市等建设的基础上,网络爬虫、Hadoop、MapReduce、NoSQL、Lucene等技术拓宽了银行的数据掌控能力。当前,银行无论面对内部数据还是外部数据、结构性数据亦或非结构性数据,数据的产生、捕获、整合、存储、访问等技术均已日渐成熟。与此同时,数据的价值也随着数据生命周期的不断延伸而大幅提升。为实现数据价值的最大化,银行还需要对所积累的各类数据展开全面分析,深入挖掘和钻取数据,从中提炼出埋藏于数据深处的规律和趋势,全面运用于银行战略决策与业务发展。目前,商业银行已将数据挖掘定位于发展大数据战略的核心驱动力,是大数据信息化建设的重中之重。
随着大数据时代的到来,数据的价值得到进一步提升,银行决策管理人员将不再满足于采用数据对经验决策进行验证的简单模式,基于数据的决策行为将从“被动”转向“主动”,主要体现于两方面:一是数据在业务分析上的作用从“数据验证”向“数据启发”提升;二是数据在业务应用上的作用从“事后快速响应”向“事前精准预测”提升。银行对自身数据分析能力提出了更高要求。
为实现业务上的“精耕细作”,银行首先应对客户市场进行科学细分,推进建立以客户价值评估为基础的客户分类体系,并辅以客户行业归属、区域归属、产品偏好、渠道偏好、风险偏好、价格偏好等分析内容,面向不同主题,充分实现客户层面的“人以群分”。银行要深入分析客户信息,重点关注客户价值的形成原因和驱动因素,准确识别未来存在价值提升可能性的客户,并同时对存在流失风险的客户进行预警。通过客户产品关联销售、产品响应预测、渠道响应预测等分析应用,为银行开展客户名单制营销、实行差异化服务提供依据。面向客户违约风险,银行同样要从客户信息入手,构建客户信用评分模型,尽早对存在违约风险的客户进行预警,为银行资产保全提供“第一手”信息。通过科学的客户分类支持银行形成差异化的定价模型和成本管理策略,充分考量客户满意度、提升客户忠诚度,与客户携手实现共赢。
在银行精细化管理架构下,业务发展的“规划先行”是要考虑如何把握合适的时机、选择合适的客户、推介合适的产品、采用合适的渠道、委派合适的人员,