证券客户数据挖掘应用分析报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

证券客户数据挖掘应用分析报告

企鹅号:1215792016

一、前言

证券行业是中国计算机应用高度密集的行业之一,较高的信息化水平使其积累了大量的数据,既有企业内部的数据,如财务状况、经营状况等,又有来自外部的客户账户信息、客户交易数据、股票市场信息、上市公司信息等。其中,客户相关数据挖掘利用是券商摆脱低层次的同质化竞争,走出差异化服务优势的重要途径。本文将重点分析证券行业在客户数据分析方面的应用情况,并尝试提出初步建设方案。

二、行业应用现状

互联网企业为什么能介入金融?靠的不是它的技术,更是它的数据。互联网企业充分利用其平台积累的大数据资源,将海量交易数据转化为金融商机,通过对大数据的深度挖掘实现了精准的金融服务。互联网金融风生水起的背后,大数据功不可没。大数据现在不仅仅是IT行业的一个炒作的概念,更像是一场IT界的全民运动。国内证券公司也已经在大数据领域进行了一些探索。

2012年,海通证券自主开发的“给予数据挖掘算法的证券客户行为特征分析技术”(简称“行为特征分析技术”)问世。这项技术主要应用在两方面——根据客户历史交易行为,为每一位客户打上交易行为特点的标签;根据客户流失概率的预测。海通证券通过对100多万样本客户、半年交易记录的数据进行分析,建立了客户分类、客户偏好、客户流失概率的模型。据此为海通证券400多万位客户打上了行为偏好的标签。该项技术开发时的最大初衷,是希望通过客户行为的量化分析,测算客户将来可能流失的概率,为客户维系与挽留工作提供有力的支持。

此前,券商挽留客户的做法无非是降低其佣金,但最终得到的往往是一个无效客户。通过这样一个模型,可确定客户类型和特点,为他们提供特定服务,比如,已经发现了购买某一商品的客户特征,就可以向那些具有同样特征但还没购买该商品的客户进行推销;又比如找到流失客户的特征,然后对那些还未流失、但具有同样特征的客户进行针对性弥补。

海通证券称,“行为特征分析技术”从2012年开始已投入运行近一年,累计使用人数278248人,日均1030人;累计使用功能次数100多万次。经2012年客户交易数据的验证,上述模型较为准确反映了客户行为。

也是在2012年,国泰君安推出了“个人投资者投资景气指数”(简称3I指数)。3I与海通的行为特征分析技术,数据样本同样是来自券商真实客户的真实交易行为数据。3I指数采集的客户行为样本包括账户活动率、账户持仓比例、追

加资金比例、流出资金比例、浮盈率、实盈率等。通过3I指数可了解到交易个人投资者交易行为的变化、投资信心的状态与发展趋势、对市场的预期以及当前的风险偏好等信息。

毫无疑问,这些基于真实行为产生的庞大数据资产是电子化对金融行业的一个极大馈赠,但国内券商如今要做的事是如何开发运用好这些数据来降低成本、提高回报率。

这种理论框架早些年就已在国内学术、证券业内搭建,也已开始了研究。但因客户构成复杂、证券市场变化节奏太快及利润模式不断变换,再加上缺乏适合证券行业特点的数据挖掘效果评价指标体系,始终未能出现有效应用并进行普及。

三、建设方案

1.人员要求

数据挖掘项目不仅仅是一个技术项目,必须由技术人员和最终用户紧密合作才能确保成功的项目。技术人员和最终用户在项目建设过程中必须分工明确、职责分明:

最终用户的职责包括:确定业务目标、确定用户需求、设计业务逻辑、审核数据、验证结果等;

技术人员的职责包括:确定技术方案、完成系统搭建、识别数据源、收集数据、转换数据、挖掘数据等。

下图为数据挖掘的一般流程:

数据挖掘流程(图片来源:上交所数据挖掘培训)

2.数据挖掘的典型应用

数据挖掘的应用有很明显的行业特性,企业也会根据自身的业务情况进行调整,但在初期先上线一些典型应用,随着应用经验的增加再逐步添加个性化的需求是通用的方法。

数据挖掘的典型应用主要包括:

交叉销售

账户分析(如资产贡献、忠诚度、盈利率、持仓比率等)

购物篮分析

市场分割

个性化服务

欺诈行为检测

风险评级

信用评级

客户流失预测

3.建设步骤

数据挖掘是一门交叉学科,是多种计算机技术的综合应用。数据挖掘项目的大致步骤为(不涉及具体技术细节):

1)定义商业问题

数据挖掘项目能否成功,并不取决于选择某种工具和算法,而在于能否将数据挖掘与企业所在的商业环境进行结合。这也是上文所强调的需要技术人员和能够深刻理解企业业务的最终用户紧密合作的原因。

2)建立数据仓库

建立数据仓库是一项耗时耗力的工作(占整个数据挖掘项目一半以上的工作量),但它又是项目的关键环节,进行数据挖掘的基础。建立数据仓库的目的包括:

提高数据质量

减少非一致性报表

提取和提供Metadata

提供数据共享

提供更好的数据访问能力

在多数据源中任意传递信息

及时提供信息

实现数据的一致性

减少新报表特别是非常规报表的需求

减少非一致性报表之间协调的工作量

对多数据源进行整合

将历史数据和现有数据整理在与一起

3)分析数据

目的是找到对预测输出结果影响最大的字段,并决定是否需要增加到处字段。

4)准备数据

从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集,主要包括数据选择、数据清洗、数据集成、数据约简、数据转换等几个方面。

5)建立模型

建立模型是一个需要不断反复的过程,通过考察不同模型找出对解决商业问题最有用的模型。

6)评价模型

模型建立好之后对其结果进行评价,解释模型的含义和价值,达到条件后方可应用到商业环境中。评价方法有:混淆矩阵、收益表等。

7)具体实施

即应用模型。实施之后还需要不断监控,当模型失效或效果变差时甚至可能要重新建立模型。

四、典型应用场景

根据证券行业的典型业务需求,数据仓库一般可以分为面向业务分析、面向行情分析和面向资讯分析三种类型。其中,在面向业务分析数据仓库的构建过程中,客户账户数据分析和历史交易数据分析是最重要的业务分析项目。

(一)三种典型的数据仓库模型

相关文档
最新文档