数据挖掘技术在寿险业精准营销中的研究与应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

8
7 6 5 4 3 2 1
7
6 5
6
5
0
0 1 2 3 4 5 6 7 8 9 10
将每个 样本点 分配到 最相似 的类中
4
3
2 1 0 0 1 2 3 4 5 6 7 8 9 10
重新计 算各类 中心 (均 值)
4
3 2
1
0 0 1 2 3 4 5 6 7 8 9 10
重新分配
10 9
重新分配
10 9 8 7 6 5
模型构建
基于关联规则的二次销售模型
数据源
数据 准备
数据挖掘
分析结果
团险核心数 据库 确定关联产品 变量
数据 采集
数据仓库
数据 输入
输出 结果
二次销售产品 组合预测结果
ECIF数据库
关联规则 Apriori算法 个险核心数 据库
BEIHANG UNIVERSITY SEM-MBA-MB1108404
3
4 5
BEIHANG UNIVERSITY SEM-MBA-MB1108404
模型构建 案例研究 总结与展望
17
H公司简介
H公司成立于2005年,是一家由国内外实力雄厚的金融保险 集团和知名企业发起设立的全国性寿险公司,经营人寿保险、
健康保险、意外伤害保险等业务。
经营业绩
600000 规模保费(万元)
数据收集
利 用 kettle 进 行 数 据
BEIHANG UNIVERSITY SEM-MBA-MB1108404
ETL
24
数据收集
数据收集后宽表信息
BEIHANG UNIVERSITY SEM-MBA-MB1108404
25
建模与分析
客户细分变量选取过程
1
• 从80个客 户指标按 照和本次 营销目标 无关的客 户指标进 行中初步 筛选,剩 下50个认 为相关变 量。
开始 读取数据库 读取、存储类信息
读取属性信息 是连续属性
忽略或用最多的 属性值来替代 存储样本表 将数据集划分成K个子集 Y 取K-1个子集用C5.0算法建构树
K次迭代交叉验证
划分区域
N 存储至属性哈希表中
读取训练样本
规则提取 Y N
13
对生成的树进行测试后打印分类信息 结束
有缺失数据
BEIHANG UNIVERSITY SEM-MBA-MB1108404
数据挖掘技术在寿险业精准营销中 研究与应用
学生姓名: 指导教师:
答辩日期:2013-12
1
内容提纲
1 2
选题背景和意义 理论研究
3
4 5
BEIHANG UNIVERSITY SEM-MBA-MB1108404
模型构建 案例研究 总结与展望
2
选题背景及意义
保险业告别 快速增长, 投资回报低, 营销成本持 续上升
BEIHANG UNIVERSITY SEM-MBA-MB1108404
7
内容提纲
1 2
选题背景和意义 理论研究 模型构建 案例研究 总结与展望
8
3
4 5
BEIHANG UNIVERSITY SEM-MBA-MB1108404
模型构建
1 2 3
刻画目标客户群的特征 从客户角度进行客户价值提升挖掘 从产品角度实现产品组合预测挖掘
2
• 邀请市 场、精 算、运 营、IT部 门的专 家,利用 德尔菲法 确定和本 次营销目 标相关的 变量12个
3
• 对12个变 量进行相 关性分 析,对于 相关性大 于0.7的作 为建模变 量。最终 选择了8个 细分变 量。
客户细分变量 ① ② ③ ④ ⑤ ⑥ 年龄 性别 是婚姻状况 否有子女 客户层级 实际缴纳保 费之和 ⑦ 有效保单总 数 ⑧ 有效件均保 费
15
模型算法(Aprior)
支持度 S(%) 2 3
3 3
第一次迭代
1-项目集C1 {A} {C} {D} {B} {E}
1-项集C1 计数 {A} {C} {D} {B} {E} 2 3 1 3 3
支持度 S(%) 50 75 25 75 75
频繁集1-项集L1 计数 {A} {C}
{B} {E}
BEIHANG UNIVERSITY SEM-MBA-MB1108404
31
建模与分析
购买了爱家卡客户可能还会购买如下产品,这些产品将成为二次营销模型的输入变 量:
10
模型算法(K-means)
k-means算法,也被称为k-平均或k-均值。 它将各个聚类子集内的所有数据样本的 均值作为该聚类的代表点,通过迭代过程把数据集划分为不同的类别,使得评价聚类 性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立,聚类过程如下:
10 9
10
9 8 7
10
9 8
21
数据收集
客户基本信息指标 客 户 分 析 指 标 体 系
客户价值指标 客户购买行为指标 客户变更行为指标 客户行为指标 客户支付行为指标 客户投资行为指标 客户领取行为指标
BEIHANG UNIVERSITY SEM-MBA-MB1108404
22
数据收集
指标名称 姓名 客户姓名 指标含义
年龄
支持度 S(%) 50 50 75 50
第三次迭代
2-项目集C3 {B,C,E}
2-项集C2 计数 {B,C,E} 2
支持度 S(%)
频繁集3-项集L3 计数
支持度 S(%) 2 50
50
{B,C,E}
BEIHANG UNIVERSITY SEM-MBA-MB1108404
16
内容提纲
1 2
选题背景和意义 理论研究
28
建模与分析
聚 类 结 果 业 务 解 析
BEIHANG UNIVERSITY SEM-MBA-MB1108404
29
建模与分析
利用SPSS Celemetine建立客户交叉销售 模型
模型准确性信息
BEIHANG UNIVERSITY SEM-MBA-MB1108404
30
建模与分析
通过交叉销售模型预测结果信息:
BEIHANG UNIVERSITY SEM-MBA-MB1108404
20
数据收集
Call_Center
个险核心
团险核心
数据读取
数据清 理
数据集成 和转化
数据泛 化
数据质 量探测
目标数据库
ECIF(企业 客户信息 库)
数据源
数据采集
数据仓库
BEIHANG UNIVERSITY SEM-MBA-MB1108404

BEIHANG UNIVERSITY SEM-MBA-MB1108404
19
H公司精准营销目标的提出
以购买了爱心家庭产品客户和未购买爱心家庭产品客户 为研究对象,达到: 1、通过分析购买爱心家庭产品客户的特征,预测未购买 此产品但有可能购买实行交叉销售,购买率不低于 30%。 2、分析购买了爱心家庭产品的客户还购买了何种产品, 在购买了爱心家庭产品中寻找二次营销机会,购买率 不低于20%。 客户 细分 交叉 销售 二次 营销 客户 价值 增长
14
模型算法(Aprior)
Aprior算法过程说明
下表是5名顾客某天的购买实物表数据,其中A,B,C,D,E表示 5个商品代码。 TID
100
项集X
A,C,D
200 300 400
B,C,E A,B,C,E B,E
假设用户设计的最小支持度阀值为0.5,其产生频繁集的迭代过程如下:
BEIHANG UNIVERSITY SEM-MBA-MB1108404
500000 400000
300000 200000 100000 0 2005 2006 2007 2008 2009 2010 2011 2012
BEIHANG UNIVERSITY SEM-MBA-MB1108404
18
H公司精准营销目标的提出
新单保费下降
降息导致保险新业务利差减少 资本市场低迷,投资回报降低
50 75
75 75
第二次迭代
2-项目集C2 {A,B} {A,C} {A,E} {B,C} {B,E} {C,E}
2-项集C2 计数 {A,B} {A,C} {A,E} {B,C} {B,E} {C,E}
支持度S(%) 1 25 2 50 1 25 2 50 3 75 2 50
频繁集2-项集L2 计数 {A,C} {B,C} {B,E} {C,E} 2 2 3 2
供应链式的 供给和需求 链的需求矛 盾,渠道面 临巨大困境
客户角度:开 拓新客户、挽 留老客户、激 活沉睡客户, 提升客户价值 产品角度:了 解客户真正需 求,推出合理 产品组合,提 升客户价值
论文选题 背景及意义
选题背景
选题意义
提升客户满意 度,降低营销 成本,提升公 司核心竞争力
保险密度和 深度和发达 国家比有很 大差距,市 场潜力巨大
BEIHANG UNIVERSITY SEM-MBA-MB1108404
26
建模与分析
利用SPSS Celemetine 聚类过程图
BEIHANG UNIVERSITY SEM-MBA-MB1108404
27
建模与分析
聚 类 结 果 图
BEIHANG UNIVERSITY SEM-MBA-MB1108404
是否有孩子 2、男性已婚 30 岁以上或女性 已婚 27 岁以上一定有子女,补 'Y';
是否吸烟 是否有驾照
住址 学历 电话
根据健康告知判断 根据客户财务告知判断
泛化为城区和郊区 客户教育程度 客户联系电话
BEIHANG UNIVERSITY SEM-MBA-MB1108404
工作电话 23
客户工作电话
收入 下降
支出 上升
准备金不断上调 客户获取和挽留成本大 运营成本持续上升
客户价值 增长
营销困 境 现有资 源
新客户获取成本居高不下
营销活动成本 新产品频出,业绩不好 客户粘度下降,客户满意度下
公司2013年的战略 开业八年积累大量的客户数
据,单个客户价值有很大的提
升空间 现有的ECIF和数据仓库支持
K=2 确定初始类中心
8
7
6 5 4 3
2
1 0 0 1 2 3 4 5 6 7 8 9 10
BEIHANG UNIVERSITY SEM-MBA-MB1108404
重新计 算各类 中心 (均 值)
4 3
2
1 0 0 1 2 3 4 5 6 7 8 9 10
11
模型构建
基于决策树分类预测的交叉销售模型
研究目的
以数据为洞 察,利用数据 挖掘技术 进 行精准营销
BEIHANG UNIVERSITY SEM-MBA-MB1108404
3
内容提纲
1 2
选题背景和意义 理论研究 模型构建 案例研究 总结与展望
4
3
4 5
BEIHANG UNIVERSITY SEM-MBA-MB1108404
理论研究
精准营销理论 精准营销是以客户为中心,以数据为洞察, 在正确的时间、正确的地点、用正确的方式 传递正确的信息。
预期目标
BEIHANG UNIVERSITY SEM-MBA-MB1108404
9
模型构建
基于聚类算法的客户分群模型
数据源
数据准备
数据挖掘
分析结果
团险核心数 据库
确定细分变量
数据 采集
数据 输入 输出 结果
数据仓库
客户群体特征 识别
ECIF数据库
聚类 K-Means 算法 个险核心数 据库
BEIHANG UNIVERSITY SEM-MBA-MB1108404
1
6
活动 评估
5
4
客户名单发放 营销活动推进和监控
营销活动分析 营销活动总结
BEIHANG UNIVERSITY SEM-MBA-MB1108404
6
理论研究
数据挖掘(Data Mining)又称为数据中的知识发现(Knowledge Discover in Database,KDD).简单来说就是从大量数据中提取或”挖掘”知识,行业内公认的 跨行业数据挖掘标准(CRISP-DM)如下图所示:
BEIHANG UNIVERSITY SEM-MBA-MB1108404
源自文库
5
理论研究
精准营销的过程
要什 么
3
从哪 收
确定细 分变量
构建模型
用啥 收
收集 数据
如何 规范
结果分析
2
4
识别营销机会、设计营销活动
客户 获取
客户 价值 增长 客户 激活 执行 营销 战役
1 2 3
活动流程设计
客户 挽留
营销工具准备 精准营销培训
客户年龄
N1:≤18,N2:19~ 35,N3.36~50, N4:50--60;N5≥60 客户性别
客 户 基 本 信 息 指 标 表
年龄区间
性别 年收入 职业 是否结婚 客户基本信息指标
客户告知的年收入 如果没有告知建议 按照年缴保费*5估算
客户职业类别 根据告知判断 通过婚姻状况来判断:
1、单身的肯定没有子女,补'N';
数据源
数据准备
数据挖掘
分析结果
团险核心数 据库
确定输入变量
数据 采集 数据 输入 输出 结果
数据仓库
交叉销售预测 结果
ECIF数据库
决策树C5.0算 法
个险核心数 据库
BEIHANG UNIVERSITY SEM-MBA-MB1108404
12
模型算法(C5.0)
C5.0算法采用信息增益率作为对选择分枝属性的分枝准则,计算各属性的 信息增益率,然后选取信息增益率最大的属性作为结点,自顶向下生成决策 树,算法给的工作 流程图如下:
相关文档
最新文档