银行客户数据解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
银行客户数据解析
背景
➢ 数据客户群服务盈利 • 商业银行拥有大量的个人客户交易数据、个人客户
服务数据和个人客户基本资料数据。在这些海量数 据中,隐藏着大量的有价值的客户信息。运用数据 挖掘中的聚类分析技术可以从这些数据集中提取客 户的分类知识。聚类分析技术可以将性质、特征近 似的数据对象归属在相同的群集中。商业银行可以 利用此技术分辨出能有效为之服务的最有价值的客 户,为他们提供更为个性化的服务,从而影响相关 的客户行为并最终达到提高盈利的目的。
数据集(属性)
• Count of Debit this Month(这个月取款的次数) • Count of OD(透支的次数) • Amount of Deposit this Month(本月存款的账目) • Amount of Withdraw this Month(本月取款的账目) • Last Transaction Date(上一次交易的日期) • Country Code(客户所属的国家) • Birthday(生日) • Sex(性别)
客户数量 145 69 133 6183 1985 213 46 446 413 368
对聚类大小的分析
由表1可知,各聚类有大有小,且大小悬殊,但也合乎 客户关系处理的目的。客户关系管理的往往是找出一小部 分的特殊客户(占20%左右)来进行特别地对待。在上表 所示的10个聚类中,除去最大的聚类4后其余9个聚类的 客户数达3818人,占总客户量的38.18%;除去最大的两 个聚类(聚类4和聚类5)后其余8个聚类的客户数达1833 人,占总客户量的18.33%.
大聚类可以再继续细分 (作为一个数据集再继续进行 聚类操作, 或直接提高聚类个数)
wk.baidu.com
对各聚类结果的处理
• 聚类后的各聚类结果的数据是规格化处理后的数据的结果, 我们要直观地分析各聚类的特点,必须把规格化的数据还 原为原始数据。例如,最小值为-10,000,最大值为1,000, 000的当前账户余额规格化为[0,1]后就难以理解各账户间 存在的巨大差距,只有把它还原为原始的[-10000, 10000 00]才能使人直观地理解其存在的差距。
• • •
数据预处理
• 我们选用Weka数据挖掘工具来对客户的账户数据进 行分析,因此所有的原始数据都必须转换成能被We ka处理的数据集格式。
• 原始数据集的特征主要有四种类型的,分别是:数 值型(numeric)、标称型(nominal)、日期型(date)和 字符串型(string)。
• 对于缺失的属性值,因为Weka中的算法能自动处理 属性值缺失的情况,所以按Weka数据集的格式要求 用“?”表示。
数据集(属性)
• Statement High Balance(最高交易账目) • Statement Aggregate Debit Balance(聚集透支账目) • Statement Aggregate Debit Day(透支账目的天数) • Statement Aggregate Credit Balance(聚集存款账目) • Statement Aggregate Credit Day(存款账目的开数) • Return Check Count(退回支票的次数) • Status(客户状态) • Audit Granding(授权级别,越高则风险越低) • Salary Before Last Month(上一个月之前自动付款的账目) • Salary last Month(上一个月自动付款的账目) • Salary this Month(这一个月自动付款的账目) • Count of Credit this Month(这个月存款的次数)
当前余额正负
+
–
145
0
69
0
133
0
6182
1
1985
0
119
94
46
0
380
66
0
413
368
0
当前余额值
均值
标准差
24445.50
73408.73
29164.41
78077.97
152882.48 604633.58
5571.17 22102.61
8432.82 2093.91 7729.67 -24728.68 36264.24
数据集
• 客户数据集包含10,000条客户数据 • 包含有31个特征(属性), 分别为:
• Bank No(银行代码,其值有:004,024,077等) • Account num(账户代码) • Short Name(客户名字) • First Contact Date(第一次接触日期) • account open date(账户开户日期) • account balance(账户当前余额) • account low balance(账户曾经最低余额) • account high balance(账户曾经最高余额) • balance category(余额类型) • Statement Low Balance(最低交易账目,有正有负)
数据预处理(规格化)
• 数值型特征: 采用如下公式规格化到[0, 1]区间
x' x xmin xmax xmin
• 标称型特征、日期型特征和字符串型特征保持不变
聚类分析
• 目标
• 我们的目的是对客户进行分群,从而使银行可以对不同群体的客户提 供不同的服务。因此聚类分析是对客户进行自动分群的有效方法。
• 把各聚类的数据集还原为原始数据后,再计算各特征的均 值和标准差(数值型的特征);或者各标称量的数量(标 称型的特征)。
聚类结果分析(账户当前余额 )
• 下表所示为10个聚类中各聚类的账户当前余额的正负及账户当 前余额的均值和标准差
聚类
聚类1 聚类2 聚类3
聚类4 聚类5 聚类6 聚类7 聚类8 聚类9 聚类10
• 方法
• k-means算法
• 选取的特征
• 从31个原始属性值中选取23个属性用作聚类(都是数值型或标称型的)
• 聚类参数
• 在经过规格化处理后的数据集中,用k-means算法在选定的23个属性 上进行聚类,设定聚类数为10.
各聚类大小
• 各聚类所包含的客户数量如下表
表1
聚类 聚类1 聚类2 聚类3 聚类4 聚类5 聚类6 聚类7 聚类8 聚类9 聚类10
背景
➢ 数据客户群服务盈利 • 商业银行拥有大量的个人客户交易数据、个人客户
服务数据和个人客户基本资料数据。在这些海量数 据中,隐藏着大量的有价值的客户信息。运用数据 挖掘中的聚类分析技术可以从这些数据集中提取客 户的分类知识。聚类分析技术可以将性质、特征近 似的数据对象归属在相同的群集中。商业银行可以 利用此技术分辨出能有效为之服务的最有价值的客 户,为他们提供更为个性化的服务,从而影响相关 的客户行为并最终达到提高盈利的目的。
数据集(属性)
• Count of Debit this Month(这个月取款的次数) • Count of OD(透支的次数) • Amount of Deposit this Month(本月存款的账目) • Amount of Withdraw this Month(本月取款的账目) • Last Transaction Date(上一次交易的日期) • Country Code(客户所属的国家) • Birthday(生日) • Sex(性别)
客户数量 145 69 133 6183 1985 213 46 446 413 368
对聚类大小的分析
由表1可知,各聚类有大有小,且大小悬殊,但也合乎 客户关系处理的目的。客户关系管理的往往是找出一小部 分的特殊客户(占20%左右)来进行特别地对待。在上表 所示的10个聚类中,除去最大的聚类4后其余9个聚类的 客户数达3818人,占总客户量的38.18%;除去最大的两 个聚类(聚类4和聚类5)后其余8个聚类的客户数达1833 人,占总客户量的18.33%.
大聚类可以再继续细分 (作为一个数据集再继续进行 聚类操作, 或直接提高聚类个数)
wk.baidu.com
对各聚类结果的处理
• 聚类后的各聚类结果的数据是规格化处理后的数据的结果, 我们要直观地分析各聚类的特点,必须把规格化的数据还 原为原始数据。例如,最小值为-10,000,最大值为1,000, 000的当前账户余额规格化为[0,1]后就难以理解各账户间 存在的巨大差距,只有把它还原为原始的[-10000, 10000 00]才能使人直观地理解其存在的差距。
• • •
数据预处理
• 我们选用Weka数据挖掘工具来对客户的账户数据进 行分析,因此所有的原始数据都必须转换成能被We ka处理的数据集格式。
• 原始数据集的特征主要有四种类型的,分别是:数 值型(numeric)、标称型(nominal)、日期型(date)和 字符串型(string)。
• 对于缺失的属性值,因为Weka中的算法能自动处理 属性值缺失的情况,所以按Weka数据集的格式要求 用“?”表示。
数据集(属性)
• Statement High Balance(最高交易账目) • Statement Aggregate Debit Balance(聚集透支账目) • Statement Aggregate Debit Day(透支账目的天数) • Statement Aggregate Credit Balance(聚集存款账目) • Statement Aggregate Credit Day(存款账目的开数) • Return Check Count(退回支票的次数) • Status(客户状态) • Audit Granding(授权级别,越高则风险越低) • Salary Before Last Month(上一个月之前自动付款的账目) • Salary last Month(上一个月自动付款的账目) • Salary this Month(这一个月自动付款的账目) • Count of Credit this Month(这个月存款的次数)
当前余额正负
+
–
145
0
69
0
133
0
6182
1
1985
0
119
94
46
0
380
66
0
413
368
0
当前余额值
均值
标准差
24445.50
73408.73
29164.41
78077.97
152882.48 604633.58
5571.17 22102.61
8432.82 2093.91 7729.67 -24728.68 36264.24
数据集
• 客户数据集包含10,000条客户数据 • 包含有31个特征(属性), 分别为:
• Bank No(银行代码,其值有:004,024,077等) • Account num(账户代码) • Short Name(客户名字) • First Contact Date(第一次接触日期) • account open date(账户开户日期) • account balance(账户当前余额) • account low balance(账户曾经最低余额) • account high balance(账户曾经最高余额) • balance category(余额类型) • Statement Low Balance(最低交易账目,有正有负)
数据预处理(规格化)
• 数值型特征: 采用如下公式规格化到[0, 1]区间
x' x xmin xmax xmin
• 标称型特征、日期型特征和字符串型特征保持不变
聚类分析
• 目标
• 我们的目的是对客户进行分群,从而使银行可以对不同群体的客户提 供不同的服务。因此聚类分析是对客户进行自动分群的有效方法。
• 把各聚类的数据集还原为原始数据后,再计算各特征的均 值和标准差(数值型的特征);或者各标称量的数量(标 称型的特征)。
聚类结果分析(账户当前余额 )
• 下表所示为10个聚类中各聚类的账户当前余额的正负及账户当 前余额的均值和标准差
聚类
聚类1 聚类2 聚类3
聚类4 聚类5 聚类6 聚类7 聚类8 聚类9 聚类10
• 方法
• k-means算法
• 选取的特征
• 从31个原始属性值中选取23个属性用作聚类(都是数值型或标称型的)
• 聚类参数
• 在经过规格化处理后的数据集中,用k-means算法在选定的23个属性 上进行聚类,设定聚类数为10.
各聚类大小
• 各聚类所包含的客户数量如下表
表1
聚类 聚类1 聚类2 聚类3 聚类4 聚类5 聚类6 聚类7 聚类8 聚类9 聚类10