财经管理统计学与外汇管理知识分析(ppt 46页)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕!
聚类的应用领域
经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群,并且用购 买模式来刻画不同的客户群的特征。
谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 ……
生物学领域
推导植物和动物的分类; 对基因分类,获得对种群的认识
数据挖掘领域
作为其他数学算法的预处理步骤,获得数据分布状况,集中对特 定的类做进一步的研究
有贡献的研究领域
数据挖掘
聚类可伸缩性、各种各种复杂形状类的识别,高维聚 类等
统计学
主要集中在基于距离的聚类分析,发现球状类
机器学习
A K Q J
颜色相同的配对 Black and red suits
聚类分析原理介绍
分成两组 大小程度相近的牌分
到一组
A K Q J
大配对和小配对 Major and minor suits
聚类分析原理介绍
这个例子告诉我们,分 组的意义在于我们怎么
定义并度量“相似
性”Similar
A
因此衍生出一系列度量 K 相似性的算法
Q
J
大配对和小配对 Major and minor suits
聚类分析原理介绍
相似性Similar的度量(统计学角度) 距离Q型聚类(主要讨论)
主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类):
明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 此不详述,有兴趣可参考《应用多元分析》(第二版)王学民
Baidu Nhomakorabea 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户
针对潜在客户派发广告,比在大街上乱发 传单命中率更高,成本更低!
聚类分析无处不在
谁是银行信用卡的黄金客户?
利用储蓄额、刷卡消费金额、诚信度等变量对 客户分类,找出“黄金客户”!
这样银行可以…… 制定更吸引的服务,留住客户!比如:
肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象
刻画猫和狗的特征一样)
什么情况下需要聚类
为什么这样分类? 因为每一个类别里面的人消费方式都不一样,
需要针对不同的人群,制定不同的关系管理方 式,以提高客户对公司商业活动的相应率。
聚类分析无处不在
挖掘有价值的客户,并制定相应的促销策 略:
什么是聚类
早在孩提时代,人就通过不断改进下意识 中的聚类模式来学会如何区分猫和狗,动 物和植物
聚类分析无处不在
谁经常光顾商店,谁买什么东西,买多少?
按忠诚卡记录的光临次数、光临时间、性别、年 龄、职业、购物种类、金额等变量分类
这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜
聚类分析可以辅助企业进行客户细分,但是Data mining的客户细分不等同于商业领域的细分,看 不懂结果,也可能造成企业管理层无法对结果善 加利用。
聚类分析原理介绍
聚类分析中“类”的特征:
聚类所说的类不是事先给定的,而是根据数据 的相似性和距离来划分
聚类的数目和结构都没有事先假定
聚类分析原理介绍
统研会学术交流篇之——
聚类方法(Clustering)
演讲人: 上海财经大学统计学系 吕江平
主讲内容
聚类方法原理介绍 案例分析(SAS/Enterprise Miner) 推荐参考书目
什么是聚类
聚类(Clustering)就是将数据分组成为多个 类(Cluster)。在同一个类内对象之间具有 较高的相似度,不同类之间的对象差别较 大。
无指导学习(聚类不依赖预先定义的类,不等同于分 类)
空间数据技术 生物学 市场营销学
什么情况下需要聚类
以上分析,没有大量的数据去支持,Data Mining 就什么都挖不出来。
大量的数据不等于大量的垃圾,我们需要针对客 户市场细分所需要的资料。如需要知道白金持卡 人和金卡持卡人的流动率,各自平均消费水平有 多少,等;
主要聚类算法的分类
层次的方法(也称系统聚类法)(hierarchical method)
划分方法(partitioning method) 基于密度的方法(density-based method) 基于网格的方法(grid-based method) 基于模型的方法(model-based method) …… 其中,前两种算法是利用统计学定义的距离进行度量
相似系数R型聚类
用距于离对变量分类,可以用变量之间的相似系数的变形如1-rij定义 这里不详细介绍这种聚类度量方法
聚类分析原理介绍
变量按测量尺度(Measurement Level)分类 间隔(Interval)尺度变量
连续变量,如长度、重量、速度、温度等
有序(Ordinal)尺度变量
聚类方法的目的是寻找数据中:
潜在的自然分组结构a structure of “natural” grouping 感兴趣的关系relationship
聚类分析原理介绍
什么是自然分组结构Natural grouping ? 我们看看以下的例子: 有16张牌 如何将他们分为
一组一组的牌呢? A
等级变量,不可加,但可比,如一等、二等、三等奖学金
名义(Nominal)尺度变量
类别变量,不可加也不可比,如性别、职业等
当对象是同时被各种类型的变量描述时, 怎样描述对象之间的相异度呢?
一种可取的办法是把所有变量一起处理, 将不同类型的变量组合在单个相异矩阵中, 把所有有意义的变量转换到【0,1】的区间 上,只进行一次聚类分析。详见参考书
K
Q
J
聚类分析原理介绍
分成四组 每组里花色相同 组与组之间花色相异
A K Q J
花色相同的牌为一副 Individual suits
聚类分析原理介绍
分成四组 符号相同的牌为一组
A K Q J
符号相同的的牌 Like face cards
聚类分析原理介绍
分成两组 颜色相同的牌为一组
层次的方法(也称系统聚类法) (hierarchical method)
聚类的应用领域
经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群,并且用购 买模式来刻画不同的客户群的特征。
谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 ……
生物学领域
推导植物和动物的分类; 对基因分类,获得对种群的认识
数据挖掘领域
作为其他数学算法的预处理步骤,获得数据分布状况,集中对特 定的类做进一步的研究
有贡献的研究领域
数据挖掘
聚类可伸缩性、各种各种复杂形状类的识别,高维聚 类等
统计学
主要集中在基于距离的聚类分析,发现球状类
机器学习
A K Q J
颜色相同的配对 Black and red suits
聚类分析原理介绍
分成两组 大小程度相近的牌分
到一组
A K Q J
大配对和小配对 Major and minor suits
聚类分析原理介绍
这个例子告诉我们,分 组的意义在于我们怎么
定义并度量“相似
性”Similar
A
因此衍生出一系列度量 K 相似性的算法
Q
J
大配对和小配对 Major and minor suits
聚类分析原理介绍
相似性Similar的度量(统计学角度) 距离Q型聚类(主要讨论)
主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类):
明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 此不详述,有兴趣可参考《应用多元分析》(第二版)王学民
Baidu Nhomakorabea 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户
针对潜在客户派发广告,比在大街上乱发 传单命中率更高,成本更低!
聚类分析无处不在
谁是银行信用卡的黄金客户?
利用储蓄额、刷卡消费金额、诚信度等变量对 客户分类,找出“黄金客户”!
这样银行可以…… 制定更吸引的服务,留住客户!比如:
肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象
刻画猫和狗的特征一样)
什么情况下需要聚类
为什么这样分类? 因为每一个类别里面的人消费方式都不一样,
需要针对不同的人群,制定不同的关系管理方 式,以提高客户对公司商业活动的相应率。
聚类分析无处不在
挖掘有价值的客户,并制定相应的促销策 略:
什么是聚类
早在孩提时代,人就通过不断改进下意识 中的聚类模式来学会如何区分猫和狗,动 物和植物
聚类分析无处不在
谁经常光顾商店,谁买什么东西,买多少?
按忠诚卡记录的光临次数、光临时间、性别、年 龄、职业、购物种类、金额等变量分类
这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜
聚类分析可以辅助企业进行客户细分,但是Data mining的客户细分不等同于商业领域的细分,看 不懂结果,也可能造成企业管理层无法对结果善 加利用。
聚类分析原理介绍
聚类分析中“类”的特征:
聚类所说的类不是事先给定的,而是根据数据 的相似性和距离来划分
聚类的数目和结构都没有事先假定
聚类分析原理介绍
统研会学术交流篇之——
聚类方法(Clustering)
演讲人: 上海财经大学统计学系 吕江平
主讲内容
聚类方法原理介绍 案例分析(SAS/Enterprise Miner) 推荐参考书目
什么是聚类
聚类(Clustering)就是将数据分组成为多个 类(Cluster)。在同一个类内对象之间具有 较高的相似度,不同类之间的对象差别较 大。
无指导学习(聚类不依赖预先定义的类,不等同于分 类)
空间数据技术 生物学 市场营销学
什么情况下需要聚类
以上分析,没有大量的数据去支持,Data Mining 就什么都挖不出来。
大量的数据不等于大量的垃圾,我们需要针对客 户市场细分所需要的资料。如需要知道白金持卡 人和金卡持卡人的流动率,各自平均消费水平有 多少,等;
主要聚类算法的分类
层次的方法(也称系统聚类法)(hierarchical method)
划分方法(partitioning method) 基于密度的方法(density-based method) 基于网格的方法(grid-based method) 基于模型的方法(model-based method) …… 其中,前两种算法是利用统计学定义的距离进行度量
相似系数R型聚类
用距于离对变量分类,可以用变量之间的相似系数的变形如1-rij定义 这里不详细介绍这种聚类度量方法
聚类分析原理介绍
变量按测量尺度(Measurement Level)分类 间隔(Interval)尺度变量
连续变量,如长度、重量、速度、温度等
有序(Ordinal)尺度变量
聚类方法的目的是寻找数据中:
潜在的自然分组结构a structure of “natural” grouping 感兴趣的关系relationship
聚类分析原理介绍
什么是自然分组结构Natural grouping ? 我们看看以下的例子: 有16张牌 如何将他们分为
一组一组的牌呢? A
等级变量,不可加,但可比,如一等、二等、三等奖学金
名义(Nominal)尺度变量
类别变量,不可加也不可比,如性别、职业等
当对象是同时被各种类型的变量描述时, 怎样描述对象之间的相异度呢?
一种可取的办法是把所有变量一起处理, 将不同类型的变量组合在单个相异矩阵中, 把所有有意义的变量转换到【0,1】的区间 上,只进行一次聚类分析。详见参考书
K
Q
J
聚类分析原理介绍
分成四组 每组里花色相同 组与组之间花色相异
A K Q J
花色相同的牌为一副 Individual suits
聚类分析原理介绍
分成四组 符号相同的牌为一组
A K Q J
符号相同的的牌 Like face cards
聚类分析原理介绍
分成两组 颜色相同的牌为一组
层次的方法(也称系统聚类法) (hierarchical method)