熵值法原理及应用实践
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H 和 H 手游访问次数
手游访问天数
权
w 手游历史付费
(1
(1
H ) 手游历史付费 (1
H ) 手游历史付费 H 手游访问次数 ) (1
H ) 手游访问天数
同理可以计算出
W W 手游访问次数 和
手游访问天数
熵值法的一般步骤之五:指标加权计算得案分例解说 方法:计算综合得分就是指标合成的过程,一般可以采用加法原理和乘法原理; 原则:最常用的是加法合成法,其具体处理如下:
xi
4、
yi
xi max
min xi1、
_
zi
xi x s
• 比重法
1、 2、
yi
xi xi
yi
xi
xi2
曲线型
Thank you
1日常工作中常常需要计算指标权重专家打分法德尔菲法层次分析法ahp主成份分析法因子分析法多元回归赋权法线性回归逻辑回归熵值法请大家想一想你知道的几种指标赋权方法
熵值法原理及应用实践
美商天睿信息系统(北京)有限公司 2013年3月
培训目标
1. 理解熵值法的原理 2. 学会使用熵值赋权 3. 领悟熵值应用实践
14254
1.8%
996
15073
1.9%
997
15326
1.9%
998
16480
2.0%
999
16542
2.0%
1000
61573
7.6%
去极值后
样本id
游戏流量(K)贡献率
…
…
…
981
6107
0.9%
982
6107
0.9%
983
6107
0.9%
984
6107
0.9%
985
6107
0.9%
986
6107
熵大 熵小
越不确定 越确定
信息量小 信息量大
影响小 影响大
权重小 权重大
指标赋权中熵值法的一般原理
根据熵的特性,我们可以用熵值来判断某个指标的离散程度: 指标熵值越小,离散程度越大,该指标对综合评价的 影响(即权重)也就越大。
熵值法原理及应用实践
1 熵值法是做什么用的? 2 熵值法如何计算权重? 3 怎样合理应用熵值法?
982
6401
0.8%
983
6631
0.8%
984
6635
0.8%
985
7193
0.9%
986
7432
0.9%
987
7993
1.0%
988
8385
1.0%
989
8691
1.1%
990
10038
1.2%
991
10263
1.3%
992
10417
1.3%
993
10936
1.3%
994
11307
1.4%
995
项目中合理应用熵值法的几点个人经验:
个人经验
① 必须结合专家打分法才可以发挥熵值法的优势。事实上,指标评价体系建立的基础就是专 家经验;
② 在确定权重前,需要完全确定指标对目标得分的影响方向。非线性的指标要么剔除,要么 进行预处理;
③ 熵值法对底层指标比较适用,而对上层指标权重需要重点借助专家经验; ④ 不要怕麻烦,好好处理所有指标的极值问题,对权重的优化有好处;
熵值法不是万能赋权法
缺点
① 智能程度不够高。与多元回归和主成份等统计方法不同,它不能考虑指标与指标间横向的 影响(如:相关性),更不能确定指标对目标/得分的影响方向(如:正相关或负相关);
② 同其他客观赋权法一样,若无业务经验的指导,权重可能失真; ③ 对样本的依赖性比较大,随着建模样本变化,权重会有一定波动;
附录
1. 计算熵值的数据样本 2. 熵值法的SQL实现脚本 3.无纲量方法一览
附录
附录1. 计算熵值的数据样本
附录2. 熵值法的SQL实现脚本
附录3 无量纲方法一览
直线型
折线型
• 阀值法(临界值法)
1、
yi
xi max
xi
2、
yi
max xi max
xi xi
3、
yi
x min xi
临界值法
yi
xi max
min xi xi min
xi
分 箱 处 理
[1,2,3 …,100]
Z-score法
_
zi
xi x s
逻 辑 处 理
(0,1]
熵值法的一般步骤之四:计算指标“熵”案和例解说
“权”
熵
n
fi ln(fi )
H 手游历史付费
i 1
ln n
类似,按此公式还可以继续计算出
6107
0.9%
熵值法的一般步骤之三:归一化指标处理案例解说 方法:指标归一化过程也称之为指标的无量纲化,即将指标实际值转化为不受量纲影响的指标 平价值。方法比较多,具体见附录《无纲量化方法一览》;
原则:比较常用的是临界值法和Z-score法(更合理,保持了数据的连续性,减少数据信息 丢失),最终将所有指标转化为正区间里面,二者具体处理如下:
“熵”的一般计算公式
n
fi ln(fi )
H
i 1
ln n
一个规划求极值问 题
其中:
fi
Xi
n
Xi
i 1
,n为总样本数,
X i 为指标值
“权”的一般计算公式
wj
(1 H j )
m
(1 H i )
i 1
其中:
H j 为第j个指标(维度)的熵,m为指标总数
利用样本数据上感受下熵的变化
一级
二级
熵值法的一般步骤之二:清洗指标极值 案例解说 方法:即剔除各指标中极大或者极小的值,一般用比较合理的上下限值替换这些极值。目的是 减少极值数据对该指标的熵的影响; 原则:剔除占样本总数不到1-2%但指标值贡献率超过20-30%以上的极值样本
样本id
游戏流量(K)贡献率
…
…
…
981
6358
0.8%
熵值法原理及应用实践
1 熵值法是做什么用的? 2 熵值法如何计算权重? 3 怎样合理应用熵值法?
日常工作中常常需要计算指标权重
多元回归赋权法 线性回归 逻辑回归 ……
赋权算法分类
对于权重的确定,目前已提出各种不同的方法,可以分为:
主观赋权
• 往往依靠专家打分和定性分析 • 精确性不够 • 主观性太强
加法合成法
利用以上3个指标的权重和归一化指标值,计算上级指标的分数: 手游认知能力得分= 0.336*手游历史付费金额
+0.212*手游访问次数 +0.452*手游访问天数。 当然,模型其他部分的底层指标权重和一级指标权重均可以按以上步骤计算得到,并一层层 由下往上进行加权,最终得到模型的综合得分。
0.9%
987
6107
0.9%
988
6107
0.9%
989
6107
0.9%
990
6107
0.9%
991
6107
0.9%
992
6107
0.9%
993
6107
0.9%
994
6107
0.9%
995
6107
0.9%
996
6107
0.9%
997
6107
0.9%
998
6107
0.9%
999
6107
0.9%
1000
熵值法原理及应用实践
1 熵值法是做什么用的? 2 熵值法如何计算权重? 3 怎样合理应用熵值法?
熵值法的优点在于其客观、准确和简便
优点
① 熵值法能深刻反映出指标的区分能力,进而确定权重。这种思想和我们的得分评价模型指 标选择的机理是一致的;
② 是一种客观赋权法,有理论依据,相对主观赋权具有较高的可信度和精确度; ③ 算法简单,实践起来比较方便操作,无需借助其他分析软件实现。
详见附录1
熵值法的一般步骤
步骤一 • 确立指标体系 步骤二 • 清洗指标极值 步骤三 • 归一化指标处理 步骤四 • 计算指标“熵”和“权” 步骤五 • 指标加权计算得分
熵值法的一般步骤之一:确立指标体系 案例解说 我们用手游认知客户挖掘模型实例来解说熵值法计算指标权重的全过程。下图是 手游认知客户挖掘模型的二级指标评价体系,其中各个维度指标对应的权重 系数均是通过熵值法计算出来的。 下面具体看下模型中 “手游认知能力”部分指标权重的计算过程。
客观赋权
• 一般采用数理统计方法和技术 • 过于依赖数据,缺乏业务指导 • 很多方法不能反映指标对目标的影
响方向
二者结合 使用最有效
“熵”是一种客观的赋权方法
指标赋 “熵”原本是物理中热力学概念,后来发展为信息论的熵值法理论,在 权方面的应用比较广泛。
“熵”是不确定性信息的度量(就好比人的身高、体重,可以用来衡量人的体格):信息 量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。