熵值法原理及应用实践ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
997 15326 1.9%
998 16480 2.0%
999 16542 2.0%
14
5/27/2020 1000 61573 7.6%
去极值后
Teradata Confiwk.baidu.comential
样本id
游戏流量 (K)
贡献率
…
…
…
981 6107 0.9%
982 6107 0.9%
983 6107 0.9%
重的全过程。下图是手游认知客户挖掘模型的二级指标评 价体系,其中各个维度指标对应的权重系数均是通过熵值法
计算出来的。 下面具体看下模型中 “手游认知能力”部分指标权重的计算
过程。
一级
二级
13
5/27/2020
Teradata Confidential
熵值法的一般步骤之二:清洗指标极值
案例解说
方法:即剔除各指标中极大或者极小的值,一般用比较合
996 6107 0.9%
997 6107 0.9%
998 6107 0.9%
999 6107 0.9%
1000 6107 0.9%
熵值法的一般步骤之三:归一化指标处理
案例解说
方法:指标归一化过程也称之为指标的无量纲化,即将指
标实际值转化为不受量纲影响的指标平价值。方法比较多
,具体见附录《无纲量化方法一览》;
4
5/27/2020
Teradata Confidential
赋权算法分类
对于权重的确定,目前已提出各种不同的方法,可以分为:
主观赋权
客观赋权
• 往往依靠专家打分和 定性分析
• 精确性不够 • 主观性太强
• 一般采用数理统计方 法和技术
• 过于依赖数据,缺乏 业务指导
• 很多方法不能反映指 标对目标的影响方向
同理可以计算出 W 手游访问次数 W 和 手游访问天数
16
5/27/2020
Teradata Confidential
熵值法的一般步骤之五:指标加权计算得分 案例解说
方法:计算综合得分就是指标合成的过程,一般可以采用
加法原理和乘法原理; 原则:最常用的是加法合成法,其具体处理如下:
理的上下限值替换这些极值。目的是减少极值数据对该指
标的熵的影响;
原则:剔除占样本总数不到1-2%但指标值贡献率超过
20-30%以上的极值样本
样本id
游戏流量 (K)
贡献率
…
…
…
981 6358 0.8%
982 6401 0.8%
983 6631 0.8%
984 6635 0.8%
985 7193 0.9%
原则:比较常用的是临界值法和Z-score法(更合理,保持了
数据的连续性,减少数据信息丢失),最终将所有指标转化为正
区间里面,二者具体处理如下:
临界值法
Z-score法
yi
xi max
min xi xi min
xi
_
zi
xi
s
x
分
逻
箱
辑
处
处
理
理
[1,2,3 …,100]
15
5/27/2020
Teradata Confidential
二者结合 使用最有效
5
5/27/2020
Teradata Confidential
“熵”是一种客观的赋权方法
“熵”原本是物理中热力学概念,后来发展为信息论
的熵值法理论,在指标赋权方面的应用比较广泛。
“熵”是不确定性信息的度量(就好比人的身高、体 重,可以用来衡量人的体格):信息量越大,不确定性就越 小,熵也就越小;信息量越小,不确定性越大,熵也越大 。
Teradata Confidential
“权”的一般计算公式
wj
(1 H j )
m
(1 H i )
i 1
其中: H j 为第j个指标(维度)的熵,m为指标总数
10
5/27/2020
Teradata Confidential
利用样本数据上感受下熵的变化
11
5/27/2020
详见附录1
Teradata Confidential
984 6107 0.9%
985 6107 0.9%
986 6107 0.9%
987 6107 0.9%
988 6107 0.9%
989 6107 0.9%
990 6107 0.9%
991 6107 0.9%
992 6107 0.9%
993 6107 0.9%
994 6107 0.9%
995 6107 0.9%
Teradata Confidential
熵值法原理及应用实践
1 熵值法是做什么用的? 2 熵值法如何计算权重? 3 怎样合理应用熵值法?
“熵”的一般计算公式
n
fi ln(fi )
H
i 1
ln n
一个规划求 极值问题
其中: fi
Xi
n
Xi
i 1
X ,n为总样本数, i 为指标值
9
5/27/2020
熵大 熵小
越不确定 越确定
信息量小 信息量大
影响小 影响大
权重小 权重大
6
5/27/2020
Teradata Confidential
指标赋权中熵值法的一般原理
根据熵的特性,我们可以用熵值来判断某 个指标的离散程度:指标熵值越小,离 散程度越大,该指标对综合评价的影响 (即权重)也就越大。
7
5/27/2020
熵值法原理及应用实践
美商天睿信息系统(北京)有限公司 2013年3月
培训目标
1. 理解熵值法的原理 2. 学会使用熵值赋权 3. 领悟熵值应用实践
熵值法原理及应用实践
1 熵值法是做什么用的? 2 熵值法如何计算权重? 3 怎样合理应用熵值法?
日常工作中常常需要计算指标权重
多元回归赋权法 线性回归 逻辑回归 ……
熵值法的一般步骤
• 确立指标体系
步骤一
• 清洗指标极值
步骤二
• 归一化指标处理
步骤三
• 计算指标“熵”和“权”
步骤四
• 指标加权计算得分
步骤五
12
5/27/2020
Teradata Confidential
熵值法的一般步骤之一:确立指标体系
案例解说
我们用手游认知客户挖掘模型实例来解说熵值法计算指标权
986 7432 0.9%
987 7993 1.0%
988 8385 1.0%
989 8691 1.1%
990 10038 1.2%
991 10263 1.3%
992 10417 1.3%
993 10936 1.3%
994 11307 1.4%
995 14254 1.8%
996 15073 1.9%
(0,1]
熵值法的一般步骤之四:计算指标“熵”和“权案”例解说
n
fi ln(fi )
熵
H 手游历史付费
i 1
ln n
类似,按此公式还可以继续计算出 H 手游访问次数 和 H 手游访问天数
权
w 手游历史付费
(1
H
手游历史付费 )
(1 (1
H H
) 手游历史付费 ) 手游访问次数
(1
H
) 手游访问天数