Logit模型预测客户流失 - 软件测试,数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
再用数据审核节点审核剩下的28个变量,结果发现logtoll节点仍有52.5%的缺失值。在缺失插补中指定logtoll变量的空白值和无效值为该字段的平均值。再“生成——缺失值超节点”,生成“缺失值插补”字段,该字段下,其他变量不变,logtoll变量的缺失值均由平均值代替。
(2)数据清理
原始数据中,自变量有41个,但是不是所有变量都可以用来预测,因此要进行数据清理。Clementine提供了强大的数据审核清理功能,用多个标准来审核不合理的变量。
添加特征选择节点至类型节点,运行,特征选择节点对变量的合理性和重要性进行判别,如图:
retire、logwire、logequi三个变量分别因“单个类别过大”、“缺失值过多”、“变异系数低于阈值”需要剔除,而martial、wireten等变量因为不重要故也可以不用考虑。用“生成-过滤器”将这些节点过滤。
14 1 0 0 0.64 0.4870 0
15 1 0 1 3.01 0.0390 0
16 0 1 1 2.49 0.2142 0
17 1 0 0 2.1 0.0714 0
18 1 0 0 2.61 0.0310 0
19 0 0 0 2.33 0.0203 0
20 1 0 0 2.84 0.0210 0
“
proc logistic descending data=sasuser.telco2;
model y=x1-x41/selection=stepwise slentry=0.1 slstay=0.1 stb;
run;
”
(3)变量筛选及参数估计结果如下:
最终,性别(gender)、语音聊天(voice)、电子账户(ebill)、长途(loglong)四个自变量选入模型,并在0.1的显著水平下均显著,则客户流失对这四个变量的logit模型为:
ln()=
优势比如图:
从优势比中可以得到结论,男性流失概率是女性的2.5倍,接受语音聊天服务顾客的流失率是不接受的6.86倍,使用电子账户的客户流失概率是不使用的2.53倍,长途服务中,距离越长顾客的流失概率为稍低一个等级顾客的0.18倍。
(3)预测telcotest.sav的客户流失
将telcotest的新客户数据代入生成的logit模型中,只需要代入gender、voice、ebill、loglong四个变量,预测结果如下表所示:
可以看出,当P在(0,1)之间变化时,对应的logit(p)在之间变化,这样自变量可在任意范围内取值。
自变量对因变量的作用大小常用“优势比”(odds ratio,简称OR)来描述。所谓优势比
是指两个优势之比。对于某些发生率很低的事件来说,优势比可以作为相对危险度(relative risk,RR)的近似估计,即
20位客户中,第五号客户和第九号客户的流失概率超过了0.5,为0.803和0.664,极有可能流失。
3. Spss Clementine实现
(1)装载数据
运行软件,添加SPSS节点,将数据telco.sav装入。
添加类型节点,将除性别(gender)以外的取值为0、1的变量设置为“标志”,性别设置为“集”,将流失(churn)变量方向设置为输出,其他所有变量方向设置为输入。
一、logit模型
在一般线性模型中,因变量为一个连续变量,如建立一个GDP与进出口的线性模型,GDP为一个连续变量。但在实际工作中,因变量常常为分类变量,比如性别,要么是男性、要么是女性,又如本文要解决的,对电信客户是否流失的预测。这时可以用事件的发生概率P为因变量,以影响因素作为自变量,进行线性回归分析,那么此时因变量P的取值就必须是0-1之间,一般的线性回归分析就不能满足了,logit回归可以解决这个问题。
Logit回归属于概率非线性回归,假设在自变量作用下,某事件发生的概率为P,则该事件不发生的概率为1-P,P/(1-P)为发生于不发生概率之比,记为“优势”(odds),若对odds取自然对数,得
Logit(p)=ln(odds)=ln()
称为P的logit变换,则logit回归模型为
Logit(p)=ln()=
7 0 0 0 1.45 0.0862 0
8 1 0 0 2.63 0.0299 0
9 0 1 1 1.34 0.6638 1ห้องสมุดไป่ตู้
10 1 1 0 2.15 0.3259 0
11 0 0 0 3.09 0.0056 0
12 1 0 1 1.58 0.3223 0
13 0 0 0 3.47 0.0029 0
2. SAS实现
(1)将数据导入SAS,或者使用数据步建立一个数据集,使用数据步如下: “
data sasuser.telco2;
input x1-x41 y @@;
cards;
,数据略,
Run;
”
(2)建立logit模型,使用逐步法筛选自变量,并把变量进入模型,变量留在模型的显著性水平设为0.1,语法如下:
OR=
二、logit模型应用
Logit模型全称logistic模型,主要针对定性变量(分类、有序变量)进行建模。广泛应用在医学、通信、金融业,如客户分类、客户流失预测、寻找发病因素等。
三、案例说明
1. 案例背景
有电信业客户数据telco.sav,记录了客户个人信息(性别、收入、教育等)和接受的服务信息(是否使用无线、是否使用呼叫等待等)和是否流失信息。现在以“是否流失”(churn)为因变量,顾客个人信息和服务信息的41个变量为自变量,建立一个logit模型,观察哪些因素对顾客的流失有重大影响,为市场营销做准备。并用生成的模型对20个新客户数据telcotest.sav进行预测。本例使用SPSS Clementine和SAS软件实现。
Logit模型预测客户流失 - 软件测试,数据分析
Logit模型预测客户流失
一、logit模型
二、logit模型应用
三、案例说明
1. 案例背景
2. SAS实现
3. Spss Clementine实现
(1)装载数据
(2)数据清理
(3)模型建立
(4)模型评价
(5)预测
4.CLEMENTINE与SAS结果比较
No. Gender Voice Ebill Loglong Churn 是否流失
1 0 0 0 1.65 0.0626 0
2 0 1 0 2.52 0.0929 0
3 1 1 1 2.96 0.2326 0
4 0 0 0 2.2 0.0253 0
5 1 1 1 1.45 0.8031 1
6 1 0 0 2.23 0.0579 0
(2)数据清理
原始数据中,自变量有41个,但是不是所有变量都可以用来预测,因此要进行数据清理。Clementine提供了强大的数据审核清理功能,用多个标准来审核不合理的变量。
添加特征选择节点至类型节点,运行,特征选择节点对变量的合理性和重要性进行判别,如图:
retire、logwire、logequi三个变量分别因“单个类别过大”、“缺失值过多”、“变异系数低于阈值”需要剔除,而martial、wireten等变量因为不重要故也可以不用考虑。用“生成-过滤器”将这些节点过滤。
14 1 0 0 0.64 0.4870 0
15 1 0 1 3.01 0.0390 0
16 0 1 1 2.49 0.2142 0
17 1 0 0 2.1 0.0714 0
18 1 0 0 2.61 0.0310 0
19 0 0 0 2.33 0.0203 0
20 1 0 0 2.84 0.0210 0
“
proc logistic descending data=sasuser.telco2;
model y=x1-x41/selection=stepwise slentry=0.1 slstay=0.1 stb;
run;
”
(3)变量筛选及参数估计结果如下:
最终,性别(gender)、语音聊天(voice)、电子账户(ebill)、长途(loglong)四个自变量选入模型,并在0.1的显著水平下均显著,则客户流失对这四个变量的logit模型为:
ln()=
优势比如图:
从优势比中可以得到结论,男性流失概率是女性的2.5倍,接受语音聊天服务顾客的流失率是不接受的6.86倍,使用电子账户的客户流失概率是不使用的2.53倍,长途服务中,距离越长顾客的流失概率为稍低一个等级顾客的0.18倍。
(3)预测telcotest.sav的客户流失
将telcotest的新客户数据代入生成的logit模型中,只需要代入gender、voice、ebill、loglong四个变量,预测结果如下表所示:
可以看出,当P在(0,1)之间变化时,对应的logit(p)在之间变化,这样自变量可在任意范围内取值。
自变量对因变量的作用大小常用“优势比”(odds ratio,简称OR)来描述。所谓优势比
是指两个优势之比。对于某些发生率很低的事件来说,优势比可以作为相对危险度(relative risk,RR)的近似估计,即
20位客户中,第五号客户和第九号客户的流失概率超过了0.5,为0.803和0.664,极有可能流失。
3. Spss Clementine实现
(1)装载数据
运行软件,添加SPSS节点,将数据telco.sav装入。
添加类型节点,将除性别(gender)以外的取值为0、1的变量设置为“标志”,性别设置为“集”,将流失(churn)变量方向设置为输出,其他所有变量方向设置为输入。
一、logit模型
在一般线性模型中,因变量为一个连续变量,如建立一个GDP与进出口的线性模型,GDP为一个连续变量。但在实际工作中,因变量常常为分类变量,比如性别,要么是男性、要么是女性,又如本文要解决的,对电信客户是否流失的预测。这时可以用事件的发生概率P为因变量,以影响因素作为自变量,进行线性回归分析,那么此时因变量P的取值就必须是0-1之间,一般的线性回归分析就不能满足了,logit回归可以解决这个问题。
Logit回归属于概率非线性回归,假设在自变量作用下,某事件发生的概率为P,则该事件不发生的概率为1-P,P/(1-P)为发生于不发生概率之比,记为“优势”(odds),若对odds取自然对数,得
Logit(p)=ln(odds)=ln()
称为P的logit变换,则logit回归模型为
Logit(p)=ln()=
7 0 0 0 1.45 0.0862 0
8 1 0 0 2.63 0.0299 0
9 0 1 1 1.34 0.6638 1ห้องสมุดไป่ตู้
10 1 1 0 2.15 0.3259 0
11 0 0 0 3.09 0.0056 0
12 1 0 1 1.58 0.3223 0
13 0 0 0 3.47 0.0029 0
2. SAS实现
(1)将数据导入SAS,或者使用数据步建立一个数据集,使用数据步如下: “
data sasuser.telco2;
input x1-x41 y @@;
cards;
,数据略,
Run;
”
(2)建立logit模型,使用逐步法筛选自变量,并把变量进入模型,变量留在模型的显著性水平设为0.1,语法如下:
OR=
二、logit模型应用
Logit模型全称logistic模型,主要针对定性变量(分类、有序变量)进行建模。广泛应用在医学、通信、金融业,如客户分类、客户流失预测、寻找发病因素等。
三、案例说明
1. 案例背景
有电信业客户数据telco.sav,记录了客户个人信息(性别、收入、教育等)和接受的服务信息(是否使用无线、是否使用呼叫等待等)和是否流失信息。现在以“是否流失”(churn)为因变量,顾客个人信息和服务信息的41个变量为自变量,建立一个logit模型,观察哪些因素对顾客的流失有重大影响,为市场营销做准备。并用生成的模型对20个新客户数据telcotest.sav进行预测。本例使用SPSS Clementine和SAS软件实现。
Logit模型预测客户流失 - 软件测试,数据分析
Logit模型预测客户流失
一、logit模型
二、logit模型应用
三、案例说明
1. 案例背景
2. SAS实现
3. Spss Clementine实现
(1)装载数据
(2)数据清理
(3)模型建立
(4)模型评价
(5)预测
4.CLEMENTINE与SAS结果比较
No. Gender Voice Ebill Loglong Churn 是否流失
1 0 0 0 1.65 0.0626 0
2 0 1 0 2.52 0.0929 0
3 1 1 1 2.96 0.2326 0
4 0 0 0 2.2 0.0253 0
5 1 1 1 1.45 0.8031 1
6 1 0 0 2.23 0.0579 0