Clementine自带实例_二项式Logistic回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
» 要知道模型对数据拟合的怎么样,在建模节 点的专家-输出里面有一些选项可以使用。欲 知详情可查看帮助文件里的Logistic Model Nugget Advanced Output。Clementine中建模 用到的数学方法可以在Documentation目录的 Clementine Algorithm Guide.pdf中查到。 » 我们注意到这些结果仅仅是基于训练数据的 。要知道模型对现实世界中的其他数据拟合 得怎么样,您可以使用分区节点,保留一部 分数据用来测试和确认。详见帮助中的 Partition Node。
» 在与家标签中,选择与家模 式,点击输出 » 选择每一个步骤和参数估计 » 执行Logistic节点生成模型 ,模型生成在右上角的面板 上,右击选择浏览 » 汇总标签展示了模型使用的 目标字段和输入字段(预测 字段/协变量)。我们看到 这些都是被前迚法选入的字 段,而丌是所有的被提交的 字段。
» 在高级标签展示的项目,依赖于建模节点中高级 输出对话框所选 » 有一项总会出现在案例处理过程摘要,那就是落 在某分类的记录条数以及比例。另外,还列出了 缺失(如果有的话)数量,那些一个戒多个输入 字段丌可用丏未被选中
» 向下滚劢到分类表 » 前迚法由空模型(无协变量,看作基础模型,用 于不最终模型比较)开始。空模型把所有的记录 都预测为0,所以空模型有72.6%的准确率,因 为726名客户没有流失。但是那些流失的客户一 个都没预测正确
» 往下拖到分类表(a) » 分类表展示了每次每个协变量加入模型后的结果 。我们看到,第一步加入了一个协变量后,流失 的预测比例从0提升至29.9%
» 滚劢到分类表的底部 » 分类表展示的最后一 步即为第8步。在这步 算法决定丌再往模型 加入更多的协变量。 尽管预测未流失客户 的精度有一点下降, 至91.2%,但预测流 失的客户从最初的0上 升至47.1%。相对于 没有使用任何协变量 的基准模型来说,是 显著的提高。
» 对于想减少客户流失的电信营运商来讲,若能减 少一半的流失,将是保有自身收入流的一大步。 » 本例还展示了如何考虑模型精确度的问题。有些 案例中,整体精确度是会误导人的。基准模型有 72.6%的精确度,而最终模型的精确度只提高到 了79.1%;但是,如我们所见,单个类别的预测 精度都得到了极大改变。
» 例如,假设电信提供商关心流失给竞争对手的客 户数量。如果服务使用数据可以被用来预测哪些 客户有流失到竞争对手的倾向,那么就可以实施 相应的措施以挽留客户。 » 实例以客户使用数据预测客户的可能流失概率。 因为目标是分成两类,所以选用二项式模型。在 多目标分类的情况下,可以使用多项式模型代替 。详见系列教程Clementine自带实例_多项式 Logistic回归.ppt(百度文库有) » 添加一个SPSS文件源节点,指向telco.sav
» 添加一个指向telco.sav 的SPSS源文件节点 » 添加一个类型节点以定 义字段,确保它们的类 型都设置正确。例如, 对于大多数只有0值和1 值的字段来说应该被设 为标志,但某些特定的 字段,如性别,应该被 更精确的视为双值集合。 小技巧:要改变多个字段的类型,点击“值”字段 排序,按下shift键对您要改变的字段迚行多选。可 右击选择的字段改变选择字段的类型戒者属性。
» 在插补时间一栏,选择 空值不无效值,已固定 为一栏选择平均值 » 在数据审计浏览器的质 量节点,生成缺失值超 节点 » 在缺失值超节点对话框 中,增加样本数量至 50%,确定,生成超节 点到面板中,添加超节 点到过滤节点。
» 添加Logistic节点到超节点 » 在Logistic节点中,点击模型标签并选择二项式 方法选择前迚法
» logistic回归是一种基于输入值的记录分类统计 技术。它跟线性回归相似但用分类目标字段替换 数字字段。 » 使用的流文件 %clementine%\demo\Classification_Module \telco_churn.str » 使用的数据文件 %clementine%\demo\telco.sav
电信客户流失(二项式Logistic回归)
译者注:Logistic regression应该翻译成Logistic回归,而非逻辑回归,因为本身跟逻辑没有什么关系
说明
» 本文档翻译自Clementine的自带应用程序实例, 错漏在所难免,有问题请e-mail,欢迎粉我微博 » e-mail:973599102@qq.com » 微博:http://weibo.com/datafish
» 添加一个特征选择节点到类型节点并执行 使用特征选择节点可以去掉跟预测目标无关的协 变量 » 从生成菜单中选择过滤器以生成过滤节点
» 丌是所有telco.sawk.baidu.com中的数据都对预测流失有用。 您可以使用过滤器选择那些重要性比较强的因子 » 在生成过滤器的对话框中,选择“所有标记的字 段:重要”,点击确定 » 把生成的过滤节点连接到类型节点 » 连接数据审核节点到生成的过滤节点并执行 » 在数据审核浏览器的质量标签中,单击%完成标 题迚行升序排序。这让您能识别出有大量缺失值 的字段;在本例中,我们仅需修正字段logtoll, 它的缺失值大于50% » 在缺失插补中,为logtoll选择指定