第六讲:数据分析技术(四)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分割
分位数(Quantile)用来划分频数相同的组。
分割(Bucket)为等间隔区间,每组间的样本数不一定等。
Optimal Binning for Relationship to Target:把变量分成n组,使分
组后变量与目标变量相关系数最大。适合在二值变量与输入变量之间
存在非线性关系的情况。
Delete Variables – 删除变换后的新变量,但不能删除原变 量。
原数据变量窗口 数值键板 运算符面板
自定义变换公式
函数窗
Training – 用来拟合模型的数据集. Validation – 用来评估模型和模型调整的数据集。 Test – 用来获得最终模型误差的无偏估计。 Score – 得分数据集,可以包括目标变量,也可以不包括。
Domestic Product
Apparel Purchase
Total Returns
Leisure Product
Mens Apparel
Luxury Items
Home Furniture
Kitchen Product
Lamps Purchase
Dishes Purchase
Linens Purchase
为了拟合模型需 要定义一个训练 数据集;为了保 证模型的稳健性, 需要定义效验数 据集评估模型, 决策稳建模型; 为得到模型参数 的一致最小无偏 估计,需要定义 测试数据集。它 们均来自样本的 随机抽样的互斥 数据集。
只有观察 数据的角 色、测度 等信息, 不能改变。
前面过程 输入的数
据
简单随机 抽样
Ladies Coats
Country Code
Ladies Apparel
His/Her Apparel Jewelry Purchase Date 1st Order Telemarket Order Account Number State Code Race Heating Type Number of Cars Number of Kids Travel Time Education Level Job Category
数据集属性节点能完成上述任务。
设置数据集属性
它能修改数据属性。例如,数据集名、描述、角色。也能修改样本 信息,例如,变量角色、测度水平。在变量表中可以定义目标变量框架。
预测模型需要定义唯一的目标变 量和多个输入变量,模型评价需 要定义目标变量的决策矩阵和样 本权重,预测需要定义DI变量。
变量表
决定变量是输出 还是不输出
确定抽样 数,默认 为2000个
样本
分类变量 栏
输入变量, 为模型中 的自变量
不参加建模 分析 ID角色,记 录标识
顺序变量
Dining=Kitch+dish+flat
连续变量,能 计算距离,比
例。
名义变量
目标角色,预 测对象,全流
程唯一
二值变量 注:可以改变模型角色、变量测度。
描述统计量 它可用来数据 初步清先。例如, 数据含有不合理 的值吗? 分布特性如何?
统计图分析
变量转换
Transform Variables节点能通过旧变量产生新变量。 软件提供的变换方法: 简单变换:取对数、开方、求倒数、平方、指数化和标准化; 分割变换:分割、分位数、最优分割; 最优幂变换:最大正态化、最大相关化、目标水平均等化;
你可以在Customize window中建立自己的变换公式。
编辑目 标框架
评估信息,即定义 决策目标函数
先验概率定义 注:由于目标变量值较少,仅在总体中占12%,但为了有足够训练目标值,在数据库 中对样本进行了重抽样,产生了足够多的目标值,占样本中的54%左右,为此建模需 要加权处理。
数据分割
Data Partition节点将输入数据分割为下列互斥数据: Training – 用来拟合模型的数据集. Validation – 用来评估模型和模型调整的数据集。 Test – 用来获得最终模型误差的无偏估计。
数据探测
利用Insight节点能交互式的探测数据。用它能分析单变量和多变量分布, 能画散点图和箱形图,能对结果浏览和研究变量相关性等工作。还能通过方差 分析、回归分析和线性模型来解释模型。
随机抽 样的 “随机 种子数”
Dining变量值从0至28,是三种产品购买量和,我们是要预测具有购买欲望的 潜在消费者,因此,只要购买过的消费者都是目标消费者。在此,需要把它 Dining变量转换成二值变量,即1表示购买,0表示不购买。
因为对目录中产品有需求的客户是购买了kitch、dish和flat叁类产品 的客户,在我们的数据记录中kitch、dish、flat和Dining变量反映了客户购 买信息。但Dining变量表示kitch、dish、flat购买量和,我们分析目标是分 析客户有没有购买kitch、dish、flat商品的意向,因此,我们的目标变量 是“当Dining变量>0,值为1,表示购买;否则为0,表示不购买”。同 时kitch、dish、flat和Dining变量不能作为预测目标变量自变量,因为它们 是共线性的。
修改变量角色
修改变量测度
本次数据挖掘工作: (1)把Dining、Kitch、dish、flat四个变量角色改为Rejected,DINBEIN 变量角色改为Target。 (2)把DINBEIN变量测度改为binary。
定义目标变量框架 成本收益假设: (1)制作、印刷和邮寄一份产品目录成本10元; (2)若正确预测,即邮寄一份,顾客将来购物,每顾客平均花费90元, 即赢得利润80元;若预测不正确,即邮寄一份,但顾客未来购物,此时亏 本10元。
Maximize normality Power
Transformation : 变换后变量最接近正态分布。 Maximize Correlation with Target Power Transformation : 变换后变量与目标变量线性相关系
数最大,适合区间目标变量。 Equalize Spread with Target Levels Power Transformation : 变换后变量与目标变量具有方差稳
变量的模型角色分为目标变量、输入变量、时间变量和标识变量,在建 模之前必须分配每一个变量的模型角色,但模型角色是与数据类型有关联, 例如,目标变量可以是二值变量和区间变量,其它变量不行。对回归模型来 说,二值变量只能用LOGISTIC模型,它是预测响应发生的概率。
Hale Waihona Puke Baidu
定义源数据
Input Data Source节点属于Sample类数据挖掘过程。用它
来确定你的源数据和指定输入变量的属性。关闭节点后,数 选择数
等间隔变量 据集的名字成为节点的名字。 (连续变量)
据库和 数据集
栏
定义数据角色, 全程不变。数 据分为五个角 色: RAW:原始数据; Training :训 练数集; Validation:校 验数集; Test :测试数 集; Score :得分
数据挖掘的第一步就是确定样本数据,数据的角色,变量的模型中角色 和数据类型。一般来说,用户数据仓库中的数据可能是海量的,如果全部用 来建模分析,则运算十分耗时。只要我们才取好的抽样方式,抽取几百样本 就足够保证统计推断精度,因此,第一步要抽取样本。
另外,为建模需要,我们要确定数据角色,即训练集用来拟合模型;效 验集用来检验模型误差,以便减少过度拟合情况,增加模型的稳建性;测试 集用来得到模型参数的一致有效估计无偏估计;得分集作为待预测的数集, 应该没有响应变量的值。我们要事先确定数据角色。
我们的数据是由更大的客户数据库中用重抽样法抽取的,为了有足够 的样本做建模分析,使Dining变量响应值(即为1的值)在样本中的比例近 54%,这与现实中客户比例不合。因此,在建模中我们需要调整样本的权 重,现实中响应比例是12%。
抽样数据观察记录为1996个,作为统计推断和建模分析精度足够,数 据没有缺损值,完整性好。没有太多的齐异数据,基本可认为数据可靠。 通过数据的探索分析,可以发现有变量同目标变量存在相关性,因此,可 以考虑通过建立目标变量与其它变量的回归模型、决策树模型和神精网络 模型来预测目标变量。
Flatware Purchase
Blankets Purchase
Total Dining (kitch+dish+flat) Towels Purchase
Promo: 1-7 Months
Outdoor Product
Promo: 8-13 Months
Coats Purchase
$ Value per Mailing
相关系数 BLANKETS DINING
BLANKETS
1
DINING
0.349426
1
创建数据挖掘项目
调用SAS数据挖掘功能
从SAS主菜单中选择 File New Project
创建数据挖掘项目
从SAS主菜单选择 Solutions Analysis Enterprise Miner.
在 Create new project 窗中的工作列表中选择工作,并输入 Dining 名字 后点击 Create 按扭。
我们产生一个新变量DINBEIN: 当Dining>0,则DINBEIN=1; 当Dining=0,则DINBEIN=0;
Transform Variables Toolbox
Transform Variables – 使用软件提供的变换公式创建一个 新变量
Create Variable – 使用Create Variables window 创建自 定义变换
创建数据挖掘流程 在Dining List中选择Untitled,并输入Propensity名。
项目管理 窗
节点栏 工具窗
报告窗按扭
工作窗
流程图
输入 数据
设置 数据 属性
分割 数据 集
缺损 值处
理
探测 数据
数据 变换
分析 报告
决策 树模 型
回归 模型
模型 评估
预测 数据 集
模型代码 及运行
观察 预测 结果
第六讲:数据分析技 术(四)
数据挖掘工作意图
数学挖掘工作意图是揭示海量数据中的隐蔽 规律,以预测目标顾客、风险控制、欺诈模式识 别等工作为主要目的。
做好数据挖掘工作需要准备好三件事: (1)定义好问题
……谁是目标消费者? (2)高质量的历史数据
……几年的客户购买记录 (3)一个强大的建模工具
……数据挖掘软件
数据挖掘工作流程
定义问题
建模
模型评估
抽样
定义数据属性
预测或计算得分
数据探测
数据清冼
分析报告
问题背景
假如你为一个邮购公司工作。公司为了配合销售活动,希望每月发送家具和 家用器品产品目录给潜在消费者,内容包括厨房用具、碗碟和餐具产品的目录。 假如向全部消费者寄送费用太贵,必须选择购买该类产品概率较大消费者邮寄。 现在如何确定一份待邮寄名册?我们将通过建立消费倾向模型,使用数据挖掘工 具来确定邮寄名单和分析活动效益情况。
分析
问题目标: (1)在没有购买记录的客户名册中找出待邮寄名单; (2)以投资回报率或最大利润为决策目标,决定邮寄名单。
解决问题的条件: (1)目标变量是什么?有足够的数据资料吗? (2)有与目标关联的数据资料吗?关联性如何? (3)资料的完整性、可靠性和冗余情况? (4)研究路线设想? (5)有什么期待?
定性。 选择x、log(x)、x1/4、sqrt(x)、 x2、x4、ex中之一作为变换式
在建模前,我们除了要定义变量模型角色、数据类型外,还必需定 义决策成本、收益信息,即决策函数。在商业智能中,分析模式都是商 业决策模型。例如,消费响应预测、信用等级评估和商品关联描述等模 型。
在本问题中,我们要定义DINBEIN为目标变量,是二值变量;放弃 与它共线性的四个变量。依据邮送成本收益和原总体响应比例情况,定 义决策矩阵和先验概率。
假如你有一个珍贵的顾客购买记录数据。这个数据包括能显示顾客过去两 年是否购买过厨房用具、碗碟和餐具等信息。数据文件名为CUSTDET1,它 包括了如下49个变量和标签:
Purchase Dollars Spent Yearly Income Home Value Order Frequency Recency Married Name Prefix Age Sex Telemarket Ind. Rents Apartment Occupied <1 Year