数据挖掘讲义完整版

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Questions?
26
9
2013年6月3日
软wenku.baidu.com培训之家 www.peixun.net
探讨消费者购买保健品的动机
@文彤老师
软件培训之家 www.peixun.net
案例背景介绍
2
软件培训之家 www.peixun.net
研究背景
• 大环境:SARS之后新出现的的市场机遇 • 现状:激烈竞争的市场环境 • 目标:新产品进入 • 方法:市场细分
22
软件培训之家 www.peixun.net
项目总结与讨论
23
软件培训之家 www.peixun.net
分析结论
• 在本案例中,由于统计描述时发现因变量呈偏态 分布,因此分别采用变量变换、秩变换分析和Cox 模型进行了建模分析,结论一致,如下:
• 性别、年龄对激素水平未发现有影响,其中后者无论是 原始年龄,还是年龄分组均无统计学意义。 • 试验组和对照组之间的激素水平存在差异,从平均水平 看,试验组的激素水平大致为对照组的3倍。
2013年6月3日
软件培训之家 www.peixun.net
激素水平影响因素分析
@文彤老师
软件培训之家 www.peixun.net
案例背景介绍
2
软件培训之家 www.peixun.net
研究背景
• 在某个消化内科的科研项目中,研究者认为某种激素 水平可能会对胃癌的发生有一定的作用,因此设计了 此项研究,将病人按照临床病理诊断结果分为对照组 和试验组(出现病变组)两组,并采集了如下指标:
软件培训之家 www.peixun.net
建模后的残差图
16
软件培训之家 www.peixun.net
变量变换策略的优缺点
• 优点
• 应用最广泛,其结果易于理解 • 如果找到合适的变换方式,则随后能够使用的分析模型 非常丰富
• 缺点
• 在许多实际分析案例中,这种“合适的变换方式”可能 不存在 • 变量变换实际上改变了变量间的数量关联趋势,有可能 严重扭曲数据原本蕴含的信息 • 因此相应的分析结果在解释的时候需要比较谨慎
• 根据产品特点和公司营销能力做重点进攻
3
1
2013年6月3日
软件培训之家 www.peixun.net
基本研究思路
• 市场细分/市场机会评估
• 消费者用于细分市场的主要指标有哪些 • 整个市场可以被区分为哪些区块,各块的市场容量和特 征如何
• 目标人群确定
• 同类产品在市场上的覆盖情况如何 • 发现可进入的细分市场
6
2
2013年6月3日
软件培训之家 www.peixun.net
方法学简介
7
软件培训之家 www.peixun.net
一般线性模型回顾
• 只研究A因素的影响 X ij i ij , ij ~ (0, 2 )
• 如果A因素水平1和2对X的平均水平不同,则应当 有α1≠α2
• H0: α1=α2
• 量表尺度的确定 • 变量的出现顺序是否随机化?
8
软件培训之家 www.peixun.net
如何确定分析用语句?
一、定性研究 • • • • 个人访问/小组讨论方式 生成约150句功能/情感表述语句 语句内容尽量特殊,避免一般化 可以采用阶梯法逼近出真实需求
二、定量研究 • • • • • 进行5‐10分的尺度评分 删除分值过于极端,或评分变异过低的受访者数据 删除与整体平均水平有明显差异的语句 利用聚类分析或者因子分析归纳出语句组 对各语句组找出2‐4条最有代表性的语句
ˆ ei a b1 x1i b2 x2i ei yi y
ei~N(0, 2)
ˆ a b1 x1 b2 x2 y
• 本质上模型的适用条件是完全相同的
10
软件培训之家 www.peixun.net
分析操作与结果阅读
11
软件培训之家 www.peixun.net
数据理解
• 产品/品牌定位
• 从营销角度考虑的定位方式
4
软件培训之家 www.peixun.net
研究的阶段设定
• 定性研究阶段:通过座谈会与深度访问方式,深 入挖掘消费者使用保健产品的动机 • 定量研究阶段:通过随机抽样方式来了解目标市 场消费者基本状况,并对市场进行细分 • 策略发展阶段:在前两个研究的基础上,根据市 场细分结果,通过公司内部分析以及外部竞争分 析,来确定公司品的市场定位
24
8
2013年6月3日
软件培训之家 www.peixun.net
如果不同方法的分析结论不一致。。。?
• 如果方法学体系上应当是等价的方法,那么必然 其中的某些方法有操作错误
• 例如:回归分析的结果和方差分析的结果不一致
• 没有最好的,只有最合适的 • 投票策略
25
软件培训之家 www.peixun.net
3
1
2013年6月3日
软件培训之家 www.peixun.net
研究背景
• 研究者希望回答的研究问题如下:
• 总目标:在控制了其他因素的作用之后,激素水平是否 的确在两组间存在差异。
• 基于目标,又可进一步衍生出如下分目标:
• 分目标1:激素水平和年龄、性别等有无关联。 • 分目标2:在试验组中,激素水平和粘膜萎缩程度、肠 化生程度等是否有关。
7
软件培训之家 www.peixun.net
研究手段的具体化
• 细分方向的确定
• 消费者对养颜产品的使用方式;购买方式;消费者的生 活方式;消费者的购买动机等。
• 细分用变量的确定(这些变量可以从哪里来?)
• • • • 虽然目前没什么问题,但觉得应该对自己好一点 看到广告的模特很漂亮 看到周围同龄人都在服用 ……
建模方法1:变量变换后分析
• 常见的变量变换方法
• 对数转换:可用于服从对数正态分布的资料;部分正偏 态资料、等比资料,特别是各组CV相近的资料。 • 平方根转换(Square Root Transformation):可用于服 从Poisson分布的资料、轻度偏态资料、样本的方差与 均数呈正相关的资料以及观察变量为率,取值在0~ 20%或80~100%的资料。 • 平方根反正弦转换:可用于原始数据为率,且取值广泛 的资料。 • 平方变换:常用于方差与均数呈反比时或资料呈左偏时。 • Box-Cox变换:不推荐使用。
• 如果各个水平下X的平均水平均无差异,则应当有 α1=α2=α3=…=0,此时如果采用适当的参照水平, 就有
• H0:αi=0,H1:至少有一个αi≠0
软件培训之家 www.peixun.net
一般线性模型表达式回顾

只研究A因素的影响(全模型)
X ijk i j i j ijk , ijk ~ (0, 2 )
• 单变量描述
• 分类变量的频数分布
• 可以用什么工具?
• 连续变量的统计描述
• 可以用什么工具?
• 基于描述发现了什么问题?
• 关联强度探索
• 可选的分析思路有哪些? • 如何选择合适的探索工具?
12
4
2013年6月3日
软件培训之家 www.peixun.net
这天杀的破数据该如何分析?!
13
软件培训之家 www.peixun.net
5
软件培训之家 www.peixun.net
定量阶段研究目标的具体化
• 在所有可被直接测量的购买动机指标背后,究竟 代表的是消费者怎样的内在购买需求? • 不同保健品品牌的使用者在购买动机上有无明显 差异? • 基于上述内在购买需求,消费者是否可被分为若 干群体?
6
2
2013年6月3日
软件培训之家 www.peixun.net
• 在比例风险模型中,假设在时点t个体出现观察结 局的风险大小可以分解为两个部分
• 有一个基本(本底)风险量h0(t),代表没有任何自变 量影响下的生存状况 • 第i个影响因素使得在任意一个时点t的死亡风险从h0(t) 增加e(biXi)倍而成为h0(t)*e(biXi)
软件培训之家 www.peixun.net
Cox比例风险模型回顾
• 因此,如果在k个因素同时影响生存过程的情况下, 在时点t的风险量(常称为风险率hazard rate或风 险函数(hazard function))就为:
• h(t)=h0(t)e(b1X1)e(b2X2)…e(biXi) • h(t,X)= h0(t)e(b1X1+b2X2+…+bkXk)
4
软件培训之家 www.peixun.net
基本研究思路
• 确定研究问题所从属的统计框架
• 因变量的影响因素发现与确认?
• 进一步深入到变量预测问题?
• 变量间的内在关联结构发现? • 元素分组/归类问题?
• 确定研究设计类型
• 成组设计? • 配对/配伍设计? • 更复杂的设计类型,比如嵌套设计?
• 核心研究指标确定 • 关键影响因素指标确定
5
软件培训之家 www.peixun.net
分析思路/商业理解
• 本例是一个比较典型的要求控制其余影响因素下 的两组数据比较。因此从基本思路上应当属于影 响因素发现与确认的范畴,绝大多数情况下,此 类问题的分析流程如下:
• 在数据理解的基础上,先进行单个因素对应变量的影响 大小分析,对可能需要控制的其他影响因素进行预筛, 并提前发现可能和因变量存在曲线关联的连续性自变量, 以便后续分析中做出相应的数据准备和建模变换。 • 根据单因素分析的结果,尝试构建多因素模型,从而在 控制其余影响因素的同时,得到分组变量是否对因变量 有影响的结论。 • 继续深入分析,依次回答各个分目标。
• 上式取对数,移项得
• Log[Rh(t)]=Log[h(t,X)/h0(t)]= b1X1+…+bkXk
软件培训之家 www.peixun.net
Cox比例风险模型回顾
• Log[Rh(t)]=Log[h(t,X)/h0(t)]= b1X1+…+bkXk • h0(t)
• 表示个体在时点t的基准死亡情况(基础风险函数,为 发病密度或死亡密度)。
• 使用中需要考虑的问题
• 是否分组编秩? • 是否考虑秩次的分布形状,比如指定为正态? • 建模后是否做模型适用条件的诊断?
18
6
2013年6月3日
软件培训之家 www.peixun.net
建模方法3:Cox模型
• 是针对特殊分布的一种特殊应用,不具普遍性
• 将因变量取值看作“生存时间”,假定所有观测均在该 时点出现结局事件,然后对其影响因素做生存数据的建 模
• 性别:男、女。 • 年龄:除记录实际年龄外,还根据临床研究的习惯,按照 <45岁、45~59岁、60岁及以上分为青年、中年、老年三组。 • 上述指标在两组间有大致的配额控制,但并未完全均衡。
• 此外,对于试验组,还进行了如下实验室检查:
• 萎缩程度:分为轻、中、重度三级。 • 胃粘膜细胞肠化生程度:分为无、轻度、中度、重度四级。
17
软件培训之家 www.peixun.net
建模方法2:秩变换分析
• 优点
• 适用范围广,样本量充足的情况下均可使用 • 分析结果更为稳健,不易受极端值影响
• 缺点
• 检验效能相对稍低,存在信息损失,不适用于中小样本 • 而且其分析结果相对没有那么“定量”,毕竟其描述的 是影响因素对因变量秩次的作用

同时考虑A,B两个因素的影响(不考虑交互项)
X ijk i j ijk , ijk ~ (0, 2 )

数据可能不符合适用条件时,应当考虑做预处理
9
3
2013年6月3日
软件培训之家 www.peixun.net
线性回归模型仍然属于一般线性模型范畴
• 当考虑X1和X2两个自身变量对因变量Y的影响时:
研究的阶段目标(细分)应当如何实现?
• 细分方式如何确定?
• 人口背景细分、购买行为细分、使用行为细分、生活形 态细分。。。 • 各指标采用何种测量方式?
• 细分用指标如何确定?
• 候选指标如何选择? • 怎样进行候选指标的进一步筛选?
• 细分结果如何用于指导实际工作?
• 有无可供进一步分析的辅助信息需要收集 • 有无专业知识可用于协助指导分析
• 变换的基本原则:能够在保留数据关联的前提下 解决分布问题
14
软件培训之家 www.peixun.net
具体操作
• PP图考察分布趋势
• 如果效果不佳,则尝试其他变换方式
• 建模后考察残差分布
• 如果效果不佳,则尝试其他变换方式
• 简化模型,得到分析结果
• 失拟检验可以简化操作步骤
15
5
2013年6月3日
• Betai
• 与以前相同,可直接理解为Xi的回归系数 • β的实际含义是:当变量X改变一个单位时,引起的死 亡风险改变倍数的自然对数值
21
7
2013年6月3日
软件培训之家 www.peixun.net
建模方法3:Cox模型
• 优点
• 完全跳开了变量分布的问题,任何情况都可以应用
• 缺点
• 结果很难有直观的解释,比较适合于筛选影响因素,但 进一步的定量解释比较难
相关文档
最新文档