logistic判别分析应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

利用-Logistic 回归二次判别法提高判别分析效率

朱勇华张庆丰

华北电力大学,北京,102206

三、利用Logistic 回归提高判别分析效率,一般情况下,距离判别分析对资料的基本要求是:分组类型在两组或两组以上;在第一阶段工作时每组案例的规模必须至少在一个以上;预测变量必须是可测量的以计算其平均值和方差来得到相应的统计函数。另外还需要有一定的假设条件:1、每一个判别变量(预测变量)不能是其他的判别变量的线性组合;2、各组变量的协方差矩阵相等;3、各判别变量之间具有多元正态分布。与此相比,Logistic 回归没有类似假设,而且当这些假设不满足时结果非常稳定,具有很好的稳健性。比如我们可以采用主成分分析来有效减轻预测变量之间的多元共线性,当预测变量是非度量变量是可以采用引入哑变量的方法来进行回归从而达到判别个体归属的目的等。从另一个方面讲,判别分析实际上是一种针对资料结构进行的分析方法,而回归分析则是基于资料之间的相关关系进行的分析方法,可以说这两种方法各有长处,将这两种方法的优点进行结合,显然有助于我们的分析。接下来我们看一下具体操作方法。

首先需要确定判别准则,Logistic 回归意在对回应变量Y 取0 或 1 两个值的概率建模。由此,我们可以根据预测变量X 的不同水平来计算的预测概率。如果所得预

测概率值相当大,那么我们当然要预测要发生了。反之如果预测概率相当小,我们当然要预测要发生了。这里存在一个问题即如何确定所谓“相当大"或“相当小"。也就是如何确定这两者之间的分割点。关于如何确定分割点目前主要存在以下几种做法:

1、采用0.5 作为分割点;

2、选用“最佳"分割点;

3、根据先验概率

和误判损失来确定分割点。

Y = 1

Y = 1

Y = 0

在此,我们推荐采用一种新的确定分割点的方法,即二阶段判别的方法。所谓二阶段判别,即在第一阶段,分别尝试用距离判别法和Logistic 回归进行模型拟合,如果效果很好,可以考虑判别分析到此为止。反之,根据Logistic 回归得到的预测概率值选定一个筛选标准将样本分为三类:“1"组、“0"组和“不确定"组,然后对不确定组的样本采用第三种方法,即根据先验概率和误判损失来确定分割点。这样的话我们就可以最大限度地发挥

Logistic 回归的模型优势并且可以充分利用样本信息。为了进一步说明理论依据,我们采用图示的方法进行说明:

假设样本分布如上图,我们显然可以首先将分布区域Ⅰ、Ⅲ中的样本做出判别,然后再依据样本在区域Ⅱ中的频数信息确定分割点以对分布区域Ⅱ中的样本点进行判别。此例中,如果直接依据总样本的频数信息来进行判别的话显然有些不合理。特别刊管理科学与统计决策Special issue 2006 年11 月Management Science & Statistical Decision Nov.2006 60

四、案例验证

为了了解学习口语和交际策略对于英语学习的影响,以研究对策,改进教学和学习方法,从而最终使广大同学更快更好地学习英语,我们搞了一个问卷调查。具体调查结果见下表:表 1 关于英语口语学习与交际策略的调查分析表

ID Y X1 X2 X3 X4 X5 X6 P G1 G2

1 1 2.5 1.88 2.83 2.

2 2 1.5 0.06079 1 1

2 1

3 2.25 2.67 2.2 2.17 1.83 0.0889 1 1

3 1 3.75 2.25 2.67 2.6 2.5 2.17 0.1891

4 1 1

4 1 2.7

5 2.38 3 2.4 2.17 1.5 0.18491 1 1

5 1 3 2.5 3.67 2.

6 2.1

7 2.5 0.088

8 1 1

6 1 3 2.63 3 3 2.6

7 3 0.1463

8 1 1

7 1 3 2.75 3.83 3.4 2.33 2.67 0.35123 1 1

8 1 3.75 2.75 2.83 3.4 3 3.17 0.38762 1 1

9 1 3 2.88 3.17 2.8 2.5 2.83 0.15765 1 1

10 1 3 3 4 3 2.5 2.83 0.22117 1 1

11 1 3.25 3 3.5 3 2.33 2.33 0.40597 1 1

12 1 3.5 3.13 2.83 3.2 3 3.33 0.32839 1 1

13 1 3.5 3.13 2.83 3.2 3 3.33 0.32839 1 1

14 1 3.75 3.13 3.17 2.8 2.33 2.67 0.32223 1 1

15 1 3.5 3.25 3 2.4 2.33 2.33 0.26847 1 1

16 1 4.5 3.25 3.17 3.8 3.5 3.67 0.70461 2 2

17 1 3.25 3.38 3.33 3.2 3.33 3.17 0.43879 1 1

18 1 3.75 3.38 3.67 2.6 2.17 2.5 0.33002 1 1

19 1 3.5 3.5 2.83 2.6 2.83 2.17 0.54732 2 1*

20 1 4 3.5 3.5 3.6 2.83 2.67 0.83607 2 2

21 1 3.5 3.63 3 2.8 2.17 2.83 0.38242 1 1

22 1 4 3.63 4 3.8 3 3.67 0.67922 2 2

23 2 3.5 2.5 2.17 2 1.67 1.83 0.09859 1 1

24 2 3.5 2.63 3.17 3.4 2.67 2 0.67336 2 2

25 2 2.75 2.75 3.5 2.6 2 2.5 0.10195 1 1

26 2 3 2.75 3.67 3.6 3.5 2.83 0.5126 2 2

27 2 2.75 3 3.17 4.2 3.17 2.33 0.8909 2 2

28 2 4.5 3.13 3.33 2.8 2.33 2.67 0.41669 1 1

29 2 3.25 3.25 3.5 3.4 2.67 2.83 0.54195 2 2

30 2 3.5 3.25 3.67 3.2 2.83 2.67 0.54531 2 2

31 2 3.75 3.25 3.67 3.8 3.33 2.67 0.84758 2 2

32 2 4.5 3.25 3.33 3.4 4.5 2.33 0.91477 2 2

33 2 3.75 3.38 3.17 3.4 2.5 3.67 0.35805 1 1

34 2 3.25 3.5 3.5 3.2 2.67 1.83 0.82388 2 2

35 2 3.5 3.5 3.5 3.6 4 3.83 0.53661 2 2

36 2 4.25 3.5 3.33 3.4 3.17 3.33 0.64499 2 2

37 2 3.5 3.63 3 3.8 2.5 3.67 0.60573 2 2

38 2 4 3.63 4 3.8 4 1.33 0.98909 2 2

39 2 4.5 3.63 3.33 3.6 3.67 3.5 0.7808 2 2

40 2 4.5 3.75 3.83 3.6 4.5 3.33 0.87265 2 2

41 2 4.5 4 3.33 3.2 3 3.33 0.72137 2 2

42 2 4.25 4.13 4 3.4 3.5 3.67 0.72663 2 2

43 2 4.5 4.13 3.17 4.8 3.67 3.83 0.97966 2 2

44 2 3.5 4.38 3.17 4.4 3.33 3.33 0.96835 2 2

上表中,Y代表根据学习成绩进行的分组情况,1组为低分组,2组为高分组;X1代表学生的记忆策略得分;X2代表学生的认知策略得分;X3代表学生的补偿策略;X4代表学生的情感策略;X5代表学生的社交策略;X6代表学生的原认知策略。该样本取自华北电力大学2003级外语系学生。首先采用一般距离判别分析,可得到其

最终判别效果见下表:

相关文档
最新文档