信息分析方法__分类分析方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第五章 分类分析方法
第一节 列联表分析法
一、 一维多项分类分析 这种将同一事物仅按某种特性(标志)分为若干(多个)类型,反映类型间是否有显著 差异的分析方法称为一维分类多项分析。 1、基本原理 将总体按照某种特性分为 A1,A2,……Ak k 个类型,总体中属于 k 个类型的比例为 p1, p2,……,pk。现从总体中随机抽查 n 个样本单位,其中属于 Ai 类有 ni 个,i=1,2,…k。 原假设 H0:p1 = p2 = … =pk 统计量

E(ni)为属于 Ai 类的期望频数,pi 为属于 Ai 类的样本频率。


,则拒绝 H0,即 k 个类型之间有显著差异;


,则接受 H0,即 k 个类型之间无显著差异。
2、例题 例 1 某信息咨询公司受委托调查了解顾客对甲、乙、丙三种品牌矿泉水的喜好程度, 随机观察了 150 名购买者的购买情况,并作如下统计。 品牌 人数 甲 61 乙 53 丙 36
问顾客对这三种品牌矿泉水的喜好是否存有差异? 解 本题是一维三项概率分布。

令 p1、p2、p3 分别表示顾客喜好甲、乙、丙品牌的比例,若顾客对这三种品牌矿泉水的 喜好没有差异,则意味着顾客中喜好每种品牌的概率均为 1/3,因此,可作假设 H0:p1 = p2 = p3=1/3 n1=61,n2=53,n3=36, n=150
同理
此例中,k=3,当α=0.05 时
由于 确实是有差异的。
,拒绝 H0,即认为顾客对三种品牌的矿泉水喜好
二、列联表分析(Contingency Table Anlysis) 按两个及以上特性(标志)对同一事物进行分类,每一特性将事物分为若干个组,利用 这样的数据分析特性之间有无关系,称为多维多项分析,由于它常借助于列联表进行,所以 又称为列联表分析。列联表主要用于判断定性变量之间是否存在相关关系。 下面仅介绍二维多项分析。 1、基本原理 设特性 A 可分为 r 类,i=1,2,……, 特性 B 可分为 c 类,nij 为同时具有特性 A、B 的 个体,i=1,…,r;j=1,2, …,c。

将分组结果如下表
表 5-1
r×c 列联表 特 性A Aj n1j n2j …… nrj n.j …… …… …… …… …… …… Ac n1c n2c …… nrc n.c n1. n2. …… nr. n 合计
A1 特 性 B B1 B2 … Br 合计 n11 n21 …… nr1 n.1
A2 n12 n22 …… nr2 n.2
…… …… …… …… …… ……
若用 Pij 表示同时属于 Bi 和 Aj 类的概率 (即联合概率) 以 ,
表示以特性 A 分类的一
维多项概率分布(边际概率分布), 布),则多项概率分布表为:
表示以 B 分类的一维多项概率分布(边际概率分
表 5- 2
多项概率分布 特 性A Aj P1j P2j …… Prj P.j …… …… …… …… …… …… Ac P1c P2c …… Prc P.c P1. P2. …… Pr. 1 合计
A1 特 性 B B1 B2 … Br 合计 P11 P21 …… Pr1 P.1
A2 P12 P22 …… Pr2 P.2
…… …… …… …… …… ……
若特性 A 与特性 B 不具有相关性,则认为两个分类是独立的,因此可作原假设:
H0:
(即两个分类是独立的)

可以证明,在 n 很大并且
E(nij )
>5 时候,根据 Pearson 定理则统计量
 2  
i 1 j 1
式中,期望频数 由于
r
c
n
ij
 E (nij ) E (nij )

2

 2 [(r  1)(c  1)]

,且 H0 成立时
、 未知,常用估计值
E nij   npij
pi.
频数为
E(nij )  npij  npi. p. j
p. j

代替,则理论期望
ˆ p. j  n. j n
ˆ E nij   ni.n. j
2  2   [(r  1)(c  1)]
ˆ pi.  ni. n
n
给定显著性水平,当
 时,拒绝 0 ,属性Α、Β不独立,存在相关关系;
接受
 2  2 [(a  1)(b  1)]
时,
 0 ,属性Α、Β相独立,不存在相关。
2、示例 [例 2] 某市商业系统为提高商业的服务质量,对本市的四大商场进行调查,征求顾客 意见,共收回有效问卷 443 张,每张问卷对某一商场按三种服务质量(优、中、差)评价, 其结果用 3× 4 列联表表示出来,见表 5—3。试分析对四个商场的服务质量评价是否一样。
表 5-3 商 A 优 中 差 81 38 25 B 46 33 7 场 C 49 39 20 D 67 26 12 合计 243 136 64

合 计
144
86
108
105
443
解:H0:四个商场服务质量评价一样; 首先,在  0 成立的条件下计算期望频数估计表,结果如下表所示.
商 家
评级
A 79 44.2 20.8 144
B 47.2 26.4 12.4 86
C 59.2 23.2 15.6 108
D 57.6 33.2 15.2 105
合计 243 136 64 443
优 中 差 合计
n .n. 243  86 ˆ =47.2 (n12 ) = 1 2 = 443 n
ˆ 上表中, n =443, (nij ) >5.统计量
 = 
2
i 1 j 1
3
4
n
ij
2 ˆ  E (nij ) (81  79) 2 (46  47.2) 2 (12  15.2) 2 = + +……+ =13.2 ˆ 79 15.2 47.2 E (n ) ij

2 2 给定  =0.05,查表得  0.05 [(4  1)(3  1)] =  0.05 (6) =12.59
2 由于  >  0.05 (6) ,因此在 0.05 显著性水平上计算所得结果否定  0 ,即认为四个商
2
场的服务质量的评价结果存在显著不同。 3、SPSS 软件的实现 操作过程如下:  选择 Data→Weight Cases,进入 Weight Cases 对话框。把“频数[f]” 放入 Frequency 栏中,单击 OK 按钮。  从 Analyze→Descriptive→Crosstabs,进入 Crosstabs 对话框。把“商 场”放入 Row(s)栏:把“经营情况”放入 Column(s)栏。  单击 Statistics 按钮,进入 Statistics 对话框。选择 Chi-square,单 击 continue 按钮,返回 Crosstabs 主对话框。  单击 Cell 按钮,进入 Cell Display(格子显示)对话框。选择 Observe、 Expected、Row、Column,单击 Continue 按钮,返回 Crosstabs 主对话框。  在主对话框中,单击 OK 按钮,提交运行 Crosstabs 过程。

相关文档
最新文档