统计学第二章列联分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2 ( f e)2
e 3.0319
合计:3.0319
2021/6/27
二、拟合优度检验(品质数据的假设检验)
品质数据
比例检验
一个总体 两个以上总体
Z 检验 Z 检验 检验
两个总体
20
独立性检验 检验
2021/6/27
拟合优度检验(goodness of fit test)
1. 检验多个比例是否相等
第二章 列联分析
第一节 分类数据与列联表 第二节 检验 第三节 列联表的相关测量 第四节 列联分析中应注意的问题
1
2021/6/27
背景
统计分析中,我们常常会遇到一些定性的数据
性别 (男、女)
性别对态度 是否有影响
态度 (喜欢、不喜欢)
1.可使用列联表分析技术 2.可运用对数线性模型与
Logistic模型分析技术
关系:
ab ac bd
化简后有: adbc
差值 adbc 的大小可以反映变量之间相关程度的高低。差
值越大,说明两个变量的相关程度越高。 系数就是以差值
为基础,实现对两个变量相关程度的测量。
30
2021/6/27
相关系数(原理分析)
➢ 列联表中每个单元格的期望频数分别为
e11(ab)n(ac)
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
75
33
31 141
合计 100 120
90
110 420
9
2021/6/27
二、列联表的分布----观察值的分布
1. 边缘分布
行边缘分布
行观察值的合计数的分布 例如,赞成改革方案的共有279人,反对改革方案的141人
实际频数 赞成该
68
方案 期望频数
66
75
57
79
80
60
73
反对该 实际频数
32
方案 期望频数
34
75
33
31
40
30
37
16
2021/6/27
第二节 检验
一、 统计量 二、拟合优度检验
17
2021/6/27
一、 统计量
1. 用于检验列联表中变量间拟合优度和独立性
2. 用于测定两个分类变量之间的相关程度
列边缘分布
列观察值的合计数的分布 例如,四个分公司接受调查的人数分别为100人,120人,
90人,110人
2. 条件分布与条件频数
变量 X 条件下变量Y 的分布,或在变量Y 条件下变 量 X 的分布
每个具体的观察值称为条件频数
10
2021/6/27
观察值的分布(图示)
条件频数
行边缘分布
一分公司 二分公司 三分公司 四分公司 合计
可以认为四个分公司对改革方案的赞成比 例是一致的
拟合优度检验(例题分析)
【例】为了提高市场占有率,A公 司和B公司同时开展了广告宣传。 在广告宣传战之前,A公司的市场 占有率为45%,B公司的市场占有 率为40%,其他公司的市场占有率 为15%。为了了解广告战之后A、 B和其他公司的市场占有率是否发 生变化,随机抽取了200名消费者, 其 中 102 人 表 示 准 备 购 买 A 公 司 产 品,82人表示准备购买B公司产品, 另外16人表示准备购买其他公司产 品。检验广告战前后各公司的市场 占有率是否发生了变化 ( 0.05)
r1 n
Hale Waihona Puke c1 n由于观察频数的总数为n ,所以f11 的期望频数 e11 应 为
e 1 1 n r n 1 c n 1 r 1 n c 1 2 7 9 4 2 0 1 0 0 6 6 .4 3 6 6
15
2021/6/27
期望频数的分布(例题分析)
一分公司 二分公司 三分公司 四分公司
赞成该方案 68
75
57
79 279
反对该方案 32
45
33
31 141
合计
100 120
90
110 420
列边缘分布
11
2021/6/27
百分比分布(概念要点)
1. 条件频数反映了数据的分布,但不适合对比
2. 为在相同的基数上进行比较,可以计算相应 的百分比,称为百分比分布
行百分比:行的每一个观察频数除以相应的行 合计数(fij / ri)
3. 列联表相关测量的统计量主要有
相关系数
列联相关系数 V 相关系数
27
2021/6/27
一、 相关系数(correlation coefficient)
1. 测度22列联表中数据相关程度
2. 对于22 列联表, 系数的值在0~1之间 3. 相关系数计算公式为
2
n
式 中 : 2 r c( fijeij) 2
68.0% 62.5% 63.35 71.8% —
16.2% 17.8% 13.6% 18.8% —
反对该方案 22.7% 31.9% 23.4% 22.0% 33.6%
32.0% 37.5% 36.7% 28.2% —
7.6% 10.7% 7.9% 7.4% —
合计 23.8% 28.6% 21.4% 26.2% 100%
2
2021/6/27
主要内容
2
3
2021/6/27
第一节 分类数据与列联表
一、分类数据
二、列联表的构造 三、列联表的分布
4
2021/6/27
一、分类数据
分类变量的结果表现为类别 例如:性别 (男, 女)
各类别用符号或数字代码来测度 使用分类或顺序尺度
你吸烟吗? 1.是;2.否
你赞成还是反对这一改革方案? 1.赞成;2.反对
拟合优度检验(例题分析)
0
H0: 1= 2= 3= 4 H1: 1,2,3,4 不全相等
= 0.1
df = (2-1)(4-1)= 3 临界值(s):
=0.1
3.0319
2
6.251
统计量:
r 2
c (fijeij)23.0319
e i1j1
ij
决策:
在 = 0.1的水平上不能拒绝H0
结论:
合,所以称为列联表 6. 一个 r 行 c 列的列联表称为 r c 列联表
6
2021/6/27
列联表的结构(2 2 列联表)
列(cj)

(ri)
i =1
列( cj )
j =1
j =1
f11
f12
i =2
f21
f22
合计
f11+ f21 f12+ f22
7
合计
f11+ f12 f21+ f22
n
13
2021/6/27
期望频数的分布
1. 假定行变量和列变量是独立的 2. 一个实际频数 fij 的期望频数 eij ,是总频
数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率,即
eij nrni cnj rincj
14
2021/6/27
期望频数的分布(例题分析)
例如,第1行和第1列的实际频数为 f11 ,它落在第1行的 概率估计值为该行的频数之和r1除以总频数的个数 n , 即:r1/n;它落在第1列的概率的估计值为该列的频数 之和c1除以总频数的个数 n ,即:c1/n 。根据概率的 乘法公式,该频数落在第1行和第1列的概率应为
列百分比:列的每一个观察频数除以相应的列 合计数( fij / cj )
总百分比:每一个观察值除以观察值的总个数 ( fij / n )
12
2021/6/27
百分比分布(图示)
行百分比
列百分比
总百分比
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 24.4% 26.9% 20.4% 28.3% 66.4%
根据不同行和列的列联表计算的列联系数不 便于比较
33
2021/6/27
三、V 相关系数(V correlation coefficient)
1. 计算公式为 2
V n min(r 1),(c 1)
2. V 的取值范围是 0V1 3. V = 0表明列联表中的两个变量独立 4. V=1表明列联表中的两个变量完全相关 5. 不同行和列的列联表计算的列联系数不便于比较 6. 当列联表中有一维为2,min[(r-1),(c-1)]=1,此时
23
2021/6/27
拟合优度检验(例题分析)
H0: 1=0.45 2=0.4 3= 0.15 H1:原假设中至少有一个不成立
= 0.05
df = (2-1)(3-1)= 2
临界值(s):
统计量:
r
2
c (fij eij)28.18
i1 j1
eij
=0.05
决策:
在 = 0.05的水平上拒绝H0
3. 计算公式为
r
2=
c (fij eij)2
i1 j1
eij
其自由度为 (r 1)(c 1)
式中 f i j --列联表中第i行第j列类别的实际频数
e i j --列联表中第i行第j列类别的期望频数
18
2021/6/27
统计量(例题分析)
实际频数
(fij)
68 75 57 79 32 45 33 31
32
2021/6/27
二、列联相关系数(coefficient ofcontingency)
1. 用于测度大于22列联表中数据的相关程度 2. 计算公式为
2
C
2 n
C 的取值范围是 0C<1 C = 0表明列联表中的两个变量独立 C 的数值大小取决于列联表的行数和列数,
并随行数和列数的增大而增大
结论:
可以认为广告后各公司产品市场占有
0
5.99 8.18
2
率发生显著变化
24
拟合优度检验(例题分析—用P值检验)
第1步:将观察值输入一列,将期望值输入一列 第2步:选择“函数”选项 第3步:在函数分类中选“统计”,在函数名中选
“CHITEST”,点击“确定” 第4步:在对话框“Actual_range”输入观察数据区域
2
adbc
n (ab)(cd)(ac)(bd)
ad 等于 bc , = 0,表明变量X 与 Y 之间独立
若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频数
全部落在对角线上,此时|| =1,表明变量X 与 Y 之
间完全相关
➢ 列联表中变量的位置可以互换,的符号没有
实际意义,故取绝对值即可
i 1j 1 eij
式中n为列联表的总频数,即样本量
28
2021/6/27
相关系数(原理分析)
一个简化的 22 列联表
因素 Y
因素 X
x1
x2
合计
y1
a
b
a+b
y2
c
d
c+d
合计
a+c b+d
n
29
2021/6/27
相关系数(原理分析)
a、b、c、d均为条件频数 当变量X,Y相互独立,不存在相关关系时,频数间应有下面的
2021/6/27
列联表的结构 (r c 列联表的一般表示)
列(cj)
列(cj)
行(ri)
j =1 j = 2

i =1
f11
f12

i=2
f21
f22

:
:
:
:
合计
c1
c2

fij 表示第 i 行第 j 列的观察频数
8
合计
r1 r2
:
n
2021/6/27
例题分析
【例】一个集团公司在四个不同的地区设有分公司,现该 集团公司欲进行一项改革,此项改革可能涉及到各分公司 的利益,故采用抽样调查方式,从四个分公司共抽取420个 样本单位(人),了解职工对此项改革的看法,调查结果如 下表
期望频数
(eij)
66 80 60 73 34 40 30 37
fij - eij
2 -5 -3 6 -2 5 3 -6
19
(fij - eij)2
4 25 9 36 4 25 9 36
(fij- eij)2 eij
0.0606 0.3125 0.1500 0.4932 0.1176 0.6250 0.3000 0.9730
对分类数据的描述和分析通常使用列联表 可使用检验 数值型数据也可以转化为分类数据
5
2021/6/27
二、列联表的构造-----列联表 (contingency table)
1. 由两个以上的变量交叉分类的频数分布表 2. 行变量的类别用 r 表示, ri 表示第 i 个类别 3. 列变量的类别用 c 表示, cj 表示第 j 个类别 4. 每种组合的观察频数用 fij 表示 5. 表中列出了行变量和列变量的所有可能的组
可运用对数线性模型与logistic模型分析技术主要内容主要内容主要内容主要内容第一节第一节第一节第一节分类数据与列联表分类数据与列联表分类数据与列联表分类数据与列联表一分类数据一分类数据一分类数据一分类数据行变量的类别用r表示r表示第i个类别列变量的类别用c表示c表示第j个类别每种组合的观察频数用fij表示表中列出了行变量和列变量的所有可能的组合所以称为列联表contingencytablecontingencytablecontingencytablecontingencytable列联表的结构列联表的结构列联表的结构22合计ccjj行行rrii列联表的结构列联表的结构列联表的结构列联表的结构列联表的一般表示列联表的一般表示列联表的一般表示列联表的一般表示ij表示第i一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32753331141合计10012090110420例一个集团公司在四个不同的地区设有分公司现该集团公司欲进行一项改革此项改革可能涉及到各分公司的利益故采用抽样调查方式从四个分公司共抽取420个样本单位人了解职工对此项改革的看法调查结果如下表例如四个分公司接受调查的人数分别为100人120人90人110人条件下变量y的分布或在变量y条件下变每个具体的观察值称为条件频数1011一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420行边缘分布列边缘分布条件频数为在相同的基数上进行比较可以计算相应的百分比称为百分比分布行百分比
2. 检验的步骤
—提出假设
H0:1 = 2 = … = j;H1: 1 , 2 , … , j 不全相等
—计算检验的统计量
r
2
c (fij eij)2
i1 j1
eij
—进行决策
根据显著性水平和自由度(r-1)(c-1)查出临界值2 若2>2,拒绝H0;若2<2,接受H0
21
2021/6/27
e21(ac)n (cd)
(ab)(bd)
e12
n
(bd)(cd)
e22
n
➢ 将各期望频数代入 的计算公式得
2(ae11)2(be12)2(ce21)2(de22)2
e11
e12
e21
e22
n(adbc)2
相关文档
最新文档