统计学第二章列联分析ppt课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
75
33
31 141
合计 100 120
90
110 420
9
2020/6/16
二、列联表的分布----观察值的分布
1. 边缘分布
行边缘分布
行观察值的合计数的分布 例如,赞成改革方案的共有279人,反对改革方案的141人
e11
n
r1 n
c1 n
r1c1 n
279 100 420
66.43
66
15
2020/6/16
期望频数的分布(例题分析)
一分公司 二分公司 三分公司 四分公司
实际频数 赞成该
68
方案 期望频数
66
75
57
79
80
60
73
反对该 实际频数
32
方案 期望频数
34
75
33
31
40
30
37
16
2020/6/16
例如,第1行和第1列的实际频数为 f11 ,它落在第1行的 概率估计值为该行的频数之和r1除以总频数的个数 n , 即:r1/n;它落在第1列的概率的估计值为该列的频数 之和c1除以总频数的个数 n ,即:c1/n 。根据概率的 乘法公式,该频数落在第1行和第1列的概率应为
r1 n
c1 n
由于观察频数的总数为n ,所以f11 的期望频数 e11 应 为
13
2020/6/16
期望频数的分布
1. 假定行变量和列变量是独立的 2. 一个实际频数 fij 的期望频数 eij ,是总频
数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率,即
eij
n
ri n
cj n
ric j n
14
2020/6/16
期望频数的分布(例题分析)
合,所以称为列联表 6. 一个 r 行 c 列的列联表称为 r c 列联表
6
2020/6/16
列联表的结构(2 2 列联表)
列(cj)

(ri)
i =1
列( cj )
j =1
j =1
f11
f12
i =2
f21
f22
合计
f11+ f21 f12+ f22
7
合计
f11+ f12 f21+ f22
n
对分类数据的描述和分析通常使用列联表 可使用检验 数值型数据也可以转化为分类数据
5
2020/6/16
二、列联表的构造-----列联表 (contingency table)
1. 由两个以上的变量交叉分类的频数分布表 2. 行变量的类别用 r 表示, ri 表示第 i 个类别 3. 列变量的类别用 c 表示, cj 表示第 j 个类别 4. 每种组合的观察频数用 fij 表示 5. 表中列出了行变量和列变量的所有可能的组
2020/6/16
列联表的结构 (r c 列联表的一般表示)
列(cj)
列(cj)
行(ri)
j =1 j = 2

i =1
f11
f12

i=2
f21
f22

:
:
:
:
合计
c1
c2

fij 表示第 i 行第 j 列的观察频数
8
合计
r1 r2
:
n
2020/6/16
例题分析
【例】一个集团公司在四个不同的地区设有分公司,现该 集团公司欲进行一项改革,此项改革可能涉及到各分公司 的利益,故采用抽样调查方式,从四个分公司共抽取420个 样本单位(人),了解职工对此项改革的看法,调查结果如 下表
68.0% 62.5% 63.35 71.8% —
16.2% 17.8% 13.6% 18.8% —
反对该方案 22.7% 31.9% 23.4% 22.0% 33.6%
32.0% 37.5% 36.7% 28.2% —
7.6% 10.7% 7.9% 7.4% —
合计 23.8% 28.6% 21.4% 26.2% 100%
列百分比:列的每一个观察频数除以相应的列 合计数( fij / cj )
总百分比:每一个观察值除以观察值的总个数 ( fij / n )
12
2020/6/16
百分比分布(图示)
行百分比
列百分比
总百分比
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 24.4% 26.9% 20.4% 28.3% 66.4%
统计学第二章列联分析
背景
统计分析中,我们常常会遇到一些定性的数据
性别 (男、女)
性别对态度 Hale Waihona Puke Baidu否有影响
态度 (喜欢、不喜欢)
1.可使用列联表分析技术 2.可运用对数线性模型与
Logistic模型分析技术
2
2020/6/16
主要内容
分类数据与列联表
2 检验
列联表中的相关测量 列联分析中应注意的问题
列边缘分布
列观察值的合计数的分布 例如,四个分公司接受调查的人数分别为100人,120人,
90人,110人
2. 条件分布与条件频数
变量 X 条件下变量Y 的分布,或在变量Y 条件下变 量 X 的分布
每个具体的观察值称为条件频数
10
2020/6/16
观察值的分布(图示)
条件频数
行边缘分布
一分公司 二分公司 三分公司 四分公司 合计
3
2020/6/16
第一节 分类数据与列联表
一、分类数据
二、列联表的构造 三、列联表的分布
4
2020/6/16
一、分类数据
分类变量的结果表现为类别 例如:性别 (男, 女)
各类别用符号或数字代码来测度 使用分类或顺序尺度
你吸烟吗? 1.是;2.否
你赞成还是反对这一改革方案? 1.赞成;2.反对
赞成该方案 68
75
57
79 279
反对该方案 32
45
33
31 141
合计
100 120
90
110 420
列边缘分布
11
2020/6/16
百分比分布(概念要点)
1. 条件频数反映了数据的分布,但不适合对比
2. 为在相同的基数上进行比较,可以计算相应 的百分比,称为百分比分布
行百分比:行的每一个观察频数除以相应的行 合计数(fij / ri)
第二节 检验
一、 统计量 二、拟合优度检验
17
2020/6/16
一、 统计量
1. 用于检验列联表中变量间拟合优度和独立性
2. 用于测定两个分类变量之间的相关程度
3. 计算公式为
r
2=
c ( fij eij )2
i1 j1
eij
其自由度为 (r 1)(c 1)
式中 fij --列联表中第i行第j列类别的实际频数 eij --列联表中第i行第j列类别的期望频数
18
2020/6/16
统计量(例题分析)
实际频数
(fij)
68 75 57 79 32 45 33 31
期望频数
(eij)
66 80 60 73 34 40 30 37
相关文档
最新文档