(优选)统计学原理硕士列联表和卡方拟合优度非参数检验方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

j =1 j = 2

f11
f12

f21
f22

:
:
:
c1
c2

合计
r1 r2
:
n
fij 表示第 i 行第 j 列的观察频数
列联表的一个实际例子
【例】一个集团公司在四个不同的地区设有分公司,现该集 团公司欲进行一项改革,此项改革可能涉及到各分公司的利 益,故采用抽样调查方式,从四个分公司共抽取420个样本 单位(人),了解职工对此项改革的看法,调查结果如下表
列联表的结构
(2 列联表)
列(cj) 行i =(r1i)
i =2 合计
列( cj )
j =1
j =1
f11 f21 f11+ f21
f12 f22 f12+ f22
合计
f11+ f12 f21+ f22
n
列联表的结构
(r c 列联表的一般表示)
列(cj) 行(ri)
i =1
i=2
: 合计
列(cj)
9.2.1 统计量
1. 用于检验列联表中变量之间是否存在显著性差异 2. 用于检验变量之间是否独立 3. 用于样本齐一性等检验。 4. 计算公式为
r
2
c ( fij eij )2
i1 j1
eij
其自由度为(r 1)(c 1) 式中:fij — 列联表中第i行第j列类别的实际频数
eij — 列联表中第i行第j列类别的期望频数
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
45
33
31 141
合计
100 120
90
110 420
9.3.1列联表中的分布
边缘分布
行边缘分布 列边缘分布
条件分布与条件频数
变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量的分布 每个具体的观察值称为条件频数
观察值的分布
1. 边缘分布
行边缘分布
行观察值的合计数的分布 例如,赞成改革方案的共有279人,反对改革方案的141人
列边缘分布
列观察值的合计数的分布 例如,四个分公司接受调查的人数分别为100人,120人,
90人,110人
2. 条件分布与条件频数
变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变 量 X 的分布
68
方案 期望频数
66
反对该 实际频数
32
方案 期望频数
34
75
57
79
80
60
73
45
33
31
40
30wk.baidu.com
37
9.2 拟合优度检验
9.2.1 统计量 9.2.2 拟合优度检验
皮尔逊拟合优度检验属于非参数检验,是 一种非常重要且简便的非参数检验。它既可用于 分布拟合检验,也可用于独立性、样本齐一性等 检验。
列联表的概念
1. 由两个以上的变量进行交叉分类的频数分布表 2. 行变量的类别用 r 表示, ri 表示第 i 个类别 3. 列变量的类别用 c 表示, cj 表示第 j 个类别 4. 每种组合的观察频数用 fij 表示 5. 表中列出了行变量和列变量的所有可能的组合,
所以称为列联表 6. 一个 r 行 c 列的列联表称为 r c 列联表
经济、管理类 基础课程
统计(学优选)统计学原理硕士列联 表和卡方拟合优度非参数检验 方法
9.1 分类数据与列联表
9.1.1分类数据 9.1.2列联表的构造 9.1.3列联表的分布
9.1.1定性数据
数据的类型与列联分析
数据
定量数据
(数值型数据)
离散数据 连续数据
定性数据
(品质数据)
列联分析......
68.0% 62.5% 63.35 71.8% — 16.2% 17.8% 13.6% 18.8% 66.4% 反对该方案 22.7% 31.9% 23.4% 22.0% — 32.0% 37.5% 36.7% 28.2% — 7.6% 10.7% 7.9% 7.4% 33.6% 合计 23.8% 28.5% 21.5% 26.2% 100%
review:品质数据
1. 品质随机变量的结果表现为类别
例如:性别 (男, 女)
2. 各类别用符号或数字代码来测度 3. 使用定类或定序尺度
你吸烟吗?
1.是;2.否
你对某种产品售后服务的满意度?
1.满意;2.说不好;3.不满意
4. 对品质数据的描述和分析通常使用列联表 5. 可使用检验
9.1.2列联表的构造
概念要点:期望频数
1. 假定行变量和列变量是独立的 2. 一个实际频数 fij 的期望频数 eij ,是总频
数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率,即
eij
n ri n
ci n
ric j n
期望频数的分布
——一个例子
例如,第1行和第1列的实际频数为 f11 ,它落在第1行 的概率估计值为该行的频数之和r1除以总频数的个数 n ,即:r1/n;它落在第1列的概率的估计值为该列的频 数之和c1除以总频数的个数 n ,即:c1/n 。根据概率的 乘法公式,该频数落在第1行和第1列的概率应为
r1 c1 n n
由于观察频数的总数为n ,所以f11 的期望频数 e11 应为
e11
n r1 n
c1 n
r1c1 n
279100 420
66.43
66
期望频数的分布
——一个例子(续)
根据上述公式计算的前例的期望频数
一分公司 二分公司 三分公司 四分公司
赞成该 实际频数
比,称为百分比分布。
行百分比:行的每一个观察频数除以相应的行合 计数(fij / ri) 列百分比:列的每一个观察频数除以相应的列合 计数( fij / cj ) 总百分比:每一个观察值除以观察值的总个数 ( fij / n )
行百分比
百分比分布(例示)
列百分比
总百分比
一分公司 二分公司 三分公司 四分公司 合计 赞成该方案 24.4% 26.9% 20.4% 28.3% —
r
2
c ( fij eij )2
e i1 j1
ij
一个例子——表9-5
实际频数 期望频数
(fij)
(eij)
68
66
75
80
每个具体的观察值称为条件频数
图示:观察值的分布
条件频数
行边缘分布
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
45
33
31 141
合计
100 120
90
110 420
列边缘分布
百分比分布
(概念要点)
1. 条件频数反映了数据的分布,但不适合进行对比 2. 为在相同的基数上进行比较,可以计算相应的百分
相关文档
最新文档