人大版-贾俊平-第五版-统计学-第9章-分类数据分析PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-
4
1912年4月15日,豪华巨轮泰坦尼克号与 冰山相撞沉没。当时船上共有2208人,其中 男性1738人,女性470人。海难发生后,幸存 者共718人,其中男性374人,女性344人,以 α=0.1的显著性水平检验存活状况与性别是
否有关。
-
5
如果存活状况与性别无关,男性与女 性的幸存比例应该相等。
2 =
f0
fe fe
2
,描述
f0
与
fe
的接近程度。越
接近, 2 值越小;差异越大, 2 值越大。给
定显著性水平时,将 2 值与临界值比较,做
出是否拒绝原假设的决策。
-
3
9.2 拟合优度检验
依据总体分布状况,计算出分类变量中 各类别的期望频数,与分布的观察频数进行 对比,判断期望频数与观察频数是否有显著 差异。
第9章 分类数据分析
-
1
9.1 分类数据与卡方统计量
9.1.1 分类数据 调查结果虽然用数值表示,但不同数值描 述的是调查对象的不同特征。分类数据汇 总的结果表现为频数。 卡方检验是对分类数据的频数进行分析的 统计方法。
-
2
9.1.2 卡方统计量
用于检验列联表中变量之间是否存在显
著性差异,或者用于检验变量之间是否独立。
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
75
33
31 141
合计 100 120
90
110 420
-
14
1. 边缘分布
– 行边缘分布
• 行观察值的合计数的分布 • 例如,赞成改革方案的共有279人,反对改革方案的141人
– 列边缘分布
• 列观察值的合计数的分布 • 例如,四个分公司接受调查的人数分别为100人,120人,90
人,110人
2. 条件分布与条件频数
– 变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变 量 X 的分布
– 每个具体的观察值称为条件频数
-
15
条件频数
行边缘分布
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
75
33
31 141
合计 100 120
反对该方案 22.7% 31.9% 23.4% 22.0% 33.6%
32.0% 37.5% 36.7% 28.2% —
合计
7.6% 10.7% 7.9% 7.4% — 23.8% 28.6% 21.4% 26.2% 100%
-
18
1. 假定行变量和列变量是独立的 2. 一个实际频数 fij 的期望频数 eij ,是总频
所以称为列联表 6. 一个 r 行 c 列的列联表称为 r c 列联表
-
11
列联表的结构
(2 2 列联表)
一个2 2 列联表
列(cj) 行 (ri)
i =1
i =2 合计
列( cj )
j =1
j =1
f11 f21 f11+ f21
f12 f22 f12+ f22
-
合计
f11+ f12 f21+ f22
90
110 420
列边缘分布
-
16
1. 条件频数反映了数据的分布,但不适合进行 对比
2. 为在相同的基数上进行比较,可以计算相应 的百分比,称为百分比分布
– 行百分比:行的每一个观察频数除以相应的行 合计数(fij / ri)
– 列百分比:列的每一个观察频数除以相应的列 合计数( fij / cj )
– 总百分比:每一个观察值除以观察值的总个数 ( fij / n )
-
17
行百分比
列百分比
总百分比
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 24.4% 26.9% 20.4% 28.3% 66.4%
68.0% 62.5% 63.35 71.8% —
16.2% 17.8% 13.6% 18.8% —
数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率,即
eij
nri ci ricj n n n
-
19
例如,第1行和第1列的实际频数为 f11 ,它落在第1行 的概率估计值为该行的频数之和r1除以总频数的个数 n , 即:r1/n;它落在第1列的概率的估计值为该列的频数 之和c1除以总频数的个数 n ,即:c1/n 。根据概率的乘 法公式,该频数落在第1行和第1列的概率应为
n
12
列联表的结构
(r c 列联表的一般表示)
列Hale Waihona Puke Baiducj) 行(ri)
i =1
i=2
:
r 行 c 列的列联表
列(cj)
j =1 j = 2
…
f11
f12
…
f21
f22
…
:
:
:
合计
r1 r2
:
合计
c1
c2
…
n
fij 表示第 i 行第 j 列的观察频数
-
13
【例】一个集团公司在四个不同的地区设有分公司,现该集 团公司欲进行一项改革,此项改革可能涉及到各分公司的利 益,故采用抽样调查方式,从四个分公司共抽取420个样本 单位(人),了解职工对此项改革的看法,调查结果如下表
fe
-
9
自由度为:分类变量类型的个数-1=1
5.024
2 0.0795
α=0.05 拒绝域
2
决策:接受H0 结论:调查结果支持该项统计结论
-
10
9.3 列联分析:独立性分析
9.3.1 列联表
1.由两个以上的变量进行交叉分类的频数分布表 2. 行变量的类别用 r 表示, ri 表示第 i 个类别 3. 列变量的类别用 c 表示, cj 表示第 j 个类别 4. 每种组合的观察频数用 fij 表示 5.表中列出了行变量和列变量的所有可能的组合,
海难后幸存比例为718/2208=0.325 男性应该为1738*0.325=565人 女性应该为470*0.325=153人。
H0:观察频数与期望频数一致
观测值 f 0 期望值
H1:观察频数与期望频数不一致
fe
f0 fe
f0 fe
2
f 0 f e 2
fe
男
374
565
-191
36481
64.6
女
344
153
191
36481
238.4
2= f0 fe2 303
f-e
6
自由度为:分类变量类型的个数-1=1
α=0.1 拒绝域
2.705
2
2 303
决策:拒绝H0 结论:有证据表明存活状况与性别显著相关
-
7
一项统计结果声称,某市老年人口所占 比例为14.7%,该市老年人口研究会为了检验 该项统计是否可靠,随机抽选了400名居民, 发现其中有57人老年人。调查结果是否支持 14.7%的看法?
-
8
如果该项统计可靠,400居民中老年人的频数应该为400*14.7%=59
H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致
观测值 f 0
老年人
57
非老年人
343
期望值 f e
59 341
f0 fe
-2 2
f0 fe 2
4 4
f 0 f e 2
fe
0.0678
0.0117
2= f0fe2 0.0795