6卡方检验

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二、卡方匹配度(拟合优度)检验
• 用样本数据检验总体分布的形状或比率,以确 定与假设的总体性质的匹配度 ,是对次数分 布的检验 • 研究情境
– 在医生职业中,男的多还是女的多? – 在三种咖啡中,中国人喜欢哪种? – 在广中医中,各国留学生的比例有代表性吗?
• 前提:
– 观察彼此之间独立 – 每个单元格的期望次数不小于5
0.5 0.4 0.3
1 f ( ) 2( / 2) 2
2
2

( / 21)
e
2 / 2
ß ×¸ Ý
× Ô Ó É ¶ È £ ½ 1
0.2 0.1 0.0 0 3
3.84
× Ô Ó É ¶ È £ ½ 2 × Ô Ó É ¶ È £ ½ 3 × Ô Ó É ¶ È £ ½ 6
例题
• 在某校学生当中调查对一个新的教学方法的态度, 赞成、反对和无所谓的比例是2:1:1。随机抽取 了其中一个班级共60人,赞成的学生有37人,反对 的学生有14人,觉得无所谓的人有9人。那么这个 班级三种态度的比例是否符合全校的比例? • Ho:班级学生的三种态度比例为2:1:1,即可得 到相应的期望次数依次为30,15,15. • H1:
2
(a f e11 )2 f e11 (b f e12 ) 2 f e12 (c f e21 ) 2 f e21 (d f e22 ) 2 f e22
n(ad bc)2 (a b)(c d )(a c)(b d )
Ф 相关系数
(原理分析)
3. 将入Ф 相关系数的计算公式得
三、卡方独立性检验
• 解决两个类目型或顺序型变量是否相关的 问题 • 检验行和列的两个变量彼此有无关联 • 类似于独立样本比较问题 • 前提和限制:观察彼此独立,单位格期望 值不小于5
一个简化的 22 列联表
因素 Y 因素 X 合计 x1 x2
y1
y2 合计
a
c a+c
b
d b+d
a+b
c+d n
城市 农村 列的和
• Ho:抑郁倾向和定居地之间是独立的(无 关的)。 • H1:抑郁倾向和定居地之间有关系。
• 计算期望次数 fe=(fc*fr)/n • 计算每个单位格的卡方值
卡方检验的效应水平

• •
分类变量的相关系数Ф
测度 22列联表中数据相关程度的一个量 对于22 列联表,Ф 系数的值在0~1之间
第十六章 卡方检验
• 参数与非参数检验 • 卡方匹配度检验 • 卡方独立性检验
一、参数与非参数检验
• 参数检验 :
– 用于等比/等距型数据 – 对参数的前提:正态分布和方差同质
• 非参数检验
– 不用对参数进行假设 – 对分布较少有要求,也叫distribution-free tests – 用于类目/顺序型数据 – 没有参数检验敏感,效力低
课后练习
• 习题册 • 第十章 卡方(X² )分布与卡方检验
• (4)检验控制某种或某几种分类因素的作用以后, 另两个分类变量是否相互独立。如在上例中,控 制性别、年龄因素影响以后,吸烟是否和呼吸道 疾病有关;控制产品加工工艺的影响后,产品原 料类别是否与产品合格有关。 • (5)检验某两种方法的结果是否一致。如采用两种 诊断方法对同一批人进行诊断,其诊断结果是否 一致;采用两种方法对客户进行价值类别预测, 预测结果是否一致。
ij
n为实际频数的总个数,即样本容量
Ф 相关系数
(原理分析)

因素 Y y1 y2 合计
一个简化的 22 列联表
因素 X x1 பைடு நூலகம்2 合计
a c a+c
b d b+d
a+b c+d n
Ф 相关系数
(原理分析) (不考)
1. 列联表中每个单元格的期望频数分别为 (a b)(a c) (a c)(c d ) f e11 f e21 n n (a b)(b d ) (b d )(c d ) f e12 f e22 n n 2. 将各期望频数代入 的计算公式得
同步练习
• P275 第6 • P283 第4、5题
卡方检验的应用
• (1)检验某个连续变量的分布是否与某种理论分布 相一致。如是否符合正态分布、是否服从均匀分 布、是否服从Poisson分布等。 • (2)检验某个分类变量各类的出现概率是否等于指 定概率。如在36选7的彩票抽奖中,每个数字出 现的概率是否各为1/36;掷硬币时,正反两面 出现的概率是否均为0.5。 • (3)检验某两个分类变量是否相互独立。如吸烟(二 分类变量:是、否)是否与呼吸道疾病(二分类变 量:是、否)有关;产品原料种类(多分类变量)是 否与产品合格(二分类变量)有关。
2 ad bc n (a b)(c d )(a c)(b d )
ad 等于 bc , Ф = 0,表明变量X 与 Y 之间独立 若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频 数全部落在对角线上,此时|Ф| =1,表明变量X 与 Y 之间完全相关
4. 列联表中变量的位置可以互换, Ф 的符号没有 实际意义,故取绝对值即可
Ф 相关系数的计算公式


2
n df min
2 (fij f ) r c e ij 2 式中: i 1 j 1 f
eij
n为实际频数的总个数,即样本容量


2
n df min
2 )
(fij f r c e ij 2 式中: i 1 j 1 fe


f1 F 1 F 1
2
k 1 (计算理论分布时利用
样本资料估计的参数个数)
( f k Fk ) 2 ( f 2 F2 ) 2 ... F2 Fk
自由度
(3) 确定概率 P 并作出统计推论。
注意:理论频数F不宜过小,如不小于5,否则需要合并
同步练习
• 例16-3
表1 三种态度的人数 赞成 观察次数 期望次数 37 30 反对 14 15 无所谓 9 15
计算公式
• fe:期望次数 • fo:观察次数 • df=C-1,C是类目的个数
• 单元格卡方值大于2.5,则该因素的贡献较大; • 最终所有单元格的总和卡方值越大,说明观察次 数与期望次数的差异越大。
χ2分布(chi-square distribution)
例16-4
• 有人认为城市的生活环境更容易让人抑郁,于是 他随机调查了定居城市的120人和定居农村的80 人,对他们施测抑郁自评量表。结果发现,城市 调查者中有38人有轻度以上抑郁,而农村只有12 人有抑郁。这个数据是否支持他的论点呢?
抑郁人数 38 12 50 非抑郁人数 82 68 150 行的和 120 80 200
P=0.05的临界值
7.81 12.59
6
• 正偏态 • 形状取决于df,随着df增大,偏态越不严重。
9 12 ¿ ¨· ½ Ö µ
15
18
同步练习
• 例16-2
正态分布匹配度检验
类别或组段 观察频数 理论频数
F1 F2
1 2

f1 f2


Fk
k
fk
问题:试判断这份样本,是否来自该理论分布?
(1) H 0 :样本的总体与该理论分布无区别 H 1 :样本与该理论分布有区别 0.05或 0.1 (2) Pearson 2 统计量 2 k (实际频数-理论频数) 2 P 理论频数 i 1
匹配度检验和独立性检验的区别
• (一)独立性检验的次数资料是按两因子属性类别进行归 组。根据两因子属性类别数的不同而构成2×2、2×c、 r×c列联表(r为行因子的属性类别数,c为列因子的属性类 别数)。而配合度检验只按某一因子的属性类别将如性别、 表现型等次数资料归组 • (二)配合度检验按已知的属性分类理论或学说计算理论 次数。独立性检验在计算理论次数时没有现成的理论或学 说可资利用,理论次数是在两因子相互独立的假设下进行 计算。
• 因此在二者都可用时,总是用参数检验
数据的类型与卡方检验
数据
定量数据
(数值型数据)
定性数据 (命名数据或顺序 品质数据或称次 数计数数据 数据) )
离散数据
连续数据
卡方检验
• 检验又叫列联表分析或交叉表分析、 表中的单元格内可以是计数的次数也可 以是百分比,所以又可以称为百分比检 验。 • 检验分析计数数据的时候,对计数数 据的分布形态不作任何假设,因此视为 非参数检验的一种。
相关文档
最新文档