3-1独立性检验

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

解析
中国人 外国人 总计
有数字 80
20 100
无数字 40 总计 120
60 100 80 200
由表中数据,得χ2=20012×0×808×0×601-002×0×104002≈ 33.333
∵χ2>3.841,∴有 95%的把握认为“国籍和邮箱名称里是否含 有数字有关”.
课堂小结
总结 解独立性检验问题的基本步骤
3.1 独立性检验
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
是否有关? 解 根据题目所给的数据作出如下的列联表:
色盲 不色盲 合计
男 38 442
480
女 6 514
520
合计 44 956
1 000
根据列联表中所给的数据可得
n11=38,n12=442,n21=6,n22=514, n11+n12=480,n21+n22=520, n11+n21=44,n12+n22=956,n=1 000,
“A 与 B 有关系”的可信程度越大,即 χ2 越小,“A 与 B
有关系”的可信程度越小.
答案:B
2.若由一个 2×2 列联表中的数据计算得χ2=4.013,那么有__________的把 握认为两个变量之间有关系.
【解析】 查阅χ2表知有95%的把握认为两个变量之间有关系.
3.若两个分类变量 x 和 y 的列联表为: y y1 y2
x x1 5 15 x2 40 10
则认为 x 与 y 之间有关系的把握约为________.
【解析】 χ2=5+5+151+54400++110055×+1400-1450+×11052≈18.822. ∵18.822>6.635, ∴x 与 y 之间有关系的把握约为 0.99.
4 有同学在用电子邮件时发现了一个有趣的现象,中国人的 邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字 的比较少.为了研究国籍与邮箱名称是否含有数字有关,于是 我们共收集了 200 个邮箱名称,其中中国人的 120 个,外国人 的 80 个,中国人的邮箱中有 80 个含数字,外国人的邮箱中有 20 个含数字.那么认为“国籍和邮箱名称里是否含有数字有 关”的把握性为________.(用百分数表示)
男性 女性 合计
晕机
24 8 32
不晕机
31 26 57
合计
55 34 89
解:这是一个2×2列联表的独立性检验问题,由公式
2 89(24 26 8 31)2 3.689
55 34 32 57
因为3.689<3.841,我们没有理由说晕机与否跟男女 性别有关。尽管这次航班中男性晕机的比例比女性晕 机的比例高,但我们不能认为在恶劣气候飞行中男性 比女性更任意晕机。
nn11n22-n12n212 它的表达式是 χ2=___n__1+_n_2_+_n_+_1_n_+_2_____.
用它的大小可以决定是否拒绝原来的统计假设H0.如果算 出的χ2值较大,就拒绝H0,也就是拒绝“事件A与B无 关”,从而就认为它们是有关的了.
3.独立性检验的概念 利用随机变量χ2来确定在多大程度上可以认为“两个分类 变量有关系”的方法称为两个分类变量的独立性检验. 经过对χ2统计量分布的研究,已经得到了两个临界值: 3.841与6.635.为了处理问题比较方便,可记住以下几种情 况: (1)如果χ2>6.635,就有99%的把握认为A与B_有__关__; (2)如果χ2>3.841,就有95%的把握认为A与B_有__关__; (3)如果χ2≤3.841,就认为事件A与B是_无__关__的.
n nn
n nn
该很接近.
表中:n+1=n11+n21,n+2=n12+n22,n1+=n11+n12, n2+=n21+n22,n=n11+n21+n12+n22. 事件 A 与 B 独立,这时应该有 P(AB)=P(A)P(B)成立.我
们用字母 H0 来表示上式,即 H0:P(AB)=P(A)P(B),称之 为统计假设.我们引入统计中一个非常有用的 χ2 统计量,
代入公式 χ2=nnn111+nn222+-n+n11n2n+2212, 得 χ2=1 00408×0×385×205×144-4×6×9546422≈27.139, 由于 χ2=27.139>6.635, 所以我们有 99%的把握认为性别与患色盲有关系.
例2.在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的 情况如下表所示,根据此资料你是否认为在恶劣气候飞行中男 性比女性更任意晕机?
变量
相关指数R2、残差分析)
分类变量—— 独立性检验
本节研究的是两个分类变量的独立性检验问题。
1.相互独立的含义 (1)定义:一般地,对于两个事件 A,B,如果有 P(AB)= _P_(_A_)_P_(_B_)_,就称事件 A 与 B 相互独立,简称 A 与 B 独立. (2)性质:当事件 A 与 B 独立时,事件-A 与 B,A 与-B ,-A 与-B 也独立. (3)定义的推广:如果有 P(A1A2…An)=_P_(_A_1_)P__(A__2)_…__P_(_A_n_), 则称事件 A1,A2,A3,…,An 相互独立.
1.对于事件 A 与 B 及统计量 χ2,下列说法正确的是
()
A.χ2 越大,“A 与 B 有关系”的可信程度越小
B.χ2 越小,“A 与 B 有关系”的可信程度越小
C.χ2 越接近于 0,“A 与 B 没有关系”的可信程度越小
D.χ2 越大,“A 与 B 没有关系”的可信程度越大
解析:χ2 越大,“A 与 B 没有关系”的可信程度越小,则
2
n
n11n22 n12n21
2
n1n 2n1n2
P(χ2≥x0) 事件A 0.05 有95%的把握认 0.01
x0 与B无关 3.841 为A与B有关 6.635
99%的把握认为
A与B有关
例 1 在调查的 480 名男士中有 38 名患有色盲,520 名女士中
有 6 名患有色盲,利用独立性检验的方法来判断色盲与性别
2.列联表源自文库
判断两个事件 A、B 是否有关,我们可以把 A 发生、A 不发生
( A )、B 发生、B 不发生( B )的数据列成以下表格
B
B
合计
A
n 11
n12
n 1+
A
n21
n22
n 2+
合计
n +1
n +2
n
这个表格称为 2×2 列联表.
如果 A,B 无关,那么n11与n1+·n+1应该很接近,n22与n2+·n+2应
没有找到矛盾,不 能对 A 下任何结 论,即反证法不成

通过χ2 与 6.635,3.841 的大小关系得出“两 个分类变量有关系”这一结论成立的可信
程度有多大
4.独立性检验的步骤 要推断“A与B是否有关”可按下面的步骤进行: (1)提出统计假设H0:A与B无关; (2)根据2×2列联表与χ2计算公式计算出χ2的值; (3)根据两个临界值,作出判断. 这一检验问题就称为2×2列联表的独立性检验.
独立性检验的基本思想与反证法的思想的相似之处
反证法
独立性检验
要证明结论 A
要确认“两个分类变量有关系”
在 A 不成立的前提 下进行推理
假设该结论不成立,即假设结论“两个分 类变量没有关系”成立,在该假设下计算
χ2
推出矛盾意味着结 由数据计算得到的χ2 的值很大,则在一定
论 A 成立
可信程度上说明假设不合理
相关文档
最新文档