独立性检验的基本思想及其初步应用说课稿 教案 教学设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
独立性检验的基本思想及其初步应用
教材整理 独立性检验 1.卡方统计量 χ2=
n (n 11n 22-n 12n 21)2
n 1+n 2+n +1n +2
,用χ2的大小可以决定是否拒绝原来的统计假设H 0.如果算出的χ2
值较大,就拒绝H 0,也就是拒绝“事件A 与B 无关”,从而就认为它们是有关的了.
2.两个临界值
(1)当根据具体的数据算出的χ2>3.841时,有95%的把握说事件A 与B 有关; (2)当χ2>6.635时,有99%的把握说事件A 与B 有关,当χ2≤3.841时,认为事件A 与B 是无关的.
1.判断(正确的打“√”,错误的打“×”)
(1)分类变量中的变量与函数中的变量是同一概念.(×) (2)独立性检验的方法就是反证法.(×)
(3)独立性检验中可通过统计表从数据上说明两分类变量的相关性的大小.(√) 2.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:
种子处理 种子未处理
合计 得病 32 101 133 不得病 61 213 274 合计
93
314
407
A.种子是否经过处理与是否生病有关
B.种子是否经过处理与是否生病无关
C.种子是否经过处理决定是否生病
D.有90%的把握认为种子经过处理与生病有关 【解析】
χ2=
407×(32×213-61×101)2
93×314×133×274
≈0.164<0.455,
即没有充足的理由认为种子是否经过处理跟生病有关. 【答案】 B
3.若由一个2×2列联表中的数据计算得χ2=
4.013,那么有__________的把握认为两个
变量之间有关系.
【解析】查阅χ2表知有95%的把握认为两个变量之间有关系.
【答案】95%
用2×2列联表分析两变量间的关系
在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作
出饮食习惯与年龄的列联表,并利用n11
n1+与
n21
n2+
判断二者是否有关系.
【自主解答】饮食习惯与年龄2×2列联表如下:
年龄在六十岁以上年龄在六十岁以下合计饮食以蔬菜为主432164饮食以肉类为主273360合计7054124 将表中数据代入公式得
n11 n1+=
43
64≈0.67,
n21 n2+=
27
60=0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.
2.作2×2列联表时,关键是对涉及的变量分清类别.
[再练一题]
1.上例中条件不变,尝试用|n11n22-n12n21|的大小判断饮食习惯与年龄是否有关.
【解】将本例2×2列联表中的数据代入可得
|n11n22-n12n21|=|43×33-21×27|=852.
相差较大,可在某种程度上认为饮食习惯与年龄有关系.
由χ2进行独立性检验
某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,
物理、化学、总分也为优秀的人数如下表所示,则我们能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系?
物理优秀 化学优秀 总分优秀 数学优秀 228 225 267 数学非优秀
143
156
99
注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人.
【精彩点拨】 首先分别列出数学成绩与物理、化学、总分的2×2列联表,再正确计算χ2的观测值,然后由χ2的值作出判断.
【自主解答】 (1)根据已知数据列出数学与物理优秀的2×2列联表如下:
物理优秀 物理非优秀
合计 数学优秀 228 b 360 数学非优秀 143 d 880 合计
371
b +d
1 240
∴b =360-228=132,d =880-143=737,b +d =132+737=869. 代入公式可得χ2≈270.114.
(2)按照上述方法列出数学与化学优秀的2×2列联表如下:
化学优秀 化学非优秀
合计 数学优秀 225 135 360 数学非优秀 156 724 880 合计
381
859
1 240
代入公式可得χ2≈240.611.
综上,由于χ2的观测值都大于10.828,因此说明都能在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系.
1.独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足n 11n 22-n 12n 21≈0,因此|n 11n 22
-n 12n 21|越小,关系越弱;|n 11n 22-n 12n 21|越大,关系越强.
2.独立性检验的具体做法
(1)根据实际问题的需要确定允许推断“事件A 与B 有关系”犯错误的概率的上界α,然后查表确定临界值k 0.
(2)利用公式
χ2=
n (n 11n 22-n 12n 221)
n 1+n 2+n +1n +2
计算随机变量χ2.
(3)如果χ2≥k 0,推断“X 与Y 有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够的证据支持结论“X 与Y 有关系”.
[再练一题]
2.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如下:
患胃病 未患胃病 合计 生活不规律 60 260 320 生活有规律 20 200 220 合计
80
460
540
根据以上数据判断40岁以上的人患胃病与生活规律有关吗? 【解】 由公式得χ2=
540(60×200-260×20)2
320×220×80×460
≈9.638.
∵9.638>6.635,
∴有99%的把握说40岁以上的人患胃病与生活是否有规律有关,即生活不规律的人易患胃病.
独立性检验的综合应用
探究1 利用χ2进行独立性检验,估计值的准确度与样本容量有关吗?
【提示】 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n 越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
探究2 在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P (χ2≥6.635)≈0.01和P (χ2≥7.879)≈0.005,哪种说法是正确的?
【提示】 两种说法均正确.P (χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P (χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区
调查了500位老年人,结果如下:
男 女 需要 40 30 不需要
160
270
(1)
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中需要志愿者提供
帮助的老年人的比例?说明理由.
【精彩点拨】 题中给出了2×2列联表,从而可通过求χ2的值进行判定.对于(1)(3)可依据古典概率及抽样方法分析求解.
【自主解答】 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70
500
=14%.
(2)χ2=
500×(40×270-30×160)2
200×300×70×430
≈9.967.
由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法进行抽样,这比采用简单随机抽样方法更好.
1.检验两个变量是否相互独立,主要依据是利用
χ2=
n (n 11n 22-n 12n 21)2
n 1+n 2+n +1n +2
公式计算χ2的值,
再利用该值与3.841,6.635两个值进行比较作出判断.
2.χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.
3.统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质.因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是因果关系.
[再练一题]
3.若两个分类变量x 和y 的列联表为:
y x y 1 y 2 x 1 5 15 x 2
40
10
则x 与y 【解析】 χ2=
(5+15+40+10)(5×10-40×15)2
(5+15)(40+10)(5+40)(15+10)
≈18.822. ∵18.822>6.635,
∴x 与y 之间有关系的概率约为1-0.01=0.99. 【答案】 0.99。